
Come costruire il tuo team di agenti IA con l'AI Factory di FlowHunt
Impara a creare agenti IA autonomi che lavorano insieme per gestire compiti complessi. Costruisci un sistema live di digest delle azioni degli agenti in pochi m...

Taglia attraverso l’hype del multi-agent. Il consenso del settore nel 2026, il costo di 15x in token, i quattro pattern di prompt e un tutorial FlowHunt di 45 minuti che usa il pattern del consenso.
Un sistema multi-agent AI e una rete di agenti AI che lavorano insieme per risolvere un problema. Ma l’architettura che davvero viene messa in produzione nel 2026 e piu ristretta di quanto suggerisca il buzzword: un singolo orchestratore possiede l’intero contesto della conversazione e genera subagenti isolati effimeri che restituiscono solo un riassunto compresso. Anthropic, Cognition, OpenAI, AutoGen-tramite-Microsoft Agent Framework e LangChain sono tutti convergenti su questo pattern. I design peer-collaborating “GroupChat” – dove i worker comunicano direttamente tra loro – hanno silenziosamente perso terreno.
Questo articolo fa tre cose. Primo, spiega il pattern orchestratore + subagente e perche il settore vi ha convergenza. Secondo, esamina la realta dei costi: il premio token misurato da Anthropic di circa 15x e i paper del 2026 che mostrano sistemi single-agent che eguagliano o battono il multi-agent a parita di budget di token. Terzo, mostra come costruire il pattern del consenso in FlowHunt senza scrivere codice.
In realta ci sono solo due architetture che vale la pena confrontare e la maggior parte del materiale di marketing le confonde.
Peer collaboration. Piu agenti girano in concorrenza e comunicano attraverso un bus condiviso. Possono porsi domande a vicenda, passarsi compiti e svegliarsi a vicenda. Un supervisore media ma non possiede l’unico contesto. AutoGen GroupChat, CrewAI gerarchico e qualunque design “team di agenti su uno stream” rientra qui. Il costo e reale: ogni risveglio rilegge l’intero transcript, il system prompt porta un lungo protocollo di coordinamento ad ogni chiamata e le relazioni di comunicazione scalano O(n²).
Orchestratore + subagenti isolati. Un singolo agente possiede l’intero contesto. Genera subagenti effimeri per eseguire sotto-attivita isolate. Ogni subagente gira nella propria context window fresca con un system prompt dedicato, esegue il suo compito e restituisce una singola stringa di riassunto. Non c’e canale peer-to-peer ne stato condiviso mutabile. Il sistema multi-agent di ricerca di Anthropic, lo strumento Task di Claude Code, gli agents-as-tools di OpenAI e i Managed Devins di Cognition di marzo 2026 usano tutti questo pattern.
Il secondo pattern e tecnicamente multi-agent, ma il suo costo di coordinamento e limitato. Non c’e bus peer, quindi non c’e esplosione comunicativa quadratica ne tassa di replay del transcript.
Il dibattito polarizzato del 2025 si e effettivamente concluso.
Don’t Build Multi-Agents di Cognition (giugno 2025) e stata la posizione dichiarata piu forte contro i design multi-agent: solo single-threaded, con un LLM di compressione separato per la gestione del contesto. Nove mesi dopo, a marzo 2026, Cognition ha rilasciato Devin can now Manage Devins : un coordinatore che delimita il lavoro, assegna ogni pezzo a un Devin gestito che gira nella propria VM isolata e compila i risultati. La giustificazione – “il contesto si accumula, il focus degrada e la qualita di ogni sotto-attivita ne soffre” – e lo stesso argomento di isolamento che Anthropic faceva nel 2025. Il post non ritratta nominalmente il saggio precedente, ma la concessione architetturale e inequivocabile.
La postura di Anthropic si e mossa nella direzione opposta nello stesso periodo – verso architetture disaccoppiate “cervello/mani” piuttosto che fan-out parallelo piu ampio. Il post Managed Agents di aprile 2026 e la harness a tre agenti per sviluppo full-stack enfatizzano subagenti scoped per ruolo rispetto ai team peer.
L’aggiornamento Agents SDK di OpenAI del 15 aprile 2026 ha reso opt-in di default la cronologia handoff annidata – riducendo la contaminazione di contesto cross-agent. AutoGen e stato fuso in Microsoft Agent Framework 1.0; il peer GroupChat non e piu flagship. LangChain ora raccomanda supervisor-as-tool rispetto alla supervisor library.
Cinque vendor, una direzione. Il peer GroupChat e in declino.
Il numero piu citato dal post di engineering di Anthropic di giugno 2025:
“L’analisi interna mostra che gli agenti tipicamente usano circa 4x piu token rispetto alle interazioni di chat, e i sistemi multi-agent usano circa 15x piu token rispetto alle chat.”
E il colpo diagnostico:
“L’utilizzo di token da solo spiega l'80% della varianza nelle prestazioni su BrowseComp.”
La letteratura accademica del 2026 spinge la stessa conclusione con piu forza. Tran & Kiela (arXiv 2604.02460 , aprile 2026, Stanford / Contextual AI) hanno testato Qwen3, DeepSeek-R1-Distill-Llama e Gemini 2.5 e riportano: “sotto un budget fisso di reasoning-token e con perfetta utilizzazione del contesto, i sistemi single-agent sono piu efficienti dal punto di vista informativo… i sistemi single-agent eguagliano o superano costantemente i sistemi multi-agent nelle attivita di multi-hop reasoning quando i reasoning token sono mantenuti costanti.” Il limite teorico inferiore e la disuguaglianza di elaborazione dei dati: passare informazioni attraverso piu agenti puo solo perdere, mai aggiungere.
Il paper OneFlow di Xu et al. (gennaio 2026) raggiunge la stessa conclusione su sette benchmark, con il riutilizzo della KV-cache citato come vantaggio di efficienza.
Questo non significa che il multi-agent sia sempre sbagliato. Significa che l’onere della prova ricade sul multi-agent, non sul design piu semplice.
Le evidenze del 2026 convergono su un insieme ristretto di casi.
Lavoro parallelizzabile read-heavy. Il sistema 2025 di Anthropic distribuisce subagenti su sotto-query di ricerca indipendenti. AORCHESTRA (arXiv 2602.03786
, febbraio 2026) modella ogni subagente come una 4-tupla (INSTRUCTION, CONTEXT, TOOLS, MODEL) generata su richiesta da un orchestratore e riporta +16,28% di miglioramento relativo rispetto alla baseline piu forte su GAIA, SWE-Bench e Terminal-Bench usando Gemini-3-Flash. AdaptOrch (2602.16873
) riporta +12-23% rispetto alle baseline statiche a topologia singola usando modelli sottostanti identici – la vittoria viene dal routing della topologia, non dalla peer collaboration.
Affidabilita in dominio ristretto. Il paper di Drammeh sull’incident response (2511.15755 v2 , gennaio 2026) ha eseguito 348 prove controllate e riporta un tasso del 100% di raccomandazioni azionabili vs 1,7% del single-agent, con 80x di specificita d’azione e 140x di correttezza della soluzione, e “varianza zero della qualita su tutte le prove.” Il dominio e ristretto e il lavoro e parallelo; il pattern dell’orchestratore vince in modo deciso.
Domini di tool o contesto disgiunti dove l’handoff serve come confine di sicurezza – un agente di billing che genuinamente non dovrebbe vedere strumenti di engineering, ad esempio.
Per esecuzione sequenziale di task, agenti che toccano stato condiviso o qualsiasi cosa che assomigli a “fai questi passi in ordine con giudizio tra di essi” – queste condizioni non si applicano. La letteratura raccomanda un singolo agente con gestione del contesto disciplinata.
Una volta deciso che il multi-agent e la scelta giusta, la struttura del prompt e piu standardizzata di quanto suggerisca la maggior parte del materiale di marketing. Ogni implementazione importante esaminata – Claude Code, Anthropic Research, OpenAI Agents SDK, CrewAI, AutoGen, LangGraph, AOrchestra – usa lo stesso pattern, chiamato P2 nella letteratura sulla costruzione di prompt: un system prompt dedicato per il subagente, piu un task brief strutturato consegnato come primo messaggio utente.
Il post di Anthropic del 2025 e il piu esplicito su cosa va nel brief:
“Ogni subagente ha bisogno di un obiettivo, un formato di output, guida sugli strumenti e sulle fonti da utilizzare e limiti chiari del compito.”
Sono altrettanto espliciti su come appare il fallimento quando questo viene saltato:
“Abbiamo iniziato permettendo al lead agent di dare istruzioni semplici e brevi come ‘ricerca la carenza di semiconduttori’, ma abbiamo scoperto che queste istruzioni erano spesso abbastanza vaghe che i subagenti interpretavano male il compito o eseguivano esattamente le stesse ricerche.”
Tre regole emergono dal consenso:
Una quarta regola, spesso trascurata: inoltra l’output del worker direttamente all’utente quando l’unica attivita rimanente del supervisore e consegnarlo. Il benchmark 2025 di LangChain ha misurato circa il 50% del guadagno di prestazioni swarm-vs-supervisor proveniente da questo singolo cambiamento. Il round-trip “il supervisore legge l’output del worker, parafrasa per l’utente, parafrasa la risposta dell’utente per il prossimo worker” e puro spreco.
Questi appaiono nelle retrospettive di produzione, nel benchmark di LangChain e in Multi-Agent Orchestration Failure Playbook for 2026 di Cogent. Sono il motivo per cui il settore ha cambiato direzione.
| Modo di fallimento | Come si manifesta |
|---|---|
| Transcript completo riprodotto ad ogni risveglio | Ogni agente ri-ingerisce l’intera conversazione ad ogni turno. Lineare in turni x agenti. |
| Bloat del system prompt da protocollo di coordinamento | Ogni agente trasporta la descrizione del protocollo, l’elenco dei ruoli e il vocabolario dei segnali ad ogni chiamata. |
| Round-trip di “traduzione” del supervisore | Il supervisore legge l’output del worker, parafrasa per l’utente, parafrasa la risposta dell’utente per il prossimo worker. ~50% del costo evitabile. |
| Assunzioni implicite in conflitto | I worker che operano in parallelo prendono sottili decisioni estetiche o architetturali che non si conciliano. Affermazione centrale di Cognition del 2025. |
| Esplosione delle edge di coordinamento | n agenti comunicano su O(n²) edge. Aggiungere il 5° agente raddoppia il grafo dei messaggi. |
| Overhead HITL/sospensione | Mettere in pausa e riprendere ri-fattura l’intero transcript pre-sospensione. |
| Consenso prematuro / “herding” | Gli agenti peer convergono su una risposta sicura ma sbagliata perche la confidenza di ciascun agente alza quella degli altri. Nuova scoperta del 2026 (Tian et al., 2025; rinforzata nel 2026). |
Una diagnostica utile: se puoi nominare tre dei sette nel tuo deployment, stai pagando la tassa multi-agent per un’architettura che la letteratura non raccomanda. La correzione raramente e “elimina il team di agenti” – e comprimi la cronologia, fai cache del prefisso statico del prompt, restituisci riassunti invece di transcript e inoltra l’output del worker direttamente all’utente.
Lo sviluppo genuinamente nuovo del 2026 sono primitive di coordinamento a livello infrastrutturale, non pattern di framework.
Il protocollo Agent2Agent (A2A) si e unito a MCP sotto la Linux Foundation AI & Agents Foundation (AAIF) a dicembre 2025, con il supporto fondatore di OpenAI, Anthropic, Google, Microsoft, AWS e Block. A2A mira esplicitamente a “comunicazione inter-agent, delega di task e orchestrazione collaborativa per workflow multi-agent distribuiti.” A febbraio 2026, MCP aveva superato circa 97 milioni di download SDK mensili.
Due primitive in fase di ricerca meritano di essere monitorate. KVCOMM (NeurIPS 2025) dimostra oltre il 70% di riutilizzo della KV-cache e ~7,8x di accelerazione in setting a cinque agenti condividendo lo stato KV invece dei token. Phase-Scheduled Multi-Agent Systems (PSMAS, febbraio 2026) riporta una riduzione del 34,8% dei token trattando l’attivazione dell’agente come controllo continuo sull’attenzione condivisa piuttosto che come RPC discreto.
Queste primitive aggirano la dicotomia orchestratore-vs-peer cambiando cosa significhi addirittura “contesto” tra agenti. Non sono ancora blocchi costruttivi pronti per la produzione, ma sono la cosa giusta da monitorare – e rinforzano la direzione generale: il costo verra ridotto attraverso un coordinamento piu intelligente al livello infrastrutturale, non attraverso design peer piu elaborati al livello del framework.
Non hai bisogno di essere un software engineer per costruire il pattern orchestratore + subagente. Il visual builder di FlowHunt si mappa pulitamente sul contratto del subagente: un nodo orchestratore possiede la conversazione, i nodi worker girano con i propri system prompt e le connessioni trasportano un brief strutturato in uscita e un riassunto di ritorno.
Di seguito un walkthrough di 45 minuti di una pipeline di content research usando il pattern del consenso.
Accedi a FlowHunt e clicca su Create New Workflow. Chiamalo Content Research Pipeline. Imposta il trigger su Manual. Il workflow ha tre ruoli: un orchestratore che possiede la richiesta utente, un research subagent (lettura parallelizzabile) e un fact-check subagent (lettura parallelizzabile). Entrambi i subagenti restituiscono riassunti.
Aggiungi un nodo Google Search. Configuralo per prendere un argomento come input, restituire i top 5 risultati, escludere gli annunci ed emettere URL, titolo, snippet e data.
Aggiungi un nodo OpenAI a valle. Questo e lo slot del “system prompt” del subagente. Dagli un prompt dedicato e focalizzato:
Sei un research subagent. Dati i risultati di ricerca,
estrai le affermazioni fattuali con URL della fonte e date di pubblicazione.
Output: una lista JSON di oggetti {claim, url, date}.
Limiti: non sintetizzare, non riassumere, non commentare.
Questo e il pattern P2: un prompt subagente dedicato, ristretto in ambito. Connetti Google Search → OpenAI Extraction.
Aggiungi un nodo Text Synthesis. Il suo compito e organizzare l’output del research subagent in un outline strutturato – una sezione per tema, ognuna supportata da affermazioni delle fonti.
Aggiungi un nodo OpenAI per scrivere l’articolo. Dagli un prompt focalizzato: outline in entrata, draft in uscita. Connetti Synthesis → OpenAI Generation.
Aggiungi un nodo AI Agent configurato come fact-checker. Il brief strutturato somiglia alla ricetta di Anthropic – obiettivo, formato, strumenti, limiti:
Obiettivo: validare ogni affermazione fattuale nel draft dell'articolo.
Formato di output: draft annotato con stato di verifica per affermazione
(verified | unverified | contradicted) e un confidence score 0-1.
Strumenti: knowledge base lookup, web search.
Limiti: non riscrivere l'articolo. Segnala, non correggere.
Aggiungi un Markdown formatter come nodo di output finale. Connetti Fact-Checker → Markdown.
Research subagent → Synthesis → Fact-Check subagent → Output. Ogni connessione trasporta l’output del passo precedente come brief strutturato per il passo successivo.
Questo e sequenziale piuttosto che fan-out, il che e appropriato qui – la sintesi ha bisogno dell’output della ricerca e il fact-check ha bisogno della sintesi. Se volessi scalare a dieci sotto-query di ricerca parallele, sostituiresti il singolo nodo di ricerca con un fan-out: l’orchestratore genera N subagenti in parallelo, ognuno prende una sotto-query da un brief strutturato, ognuno restituisce il proprio riassunto e l’orchestratore li unisce prima di passare alla sintesi.
Clicca su Run Workflow. Fornisci un argomento come “Cos’e il quantum computing?”. Aspettati ~45-60 secondi end-to-end. Osserva gli output per nodo nell’UI di FlowHunt per vedere cosa ogni subagente ha ricevuto come brief e cosa ha restituito.
Una volta verificato, distribuisci a un webhook, schedulazione o trigger manuale. Configura la destinazione di output (email, Slack, Google Drive, database). Abilita il logging per ruolo – la scoperta di Anthropic “l'80% della varianza e spesa di token” rende la telemetria di token per ruolo il prerequisito per qualsiasi tuning.
Una breve lista di cose che la letteratura 2025-2026 raccomanda esplicitamente di non fare:
Questi sono i casi d’uso in cui il pattern orchestratore + subagente si guadagna il premio.
Un research subagent interroga API, database accademici e documenti interni e restituisce un riassunto strutturato delle fonti. Un passo di sintesi organizza i risultati in un outline. Un fact-check subagent valida le affermazioni con confidence score. I team in produzione riportano una riduzione del ~70% del tempo di fact-checking e un aumento del 40% nella produzione di contenuti – numeri coerenti con lo sweet spot della lettura parallelizzabile.
Un data-enrichment subagent estrae dati di profilo da CRM, Clearbit/Apollo, LinkedIn e comportamento sul sito web – letture genuinamente parallele da fonti indipendenti. Un scoring subagent confronta con l’ICP e assegna un punteggio. Un routing subagent mappa i lead ad alto punteggio al rappresentante giusto in base a territorio e carico. Riportato: aumento del 35% del conversion rate, riduzione del 50% del tempo di elaborazione dei lead.
Un first-line subagent estrae il tipo di ticket e il sentiment e tenta la risoluzione tramite knowledge base. Un escalation subagent valuta l’esito e instrada allo specialista giusto. Un handoff subagent prepara il contesto per l’umano. Il pattern dell’orchestratore qui serve il criterio del dominio disgiunto: billing, supporto tecnico e reclami hanno strumenti diversi e accesso a dati diversi.
Collection subagent paralleli – news scraper, agente finanziario, agente di social-sentiment, monitor di siti web della concorrenza – girano in fan-out genuino. Un analysis subagent riceve i quattro riassunti e identifica le tendenze. Un report subagent redige l’executive summary. Questo e l’analogo piu vicino al sistema multi-agent di ricerca di Anthropic del 2025 e il caso d’uso piu fortemente supportato dai numeri AORCHESTRA del 2026.
Il futuro dell’AI non e un singolo modello super-intelligente, e non e uno swarm peer-collaborating. E un singolo coordinatore che possiede il contesto e un piccolo insieme di worker disciplinati e isolati che restituiscono riassunti. Questo e il pattern che la ricerca supporta, e questo e il pattern che FlowHunt e costruito per rendere facile.
{{ cta-dark-panel heading=“Costruisci il Tuo Primo Sistema Multi-Agent AI Oggi” description=“Il workflow builder no-code di FlowHunt rende facile creare il pattern orchestratore + subagente, testarlo e distribuirlo. Inizia con un account gratuito e costruisci la tua prima pipeline a 3 agenti in meno di un’ora.” ctaPrimaryText=“Prova FlowHunt Gratis” ctaPrimaryURL=“https://app.flowhunt.io/sign-in" ctaSecondaryText=“Prenota una Demo” ctaSecondaryURL=“https://www.flowhunt.io/demo/" gradientStartColor="#3b82f6” gradientEndColor="#8b5cf6” gradientId=“multi-agent-cta” }}
Yasha è un talentuoso sviluppatore software specializzato in Python, Java e machine learning. Yasha scrive articoli tecnici su AI, prompt engineering e sviluppo di chatbot.

Il workflow builder no-code di FlowHunt rende facile creare e orchestrare piu agenti AI. Inizia ad automatizzare attivita complesse in pochi minuti, senza scrivere codice.

Impara a creare agenti IA autonomi che lavorano insieme per gestire compiti complessi. Costruisci un sistema live di digest delle azioni degli agenti in pochi m...

AI agentica e agenti IA demistificati. Scopri cosa sono, come funzionano, esempi concreti e come le aziende li utilizzano oggi.

Quest'anno è stato all'insegna dell'espansione in FlowHunt. Abbiamo creato interi sotto-prodotti, aggiunto dozzine di nuovi componenti e integrazioni con centin...
Consenso Cookie
Usiamo i cookie per migliorare la tua esperienza di navigazione e analizzare il nostro traffico. See our privacy policy.