Metodologia
Abbiamo testato 20 diversi modelli di agenti AI su cinque attività principali, ciascuna progettata per sondare capacità differenti:
- Generazione di contenuti: Produzione di un articolo dettagliato sui fondamenti della gestione dei progetti.
- Problem Solving: Esecuzione di calcoli relativi a ricavi e profitti.
- Riassunto: Sintesi dei risultati chiave di un articolo complesso.
- Confronto: Analisi dell’impatto ambientale dei veicoli elettrici e a idrogeno.
- Scrittura creativa: Creazione di una storia futuristica incentrata sui veicoli elettrici.
La nostra analisi si è concentrata sia sulla qualità dell’output che sul processo di pensiero dell’agente, valutando la capacità di pianificare, ragionare, adattarsi e utilizzare efficacemente gli strumenti disponibili. Abbiamo classificato i modelli in base alle loro prestazioni come agenti AI, dando maggiore importanza ai processi di pensiero e alle strategie adottate.
Prestazioni dei modelli di agenti AI – Analisi attività per attività
Attività 1: Generazione di contenuti
Tutti i venti modelli hanno dimostrato una forte capacità di generare articoli di alta qualità e informativi. Tuttavia, la seguente classifica tiene conto anche dei processi di pensiero interni di ciascun agente e di come sono arrivati al risultato finale:
- Gemini 1.5 Pro: Ottima comprensione del prompt, approccio strategico alla ricerca e output ben organizzato.
- Claude 3.5 Sonnet: Approccio solido alla pianificazione con un output chiaro, conciso e accessibile.
- Mistral 8x7B: Ottima selezione degli strumenti e output chiaro e ben strutturato.
- Mistral 7B: Ricerca strategica e output finale ben formattato.
- GPT-4o AI Agent (Original): Ottima selezione degli strumenti e approccio di ricerca adattabile.
- Gemini 1.5 Flash 8B: Output di alta qualità ma poca trasparenza nei processi interni.
- Claude 3 Haiku: Ottime prestazioni, con buona comprensione del prompt.
- GPT-4 Vision Preview AI Agent: Buone prestazioni, con output di alta qualità.
- GPT-o1 Mini AI Agent: Adattabile e iterativo, con buon uso degli strumenti.
- Llama 3.2 3B: Buona scrittura creativa e output dettagliato, tuttavia il processo interno non è stato mostrato.
- Claude 3: Dimostra un approccio iterativo adattandosi alle istruzioni, ma i pensieri interni non sono stati mostrati.
- Claude 2: Buone capacità di scrittura e comprensione del prompt.
- GPT-3.5 Turbo AI Agent: Ha seguito le istruzioni e rispettato le linee guida di formattazione, ma mancava il processo interno.
- Gemini 2.0 Flash Experimental: Output ben scritto, ma processo ripetitivo.
- Grok Beta AI Agent: Uso strategico degli strumenti, ma problemi con cicli ripetitivi.
- Gemini 1.5 Flash AI Agent: Approccio logico ma processo di pensiero ripetitivo.
- Mistral Large AI Agent: Output ben strutturato, ma poca trasparenza nei pensieri interni.
- o1 Preview AI Agent: Buone prestazioni, ma nessuna trasparenza nei processi di pensiero.
- GPT 4o mini AI Agent: Output valido, ma processi interni non mostrati.
- Llama 3.2 1B: Buone prestazioni ma mancanza di approfondimento sui processi interni e nessun approccio unico dimostrato.
Attività 2: Problem-Solving e Calcolo
Abbiamo valutato le capacità matematiche e le strategie di risoluzione dei problemi dei modelli:
- Claude 3.5 Sonnet: Elevata precisione, pensiero strategico e soluzione ben spiegata.
- Mistral 7B: Soluzioni chiare, accurate e pensiero strategico dimostrato.
- GPT-4 Vision Preview AI Agent: Corretta comprensione e calcoli accurati.
- Claude 3 Haiku: Calcolo efficace e spiegazioni chiare.
- o1 Preview AI Agent: Ha mostrato la capacità di suddividere i calcoli in più passaggi.
- Mistral Large AI Agent: Calcoli accurati e risposta finale ben presentata.
- o1 mini: Pensiero strategico e solida comprensione della matematica richiesta.
- Gemini 1.5 Pro: Calcoli dettagliati e accurati e output ben formattato.
- Llama 3.2 1B: Ha suddiviso bene i calcoli, ma alcuni errori di formattazione.
- GPT-4o AI Agent (Original): Ha eseguito bene la maggior parte dei calcoli e fornito una suddivisione chiara e logica del compito.
- GPT-4o Mini AI Agent: Ha svolto i calcoli, ma ha commesso errori nelle risposte finali e avuto difficoltà a formattare l’output.
- Claude 3: Approccio chiaro al calcolo, ma nulla di più.
- Gemini 2.0 Flash Experimental: Calcoli di base accurati, ma alcuni errori nell’output finale.
- GPT-3.5 Turbo AI Agent: I calcoli di base erano corretti, ma problemi di strategia e accuratezza nelle risposte finali.
- Gemini 1.5 Flash AI Agent: Alcuni errori di calcolo relativi alle unità aggiuntive necessarie.
- Mistral 8x7B: Calcoli generalmente corretti, ma mancava un’esplorazione completa di tutte le possibili soluzioni.
- Claude 2: Calcoli iniziali precisi, ma problemi strategici ed errori nella soluzione finale.
- Gemini 1.5 Flash 8B: Alcuni errori nella soluzione finale.
- Grok Beta AI Agent: Non è riuscito a completare il compito e non ha fornito un output completo.
- Llama 3.2 3B: Errori nei calcoli e presentazione incompleta.
Attività 3: Riassunto
Abbiamo valutato la capacità dei modelli di estrarre informazioni chiave e produrre riassunti concisi:
- GPT-4o Mini AI Agent: Molto bravo nel riassumere i punti chiave rispettando il limite di parole.
- Gemini 1.5 Pro: Bravo nel riassumere il testo fornito, rispettando il limite richiesto.
- o1 Preview AI Agent: Sintesi concisa e ben strutturata.
- Claude 3 Haiku: Ha riassunto efficacemente il testo, rispettando anche i parametri richiesti.
- Mistral 7B: Riassunto accurato rispettando il limite di parole.
- Mistral 8x7B: Ha condensato efficacemente le informazioni rispettando i parametri richiesti.
- GPT-4 Vision Preview AI Agent: Riassunto molto accurato del testo fornito.
- GPT-3.5 Turbo AI Agent: Buona capacità di riassumere il testo, evidenziando tutti gli aspetti importanti.
- Llama 3.2 1B: Riassunto conciso e ben strutturato.
- Claude 3.5 Sonnet: Riassunto conciso mantenendo la formattazione richiesta.
- Claude 2: Riassunto conciso e buona comprensione del testo fornito.
- Claude 3: Ha condensato le informazioni in un output conciso.
- Mistral Large AI Agent: Ha riassunto bene il testo, ma non ha rispettato pienamente il limite di parole.