Metodologie
Testovali jsme 20 různých AI agentních modelů v rámci pěti klíčových úloh, z nichž každá byla navržena tak, aby prověřila jiné schopnosti:
- Generování obsahu: Vytvoření podrobného článku o základech projektového řízení.
- Řešení problémů: Výpočty týkající se příjmů a zisku.
- Sumarizace: Zestručnění klíčových zjištění ze složitého článku.
- Srovnání: Analýza dopadu na životní prostředí mezi elektromobily a vozidly na vodíkový pohon.
- Kreativní psaní: Vytvoření futuristického příběhu zaměřeného na elektromobily.
Naše analýza se zaměřila jak na kvalitu výstupu, tak na myšlenkové pochody agenta – hodnotili jsme jeho schopnost plánovat, uvažovat, adaptovat se a efektivně využívat dostupné nástroje. Modely jsme seřadili podle jejich výkonu jako AI agentů, přičemž větší váha byla dána jejich myšlenkovým procesům a strategiím.
Výkonnost AI agentních modelů – analýza po jednotlivých úlohách
Úkol 1: Generování obsahu
Všech dvacet modelů prokázalo silnou schopnost generovat kvalitní, informativní články. Následující žebříček zohledňuje i vnitřní myšlenkové pochody každého agenta a to, jak dospěli ke svému výsledku:
- Gemini 1.5 Pro: Silné pochopení zadání, strategický přístup k rešerši a dobře strukturovaný výstup.
- Claude 3.5 Sonnet: Silný plánovací přístup s jasným, stručným a přístupným výstupem.
- Mistral 8x7B: Dobrá volba nástrojů a jasně a dobře strukturovaný výstup.
- Mistral 7B: Strategická rešerše a dobře naformátovaný finální výstup.
- GPT-4o AI Agent (Originál): Silný ve výběru nástrojů a prokázal adaptabilní přístup k rešerši.
- Gemini 1.5 Flash 8B: Vysoce kvalitní výstup, ale chybí transparentnost v interních procesech.
- Claude 3 Haiku: Silný výkon s dobrým pochopením zadání.
- GPT-4 Vision Preview AI Agent: Vedl si dobře, s kvalitním výstupem.
- GPT-o1 Mini AI Agent: Adaptabilní a iterativní, dobře využívající nástroje.
- Llama 3.2 3B: Dobré kreativní psaní a detailní výstup, nicméně vnitřní proces nebyl ukázán.
- Claude 3: Demonstruje iterativní přístup a přizpůsobuje se instrukcím, ale interní myšlenky nebyly zobrazeny.
- Claude 2: Prokázal dobré psací schopnosti i pochopení zadání.
- GPT-3.5 Turbo AI Agent: Dodržel instrukce a formátování, ale chyběl mu vnitřní proces.
- Gemini 2.0 Flash Experimental: Model vytvořil dobře napsaný výstup, ale předvedl opakující se proces.
- Grok Beta AI Agent: Strategické použití nástrojů, ale zápasil s opakujícími se smyčkami.
- Gemini 1.5 Flash AI Agent: Agent použil logický přístup, ale měl opakující se myšlenkový proces.
- Mistral Large AI Agent: Výstup byl dobře strukturovaný, ale interní myšlenky nebyly transparentní.
- o1 Preview AI Agent: Model vedl dobře, ale chyběla mu jakákoli transparentnost myšlenkových pochodů.
- GPT 4o mini AI Agent: Přestože model měl dobrý výstup, vnitřní procesy nebyly ukázány.
- Llama 3.2 1B: Model si vedl dobře, ale chyběl pohled do jeho interních procesů a neprokázal jedinečný přístup.
Úkol 2: Řešení problémů a výpočty
Hodnotili jsme matematické schopnosti modelů a jejich strategie při řešení problémů:
- Claude 3.5 Sonnet: Vysoká přesnost, strategické myšlení a dobře vysvětlené řešení.
- Mistral 7B: Jasná, přesná řešení a prokázané strategické myšlení.
- GPT-4 Vision Preview AI Agent: Správné pochopení a přesné výpočty.
- Claude 3 Haiku: Efektivní výpočty a jasná vysvětlení.
- o1 Preview AI Agent: Schopnost rozdělit výpočty do více kroků.
- Mistral Large AI Agent: Přesné výpočty s dobře prezentovanou konečnou odpovědí.
- o1 mini: Strategické myšlení a solidní pochopení požadované matematiky.
- Gemini 1.5 Pro: Detailní a přesné výpočty, navíc dobře formátované.
- Llama 3.2 1B: Dobře rozvedené výpočty, ale některé chyby ve formátování.
- GPT-4o AI Agent (Originál): Provedl většinu výpočtů dobře, s jasným a logickým rozborem úlohy.
- GPT-4o Mini AI Agent: Výpočty provedl, ale s chybami v konečných odpovědích a zápasil s efektivním formátováním výstupu.
- Claude 3: Jasný přístup k výpočtům, ale nic navíc.
- Gemini 2.0 Flash Experimental: Přesné základní výpočty, ale chyby ve výsledném výstupu.
- GPT-3.5 Turbo AI Agent: Základní výpočty byly přesné, ale měl problémy se strategií a přesností konečných odpovědí.
- Gemini 1.5 Flash AI Agent: Chyby ve výpočtech týkajících se potřebných dodatečných jednotek.
- Mistral 8x7B: Většinou přesné výpočty, ale neprozkoumal různé možné varianty řešení.
- Claude 2: Přesný v počátečních výpočtech, ale měl strategické nedostatky a chyby v konečném řešení.
- Gemini 1.5 Flash 8B: Některé chyby ve finálním řešení.
- Grok Beta AI Agent: Nedokončil úkol a neposkytl kompletní výstup.
- Llama 3.2 3B: Chyby ve výpočtech a prezentace byla také neúplná.
Úkol 3: Sumarizace
Hodnotili jsme schopnosti modelů vytáhnout klíčové informace a vytvořit stručné shrnutí:
- GPT-4o Mini AI Agent: Velmi dobrý v sumarizaci klíčových bodů i při dodržení slovního limitu.
- Gemini 1.5 Pro: Dobré shrnutí zadaného textu a zároveň dodržení požadovaného slovního limitu.
- o1 Preview AI Agent: Stručná a dobře strukturovaná sumarizace.
- Claude 3 Haiku: Efektivně shrnul text a zároveň splnil stanovené parametry.
- Mistral 7B: Přesně shrnul text při dodržení slovního limitu.
- Mistral 8x7B: Efektivně zestručnil informace a zároveň splnil stanovené parametry.
- GPT-4 Vision Preview AI Agent: Velmi přesné shrnutí zadaného textu.
- GPT-3.5 Turbo AI Agent: Dobrá schopnost shrnout text a vyzdvihnout všechny důležité aspekty.
- Llama 3.2 1B: Stručné a dobře strukturované shrnutí.
- Claude 3.5 Sonnet: Stručné shrnutí při zachování požadavků na formátování.
- Claude 2: Stručné shrnutí a efektivní pochopení zadaného textu.
- Claude 3: Zestručnil informace do stručného výstupu.
- Mistral Large AI Agent: Shrnutí textu bylo dobré, ale plně nedodržel slovní limit.