Metodikk
Vi testet 20 ulike AI-agentmodeller på fem kjerneoppgaver, hver utformet for å undersøke forskjellige evner:
- Innholdsgenerering: Skrive en detaljert artikkel om prosjektledelse.
- Problemløsning: Utføre beregninger knyttet til inntekt og fortjeneste.
- Oppsummering: Kondensering av hovedfunn fra en kompleks artikkel.
- Sammenligning: Analyse av miljøpåvirkningen til elektriske og hydrogen-drevne kjøretøy.
- Kreativ skriving: Skape en futuristisk historie med fokus på elektriske kjøretøy.
Analysen vår fokuserte både på kvaliteten av resultatene og agentens tankeprosess, og vurderte evnen til å planlegge, resonnere, tilpasse seg og bruke tilgjengelige verktøy på en effektiv måte. Vi har rangert modellene basert på deres ytelse som AI-agent, med størst vekt på deres tankeprosesser og strategier.
Ytelse for AI-agentmodeller – Oppgave for oppgave-analyse
Oppgave 1: Innholdsgenerering
Alle de tjue modellene viste en sterk evne til å generere artikler av høy kvalitet og med mye informasjon. Listen under tar imidlertid også hensyn til agentens interne tankeprosesser og hvordan de kom frem til sitt endelige resultat:
- Gemini 1.5 Pro: Sterk forståelse av oppgaven, strategisk tilnærming til research og godt organisert resultat.
- Claude 3.5 Sonnet: God planlegging og et klart, konsist og tilgjengelig resultat.
- Mistral 8x7B: Godt valg av verktøy og klart og godt strukturert resultat.
- Mistral 7B: Strategisk research og godt formatert sluttprodukt.
- GPT-4o AI Agent (Original): Sterk på verktøyvalg og viste en tilpasningsdyktig tilnærming til research.
- Gemini 1.5 Flash 8B: Høy kvalitet på resultatet, men manglende transparens i interne prosesser.
- Claude 3 Haiku: Sterk ytelse, med god forståelse av oppgaven.
- GPT-4 Vision Preview AI Agent: Gjorde det bra, med høy kvalitet på resultatet.
- GPT-o1 Mini AI Agent: Tilpasningsdyktig og iterativ, med god bruk av verktøy.
- Llama 3.2 3B: God kreativ skriving og detaljert resultat, men den indre prosessen ble ikke vist.
- Claude 3: Viser en iterativ tilnærming og tilpasning til instruksjonene, men de interne tankene ble ikke vist.
- Claude 2: Viste gode skriveferdigheter og forståelse av oppgaven.
- GPT-3.5 Turbo AI Agent: Følger instruksjonene og formateringskravene, men manglet intern prosess.
- Gemini 2.0 Flash Experimental: Modellen produserte et godt skrevet resultat, men viste en repeterende prosess.
- Grok Beta AI Agent: Strategisk bruk av verktøy, men slet med repeterende sløyfer.
- Gemini 1.5 Flash AI Agent: Agenten brukte en logisk tilnærming, men hadde en repeterende tankeprosess.
- Mistral Large AI Agent: Resultatet var godt strukturert, men de interne tankene var ikke transparente.
- o1 Preview AI Agent: Modellen presterte bra, men manglet transparens i tankeprosessene.
- GPT 4o mini AI Agent: Modellen hadde et godt resultat, men de interne prosessene ble ikke vist.
- Llama 3.2 1B: Modellen presterte bra, men manglet innsikt i interne prosesser og viste ikke en unik tilnærming.
Oppgave 2: Problemløsning og beregning
Vi vurderte modellens matematikkunnskaper og problemløsningsstrategier:
- Claude 3.5 Sonnet: Høy nøyaktighet, strategisk tenkning og godt forklart løsning.
- Mistral 7B: Klare, nøyaktige løsninger og viste strategisk tenkning.
- GPT-4 Vision Preview AI Agent: Korrekt forståelse og nøyaktige beregninger.
- Claude 3 Haiku: Effektive beregninger og klare forklaringer.
- o1 Preview AI Agent: Viste evne til å dele opp beregninger i flere trinn.
- Mistral Large AI Agent: Nøyaktige beregninger med godt presentert sluttresultat.
- o1 mini: Strategisk tenkning og solid forståelse for nødvendig matematikk.
- Gemini 1.5 Pro: Detaljerte og nøyaktige beregninger, samt godt formatert.
- Llama 3.2 1B: Delte opp beregningene godt, men hadde noen formateringsfeil.
- GPT-4o AI Agent (Original): Utførte de fleste beregningene bra, med klar og logisk inndeling av oppgaven.
- GPT-4o Mini AI Agent: Utførte beregningene, men hadde feil i sluttresultatene og slet med effektiv formatering.
- Claude 3: Klar tilnærming til beregning, men ikke mye utover det.
- Gemini 2.0 Flash Experimental: Nøyaktige enkle beregninger, men noen feil i sluttresultatet.
- GPT-3.5 Turbo AI Agent: Grunnleggende beregninger var korrekte, men hadde utfordringer med strategi og nøyaktighet på sluttresultater.
- Gemini 1.5 Flash AI Agent: Hadde noen beregningsfeil knyttet til ekstra enheter som trengtes.
- Mistral 8x7B: For det meste nøyaktige beregninger, men utforsket ikke fullt ut de ulike mulige løsningene.
- Claude 2: Korrekt på de første beregningene, men hadde strategiske utfordringer og feil i sluttløsningen.
- Gemini 1.5 Flash 8B: Noen feil i sluttløsningen.
- Grok Beta AI Agent: Klarte ikke å fullføre oppgaven og leverte ikke et fullstendig resultat.
- Llama 3.2 3B: Beregningsfeil og ufullstendig presentasjon.
Oppgave 3: Oppsummering
Vi vurderte modellenes evne til å trekke ut nøkkelinformasjon og produsere konsise sammendrag:
- GPT-4o Mini AI Agent: Veldig god på å oppsummere hovedpunktene og samtidig holde seg til ordgrensen.
- Gemini 1.5 Pro: God til å oppsummere gitt tekst og holde seg til det påkrevde ordantallet.
- o1 Preview AI Agent: Kortfattet og godt strukturert oppsummering.
- Claude 3 Haiku: Oppsummerte effektivt teksten og holdt seg til de satte parameterne.
- Mistral 7B: Oppsummerte nøyaktig og holdt seg til ordgrensen.
- Mistral 8x7B: Kondenserte effektivt informasjonen og fulgte de satte kravene.
- GPT-4 Vision Preview AI Agent: Veldig nøyaktig oppsummering av den gitte teksten.
- GPT-3.5 Turbo AI Agent: God evne til å oppsummere tekst og fremheve viktige aspekter.
- Llama 3.2 1B: Kortfattet og godt strukturert sammendrag.
- Claude 3.5 Sonnet: Et kortfattet sammendrag med ivaretakelse av formateringskravene.
- Claude 2: Kortfattet sammendrag med god forståelse av den gitte teksten.
- Claude 3: Kondenserte informasjonen til et konsist resultat.
- Mistral Large AI Agent: Oppsummerte teksten bra, men holdt seg ikke helt til ordgrensen.