OpenAI O3 Mini vs DeepSeek for agentisk bruk

OpenAI O3 Mini vs DeepSeek for agentisk bruk

OpenAI O3 Mini overgår DeepSeek i resonneringsoppgaver, agentiske arbeidsflyter og kostnadseffektivitet, noe som gjør den ideell for kompleks automatisering og analyse.

Per 31. januar lanserte OpenAI sin neste generasjon resonneringsmodeller med O3 Mini-modellen. Alt i alt virker det som OpenAI O3 Mini-modellen er 15 ganger billigere med omtrent samme nøyaktighet som O1-modellen, OpenAIs forrige generasjon resonneringsmodeller. Den nye modellen, OpenAI O3 Mini, er tilgjengelig i FlowHunt mindre enn et døgn etter OpenAIs lansering. I denne bloggen går vi i dybden på modellens egenskaper og sammenligner den med DeepSeek.

Evalueringsmetrikker for OpenAI O3 Mini vs DeepSeek

I denne evalueringen brukte jeg en enkel, men effektiv arbeidsflyt med chat-inndata, chat-utdata og en AI-generator for å levere en klar og konsis forklaring av hovedvarianten i Ruy Lopez-åpningen i sjakk. Ved å sammenligne DeepSeeks ytelse mot O3 Mini, kunne jeg vurdere hvordan hvert system håndterte oppgaven med å beskrive nøkkel-trekk—som 1. e4 e5, 2. Nf3 Nc6, 3. Bb5 a6, 4. Ba4 Nf6, og 5. O-O Be7—og deres videre utvikling. Denne sammenlignende analysen viser ikke bare disse AI-verktøyenes evne til å behandle og videreformidle komplekse sjakkstrategier, men fremhever også verdien av en enkel samtaleflyt for lesbarhet og praktiske evalueringsresultater.

Dette er flyten:

Evaluation flow for OpenAI O3 Mini vs DeepSeek

DeepSeek-resultater

Jeg spurte modellen følgende:
“Gi meg de første 10 trekkene i Ruy Lopez.”
Resultatet er som følger. Dette er DeepSeeks tankeprosess:

o3 mini vs deepseek Starter økten på nytt Vennligst vent gi meg de første 10 trekkene i ruy lopez
Ok, jeg prøver å finne de første 10 trekkene i Ruy Lopez-åpningen i sjakk. Jeg husker at Ruy Lopez er en av de eldste og mest populære åpningene, som starter med trekkene 1.e4 e5. Så spiller hvit 2.Nf3, utvikler springeren og forbereder å kontrollere sentrum. Deretter 2…Nc6, hvor svart utvikler sin springer og støtter e5-bonden. Nå starter selve Ruy Lopez med 3.Bb5, som angriper springeren på c6. Jeg tror dette er nøkkeltrekket som definerer åpningen. Så svarer svart vanligvis med 3…a6 for å utfordre løperen. Etter det spiller hvit 4.Ba4, trekker løperen tilbake til et trygt felt. Så langt har jeg seks trekk: 1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Ba4. Nå er svarts neste trekk ofte 4…Nf6, utvikler springeren og angriper e4-bonden. Så rokerer hvit kort med 5.0-0 for å få kongen i sikkerhet og bringe tårnet i spill. Det er åtte trekk. Deretter kan svart spille 5…b5 for å utfordre hvits løper på a4 og vinne plass på dronningfløyen. Så svarer hvit med 6.c3, som støtter d4-presset og forbereder å utvikle andre brikker. Så det tiende trekket ville være 6…d6, som styrker e5-bonden og forbereder å utvikle den mørkfeltsløperen. Vent, men jeg er ikke helt sikker på om svart alltid spiller 5…b5. Noen ganger spiller de kanskje 5…Be7 i stedet, men jeg tror 5…b5 er vanligere i lukket Ruy Lopez. Også etter 6.c3 kan svart velge mellom 6…d6 eller 6…b5 igjen, men 6…d6 virker mer standard for å støtte e5. Jeg bør dobbeltsjekke rekkefølgen for å være sikker på at jeg ikke har blandet noen trekk. La meg gå gjennom det igjen: e4 e5 Nf3 Nc6 Bb5 a6 Ba4 Nf6 0-0 b5 c3 d6 Ja, det virker riktig. Så de første ti trekkene er slik jeg har listet dem. Jeg tror det er et solid fundament, men jeg er litt usikker på om det finnes alternative varianter svart kan velge tidligere, som etter 3.Bb5, kanskje 3…g6 i stedet for 3…a6, men jeg tror 3…a6 er hovedvarianten som leder til Morphy-forsvaret. Så jeg holder meg til det for de første ti trekkene. Fundament for både hvit og svart, der hvit sikter på et sterkt sentrum og brikkutvikling, mens svart utfordrer hvits løper og forbereder videre utvikling.

Endelig resultat:

De første ti trekkene i Ruy Lopez-åpningen, etter Morphy-forsvaret, er som følger:
e4 e5 Nf3 Nc6 Bb5 a6 Ba4 Nf6 0-0 b5 c3 d6
Denne sekvensen gir et solid fundament for både hvit og svart, der hvit går for et sterkt sentrum og brikkutvikling, mens svart utfordrer hvits løper og forbereder videre utvikling.

OpenAI O3 Mini-resultater

O3 vinner. O3 Minis svar er mer forståelig og korrekt.

Ruy Lopez (eller spansk åpning) er en rik åpning med mange varianter. En av de vanligste måtene å nå en klassisk lukket Ruy Lopez på, er med følgende trekk:
e4 e5 Nf3 Nc6 Bb5 a6 Ba4 Nf6 O-O Be7 Re1 b5 Bb3 d6 c3 O-O h3 Nb8 d4

Her er en kort forklaring på tankene bak disse trekkene:

  • 1. e4 e5 danner det klassiske slaget om sentrum.
  • 2. Nf3 utvikler en springer og angriper e5-bonden; svart forsvarer med Nc6.
  • 3. Bb5 binder springeren på c6 (som forsvarer e5) og øker presset i sentrum; svart utfordrer med a6.
  • 4. Ba4 trekker tilbake og beholder bindingen; svart utvikler en brikke til med Nf6.
  • 5. O-O sikrer hvits konge; svart spiller Be7 for å forberede rokade.
  • 6. Re1 forsterker e4-bonden i sentrum; svarts b5 jager løperen og gir plass på dronningfløyen.
  • 7. Bb3 bevarer løperens diagonal; svart styrker sentrum med d6.
  • 8. c3 forbereder støtte til en senere d4 og mulig retrett for løperen om nødvendig, og svart rokerer med O-O.
  • 9. h3 hindrer enhver brikke (som springer eller løper) fra å komme til g4, hvor den kan plage hvits sentrum eller brikker; svart trekker tilbake springeren med Nb8 for å omdirigere den.
  • 10. d4 er hvits gjennombrudd i sentrum, med mål om å utfordre svarts bondestruktur.

Merk at dette bare er én av mange gyldige trekkrekkefølger i Ruy Lopez. Varianter som åpen Ruy Lopez eller andre linjer i lukket Ruy Lopez kan avvike etter trekk 4 eller senere. Men sekvensen over er en velkjent vei som mange spillere følger i klassisk sjakkteori.

Evaluering av DeepSeek og OpenAI O3 Mini på agentisk atferd

Vi har evaluert resonneringsmodellene på en oppgave som krever 2–3 verktøy for AI-agenter. Her er oppgaven:

Gitt selskapsnavnet, søk og finn produktsidens prisside og foreslå forbedringer.
Ta også skjermbilde av prissiden.
Send deretter en e-post til meg med resultatene.

Oppgaven krever tilkobling til Google-søk for å finne prissiden, crawling av prissiden og sende en detaljert rapport på e-post.

Oppgaven ble med vilje ikke beskrevet i detalj for å teste resonneringsevnen til de nevnte modellene.

Agentic task flow evaluation

Bruk av DeepSeek som AI-agent

DeepSeek klarte ikke å sende e-post. Vår erfaring viser at DeepSeek ikke er like nøyaktig i verktøykall sammenlignet med OpenAI GPT4o eller OpenAI O3 Mini. Dette er rapporten DeepSeek genererte, med analyse av FlowHunts prisside. Underveis var dette DeepSeeks tankeprosess:

  1. Kall til Google-verktøy:
Google tool call by DeepSeek
  1. Scrape URL:
Scraping pricing page results

Resonneringen:

Emne: FlowHunt gjennomgang av prisside og forslag

Hei [Ditt navn],

Jeg håper denne meldingen finner deg vel. Under følger et sammendrag av FlowHunts prisside, samt noen forslag til forbedringer.

Prisoversikt:

FlowHunt tilbyr fire prismodeller:

Starter-plan (€10/måned):

  • 10 kreditter
  • 5 arbeidsflyter per arbeidsområde
  • 1 arbeidsområde
  • 1 teammedlem per arbeidsområde
  • 5 chatboter per arbeidsområde
  • 2 nettsteder per arbeidsområde
  • 5 dokumenter per arbeidsområde
  • 50 FAQs per arbeidsområde
  • Tilgang til alle nyeste OpenAI LLM-er, inkludert egendefinerte modeller
  • Alle integrasjoner
  • E-poststøtte

Pro-plan (€50/måned):

  • 55 kreditter (inkluderer 10 % rabatt på kreditter)
  • 20 arbeidsflyter per arbeidsområde
  • 5 arbeidsområder
  • 10 teammedlemmer per arbeidsområde
  • 20 chatboter per arbeidsområde
  • 10 nettsteder per arbeidsområde
  • 50 dokumenter per arbeidsområde
  • 100 FAQs per arbeidsområde
  • Tilgang til alle nyeste OpenAI LLM-er, inkludert egendefinerte modeller
  • Pro-støtte
  • API-nøkkeltilgang
  • Enkel analyse (kommer snart)
  • Alle integrasjoner

Premium-plan (€500/måned):

  • 600 kreditter (inkluderer 20 % rabatt på kreditter)
  • 50 arbeidsflyter per arbeidsområde
  • 10 arbeidsområder
  • 100 teammedlemmer per arbeidsområde
  • 50 chatboter per arbeidsområde
  • 30 nettsteder per arbeidsområde
  • 100 dokumenter per arbeidsområde
  • 200 FAQs per arbeidsområde
  • Tilgang til alle nyeste OpenAI LLM-er, inkludert egendefinerte modeller
  • Prioritert støtte
  • API-nøkkeltilgang
  • Avansert analyse (kommer snart)
  • Innledende arbeidsflytkonsultasjon
  • Opplæringsstøtte for arbeidsflyt
  • Alle integrasjoner

Enterprise-plan (tilpasset pris fra €1500/måned):

  • Kontraktfestede tokens (Bring Your Own Key – BYOK)
  • Ubegrensede arbeidsflyter
  • Ubegrensede arbeidsområder
  • Ubegrensede brukere
  • Ubegrensede chatboter
  • Ubegrensede tidsplaner
  • Ubegrensede dokumenter
  • Ubegrensede spørsmål og svar
  • Ubegrenset chatthistorikk
  • Tilgang til alle nyeste OpenAI LLM-er, inkludert egendefinerte modeller
  • Dedikert prioritert støtte
  • API-nøkkeltilgang
  • Avansert analyse (kommer snart)
  • Tilpasningsbare arbeidsflytmoduler
  • Valgfri opplæringsstøtte
  • Avansert sikkerhet og lokal installasjon

Foreslåtte forbedringer:

  • Sammenligningstabell: Lag en sammenligningstabell som viser forskjellene på tvers av planene. Dette gjør det lettere for brukere å raskt se forskjellene.
  • Kundereferanser/case-studier: Legg til referanser eller case-studier fra eksisterende kunder for å bygge tillit og troverdighet.
  • Priskalkulator: Implementer en interaktiv priskalkulator slik at brukere kan estimere kostnader basert på behov, spesielt for Enterprise-planen.
  • Fremhev gratis prøveperiode: Gjør gratis prøveperiode mer synlig på siden for å oppfordre brukere til å teste før kjøp.
  • Detaljert dokumentasjon/veiledning: Gi lenker til mer utdypende dokumentasjon eller oppstartsguider for å hjelpe brukere å forstå hvordan de får mest ut av hver plan.

Bruk av OpenAI O3 Mini som AI-agent

På den annen side, med såpass lite beskrivelse, klarte OpenAI O3 Mini å dekode den eksakte prosessen:

  1. Google-søk
Google search step by O3 Mini
  1. Scrape URL
Scraping pricing page with O3 Mini
  1. E-postsending
Email sending by O3 Mini

Dette er e-posten jeg mottok:

Hei,

Under følger resultatene av gjennomgangen av FlowHunts prisside og noen foreslåtte forbedringer:

Prisside-URL: https://www.flowhunt.io/pricing/

Skjermbilde: Et skjermbilde av prissiden ble tatt. (Se vedlagt skjermbilde i systemet ditt.)

Oppsummering av prissiden:

Prissiden viser tydelig fire planer: Starter (€10/måned), Pro (€50/måned), Premium (€500/måned) og Enterprise (fra €1500/måned). Hver plan viser kreditter, arbeidsflyt- og teamgrenser, kjernefunksjoner og ekstra støttealternativer. Siden inneholder både en oversikt og en detaljert sammenligning i tabellformat, noe som hjelper potensielle kunder å sammenligne funksjoner på tvers av planene.

Foreslåtte forbedringer:

  • Interaktiv priskalkulator: Vurder å legge til en interaktiv priskalkulator der brukere kan justere parametere (f.eks. antall arbeidsflyter, teammedlemmer) for å få et dynamisk estimat av månedlig kostnad.
  • Visuelle og UX-forbedringer: Introduser mer engasjerende visuelle elementer (f.eks. ikoner eller infografikk) for å fremheve forskjellene mellom planene. Legg til subtile animasjoner ved hover over ulike detaljer for bedre interaktivitet.
  • Valutakalkulator: Siden prisene er i euro, bør det legges til en valutakalkulator for internasjonale brukere for bedre lokal tilpasning.
  • Tydeligere CTA: Gjør CTA-knappene mer fremtredende, og vurder å legge til en sekundær CTA (f.eks. “Les mer” om planfordeler) for brukere som ønsker mer informasjon før de registrerer seg.
  • Forbedret FAQ-seksjon: Utvid FAQ-seksjonen med mer detaljerte svar om kredittsystemet, eventuelle overforbruk og vanlige kundescenarier. Bruk gjerne kollapsbare seksjoner for å holde siden ryddig og samtidig tilby mer informasjon ved behov.
  • Sosialt bevis og referanser: Inkluder kundeuttalelser eller suksesshistorier nær prismodulen for å bygge troverdighet.
  • Mobiloptimalisering: Sørg for at pristabellen og alle interaktive elementer vises optimalt på mobile enheter.
  • Chat-støtte: Legg til integrert live chat eller chatbot-støtte på prissiden for å svare på spørsmål om priser eller planinnhold umiddelbart.

Ved å implementere disse forbedringene kan FlowHunt gi en mer engasjerende og brukervennlig opplevelse, noe som kan øke konverteringsraten.

Med vennlig hilsen,
[Ditt navn]

(P.S. Denne e-posten inkluderer resultatene og forslagene for FlowHunts prisside samt informasjon om det lagrede skjermbildet.)

Vanlige spørsmål

Hvordan sammenlignes OpenAI O3 Mini med DeepSeek for agentiske oppgaver?

OpenAI O3 Mini viser overlegne resonneringsevner, mer pålitelig verktøybruk og er 15x mer kostnadseffektiv enn DeepSeek, noe som gjør den mer egnet for komplekse agentiske arbeidsflyter som prisanalyse og automatisering av oppgaver.

Hvilken AI-modell er best for sjakkstrategi og resonnering?

OpenAI O3 Mini gir mer nøyaktige og forståelige svar for sjakkstrategier, og overgår DeepSeek både i klarhet og korrekthet.

Kan disse AI-modellene automatisere flertrinns arbeidsflyter?

Ja, begge kan håndtere flertrinns agentiske oppgaver som søk, scraping og e-post, men OpenAI O3 Mini gjennomfører prosessen mer pålitelig og selvstendig enn DeepSeek.

Hvilke forbedringer foreslås for AI-drevet prisanalyse?

Forbedringer inkluderer interaktive priskalkulatorer, tydeligere CTA-er, bedre mobiloptimalisering, forbedrede FAQ-seksjoner og integrering av chat-støtte for å forbedre brukeropplevelsen.

Prøv AI-agenter med FlowHunt

Opplev kraften av OpenAI O3 Mini og DeepSeek for agentiske oppgaver, automatisering og mer—bygg smartere arbeidsflyter i dag.

Lær mer

OpenAI O3 Mini AI-agent: En kompakt, men kraftig AI-modell
OpenAI O3 Mini AI-agent: En kompakt, men kraftig AI-modell

OpenAI O3 Mini AI-agent: En kompakt, men kraftig AI-modell

Er OpenAI O3 Mini det rette AI-verktøyet for deg? Vi satte den på prøve med innholdsgenerering, beregninger og mer. Se hvordan denne modellen balanserer ytelse ...

6 min lesing
OpenAI AI Model +3
FlowHunt 2.4.1 bringer Claude, Grok, Llama og mer
FlowHunt 2.4.1 bringer Claude, Grok, Llama og mer

FlowHunt 2.4.1 bringer Claude, Grok, Llama og mer

FlowHunt 2.4.1 introduserer store nye AI-modeller inkludert Claude, Grok, Llama, Mistral, DALL-E 3 og Stable Diffusion, og utvider dine muligheter for eksperime...

2 min lesing
AI LLM +7
RAG med resonerende LLM-er: OpenAI O1 vs OpenAI GPT4o
RAG med resonerende LLM-er: OpenAI O1 vs OpenAI GPT4o

RAG med resonerende LLM-er: OpenAI O1 vs OpenAI GPT4o

Utforsk hvordan OpenAI O1s avanserte resonneringsevner og forsterkningslæring overgår GPT4o i RAG-nøyaktighet, med benchmark-tester og kostnadsanalyse.

3 min lesing
OpenAI O1 GPT4o +4