OpenAI O3 Mini vs DeepSeek för agentbaserad användning

OpenAI O3 Mini vs DeepSeek för agentbaserad användning

OpenAI O3 Mini överträffar DeepSeek i resonemangsuppgifter, agentflöden och kostnadseffektivitet, vilket gör den idealisk för komplex automatisering och analys.

Från och med 31 januari lanserade OpenAI sin nya generation av resonemangsmodeller med O3 Mini-modellen. Sammantaget verkar OpenAI O3 Mini vara 15 gånger billigare med ungefär samma noggrannhet som O1-modellen, OpenAIs tidigare generation av resonemangsmodeller. Den nya modellen, OpenAI O3 Mini, finns nu tillgänglig i FlowHunt mindre än ett dygn efter OpenAIs lansering. I denna blogg fördjupar vi oss i modellens kapacitet och jämför den med Deepseek.

Utvärderingsmetodik för OpenAI O3 Mini vs DeepSeek

I denna utvärdering använde jag ett enkelt men effektivt arbetsflöde med chatinmatning, chatutmatning och en AI-generator för att leverera en tydlig och koncis förklaring av huvudvarianten i Ruy Lopez-öppningen i schack. Genom att jämföra DeepSeeks och O3 Minis prestationer kunde jag bedöma hur väl respektive system hanterade uppgiften att redogöra för nyckeldrag – såsom 1. e4 e5, 2. Nf3 Nc6, 3. Bb5 a6, 4. Ba4 Nf6 och 5. O-O Be7 – och de efterföljande dragen. Denna jämförande analys visar inte bara på AI-verktygens förmåga att bearbeta och återge komplex schackstrategi, utan belyser också värdet av ett enkelt konversationsflöde för läsbarhet och praktisk utvärdering.

Så här såg flödet ut:

Evaluation flow for OpenAI O3 Mini vs DeepSeek

DeepSeeks resultat

Jag ställde följande fråga till modellen:
“Ge mig de första 10 dragen i Ruy Lopez.”
Resultatet blev följande. Så här resonerade DeepSeek:

o3 mini vs deepseek Startar om session Vänta lite ge mig de första 10 dragen i ruy lopez
Okej, så jag försöker ta reda på de första 10 dragen i Ruy Lopez-öppningen i schack. Jag minns att Ruy Lopez är en av de äldsta och mest populära öppningarna, och börjar med dragen 1.e4 e5. Sedan spelar vit 2.Nf3, utvecklar springaren och förbereder för att kontrollera centrum. Därefter 2…Nc6, där svart utvecklar sin springare och stöder e5-bonden. Nu börjar själva Ruy Lopez med 3.Bb5, som attackerar springaren på c6. Jag tror detta är det avgörande draget som definierar öppningen. Då brukar svart svara med 3…a6 för att utmana löparen. Efter det spelar vit 4.Ba4, drar tillbaka löparen till en säker ruta. Så långt har jag sex drag: 1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Ba4. Nu är svarts nästa drag ofta 4…Nf6, utvecklar springaren och hotar e4-bonden. Sedan rockerar vit kort med 5.0-0 för att få kungen i säkerhet och få in tornet i spelet. Det är åtta drag. Nästa drag kan svart spela 5…b5 för att utmana vits löpare på a4 och ta terräng på damflygeln. Då svarar vit med 6.c3, stöder d4-attacken och förbereder utveckling av andra pjäser. Så det tionde draget blir 6…d6, som förstärker e5-bonden och förbereder att utveckla den svartfältiga löparen. Vänta, men jag är inte helt säker på om svart alltid spelar 5…b5. Ibland kanske de spelar 5…Be7 istället, men jag tror 5…b5 är vanligare i den slutna Ruy Lopez. Efter 6.c3 kan svart välja mellan 6…d6 eller 6…b5 igen, men 6…d6 verkar mest standard för att stödja e5. Jag borde dubbelkolla ordningen så att jag inte blandat ihop några drag. Låt mig gå igenom det igen: e4 e5 Nf3 Nc6 Bb5 a6 Ba4 Nf6 0-0 b5 c3 d6 Ja, det verkar stämma. Så de första tio dragen är som jag listat. Jag tror det är en stabil grund, men jag är lite osäker på om det finns alternativa varianter svart kan välja tidigare, som efter 3.Bb5 kanske 3…g6 istället för 3…a6, men jag tror 3…a6 är huvudvarianten som leder till Morphy-försvaret. Så jag håller mig till det för de första tio dragen. Grund för både vit och svart, där vit strävar efter ett starkt centrum och pjäsutveckling, medan svart utmanar vits löpare och förbereder vidare utveckling.

Slutresultat:

De första tio dragen i Ruy Lopez-öppningen, enligt Morphy-försvaret, är följande:
e4 e5 Nf3 Nc6 Bb5 a6 Ba4 Nf6 0-0 b5 c3 d6
Denna sekvens skapar en stabil grund för både vit och svart, där vit strävar efter kontroll över centrum och pjäsutveckling, medan svart utmanar vits löpare och förbereder vidare utveckling.

OpenAI O3 Minis resultat

O3 vinner. O3 Minis svar är mer begripligt och korrekt.

Ruy Lopez (eller Spanska partiet) är en rik öppning med många varianter. Ett av de vanligaste sätten att nå en klassisk Sluten Ruy Lopez är med följande drag:
e4 e5 Nf3 Nc6 Bb5 a6 Ba4 Nf6 O-O Be7 Re1 b5 Bb3 d6 c3 O-O h3 Nb8 d4

Här är en kort förklaring av idéerna bakom dessa drag:

  • 1. e4 e5 etablerar det klassiska stridsfältet om centrum.
  • 2. Nf3 utvecklar en springare och attackerar e5-bonden; svart försvarar med Nc6.
  • 3. Bb5 binder springaren på c6 (som försvarar e5) och ökar trycket mot centrum; svart utmanar med a6.
  • 4. Ba4 drar tillbaka men behåller bindningen; svart utvecklar ytterligare en pjäs med Nf6.
  • 5. O-O säkrar vits kung; svart spelar Be7 för att förbereda rockad.
  • 6. Re1 förstärker e4-bonden i centrum; svarts b5 jagar bort löparen och tar utrymme på damflygeln.
  • 7. Bb3 behåller löparens diagonal; svart förstärker centrum med d6.
  • 8. c3 förbereder att stötta ett framtida d4 och ger möjlighet att dra tillbaka löparen, och svart rockerar med O-O.
  • 9. h3 hindrar att pjäser (som springare eller löpare) kommer till g4, där de kan störa vits centrum eller pjäser; svart drar tillbaka springaren med Nb8 för att omgruppera den.
  • 10. d4 är vits genombrott i centrum, avsett att utmana svarts bondeuppställning.

Kom ihåg att detta bara är en av många giltiga dragföljder i Ruy Lopez. Varianter som Öppna Ruy Lopez eller andra linjer i Sluten Ruy Lopez kan skilja sig efter drag 4 eller senare. Men sekvensen ovan är en välkänd väg som många spelare följer enligt klassisk schackteori.

Utvärdering av DeepSeek och OpenAI O3 Mini på agentiskt beteende

Vi har utvärderat resonemangsmodellerna på en uppgift som kräver 2–3 verktyg för AI-agenter. Här är uppgiften:

Givet företagsnamnet, sök och hitta produktsidans prissättning och föreslå förbättringar.
Ta även en skärmdump av prissidan.
Skicka sedan ett e-postmeddelande till mig med resultatet.

Uppgiften kräver anslutning till Google-sökning för att hämta prissidan, genomsöka prissidan och skicka en detaljerad rapport via e-post.

Uppgiften var medvetet inte detaljerat beskriven för att testa resonemangsförmågan hos modellerna.

Agentic task flow evaluation

Med DeepSeek som AI-agent

DeepSeek kunde inte skicka e-post. Sammantaget visar vår erfarenhet att DeepSeek inte är lika exakt i verktygsanrop jämfört med OpenAI GPT4o eller OpenAI O3 Mini-modellerna. Detta är rapporten som genererades av DeepSeek vid analys av FlowHunts prissida. Så här resonerade DeepSeek:

  1. Anrop till Google-verktyg:
Google tool call by DeepSeek
  1. Scrape URL:
Scraping pricing page results

Resonemanget:

Ämne: FlowHunt prissida – granskning och förslag

Hej [Ditt namn],

Jag hoppas allt är bra med dig. Nedan följer en sammanfattning av FlowHunts prissida samt några förslag på förbättringar.

Prisöversikt:

Starter-plan (€10/månad):

  • 10 krediter
  • 5 arbetsflöden per arbetsyta
  • 1 arbetsyta
  • 1 teammedlem per arbetsyta
  • 5 chatbotar per arbetsyta
  • 2 webbplatser per arbetsyta
  • 5 dokument per arbetsyta
  • 50 FAQ per arbetsyta
  • Tillgång till alla senaste OpenAI LLM, inklusive anpassade modeller
  • Alla integrationer
  • E-postsupport

Pro-plan (€50/månad):

  • 55 krediter (inkluderar 10% rabatt på krediter)
  • 20 arbetsflöden per arbetsyta
  • 5 arbetsytor
  • 10 teammedlemmar per arbetsyta
  • 20 chatbotar per arbetsyta
  • 10 webbplatser per arbetsyta
  • 50 dokument per arbetsyta
  • 100 FAQ per arbetsyta
  • Tillgång till alla senaste OpenAI LLM, inklusive anpassade modeller
  • Prosupport
  • API-nyckelåtkomst
  • Grundläggande analys (kommer snart)
  • Alla integrationer

Premium-plan (€500/månad):

  • 600 krediter (inkluderar 20% rabatt på krediter)
  • 50 arbetsflöden per arbetsyta
  • 10 arbetsytor
  • 100 teammedlemmar per arbetsyta
  • 50 chatbotar per arbetsyta
  • 30 webbplatser per arbetsyta
  • 100 dokument per arbetsyta
  • 200 FAQ per arbetsyta
  • Tillgång till alla senaste OpenAI LLM, inklusive anpassade modeller
  • Prioriterad support
  • API-nyckelåtkomst
  • Avancerad analys (kommer snart)
  • Initial konsultation för arbetsflöden
  • Initialt stöd för arbetsflödesutbildning
  • Alla integrationer

Enterprise-plan (anpassat pris från €1500/månad):

  • Avtalade tokens (ta med egen nyckel – BYOK)
  • Obegränsade arbetsflöden
  • Obegränsade arbetsytor
  • Obegränsat antal användare
  • Obegränsat antal chatbotar
  • Obegränsade tidsscheman
  • Obegränsade dokument
  • Obegränsat antal frågor och svar
  • Obegränsad chathistorik
  • Tillgång till alla senaste OpenAI LLM, inklusive anpassade modeller
  • Dedikerad prioriterad support
  • API-nyckelåtkomst
  • Avancerad analys (kommer snart)
  • Anpassningsbara arbetsflödesmoduler
  • Valfritt utbildningsstöd
  • Avancerad säkerhet och lokal installation

Föreslagna förbättringar:

  • Jämförelsetabell: Skapa en jämförelsetabell sida vid sida som tydliggör funktionerna för varje plan. Det gör det enklare för användare att snabbt se skillnaderna mellan planerna.
  • Kundomdömen/case studies: Att lägga till omdömen eller fallstudier från befintliga kunder kan bygga förtroende och trovärdighet.
  • Priskalkylator: Implementera en interaktiv priskalkylator där användare kan uppskatta sina kostnader utifrån sina behov, särskilt för Enterprise-planen.
  • Framhäv gratis provperiod: Gör gratis testperiod mer synlig på sidan för att uppmuntra användare att prova tjänsten innan köp.
  • Detaljerad dokumentation/guider: Tillhandahåll länkar till detaljerad dokumentation eller guider så användare kan förstå hur de bäst utnyttjar funktionerna i varje plan.

Med OpenAI O3 Mini som AI-agent

Å andra sidan kunde OpenAI O3 Mini-modellen, trots den korta beskrivningen, avkoda exakt process:

  1. Google-sökning
Google search step by O3 Mini
  1. Scrape URL
Scraping pricing page with O3 Mini
  1. E-postskickande
Email sending by O3 Mini

Detta är e-postmeddelandet jag fick:

Hej,

Nedan följer resultatet av granskningen av FlowHunts prissida samt några föreslagna förbättringar:

Prissidans URL: https://www.flowhunt.io/pricing/

Skärmdump: En skärmdump av prissidan har tagits. (Se bifogad bild i ditt system.)

Sammanfattning av prissidan:

Prissidan visar tydligt fyra planer: Starter (€10/månad), Pro (€50/månad), Premium (€500/månad) och Enterprise (från €1500/månad). Varje plan listar krediter, arbetsflödes- och teambegränsningar, kärnfunktioner och ytterligare supportalternativ. Sidan innehåller både en översikt och en detaljerad jämförelse i tabellform, vilket hjälper potentiella kunder att jämföra funktionerna mellan planerna.

Föreslagna förbättringar:

  • Interaktiv priskalkylator: Överväg att lägga till en interaktiv priskalkylator där användaren kan justera parametrar (t.ex. antal arbetsflöden, teammedlemmar) för att se en dynamisk uppskattning av månadskostnaden.
  • Visuella förbättringar och UX: Inför mer engagerande visuella inslag (t.ex. ikoner eller infografik) för att ytterligare särskilja planernas funktioner. Lägg till subtila animationer vid hovring över olika plandetaljer för ökad interaktivitet.
  • Valutaväxlare: Eftersom priserna är i euro, inkludera en valutaväxlare för att bättre anpassa till internationella användare.
  • Tydligare Call-to-Action (CTA): Gör CTA-knapparna mer framträdande och lägg eventuellt till en sekundär CTA (t.ex. “Läs mer” om planfördelar) för användare som behöver mer information innan registrering.
  • Utökat FAQ-avsnitt: Bygg ut FAQ-avsnittet med mer detaljerade svar kring kreditsystem, eventuella överskridanden och vanliga kundscenarion. Använd gärna fällbara sektioner för att hålla sidan ren och samtidigt erbjuda mer information vid behov.
  • Socialt bevis och omdömen: Lägg till kundomdömen eller framgångshistorier nära prissektionen för att bygga förtroende.
  • Mobiloptimering: Säkerställ att pristabellen och alla interaktiva element visas optimalt på mobila enheter.
  • Integrerad chattsupport: Lägg till en integrerad livechat eller chatbot på prissidan för att omedelbart besvara frågor om priser eller planer.

Genom att implementera dessa förbättringar kan FlowHunt erbjuda en mer engagerande och användarvänlig upplevelse, vilket potentiellt ökar konverteringsgraden.

Med vänliga hälsningar,
[Ditt namn]

(P.S. Detta mejl innehåller resultaten och förslagen för FlowHunts prissida samt information om den tagna skärmdumpen.)

Vanliga frågor

Hur står sig OpenAI O3 Mini mot DeepSeek för agentuppgifter?

OpenAI O3 Mini visar överlägset resonemang, mer pålitlig verktygsanvändning och är 15 gånger mer kostnadseffektiv än DeepSeek, vilket gör den mer lämpad för komplexa agentflöden såsom prisanalyser och automatisering av uppgifter.

Vilken AI-modell är bäst för schackstrategi och resonemang?

OpenAI O3 Mini ger mer korrekta och begripligare svar för schackstrategier och överträffar DeepSeek både i tydlighet och korrekthet.

Kan dessa AI-modeller automatisera flerstegsarbetsflöden?

Ja, båda klarar av flerstegs agentuppgifter som sökning, scraping och e-post, men OpenAI O3 Mini genomför processen mer pålitligt och självständigt än DeepSeek.

Vilka förbättringar föreslås för AI-driven prisanalys?

Förbättringar inkluderar interaktiva priskalkylatorer, tydligare CTA, bättre mobiloptimering, förbättrade FAQ-avsnitt och integration av chattsupport för förbättrad användarupplevelse.

Prova AI-agenter med FlowHunt

Upplev kraften i OpenAI O3 Mini och DeepSeek för agentuppgifter, automatisering och mer – bygg smartare arbetsflöden idag.

Lär dig mer

OpenAI O3 Mini AI Agent: En kompakt men kraftfull AI-modell
OpenAI O3 Mini AI Agent: En kompakt men kraftfull AI-modell

OpenAI O3 Mini AI Agent: En kompakt men kraftfull AI-modell

Är OpenAI O3 Mini det rätta AI-verktyget för dig? Vi sätter den på prov med innehållsgenerering, beräkningar och mer. Se hur denna modell balanserar prestanda m...

6 min läsning
OpenAI AI Model +3
RAG med resonemangs-LLM: OpenAI O1 vs OpenAI GPT4o
RAG med resonemangs-LLM: OpenAI O1 vs OpenAI GPT4o

RAG med resonemangs-LLM: OpenAI O1 vs OpenAI GPT4o

Utforska hur OpenAI O1:s avancerade resonemangsförmåga och förstärkningsinlärning överträffar GPT4o i RAG-noggrannhet, med benchmarkresultat och kostnadsanalys....

3 min läsning
OpenAI O1 GPT4o +4
FlowHunt 2.4.1 introducerar Claude, Grok, Llama och mer
FlowHunt 2.4.1 introducerar Claude, Grok, Llama och mer

FlowHunt 2.4.1 introducerar Claude, Grok, Llama och mer

FlowHunt 2.4.1 introducerar stora nya AI-modeller inklusive Claude, Grok, Llama, Mistral, DALL-E 3 och Stable Diffusion, vilket utökar dina alternativ för exper...

2 min läsning
AI LLM +7