RAG cu LLM-uri de Raționament: OpenAI O1 vs OpenAI GPT4o

RAG cu LLM-uri de Raționament: OpenAI O1 vs OpenAI GPT4o

OpenAI O1 utilizează învățarea prin întărire și raționamentul nativ chain of thought pentru a depăși GPT4o în sarcini complexe RAG, deși la un cost mai ridicat.

OpenAI tocmai a lansat un nou model numit OpenAI O1 din seria O1 de modele. Principala schimbare arhitecturală la aceste modele este abilitatea de a gândi înainte de a răspunde unei întrebări a utilizatorului. În acest articol vom aprofunda schimbările cheie din OpenAI O1, noile paradigme folosite de aceste modele și cum acest model poate crește semnificativ acuratețea RAG. Vom compara un flux RAG simplu folosind modelul OpenAI GPT4o și OpenAI O1.

Cu ce este diferit OpenAI O1 față de modelele anterioare?

Învățare prin întărire la scară largă

Modelul O1 folosește algoritmi de învățare prin întărire la scară largă în timpul procesului său de antrenare. Acest lucru permite modelului să dezvolte un “Chain of Thought” robust, permițându-i să gândească mai profund și strategic asupra problemelor. Optimizându-și continuu căile de raționament prin învățare prin întărire, modelul O1 își îmbunătățește semnificativ abilitatea de a analiza și rezolva eficient sarcini complexe.

Evaluation of GPT4o in Test Time and inference time

Integrarea Chain of Thought

Anterior, chain of thought s-a dovedit a fi un mecanism util de prompt engineering pentru a face ca LLM-ul să “gândească” singur și să răspundă la întrebări complexe printr-un plan pas cu pas. Cu modelele O1, acest pas este integrat nativ și vine direct din model la momentul inferenței, făcându-l util pentru rezolvarea problemelor matematice și de programare.

O1 este antrenat cu RL să „gândească” înainte de a răspunde printr-un chain of thought privat. Cu cât gândește mai mult, cu atât se descurcă mai bine la sarcinile de raționament. Aceasta deschide o nouă dimensiune pentru scalare. Nu mai suntem limitați de preantrenare. Putem scala acum și puterea de inferență. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 septembrie 2024

Performanță superioară în benchmark-uri

În evaluări extinse, modelul O1 a demonstrat performanțe remarcabile pe diverse benchmark-uri:

  • AIME (American Invitational Mathematics Examination): Rezolvă corect 83% din probleme, o îmbunătățire substanțială față de 13% la GPT-4o.
  • GPQA (Test de nivel expert în științe): Depășește experții cu doctorat, fiind primul model AI care surclasează oamenii pe acest benchmark.
  • MMLU (Multi-Task Language Understanding): Excelează în 54 din 57 de subcategorii, atingând o performanță de 78,2% cu percepție vizuală activată.
  • Competiții de programare: Obține clasări ridicate pe platforme precum Codeforces, depășind 93% dintre concurenții umani.

OpenAI O1 vs OpenAI GPT4o în flux RAG

Pentru a testa acuratețea performanței OpenAI O1 și GPT4o, am creat două fluxuri identice, dar cu două LLM-uri diferite. Vom compara capacitatea de răspuns la întrebări a modelelor pe două surse indexate privind raportul tehnic al OpenAI O1.

Mai întâi, vom crea un flux RAG simplu în FlowHunt. Acesta constă în Chat Input, Document Retriever (recuperează documente relevante), Prompt, Generator și Chat Output. Componenta LLM OpenAI este adăugată pentru a specifica modelul (altfel, implicit este folosit GPT4o).

Iată răspunsul de la GPT4o:

Response of OpenAI GPT4o model for the query

Și aici este rezultatul de la OpenAI O1:

Response of OpenAI O1 model for the query

După cum se poate observa, OpenAI O1 a surprins mai multe avantaje arhitecturale din articolul propriu-zis—6 puncte față de 4. În plus, O1 face implicații logice din fiecare punct, îmbogățind documentul cu mai multe perspective despre utilitatea schimbării arhitecturale.

Merită modelul OpenAI O1?

Din experimentele noastre, modelul O1 va costa mai mult pentru o acuratețe crescută. Noul model are 3 tipuri de tokeni: Prompt Token, Completion Token și Reason Token (un tip de token adăugat recent), ceea ce îl poate face mai costisitor. În cele mai multe cazuri, OpenAI O1 oferă răspunsuri care par mai utile dacă sunt ancorate în adevăr. Totuși, există și situații în care GPT4o îl depășește pe OpenAI O1—unele sarcini pur și simplu nu au nevoie de raționament.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

Întrebări frecvente

Cu ce este diferit OpenAI O1 față de GPT4o?

OpenAI O1 folosește învățare prin întărire la scară largă și integrează raționamentul chain of thought la momentul inferenței, permițând o rezolvare a problemelor mai profundă și mai strategică decât GPT4o.

Depășește OpenAI O1 GPT4o în benchmark-uri?

Da, O1 obține scoruri mai mari în benchmark-uri precum AIME (83% vs. 13% pentru GPT4o), GPQA (depășind experți la nivel de doctorat) și MMLU, excelând în 54 din 57 de categorii.

Este OpenAI O1 întotdeauna mai bun decât GPT4o?

Nu întotdeauna. Deși O1 excelează în sarcini ce implică raționament, GPT4o îl poate depăși în scenarii mai simple care nu necesită raționament avansat.

Care sunt noile tipuri de tokeni în OpenAI O1?

O1 introduce un nou token 'Reason' pe lângă Prompt și Completion, permițând raționamente mai sofisticate, dar crescând potențial costul operațional.

Cum pot folosi OpenAI O1 pentru proiectele mele?

Poți folosi platforme precum FlowHunt pentru a construi fluxuri RAG și agenți AI cu OpenAI O1 pentru sarcini ce necesită raționament avansat și recuperare precisă de documente.

Yasha este un dezvoltator software talentat, specializat în Python, Java și învățare automată. Yasha scrie articole tehnice despre inteligența artificială, ingineria prompturilor și dezvoltarea chatboturilor.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Construiește fluxuri RAG avansate cu FlowHunt

Încearcă FlowHunt pentru a folosi cele mai noi LLM-uri precum OpenAI O1 și GPT4o pentru raționament superior și generare augmentată de recuperare.

Află mai multe

Ce e nou: GPT 4.1, HubSpot și 9 noi modele de generare imagini
Ce e nou: GPT 4.1, HubSpot și 9 noi modele de generare imagini

Ce e nou: GPT 4.1, HubSpot și 9 noi modele de generare imagini

FlowHunt v2.19.14 aduce modelele GPT-4.1 de la OpenAI, 9 noi modele de generare imagini de la Stable Diffusion, Google și Ideogram, plus integrare HubSpot pentr...

2 min citire
AI OpenAI +8
OpenAI O3 Mini vs DeepSeek pentru utilizare agentică
OpenAI O3 Mini vs DeepSeek pentru utilizare agentică

OpenAI O3 Mini vs DeepSeek pentru utilizare agentică

Compară OpenAI O3 Mini și DeepSeek în sarcini de raționament, strategii de șah și utilizare agentică a instrumentelor. Vezi care AI excelează la acuratețe, acce...

10 min citire
AI Models OpenAI +5
Claude Opus
Claude Opus

Claude Opus

Află mai multe despre modelul Opus al Claude de la Anthropic. Descoperă punctele sale forte și slăbiciunile, precum și cum se compară cu celelalte modele.

5 min citire
AI Claude Opus +6