OpenAI heeft zojuist een nieuw model uitgebracht genaamd OpenAI O1 uit de O1-serie modellen. De belangrijkste architecturale verandering in deze modellen is het vermogen om na te denken voordat een gebruikersvraag wordt beantwoord. In deze blog duiken we diep in de belangrijkste veranderingen in OpenAI O1, de nieuwe paradigma’s die deze modellen gebruiken en hoe dit model de RAG-nauwkeurigheid aanzienlijk kan verhogen. We vergelijken een eenvoudige RAG-flow met het OpenAI GPT4o- en OpenAI O1-model.
Hoe verschilt OpenAI O1 van eerdere modellen?
Grootschalige Reinforcement Learning
Het O1-model maakt gebruik van grootschalige reinforcement learning-algoritmes tijdens het trainingsproces. Hierdoor kan het model een robuuste “Chain of Thought” ontwikkelen, waardoor het dieper en strategischer over problemen nadenkt. Door voortdurend zijn redeneerwegen te optimaliseren via reinforcement learning, verbetert het O1-model zijn vermogen om complexe taken efficiënt te analyseren en op te lossen aanzienlijk.

Chain of Thought-integratie
Voorheen bleek chain of thought een nuttig prompt engineering-mechanisme om LLMs zelfstandig te laten “nadenken” en complexe vragen in een stapsgewijs plan te beantwoorden. Met O1-modellen is deze stap standaard aanwezig en native geïntegreerd in het model tijdens inferentie, waardoor het erg bruikbaar is voor wiskundige en programmeeroplossingen.
O1 is getraind met RL om te “nadenken” voordat het reageert via een privé chain of thought. Hoe langer het nadenkt, hoe beter het presteert op redeneertaken. Dit opent een nieuwe dimensie voor schaalbaarheid. We zijn niet langer beperkt door pretraining. We kunnen nu ook inference compute opschalen. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 september 2024
Superieure Benchmarkprestaties
In uitgebreide evaluaties heeft het O1-model opmerkelijke prestaties laten zien op verschillende benchmarks:
- AIME (American Invitational Mathematics Examination): Lost 83% van de problemen correct op, een flinke verbetering ten opzichte van GPT-4o’s 13%.
- GPQA (Expert-Level Test in Sciences): Overtreft PhD-experts en is het eerste AI-model dat mensen op deze benchmark overtreft.
- MMLU (Multi-Task Language Understanding): Blink uit in 54 van de 57 subcategorieën, met 78,2% prestatie bij ingeschakelde visuele perceptie.
- Programmeervaardigheden: Behaalt hoge noteringen op platforms zoals Codeforces, en presteert beter dan 93% van de menselijke deelnemers.
OpenAI O1 vs OpenAI GPT4o in RAG-flow
Om de prestatie en nauwkeurigheid van OpenAI O1 en GPT4o te testen, hebben we twee identieke flows gecreëerd, maar met twee verschillende LLMs. We vergelijken het vraag-en-antwoordvermogen van de modellen op twee bronnen die zijn geïndexeerd over het technische rapport van OpenAI O1.
Eerst maken we een eenvoudige RAG-flow in FlowHunt. Deze bestaat uit Chat Input, Document Retriever (haalt relevante documenten op), Prompt, Generator en Chat Output. Het LLM OpenAI-component wordt toegevoegd om het model te specificeren (anders wordt standaard GPT4o gebruikt).
Hier is het antwoord van GPT4o:

En hier is het resultaat van OpenAI O1:

Zoals je ziet, heeft OpenAI O1 meer architecturale voordelen uit het artikel zelf gehaald—6 punten tegenover 4. Daarnaast maakt O1 logische implicaties van elk punt, waardoor het document wordt verrijkt met meer inzichten over waarom de architecturale wijziging nuttig is.
Is het OpenAI O1-model het waard?
Uit onze experimenten blijkt dat het O1-model meer zal kosten voor een hogere nauwkeurigheid. Het nieuwe model heeft 3 soorten tokens: Prompt Token, Completion Token en Reason Token (een nieuw toegevoegd type token), wat het mogelijk duurder maakt. In de meeste gevallen geeft OpenAI O1 antwoorden die nuttiger lijken als ze op waarheid zijn gebaseerd. Toch zijn er enkele gevallen waarin GPT4o beter presteert dan OpenAI O1—sommige taken hebben simpelweg geen redenering nodig.

Veelgestelde vragen
- Hoe verschilt OpenAI O1 van GPT4o?
OpenAI O1 gebruikt grootschalige reinforcement learning en integreert chain of thought-redenering tijdens inferentie, waardoor dieper en strategischer probleemoplossen mogelijk wordt dan bij GPT4o.
- Presteert OpenAI O1 beter dan GPT4o in benchmarks?
Ja, O1 behaalt hogere scores in benchmarks zoals AIME (83% vs. GPT4o's 13%), GPQA (overtreft PhD-experts) en MMLU, en blinkt uit in 54 van de 57 categorieën.
- Is OpenAI O1 altijd beter dan GPT4o?
Niet altijd. Hoewel O1 uitblinkt in taken met veel redeneren, kan GPT4o het beter doen in eenvoudigere toepassingen die geen geavanceerd redeneren vereisen.
- Wat zijn de nieuwe type tokens in OpenAI O1?
O1 introduceert een nieuw 'Reason'-token naast Prompt- en Completion-tokens, waardoor geavanceerder redeneren mogelijk is, maar de operationele kosten mogelijk stijgen.
- Hoe kan ik OpenAI O1 inzetten voor mijn projecten?
Je kunt platforms zoals FlowHunt gebruiken om RAG-flows en AI-agents te bouwen met OpenAI O1 voor taken die geavanceerd redeneren en nauwkeurige documentopvraging vereisen.
Yasha is een getalenteerde softwareontwikkelaar die gespecialiseerd is in Python, Java en machine learning. Yasha schrijft technische artikelen over AI, prompt engineering en chatbotontwikkeling.

Bouw geavanceerde RAG-flows met FlowHunt
Probeer FlowHunt om de nieuwste LLMs zoals OpenAI O1 en GPT4o te benutten voor superieur redeneren en retrieval-augmented generation.