RAG s uvažujícími LLM: OpenAI O1 vs OpenAI GPT4o

OpenAI O1 GPT4o RAG Reasoning

OpenAI právě vydalo nový model s názvem OpenAI O1 ze série modelů O1. Hlavní architektonickou změnou těchto modelů je schopnost „přemýšlet“ před odpovědí na dotaz uživatele. V tomto blogu se podíváme detailněji na klíčové změny v OpenAI O1, nové paradigmata, která tyto modely využívají, a jak může tento model významně zvýšit přesnost RAG. Porovnáme jednoduchý RAG tok využívající OpenAI GPT4o a model OpenAI O1.

V čem se OpenAI O1 liší od předchozích modelů?

Rozsáhlé posilované učení

Model O1 využívá algoritmy rozsáhlého posilovaného učení během svého trénování. To modelu umožňuje rozvinout robustní „řetězec myšlení“, díky němuž přemýšlí o problémech hlouběji a strategičtěji. Neustálou optimalizací svých uvažovacích cest pomocí posilovaného učení model O1 výrazně zlepšuje schopnost analyzovat a efektivně řešit složité úkoly.

Evaluation of GPT4o in Test Time and inference time

Integrace řetězce myšlení

Dříve se řetězec myšlení osvědčil jako užitečný mechanismus prompt engineering, díky kterému LLM „samo přemýšlí“ a odpovídá na složité otázky krok za krokem. U modelů O1 je tento krok nativně integrován přímo do modelu v čase inference, což je užitečné pro matematické a programovací úlohy.

O1 je trénován pomocí RL, aby „přemýšlel“ před odpovědí prostřednictvím soukromého řetězce myšlení. Čím déle přemýšlí, tím lépe si vede v úlohách vyžadujících uvažování. To otevírá novou dimenzi škálování. Již nejsme limitováni pretrénováním. Lze škálovat i inference compute. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12. září 2024

Špičkový výkon v benchmarcích

V rozsáhlých hodnoceních model O1 prokázal pozoruhodné výsledky v různých benchmarcích:

  • AIME (American Invitational Mathematics Examination): Správně vyřeší 83 % úloh, což je výrazné zlepšení oproti 13 % u GPT-4o.
  • GPQA (Expertní test ve vědách): Překonává úroveň PhD expertů a je první AI modelem, který předčí člověka v tomto benchmarku.
  • MMLU (Multi-Task Language Understanding): Exceluje v 54 z 57 subkategorií a s vizuálním vnímáním dosahuje 78,2 % úspěšnosti.
  • Programovací soutěže: Dosahuje vysokých pozic na platformách jako Codeforces, kde překonává 93 % lidských soutěžících.

OpenAI O1 vs OpenAI GPT4o v RAG flow

Pro otestování přesnosti OpenAI O1 a GPT4o jsme vytvořili dva identické toky, ale s různými LLM. Porovnáme schopnost odpovídat na otázky na základě dvou zdrojů indexovaných z technické zprávy OpenAI O1.

Nejprve vytvoříme jednoduchý RAG tok ve FlowHunt. Sestává z Chat Input, Document Retrieveru (načítá relevantní dokumenty), Promptu, Generátoru a Chat Outputu. Komponenta LLM OpenAI je přidána pro určení modelu (jinak je výchozí GPT4o).

Zde je odpověď od GPT4o:

Response of OpenAI GPT4o model for the query

A zde je výsledek od OpenAI O1:

Response of OpenAI O1 model for the query

Jak je vidět, OpenAI O1 zachytilo více architektonických výhod přímo z článku—6 bodů oproti 4. Navíc O1 ke každému bodu přidává logické implikace, čímž dokument obohacuje o další vhledy do užitečnosti architektonických změn.

Logo

Připraveni rozšířit své podnikání?

Začněte svou bezplatnou zkušební verzi ještě dnes a viďte výsledky během několika dní.

Vyplatí se model OpenAI O1?

Z našich experimentů plyne, že model O1 bude stát více za vyšší přesnost. Nový model má 3 typy tokenů: Prompt Token, Completion Token a Reason Token (nově přidaný typ tokenu), což jej může činit nákladnějším. Ve většině případů poskytuje OpenAI O1 odpovědi, které jsou užitečnější, pokud jsou podloženy fakty. Existují však případy, kdy GPT4o překonává OpenAI O1—některé úkoly prostě nevyžadují uvažování.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

Často kladené otázky

Yasha je talentovaný softwarový vývojář specializující se na Python, Javu a strojové učení. Yasha píše technické články o AI, inženýrství promptů a vývoji chatbotů.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Vytvářejte pokročilé RAG flow s FlowHunt

Vyzkoušejte FlowHunt a využijte nejnovější LLM jako OpenAI O1 a GPT4o pro špičkové uvažování a retrieval-augmented generation.

Zjistit více

Jak OpenAI o1 Preview zvládá složité zadání pro psaní textů
Jak OpenAI o1 Preview zvládá složité zadání pro psaní textů

Jak OpenAI o1 Preview zvládá složité zadání pro psaní textů

Objevte, jak OpenAI o1 Preview překonává GPT-4 díky zvládnutí složitých zadání pro psaní prostřednictvím interního plánování, kreativity a dodržování omezení, c...

2 min čtení
OpenAI o1 Preview +5
LG EXAONE Deep vs DeepSeek R1: Porovnání modelů AI pro uvažování
LG EXAONE Deep vs DeepSeek R1: Porovnání modelů AI pro uvažování

LG EXAONE Deep vs DeepSeek R1: Porovnání modelů AI pro uvažování

Hloubková analýza modelu pro uvažování EXAONE Deep 32B od LG testovaného proti DeepSeek R1 a Alibaba QwQ, zkoumající tvrzení o vyšším výkonu a skutečné schopnos...

12 min čtení
AI Models LLM Testing +3