RAG z rozumującymi LLM-ami: OpenAI O1 vs OpenAI GPT4o

OpenAI O1 wykorzystuje uczenie przez wzmacnianie oraz natywne rozumowanie chain of thought, by przewyższyć GPT4o w złożonych zadaniach RAG, choć przy wyższych kosztach.

RAG z rozumującymi LLM-ami: OpenAI O1 vs OpenAI GPT4o

OpenAI właśnie wypuściło nowy model o nazwie OpenAI O1 z serii modeli O1. Najważniejszą zmianą architektoniczną w tych modelach jest zdolność do „myślenia” przed udzieleniem odpowiedzi na zapytanie użytkownika. W tym wpisie blogowym przyjrzymy się bliżej kluczowym zmianom w OpenAI O1, nowym paradygmatom stosowanym przez te modele i temu, jak ten model może znacząco zwiększyć dokładność RAG. Porównamy także prosty przepływ RAG z użyciem OpenAI GPT4o oraz modelu OpenAI O1.

Czym różni się OpenAI O1 od poprzednich modeli?

Uczenie przez wzmacnianie na dużą skalę

Model O1 wykorzystuje algorytmy uczenia przez wzmacnianie na dużą skalę podczas procesu treningu. Pozwala mu to rozwijać solidny „łańcuch rozumowania” (Chain of Thought), co umożliwia głębsze i bardziej strategiczne podejście do rozwiązywania problemów. Przez ciągłą optymalizację ścieżek rozumowania dzięki uczeniu przez wzmacnianie, model O1 znacząco poprawia swoje możliwości analizy i rozwiązywania złożonych zadań.

Evaluation of GPT4o in Test Time and inference time

Integracja chain of thought

Dotychczas chain of thought sprawdzał się jako technika inżynierii promptów, która pozwalała LLM-om „myśleć” samodzielnie i rozwiązywać złożone pytania krok po kroku. W modelach O1 ten krok jest natywnie zintegrowany i domyślnie dostępny już na etapie inferencji, co czyni go szczególnie przydatnym przy zadaniach matematycznych oraz programistycznych.

O1 jest trenowany z RL, by „myśleć” przed odpowiedzią poprzez prywatny chain of thought. Im dłużej myśli, tym lepiej radzi sobie w zadaniach rozumowania. To otwiera nowy wymiar skalowania. Nie ogranicza nas już pretrening. Możemy skalować także moc obliczeniową inferencji. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 września 2024

Przewaga w benchmarkach

W szeroko zakrojonych testach model O1 wykazał się znakomitymi wynikami w różnych benchmarkach:

  • AIME (American Invitational Mathematics Examination): Rozwiązuje poprawnie 83% zadań, co stanowi ogromny postęp względem 13% dla GPT-4o.
  • GPQA (Test ekspercki z nauk ścisłych): Przewyższa ekspertów z doktoratem, jako pierwszy model AI pokonując ludzi w tym benchmarku.
  • MMLU (Multi-Task Language Understanding): Przoduje w 54 z 57 podkategorii, osiągając 78,2% skuteczności z aktywną percepcją wizualną.
  • Konkursy programistyczne: Osiąga wysokie pozycje na platformach takich jak Codeforces, przewyższając 93% ludzkich uczestników.

OpenAI O1 vs OpenAI GPT4o w przepływie RAG

Aby przetestować dokładność działania OpenAI O1 i GPT4o, stworzyliśmy dwa identyczne przepływy z różnymi LLM-ami. Porównamy możliwości odpowiadania na pytania przez oba modele na podstawie dwóch źródeł dotyczących raportu technicznego OpenAI O1.

Najpierw tworzymy prosty przepływ RAG w FlowHunt. Składa się on z wejścia czatu, wyszukiwarki dokumentów (pobierającej odpowiednie dokumenty), promptu, generatora i wyjścia czatu. Dodano komponent LLM OpenAI, by określić model (domyślnie używany jest GPT4o).

Oto odpowiedź z GPT4o:

Response of OpenAI GPT4o model for the query

A tutaj rezultat z OpenAI O1:

Response of OpenAI O1 model for the query

Jak widać, OpenAI O1 wychwycił więcej zalet architektonicznych z samego artykułu—6 punktów zamiast 4. Dodatkowo O1 wyciąga logiczne implikacje z każdego z punktów, wzbogacając dokument o dodatkowe spostrzeżenia dotyczące powodów, dla których dana zmiana architektoniczna jest użyteczna.

Czy warto wybrać model OpenAI O1?

Z naszych eksperymentów wynika, że O1 będzie droższy, ale oferuje wyższą dokładność. Nowy model ma 3 typy tokenów: Prompt Token, Completion Token oraz Reason Token (nowo wprowadzony typ tokena), co może generować wyższe koszty. W większości przypadków OpenAI O1 udziela odpowiedzi, które wydają się bardziej pomocne i bliższe prawdzie. Zdarzają się jednak sytuacje, gdy GPT4o przewyższa OpenAI O1—niektóre zadania po prostu nie wymagają rozumowania.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

Najczęściej zadawane pytania

Czym różni się OpenAI O1 od GPT4o?

OpenAI O1 wykorzystuje uczenie przez wzmacnianie na dużą skalę i integruje rozumowanie chain of thought już na etapie inferencji, co pozwala na głębsze i bardziej strategiczne rozwiązywanie problemów niż GPT4o.

Czy OpenAI O1 przewyższa GPT4o w benchmarkach?

Tak, O1 osiąga wyższe wyniki w benchmarkach takich jak AIME (83% vs. 13% dla GPT4o), GPQA (przewyższając ekspertów z doktoratem) i MMLU, przodując w 54 z 57 kategorii.

Czy OpenAI O1 zawsze jest lepszy od GPT4o?

Nie zawsze. O1 wyróżnia się przy zadaniach wymagających rozumowania, ale GPT4o może być lepszy przy prostszych zastosowaniach, które nie wymagają zaawansowanego rozumowania.

Jakie są nowe typy tokenów w OpenAI O1?

O1 wprowadza nowy token 'Reason' oprócz Prompt i Completion, umożliwiając bardziej zaawansowane rozumowanie, ale potencjalnie zwiększając koszty operacyjne.

Jak mogę wykorzystać OpenAI O1 w swoich projektach?

Możesz użyć platform takich jak FlowHunt do budowy przepływów RAG i agentów AI z OpenAI O1 do zadań wymagających zaawansowanego rozumowania i precyzyjnego wyszukiwania dokumentów.

Yasha jest utalentowanym programistą specjalizującym się w Pythonie, Javie i uczeniu maszynowym. Yasha pisze artykuły techniczne o AI, inżynierii promptów i tworzeniu chatbotów.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Buduj zaawansowane przepływy RAG z FlowHunt

Wypróbuj FlowHunt, aby wykorzystać najnowsze LLM-y, takie jak OpenAI O1 i GPT4o do lepszego rozumowania i generowania z rozszerzonym wyszukiwaniem.

Dowiedz się więcej