Muhakeme Yetenekli LLM'lerle RAG: OpenAI O1 ve OpenAI GPT4o Karşılaştırması

Muhakeme Yetenekli LLM'lerle RAG: OpenAI O1 ve OpenAI GPT4o Karşılaştırması

OpenAI O1, pekiştirmeli öğrenme ve doğal akıl yürütme zinciri sayesinde, karmaşık RAG görevlerinde GPT4o’nun ötesine geçiyor; ancak daha yüksek bir maliyetle.

OpenAI, O1 serisinin yeni modeli olan OpenAI O1‘i yayınladı. Bu modellerdeki temel mimari değişiklik, kullanıcı sorgusuna yanıt vermeden önce düşünebilme yeteneğidir. Bu blogda, OpenAI O1’deki temel değişiklikleri, bu modellerin kullandığı yeni paradigmaları ve bu modelin RAG doğruluğunu nasıl önemli ölçüde artırabileceğini detaylıca inceleyeceğiz. OpenAI GPT4o ve OpenAI O1 modelleriyle yapılan basit bir RAG akışını karşılaştıracağız.

OpenAI O1, önceki modellerden nasıl farklı?

Büyük Ölçekli Pekiştirmeli Öğrenme

O1 modeli, eğitim sürecinde büyük ölçekli pekiştirmeli öğrenme algoritmalarından faydalanır. Bu sayede model, güçlü bir “Akıl Yürütme Zinciri” geliştirerek sorunlar üzerinde daha derin ve stratejik şekilde düşünmesini sağlar. Pekiştirmeli öğrenme yoluyla muhakeme yollarını sürekli optimize eden O1, karmaşık görevleri verimli şekilde analiz etme ve çözme yeteneğini önemli ölçüde artırır.

Evaluation of GPT4o in Test Time and inference time

Akıl Yürütme Zinciri Entegrasyonu

Daha önce, akıl yürütme zinciri; LLM’nin kendi başına düşünmesini ve karmaşık sorulara adım adım planla yanıt vermesini sağlamak için etkili bir prompt mühendisliği yöntemi olarak kullanılıyordu. O1 modelleriyle, bu adım kutudan çıkar çıkmaz gelir ve çıkarım anında modele yerleşik olarak entegre edilmiştir; bu da matematiksel ve kodlama problemi çözme görevlerinde oldukça faydalıdır.

O1, yanıt vermeden önce özel bir akıl yürütme zinciri aracılığıyla “düşünmek” için RL ile eğitildi. Ne kadar uzun düşünürse, muhakeme görevlerinde o kadar iyi sonuç verir. Bu ölçeklendirme için yeni bir boyut açıyor. Artık yalnızca ön eğitimle sınırlı değiliz. Şimdi çıkarım hesaplamasını da ölçeklendirebiliriz. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 Eylül 2024

Üstün Benchmark Performansı

Kapsamlı değerlendirmelerde, O1 modeli çeşitli benchmarklarda çarpıcı performans sergiledi:

  • AIME (American Invitational Mathematics Examination): Soruların %83’ünü doğru çözüyor; bu, GPT-4o’nun %13’lük başarısına göre önemli bir gelişme.
  • GPQA (Uzman Düzeyinde Bilim Testi): Doktora seviyesindeki uzmanların üzerine çıkarak, bu benchmarkta insanları geride bırakan ilk yapay zeka modeli oldu.
  • MMLU (Çoklu Görev Dil Anlayışı): 57 alt kategorinin 54’ünde üstünlük sağlayarak, görsel algı etkinleştirildiğinde %78,2 başarıya ulaşıyor.
  • Kodlama Yarışmaları: Codeforces gibi platformlarda yüksek dereceler elde ederek, insan yarışmacıların %93’ünü geride bırakıyor.

RAG Akışında OpenAI O1 ve OpenAI GPT4o Karşılaştırması

OpenAI O1 ve GPT4o’nun performans doğruluğunu test etmek için, iki farklı LLM ile iki özdeş akış oluşturduk. OpenAI O1’in teknik raporuyla ilgili olarak dizine eklenen iki kaynaktan modellere soru-cevap yeteneklerini karşılaştıracağız.

Öncelikle FlowHunt’ta basit bir RAG akışı oluşturuyoruz. Bu; Sohbet Girişi, Belge Getirici (ilgili belgeleri getirir), Prompt, Üreteç ve Sohbet Çıkışından oluşur. LLM OpenAI bileşeni, modeli belirtmek için eklenir (aksi halde varsayılan olarak GPT4o kullanılır).

GPT4o’nun yanıtı şu şekilde:

Response of OpenAI GPT4o model for the query

Ve OpenAI O1’in sonucu ise:

Response of OpenAI O1 model for the query

Görüldüğü üzere, OpenAI O1 makaleden daha fazla mimari avantajı tespit etti—6 maddeye karşılık 4 madde. Ayrıca O1, her noktadan mantıksal çıkarımlar yaparak dokümanı mimari değişikliğin faydasına dair daha fazla bilgiyle zenginleştiriyor.

OpenAI O1 Modeli Değer mi?

Deneyimlerimize göre, O1 modeli daha yüksek doğruluk için daha fazla maliyet anlamına geliyor. Yeni modelde Prompt Token, Completion Token ve Reason Token (yeni eklenen token türü) olmak üzere 3 tür token bulunuyor ve bu da potansiyel olarak maliyeti artırıyor. Çoğu durumda, OpenAI O1 gerçeğe dayalıysa daha faydalı görünen yanıtlar veriyor. Ancak, bazı durumlarda GPT4o, OpenAI O1’i geride bırakıyor—bazı görevler yalnızca muhakemeye ihtiyaç duymuyor.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

Sıkça sorulan sorular

OpenAI O1, GPT4o'dan nasıl farklıdır?

OpenAI O1, büyük ölçekli pekiştirmeli öğrenme kullanır ve akıl yürütme zincirini çıkarım anında entegre eder; bu da GPT4o'ya kıyasla daha derin ve stratejik problem çözmeyi mümkün kılar.

OpenAI O1, benchmarklarda GPT4o'yu geride bırakıyor mu?

Evet, O1; AIME (GPT4o'nun %13'üne karşılık %83), GPQA (doktora seviyesindeki uzmanların üzerinde) ve MMLU'da daha yüksek puanlar alır; 57 kategorinin 54'ünde üstünlük sağlar.

OpenAI O1 her zaman GPT4o'dan iyi mi?

Her zaman değil. O1, muhakeme gerektiren görevlerde öne çıksa da, GPT4o ileri düzey muhakeme gerektirmeyen basit uygulamalarda daha iyi sonuçlar verebilir.

OpenAI O1'deki yeni token türleri nelerdir?

O1, Prompt ve Completion token'larına ek olarak yeni bir 'Reason' token'ı sunar; bu da daha gelişmiş muhakemeye olanak tanırken, operasyonel maliyeti de artırabilir.

Projelerimde OpenAI O1'i nasıl kullanabilirim?

FlowHunt gibi platformları kullanarak, OpenAI O1 ile gelişmiş muhakeme ve doğru belge getirimine ihtiyaç duyan RAG akışları ve yapay zeka ajanları geliştirebilirsiniz.

Yasha, Python, Java ve makine öğrenimi konusunda uzmanlaşmış yetenekli bir yazılım geliştiricisidir. Yasha, yapay zeka, prompt mühendisliği ve sohbet botu geliştirme konularında teknik makaleler yazar.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

FlowHunt ile Gelişmiş RAG Akışları Oluşturun

FlowHunt ile OpenAI O1 ve GPT4o gibi en yeni LLM'leri kullanarak üstün muhakeme ve bilgi getirimli üretimden faydalanın.

Daha fazla bilgi

Yapay Zeka Ajanları: GPT 4o Nasıl Düşünüyor?
Yapay Zeka Ajanları: GPT 4o Nasıl Düşünüyor?

Yapay Zeka Ajanları: GPT 4o Nasıl Düşünüyor?

GPT-4o’nun düşünme süreçlerine dair kapsamlı bir değerlendirme ile AI Ajanlarının nasıl çalıştığını keşfedin. İçerik üretimi, problem çözme ve yaratıcı yazım gi...

7 dakika okuma
AI GPT-4o +6
GPT-4.1: Standart Yapay Zeka Görevlerinde Performans Analizi
GPT-4.1: Standart Yapay Zeka Görevlerinde Performans Analizi

GPT-4.1: Standart Yapay Zeka Görevlerinde Performans Analizi

OpenAI’nin GPT-4.1 modeli, yapay zeka performansında büyük bir sıçrama anlamına geliyor. Bu makale, içerik üretimi, matematiksel hesaplama, özetleme, karşılaştı...

5 dakika okuma
AI GPT-4.1 +8
OpenAI O3 Mini ve DeepSeek'in Ajansal Kullanımı Karşılaştırması
OpenAI O3 Mini ve DeepSeek'in Ajansal Kullanımı Karşılaştırması

OpenAI O3 Mini ve DeepSeek'in Ajansal Kullanımı Karşılaştırması

OpenAI O3 Mini ve DeepSeek'i akıl yürütme, satranç stratejisi görevleri ve ajansal araç kullanımı açısından karşılaştırın. Hangi yapay zekanın doğruluk, uygun f...

8 dakika okuma
AI Models OpenAI +5