Muhakeme Yetenekli LLM'lerle RAG: OpenAI O1 ve OpenAI GPT4o Karşılaştırması

OpenAI O1 GPT4o RAG Reasoning

OpenAI, O1 serisinin yeni modeli olan OpenAI O1 ‘i yayınladı. Bu modellerdeki temel mimari değişiklik, kullanıcı sorgusuna yanıt vermeden önce düşünebilme yeteneğidir. Bu blogda, OpenAI O1’deki temel değişiklikleri, bu modellerin kullandığı yeni paradigmaları ve bu modelin RAG doğruluğunu nasıl önemli ölçüde artırabileceğini detaylıca inceleyeceğiz. OpenAI GPT4o ve OpenAI O1 modelleriyle yapılan basit bir RAG akışını karşılaştıracağız.

OpenAI O1, önceki modellerden nasıl farklı?

Büyük Ölçekli Pekiştirmeli Öğrenme

O1 modeli, eğitim sürecinde büyük ölçekli pekiştirmeli öğrenme algoritmalarından faydalanır. Bu sayede model, güçlü bir “Akıl Yürütme Zinciri” geliştirerek sorunlar üzerinde daha derin ve stratejik şekilde düşünmesini sağlar. Pekiştirmeli öğrenme yoluyla muhakeme yollarını sürekli optimize eden O1, karmaşık görevleri verimli şekilde analiz etme ve çözme yeteneğini önemli ölçüde artırır.

Evaluation of GPT4o in Test Time and inference time

Akıl Yürütme Zinciri Entegrasyonu

Daha önce, akıl yürütme zinciri; LLM’nin kendi başına düşünmesini ve karmaşık sorulara adım adım planla yanıt vermesini sağlamak için etkili bir prompt mühendisliği yöntemi olarak kullanılıyordu. O1 modelleriyle, bu adım kutudan çıkar çıkmaz gelir ve çıkarım anında modele yerleşik olarak entegre edilmiştir; bu da matematiksel ve kodlama problemi çözme görevlerinde oldukça faydalıdır.

O1, yanıt vermeden önce özel bir akıl yürütme zinciri aracılığıyla “düşünmek” için RL ile eğitildi. Ne kadar uzun düşünürse, muhakeme görevlerinde o kadar iyi sonuç verir. Bu ölçeklendirme için yeni bir boyut açıyor. Artık yalnızca ön eğitimle sınırlı değiliz. Şimdi çıkarım hesaplamasını da ölçeklendirebiliriz. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 Eylül 2024

Üstün Benchmark Performansı

Kapsamlı değerlendirmelerde, O1 modeli çeşitli benchmarklarda çarpıcı performans sergiledi:

  • AIME (American Invitational Mathematics Examination): Soruların %83’ünü doğru çözüyor; bu, GPT-4o’nun %13’lük başarısına göre önemli bir gelişme.
  • GPQA (Uzman Düzeyinde Bilim Testi): Doktora seviyesindeki uzmanların üzerine çıkarak, bu benchmarkta insanları geride bırakan ilk yapay zeka modeli oldu.
  • MMLU (Çoklu Görev Dil Anlayışı): 57 alt kategorinin 54’ünde üstünlük sağlayarak, görsel algı etkinleştirildiğinde %78,2 başarıya ulaşıyor.
  • Kodlama Yarışmaları: Codeforces gibi platformlarda yüksek dereceler elde ederek, insan yarışmacıların %93’ünü geride bırakıyor.

RAG Akışında OpenAI O1 ve OpenAI GPT4o Karşılaştırması

OpenAI O1 ve GPT4o’nun performans doğruluğunu test etmek için, iki farklı LLM ile iki özdeş akış oluşturduk. OpenAI O1’in teknik raporuyla ilgili olarak dizine eklenen iki kaynaktan modellere soru-cevap yeteneklerini karşılaştıracağız.

Öncelikle FlowHunt’ta basit bir RAG akışı oluşturuyoruz. Bu; Sohbet Girişi, Belge Getirici (ilgili belgeleri getirir), Prompt, Üreteç ve Sohbet Çıkışından oluşur. LLM OpenAI bileşeni, modeli belirtmek için eklenir (aksi halde varsayılan olarak GPT4o kullanılır).

GPT4o’nun yanıtı şu şekilde:

Response of OpenAI GPT4o model for the query

Ve OpenAI O1’in sonucu ise:

Response of OpenAI O1 model for the query

Görüldüğü üzere, OpenAI O1 makaleden daha fazla mimari avantajı tespit etti—6 maddeye karşılık 4 madde. Ayrıca O1, her noktadan mantıksal çıkarımlar yaparak dokümanı mimari değişikliğin faydasına dair daha fazla bilgiyle zenginleştiriyor.

Logo

İşinizi büyütmeye hazır mısınız?

Bugün ücretsiz denemenizi başlatın ve günler içinde sonuçları görün.

OpenAI O1 Modeli Değer mi?

Deneyimlerimize göre, O1 modeli daha yüksek doğruluk için daha fazla maliyet anlamına geliyor. Yeni modelde Prompt Token, Completion Token ve Reason Token (yeni eklenen token türü) olmak üzere 3 tür token bulunuyor ve bu da potansiyel olarak maliyeti artırıyor. Çoğu durumda, OpenAI O1 gerçeğe dayalıysa daha faydalı görünen yanıtlar veriyor. Ancak, bazı durumlarda GPT4o, OpenAI O1’i geride bırakıyor—bazı görevler yalnızca muhakemeye ihtiyaç duymuyor.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

Sıkça sorulan sorular

Yasha, Python, Java ve makine öğrenimi konusunda uzmanlaşmış yetenekli bir yazılım geliştiricisidir. Yasha, yapay zeka, prompt mühendisliği ve sohbet botu geliştirme konularında teknik makaleler yazar.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

FlowHunt ile Gelişmiş RAG Akışları Oluşturun

FlowHunt ile OpenAI O1 ve GPT4o gibi en yeni LLM'leri kullanarak üstün muhakeme ve bilgi getirimli üretimden faydalanın.

Daha fazla bilgi

GPT-4.1: Standart Yapay Zeka Görevlerinde Performans Analizi
GPT-4.1: Standart Yapay Zeka Görevlerinde Performans Analizi

GPT-4.1: Standart Yapay Zeka Görevlerinde Performans Analizi

OpenAI’nin GPT-4.1 modeli, yapay zeka performansında büyük bir sıçrama anlamına geliyor. Bu makale, içerik üretimi, matematiksel hesaplama, özetleme, karşılaştı...

5 dakika okuma
AI GPT-4.1 +8