RAG مع نماذج LLM الاستدلالية: OpenAI O1 مقابل OpenAI GPT4o

RAG مع نماذج LLM الاستدلالية: OpenAI O1 مقابل OpenAI GPT4o

يستفيد OpenAI O1 من تعلم التعزيز والتفكير المتسلسل المدمج ليتفوق على GPT4o في مهام RAG المعقدة، رغم التكلفة الأعلى.

أطلقت OpenAI مؤخراً نموذجاً جديداً يسمى OpenAI O1 من سلسلة نماذج O1. التغيير المعماري الرئيسي في هذه النماذج هو القدرة على التفكير قبل الإجابة على استفسار المستخدم. في هذه المدونة، سنتعمق في التغييرات الأساسية في OpenAI O1، والنماذج الجديدة التي تعتمدها هذه السلسلة، وكيف يمكن لهذا النموذج أن يزيد دقة RAG بشكل كبير. سنقارن بين تدفق RAG بسيط باستخدام نموذج OpenAI GPT4o ونموذج OpenAI O1.

كيف يختلف OpenAI O1 عن النماذج السابقة؟

تعلم التعزيز واسع النطاق

يعتمد نموذج O1 على خوارزميات تعلم التعزيز واسعة النطاق أثناء عملية تدريبه. يتيح ذلك للنموذج تطوير “سلسلة أفكار” قوية، مما يسمح له بالتفكير بشكل أعمق وأكثر استراتيجية في حل المشكلات. ومن خلال تحسين مسارات الاستدلال باستمرار عبر تعلم التعزيز، يعزز النموذج قدرته على تحليل المهام المعقدة وحلها بكفاءة عالية.

Evaluation of GPT4o in Test Time and inference time

دمج التفكير المتسلسل

في السابق، كان التفكير المتسلسل آلية فعّالة في هندسة برمجة الإرشادات لجعل نموذج اللغة “يفكر” ذاتياً ويجيب على الأسئلة المعقدة عبر خطة خطوة بخطوة. مع نماذج O1، أصبحت هذه الخطوة مدمجة افتراضياً في النموذج أثناء وقت الاستدلال، مما يجعلها مفيدة في حل مشكلات الرياضيات والبرمجة.

تم تدريب O1 باستخدام تعلم التعزيز ليقوم بـ"التفكير" قبل الرد عبر سلسلة أفكار خاصة. كلما زاد وقت التفكير، زادت كفاءته في مهام الاستدلال. هذا يفتح بعداً جديداً للتوسّع. لم نعد مقيدين بالتدريب المسبق. يمكننا الآن توسيع حسابات الاستدلال أيضاً. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 سبتمبر 2024

أداء متفوق في معايير الأداء

في تقييمات موسعة، أظهر نموذج O1 أداءً مذهلاً عبر معايير متعددة:

  • AIME (مسابقة الرياضيات الأمريكية): يحل 83% من المسائل بشكل صحيح، وهو تحسن كبير مقارنة بـ 13% لـ GPT-4o.
  • GPQA (اختبار خبراء العلوم): يتفوق على خبراء بمستوى الدكتوراه، ليصبح أول نموذج ذكاء اصطناعي يتفوق على البشر في هذا المعيار.
  • MMLU (فهم اللغة متعدد المهام): يتفوق في 54 من أصل 57 فئة فرعية، محققاً أداء 78.2% مع تمكين الإدراك البصري.
  • مسابقات البرمجة: يحقق تصنيفات عالية في منصات مثل Codeforces، متفوقاً على 93% من المتنافسين البشر.

مقارنة OpenAI O1 مع OpenAI GPT4o في تدفق RAG

لاختبار دقة الأداء بين OpenAI O1 وGPT4o، أنشأنا تدفقين متطابقين مع اختلاف النموذج المستخدم فقط. سنقارن قدرة النماذج على الإجابة عن الأسئلة باستخدام مصدرين تمت فهرستهما حول التقرير الفني لـ OpenAI O1.

أولاً، سنبني تدفق RAG بسيط في FlowHunt. يتكوّن من إدخال محادثة، مسترجع مستندات (يسترجع الوثائق الملائمة)، إرشاد، مولد، وإخراج المحادثة. تتم إضافة مكون OpenAI LLM لتحديد النموذج (وإلا يُستخدم GPT4o افتراضياً).

إليكم استجابة GPT4o:

Response of OpenAI GPT4o model for the query

وهذه نتيجة OpenAI O1:

Response of OpenAI O1 model for the query

كما تلاحظ، استخلص OpenAI O1 المزيد من المزايا المعمارية من المقال نفسه—6 نقاط مقابل 4 فقط. بالإضافة إلى ذلك، يقوم O1 باستنتاجات منطقية من كل نقطة، مضيفاً رؤى أعمق حول فائدة التغيير المعماري.

هل يستحق نموذج OpenAI O1 الاستثمار؟

من خلال تجاربنا، سيكلّف نموذج O1 أكثر مقابل دقة أعلى. يحتوي النموذج الجديد على 3 أنواع من الرموز: Prompt Token، Completion Token، وReason Token (نوع تم إضافته حديثاً)، مما يجعله نموذجاً أكثر تكلفة على الأرجح. في معظم الحالات، يقدم OpenAI O1 إجابات تبدو أكثر فائدة إذا كانت مستندة للحقيقة. ومع ذلك، هناك بعض الحالات التي يتفوق فيها GPT4o على OpenAI O1—فبعض المهام ببساطة لا تحتاج إلى استدلال.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

الأسئلة الشائعة

كيف يختلف OpenAI O1 عن GPT4o؟

يستخدم OpenAI O1 تعلم التعزيز واسع النطاق ويدمج التفكير المتسلسل أثناء الاستدلال، مما يمكّنه من حل المشكلات بشكل أعمق وأكثر استراتيجية مقارنة بـ GPT4o.

هل يتفوق OpenAI O1 على GPT4o في معايير الأداء؟

نعم، يحقق O1 نتائج أعلى في معايير مثل AIME (83% مقابل 13% لـ GPT4o)، وGPQA (متفوقاً على خبراء بمستوى الدكتوراه)، وMMLU، متفوقاً في 54 من أصل 57 فئة.

هل OpenAI O1 دائماً أفضل من GPT4o؟

ليس دائماً. رغم تفوق O1 في المهام التي تتطلب استدلالاً عميقاً، قد يتفوق GPT4o عليه في الحالات الأبسط التي لا تحتاج استدلالاً متقدماً.

ما هي أنواع الرموز الجديدة في OpenAI O1؟

يقدم O1 رمزاً جديداً يسمى 'Reason' بالإضافة إلى رموز Prompt وCompletion، مما يتيح استدلالاً أكثر تطوراً لكنه قد يزيد من التكلفة التشغيلية.

كيف يمكنني الاستفادة من OpenAI O1 في مشاريعي؟

يمكنك استخدام منصات مثل FlowHunt لبناء تدفقات RAG ووكلاء ذكاء اصطناعي باستخدام OpenAI O1 للمهام التي تتطلب استدلالاً متقدماً واسترجاعاً دقيقاً للمستندات.

ياشا مطور برمجيات موهوب متخصص في بايثون وجافا وتعلم الآلة. يكتب ياشا مقالات تقنية عن الذكاء الاصطناعي، وهندسة البرومبت، وتطوير روبوتات الدردشة.

ياشا بوروماند
ياشا بوروماند
المدير التقني، FlowHunt

أنشئ تدفقات RAG متقدمة مع FlowHunt

جرّب FlowHunt للاستفادة من أحدث نماذج LLM مثل OpenAI O1 وGPT4o لتحقيق استدلال واسترجاع معزز فائق.

اعرف المزيد

مقارنة بين OpenAI O3 Mini وDeepSeek للاستخدام الوكيلي
مقارنة بين OpenAI O3 Mini وDeepSeek للاستخدام الوكيلي

مقارنة بين OpenAI O3 Mini وDeepSeek للاستخدام الوكيلي

قارن بين OpenAI O3 Mini وDeepSeek في مهام الاستدلال، استراتيجيات الشطرنج، واستخدام الأدوات الوكيلة. اكتشف أي الذكاء الاصطناعي يتفوق في الدقة، الأسعار، وأتمتة سي...

9 دقيقة قراءة
AI Models OpenAI +5
ما الجديد: GPT 4.1، HubSpot و9 نماذج صور جديدة
ما الجديد: GPT 4.1، HubSpot و9 نماذج صور جديدة

ما الجديد: GPT 4.1، HubSpot و9 نماذج صور جديدة

يقدم FlowHunt v2.19.14 نماذج GPT-4.1 من OpenAI، و9 نماذج جديدة لتوليد الصور من Stable Diffusion، Google، وIdeogram، بالإضافة إلى تكامل HubSpot لتبسيط سير العمل ...

2 دقيقة قراءة
AI OpenAI +8
داخل وكلاء الذكاء الاصطناعي: عملية التفكير في o1 Preview
داخل وكلاء الذكاء الاصطناعي: عملية التفكير في o1 Preview

داخل وكلاء الذكاء الاصطناعي: عملية التفكير في o1 Preview

استكشف القدرات المتقدمة لوكيل الذكاء الاصطناعي GPT-o1 Preview. يغوص هذا التحليل العميق في كيفية تجاوزه لتوليد النصوص، ويبرز مهاراته في الاستدلال، وحل المشكلات، ...

8 دقيقة قراءة
AI AI Agents +5