
مقارنة بين OpenAI O3 Mini وDeepSeek للاستخدام الوكيلي
قارن بين OpenAI O3 Mini وDeepSeek في مهام الاستدلال، استراتيجيات الشطرنج، واستخدام الأدوات الوكيلة. اكتشف أي الذكاء الاصطناعي يتفوق في الدقة، الأسعار، وأتمتة سي...
أطلقت OpenAI مؤخراً نموذجاً جديداً يسمى OpenAI O1 من سلسلة نماذج O1. التغيير المعماري الرئيسي في هذه النماذج هو القدرة على التفكير قبل الإجابة على استفسار المستخدم. في هذه المدونة، سنتعمق في التغييرات الأساسية في OpenAI O1، والنماذج الجديدة التي تعتمدها هذه السلسلة، وكيف يمكن لهذا النموذج أن يزيد دقة RAG بشكل كبير. سنقارن بين تدفق RAG بسيط باستخدام نموذج OpenAI GPT4o ونموذج OpenAI O1.
يعتمد نموذج O1 على خوارزميات تعلم التعزيز واسعة النطاق أثناء عملية تدريبه. يتيح ذلك للنموذج تطوير “سلسلة أفكار” قوية، مما يسمح له بالتفكير بشكل أعمق وأكثر استراتيجية في حل المشكلات. ومن خلال تحسين مسارات الاستدلال باستمرار عبر تعلم التعزيز، يعزز النموذج قدرته على تحليل المهام المعقدة وحلها بكفاءة عالية.
في السابق، كان التفكير المتسلسل آلية فعّالة في هندسة برمجة الإرشادات لجعل نموذج اللغة “يفكر” ذاتياً ويجيب على الأسئلة المعقدة عبر خطة خطوة بخطوة. مع نماذج O1، أصبحت هذه الخطوة مدمجة افتراضياً في النموذج أثناء وقت الاستدلال، مما يجعلها مفيدة في حل مشكلات الرياضيات والبرمجة.
تم تدريب O1 باستخدام تعلم التعزيز ليقوم بـ"التفكير" قبل الرد عبر سلسلة أفكار خاصة. كلما زاد وقت التفكير، زادت كفاءته في مهام الاستدلال. هذا يفتح بعداً جديداً للتوسّع. لم نعد مقيدين بالتدريب المسبق. يمكننا الآن توسيع حسابات الاستدلال أيضاً. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 سبتمبر 2024
في تقييمات موسعة، أظهر نموذج O1 أداءً مذهلاً عبر معايير متعددة:
لاختبار دقة الأداء بين OpenAI O1 وGPT4o، أنشأنا تدفقين متطابقين مع اختلاف النموذج المستخدم فقط. سنقارن قدرة النماذج على الإجابة عن الأسئلة باستخدام مصدرين تمت فهرستهما حول التقرير الفني لـ OpenAI O1.
أولاً، سنبني تدفق RAG بسيط في FlowHunt. يتكوّن من إدخال محادثة، مسترجع مستندات (يسترجع الوثائق الملائمة)، إرشاد، مولد، وإخراج المحادثة. تتم إضافة مكون OpenAI LLM لتحديد النموذج (وإلا يُستخدم GPT4o افتراضياً).
إليكم استجابة GPT4o:
وهذه نتيجة OpenAI O1:
كما تلاحظ، استخلص OpenAI O1 المزيد من المزايا المعمارية من المقال نفسه—6 نقاط مقابل 4 فقط. بالإضافة إلى ذلك، يقوم O1 باستنتاجات منطقية من كل نقطة، مضيفاً رؤى أعمق حول فائدة التغيير المعماري.
من خلال تجاربنا، سيكلّف نموذج O1 أكثر مقابل دقة أعلى. يحتوي النموذج الجديد على 3 أنواع من الرموز: Prompt Token، Completion Token، وReason Token (نوع تم إضافته حديثاً)، مما يجعله نموذجاً أكثر تكلفة على الأرجح. في معظم الحالات، يقدم OpenAI O1 إجابات تبدو أكثر فائدة إذا كانت مستندة للحقيقة. ومع ذلك، هناك بعض الحالات التي يتفوق فيها GPT4o على OpenAI O1—فبعض المهام ببساطة لا تحتاج إلى استدلال.
يستخدم OpenAI O1 تعلم التعزيز واسع النطاق ويدمج التفكير المتسلسل أثناء الاستدلال، مما يمكّنه من حل المشكلات بشكل أعمق وأكثر استراتيجية مقارنة بـ GPT4o.
نعم، يحقق O1 نتائج أعلى في معايير مثل AIME (83% مقابل 13% لـ GPT4o)، وGPQA (متفوقاً على خبراء بمستوى الدكتوراه)، وMMLU، متفوقاً في 54 من أصل 57 فئة.
ليس دائماً. رغم تفوق O1 في المهام التي تتطلب استدلالاً عميقاً، قد يتفوق GPT4o عليه في الحالات الأبسط التي لا تحتاج استدلالاً متقدماً.
يقدم O1 رمزاً جديداً يسمى 'Reason' بالإضافة إلى رموز Prompt وCompletion، مما يتيح استدلالاً أكثر تطوراً لكنه قد يزيد من التكلفة التشغيلية.
يمكنك استخدام منصات مثل FlowHunt لبناء تدفقات RAG ووكلاء ذكاء اصطناعي باستخدام OpenAI O1 للمهام التي تتطلب استدلالاً متقدماً واسترجاعاً دقيقاً للمستندات.
ياشا مطور برمجيات موهوب متخصص في بايثون وجافا وتعلم الآلة. يكتب ياشا مقالات تقنية عن الذكاء الاصطناعي، وهندسة البرومبت، وتطوير روبوتات الدردشة.
جرّب FlowHunt للاستفادة من أحدث نماذج LLM مثل OpenAI O1 وGPT4o لتحقيق استدلال واسترجاع معزز فائق.
قارن بين OpenAI O3 Mini وDeepSeek في مهام الاستدلال، استراتيجيات الشطرنج، واستخدام الأدوات الوكيلة. اكتشف أي الذكاء الاصطناعي يتفوق في الدقة، الأسعار، وأتمتة سي...
يقدم FlowHunt v2.19.14 نماذج GPT-4.1 من OpenAI، و9 نماذج جديدة لتوليد الصور من Stable Diffusion، Google، وIdeogram، بالإضافة إلى تكامل HubSpot لتبسيط سير العمل ...
استكشف القدرات المتقدمة لوكيل الذكاء الاصطناعي GPT-o1 Preview. يغوص هذا التحليل العميق في كيفية تجاوزه لتوليد النصوص، ويبرز مهاراته في الاستدلال، وحل المشكلات، ...