المنهجية
قمنا باختبار 20 نموذجًا مختلفًا من وكلاء الذكاء الاصطناعي عبر خمس مهام أساسية، صُممت كل واحدة منها لاستكشاف قدرات مختلفة:
- إنشاء المحتوى: إنتاج مقال مفصل حول أساسيات إدارة المشاريع.
- حل المشكلات: إجراء حسابات تتعلق بالإيرادات والأرباح.
- التلخيص: تلخيص النتائج الأساسية من مقال معقد.
- المقارنة: تحليل الأثر البيئي للمركبات الكهربائية والمركبات العاملة بالهيدروجين.
- الكتابة الإبداعية: تأليف قصة مستقبلية تدور حول المركبات الكهربائية.
ركز تحليلنا على جودة المخرجات بالإضافة إلى طريقة تفكير الوكيل، من خلال تقييم قدرته على التخطيط والاستنتاج والتكيف والاستخدام الفعال للأدوات المتاحة. صنفنا النماذج بناءً على أدائها كوكيل ذكاء اصطناعي، مع إعطاء أهمية أكبر لعمليات التفكير والاستراتيجيات الخاصة بها.
أداء نماذج وكلاء الذكاء الاصطناعي – تحليل لكل مهمة
المهمة 1: إنشاء المحتوى
أظهرت جميع النماذج العشرين قدرة قوية على إنتاج مقالات عالية الجودة وغنية بالمعلومات. ومع ذلك، يأخذ التصنيف التالي في الاعتبار العمليات الفكرية الداخلية لكل وكيل وكيف وصل إلى مخرجاته النهائية:
- Gemini 1.5 Pro: فهم قوي للمهمة، نهج استراتيجي في البحث، ومخرجات منظمة جيدًا.
- Claude 3.5 Sonnet: نهج قوي في التخطيط مع مخرجات واضحة، موجزة وسهلة الوصول.
- Mistral 8x7B: اختيار فعال للأدوات وإخراج منظم وواضح.
- Mistral 7B: بحث استراتيجي وإخراج نهائي جيد التنسيق.
- GPT-4o AI Agent (Original): تميز في اختيار الأدوات وأظهر نهجًا متكيفًا في البحث.
- Gemini 1.5 Flash 8B: إخراج عالي الجودة لكن مع نقص في شفافية العمليات الداخلية.
- Claude 3 Haiku: أداء قوي مع فهم جيد للمهمة.
- GPT-4 Vision Preview AI Agent: أداء جيد مع إخراج عالي الجودة.
- GPT-o1 Mini AI Agent: متكيف وتكراري، مع استخدام جيد للأدوات.
- Llama 3.2 3B: كتابة إبداعية جيدة ومخرجات مفصلة، لكن العملية الداخلية لم تظهر.
- Claude 3: يظهر نهجًا تكراريًا أثناء التكيف مع التعليمات، لكن الأفكار الداخلية لم تظهر.
- Claude 2: أظهر مهارات كتابة جيدة وفهمًا للمهمة.
- GPT-3.5 Turbo AI Agent: اتبع التعليمات والتزم بإرشادات التنسيق، لكن افتقر للعمليات الداخلية.
- Gemini 2.0 Flash Experimental: أنتج مخرجات جيدة الكتابة، لكنه أظهر عملية متكررة.
- Grok Beta AI Agent: استخدام استراتيجي للأدوات، لكنه واجه صعوبة مع الحلقات المتكررة.
- Gemini 1.5 Flash AI Agent: استخدم نهجًا منطقيًا لكن عملية التفكير كانت متكررة.
- Mistral Large AI Agent: كانت المخرجات منظمة بشكل جيد، لكن أفكاره الداخلية لم تكن شفافة.
- o1 Preview AI Agent: أدى النموذج بشكل جيد، لكن لم تظهر أي شفافية في العمليات الفكرية.
- GPT 4o mini AI Agent: رغم أن المخرجات كانت جيدة، إلا أن العمليات الداخلية لم تظهر.
- Llama 3.2 1B: أدى النموذج بشكل جيد ولكن مع نقص في الرؤية لعملياته الداخلية ولم يظهر نهجًا فريدًا.
المهمة 2: حل المشكلات والحسابات
قمنا بتقييم القدرات الرياضية للنماذج واستراتيجياتها في حل المشكلات:
- Claude 3.5 Sonnet: دقة عالية، تفكير استراتيجي، وحل موضح بشكل جيد.
- Mistral 7B: حلول واضحة ودقيقة، وأظهر تفكيرًا استراتيجيًا.
- GPT-4 Vision Preview AI Agent: فهم صحيح وحسابات دقيقة.
- Claude 3 Haiku: حساب فعال وشرح واضح.
- o1 Preview AI Agent: أظهر القدرة على تقسيم الحسابات إلى عدة خطوات.
- Mistral Large AI Agent: حسابات دقيقة مع إجابة نهائية جيدة العرض.
- o1 mini: تفكير استراتيجي وفهم قوي للرياضيات المطلوبة.
- Gemini 1.5 Pro: حسابات دقيقة ومفصلة، وكذلك منسقة بشكل جيد.
- Llama 3.2 1B: قسم الحسابات بشكل جيد، لكن ظهرت بعض أخطاء التنسيق.
- GPT-4o AI Agent (Original): أتم معظم الحسابات بشكل جيد، وقدم شرحًا واضحًا ومنطقيًا للمهمة.
- GPT-4o Mini AI Agent: قام بالحسابات لكن ظهرت أخطاء في الإجابات النهائية وصعوبة في تنسيق المخرجات.
- Claude 3: نهج واضح في الحسابات، لكن ليس أكثر من ذلك.
- Gemini 2.0 Flash Experimental: حسابات أساسية دقيقة، لكن مع بعض الأخطاء في المخرجات النهائية.
- GPT-3.5 Turbo AI Agent: الحسابات الأساسية كانت دقيقة، لكن ظهرت مشاكل في الاستراتيجية ودقة الإجابات النهائية.
- Gemini 1.5 Flash AI Agent: ظهرت بعض أخطاء الحسابات المتعلقة بالوحدات الإضافية المطلوبة.
- Mistral 8x7B: الحسابات كانت دقيقة غالبًا، لكنه لم يستكشف كل الحلول الممكنة بالكامل.
- Claude 2: دقيق في الحسابات الأولية، لكن واجه مشاكل استراتيجية وأخطاء في الحل النهائي.
- Gemini 1.5 Flash 8B: بعض الأخطاء في الحل النهائي.
- Grok Beta AI Agent: لم يتمكن من إكمال المهمة بالكامل وفشل في تقديم مخرجات كاملة.
- Llama 3.2 3B: أخطاء في الحسابات وكان العرض غير مكتمل.
المهمة 3: التلخيص
قمنا بتقييم قدرة النماذج على استخراج المعلومات الأساسية وإنتاج ملخصات موجزة:
- GPT-4o Mini AI Agent: ممتاز في تلخيص النقاط الرئيسية مع الالتزام بعدد الكلمات المطلوب.
- Gemini 1.5 Pro: جيد في تلخيص النص المقدم مع الالتزام بعدد الكلمات المطلوب.
- o1 Preview AI Agent: تلخيص موجز ومنظم بشكل جيد.
- Claude 3 Haiku: لخص النص بفعالية مع الالتزام بالمعايير المحددة.
- Mistral 7B: لخص بدقة مع الالتزام بعدد الكلمات.
- Mistral 8x7B: اختصر المعلومات بفعالية مع الالتزام بالمعايير المحددة.
- GPT-4 Vision Preview AI Agent: ملخص دقيق جدًا للنص المقدم.
- GPT-3.5 Turbo AI Agent: قدرة جيدة على تلخيص النص مع إبراز جميع الجوانب المهمة.
- Llama 3.2 1B: ملخص موجز ومنظم.
- Claude 3.5 Sonnet: ملخص موجز مع الحفاظ على متطلبات التنسيق.
- Claude 2: ملخص موجز مع فهم فعال للنص المقدم.
- Claude 3: اختصر المعلومات في مخرجات موجزة.
- Mistral Large AI Agent: لخص النص بشكل جيد، لكنه لم يلتزم بالكامل بعدد الكلمات.