Gemma 4 صدر بدون بيانات MTP — إليك لماذا هذا مهم

AI LLM Gemma Open Source

أصدرت Google نموذج Gemma 4 في 3 أبريل 2026 — عائلة من النماذج مفتوحة الأوزان مع نتائج معيارية قوية، وقدرات متعددة الوسائط، وسياق يصل إلى 256 ألف رمز. على الورق، إنه إصدار مُبهر. لكن في غضون ساعات، اكتشف المجتمع شيئاً مفقوداً: رؤوس Multi-Token Prediction تم تجريدها من الأوزان العامة.

النموذج تم تدريبه مع MTP. إطار عمل Google الخاص LiteRT يتضمن مكونات MTP. لكن النسخة التي يمكن للجميع تحميلها من HuggingFace؟ توليد انحداري تلقائي قياسي فقط. لا تعزيز في السرعة. لا فك تشفير تخميني.

يشرح هذا المقال ما هو MTP، ولماذا يهم، وماذا يعني هذا القرار لأي شخص يشغّل Gemma 4 على أجهزته الخاصة.

ما هو Gemma 4؟

Gemma 4 هو أحدث عائلة نماذج مفتوحة الأوزان من Google DeepMind، صدر بموجب ترخيص Apache 2.0. يأتي بأربعة أحجام:

النموذجالمعلماتالنوعالميزات البارزة
Gemma 4 E2B2.3 مليار فعالةDenseالرؤية + الصوت
Gemma 4 E4B4.5 مليار فعالةDenseالرؤية + الصوت
Gemma 4 26B-A4B26 مليار إجمالي / 4 مليار نشطةMixture of Expertsالرؤية
Gemma 4 31B31 مليارDenseالرؤية

تشمل القدرات الرئيسية دعم الوسائط المتعددة الأصلي، واستدعاء الوظائف، ومخرجات JSON المُهيكلة، والتدريب على أكثر من 140 لغة. نموذج 31B يحتل المرتبة الثالثة على لوحة متصدري LMArena للنصوص.

من الناحية التقنية، يقدم Gemma 4 عدة ابتكارات معمارية: طبقات انتباه محلي متناوبة بنافذة منزلقة وانتباه شامل، وتقنية proportional RoPE (p-RoPE)، وPer-Layer Embeddings (PLE)، وذاكرة KV مشتركة، وتحسين ذاكرة “المفاتيح تساوي القيم”.

بالأرقام، هذا إصدار قوي. المشكلة هي ما ليس موجوداً في الأوزان العامة.

ما هو Multi-Token Prediction؟

نماذج اللغة الكبيرة القياسية تولّد النص رمزاً واحداً في كل مرة. كل رمز يتطلب تمريرة أمامية كاملة عبر النموذج. لا يمكن البدء بالرمز التالي حتى يكتمل الرمز السابق. هذا هو فك التشفير الانحداري التلقائي، وهو بطبيعته تسلسلي.

Diagram comparing standard autoregressive decoding (one token per step) with Multi-Token Prediction (multiple tokens per step)

Multi-Token Prediction (MTP) يغيّر هذا بإضافة رؤوس تنبؤ إضافية للنموذج. بدلاً من التنبؤ بالرمز التالي فقط، يتنبأ النموذج بالرموز N+1 وN+2 وN+3 وما بعدها — كل ذلك في تمريرة أمامية واحدة.

إليك كيف يعمل:

  1. مرحلة التدريب: يتم تدريب رؤوس تنبؤ خفيفة إضافية جنباً إلى جنب مع النموذج الرئيسي. كل رأس يتعلم التنبؤ بموضع مستقبلي مختلف (1 للأمام، 2 للأمام، 3 للأمام، وهكذا).
  2. مرحلة الاستدلال: الرؤوس الإضافية تولّد رموز “مسودة” بالتوازي. ثم يتحقق النموذج الرئيسي منها جميعاً في تمريرة أمامية واحدة.
  3. التحقق: إذا تطابقت رموز المسودة مع ما كان النموذج الرئيسي سيولّده، يتم قبولها جميعاً دفعة واحدة — متخطياً عدة خطوات فك تشفير تسلسلية. إذا كان رمز مسودة خاطئاً، يعود التوليد إلى ذلك الموضع.

هذا مرتبط ارتباطاً وثيقاً بـ فك التشفير التخميني، لكن بميزة رئيسية: رموز المسودة تأتي من النموذج نفسه بدلاً من الحاجة إلى نموذج “مسودة” منفصل وأصغر.

Architecture diagram showing how MTP prediction heads attach to the main transformer model to generate multiple draft tokens simultaneously

ما مدى سرعة MTP؟

يعتمد التسريع على مدى صحة رموز المسودة (“معدل القبول”). أظهر DeepSeek V3 التأثير الفعلي:

المقياسالقيمة
متوسط طول القبول2.4 رمز لكل خطوة تحقق
تسريع الاستدلال1.8 ضعف في المتوسط (حتى 2.1 ضعف كحد أقصى)
التأثير على جودة المخرجاتصفر — جميع الرموز يتحقق منها النموذج الرئيسي

معدل قبول 2.4 يعني أنه في المتوسط، كل تمريرة أمامية عبر النموذج الرئيسي تنتج 2.4 رمز بدلاً من 1. المخرجات مطابقة رياضياً لفك التشفير القياسي — كل رمز يتم التحقق منه. تحصل على نفس الجودة بسرعة تقارب الضعف.

Logo

هل أنت مستعد لتنمية عملك؟

ابدأ تجربتك المجانية اليوم وشاهد النتائج في غضون أيام.

ماذا حدث مع Gemma 4

اكتشف مستخدم HuggingFace (@shadowlilac ) أن حزمة LiteRT من Google لـ Gemma 4 تحتوي على رؤوس تنبؤ MTP ووظائف التنبؤ متعدد الرموز. لكن الأوزان المنشورة علنياً على HuggingFace لا تحتوي على أي منها.

تم تجريد مكونات MTP عمداً:

  • لا رؤوس MTP في نقطة التحقق
  • لا MTP في إعدادات النموذج
  • لا MTP في التمريرة الأمامية
Diagram showing Gemma 4's training included MTP heads, but the public HuggingFace release has them stripped while Google's LiteRT version retains them

تفسير Google

أكد مهندس من Google (@srikanta-221 ) أن هذا كان مقصوداً:

النموذج العام يكشف فقط واجهة انحدارية تلقائية قياسية “للتوافق الواسع.” رؤوس MTP مستبعدة من إعدادات النموذج والتمريرة الأمامية ونقطة التحقق. هذا يضمن التوافق مع واجهات HuggingFace Transformers ويحافظ على سلوك متسق لنقطة التحقق ووقت التشغيل.

تُصوّر Google تقنية MTP على أنها “تحسين وقت النشر” وليست ميزة أساسية في النموذج. رؤوس التنبؤ MTP محفوظة فقط في النماذج المُصدَّرة عبر LiteRT — إطار الاستدلال الخاص بـ Google على الأجهزة.

لماذا هذه مشكلة

التفسير لا يصمد أمام التدقيق:

1. النموذج تم تدريبه مع MTP. القدرة موجودة. تجريدها من الإصدار هو اختيار، وليس قيداً تقنياً.

2. المحركات الخارجية لا تستطيع تنفيذها. vLLM وllama.cpp وSGLang وأُطر الاستدلال الأخرى لا تستطيع استخدام فك التشفير التخميني القائم على MTP بدون رؤوس التنبؤ. هذه المحركات تخدم الغالبية العظمى من نشر نماذج LLM مفتوحة المصدر.

3. المستخدمون يحصلون على النسخة البطيئة. بدون MTP، يعمل Gemma 4 بسرعات التوليد الانحداري التلقائي القياسية. فجوة الأداء واضحة بالفعل عملياً:

النموذجالأجهزةالسرعةملاحظات
Gemma 4 26B-A4B5060 Ti 16GB11 رمز/ثانيةبدون MTP، فك تشفير قياسي
Qwen 3.5 35B-A3B5060 Ti 16GB+60 رمز/ثانيةنموذج MoE مماثل
Gemma 4 E4BRTX 4090 (vLLM)~9 رمز/ثانيةمشاكل FlashAttention الاحتياطية

4. يخلق حبساً في النظام البيئي. إطار عمل Google الخاص LiteRT يحصل على ميزة السرعة. كل شخص آخر يحصل على نموذج أبطأ. بالنسبة لإصدار “مفتوح الأوزان” بترخيص Apache 2.0، هذا تفاوت كبير.

كيف يعمل فك التشفير التخميني (ولماذا MTP أفضل)

لفهم لماذا رؤوس MTP المفقودة مهمة، يساعد أن نرى أين يقع MTP في تطور تحسين الاستدلال.

Comparison of three speculative decoding approaches: traditional (separate draft model), speculative-speculative, and MTP (built-in prediction heads)

النهج الأول: فك التشفير التخميني التقليدي

نموذج “مسودة” منفصل وأصغر يقترح الرموز. النموذج الرئيسي يتحقق منها بالتوازي. إذا كانت المسودات صحيحة، يتم قبول عدة رموز لكل خطوة.

  • المزايا: يعمل مع أي زوج من النماذج
  • العيوب: يتطلب صيانة وتحميل نموذج ثانٍ؛ جودة نموذج المسودة تحدّ من التسريع؛ استهلاك إضافي للذاكرة

النهج الثاني: MTP (رؤوس التنبؤ المدمجة)

النموذج الرئيسي لديه رؤوس تنبؤ خفيفة خاصة به تولّد رموز المسودة. لا حاجة لنموذج منفصل.

  • المزايا: لا حاجة لنموذج إضافي؛ التكامل الأوثق يعني معدلات قبول أعلى؛ استهلاك ذاكرة أقل
  • العيوب: يعمل فقط إذا كانت رؤوس التنبؤ مضمّنة في الإصدار

لماذا يتفوق MTP

رؤوس التنبؤ MTP يتم تدريبها جنباً إلى جنب مع النموذج الرئيسي. تتشارك نفس التمثيلات الداخلية وتتعلم توزيع الرموز الخاص بالنموذج. هذا عادةً ينتج معدلات قبول أعلى من نموذج مسودة خارجي، مما يعني المزيد من الرموز المقبولة لكل خطوة تحقق وتوليد أسرع بشكل عام.

رؤوس التنبؤ أيضاً صغيرة — عادةً تضيف فقط 1-3% من إجمالي معلمات النموذج. استهلاك الذاكرة الإضافي ضئيل مقارنة بتحميل نموذج مسودة منفصل.

التأثير الأوسع

هذا لا يتعلق فقط بـ Gemma 4. القرار يضع سابقة لمدى “انفتاح” إصدارات النماذج مفتوحة الأوزان فعلاً.

ما يخسره المستخدمون:

  • فك التشفير التخميني القائم على MTP على أي محرك استدلال خارجي
  • القدرة على ضبط أو تجربة رؤوس MTP
  • تكافؤ الأداء مع أدوات النشر الخاصة بـ Google

ما يملكه المستخدمون:

  • أوزان النموذج الأساسي (وهي جيدة حقاً)
  • فك التشفير التخميني التقليدي باستخدام نموذج مسودة منفصل (مشكلة vLLM رقم #38893 تتابع دعم Eagle3 لـ Gemma 4)
  • تقنيات التكميم والتحسين القياسية

استجابة المجتمع كانت مباشرة. كان الإجماع خلال 24 ساعة أن نتائج Gemma 4 المعيارية تنافسية — تتساوى مع أو تتأخر قليلاً عن Qwen 3.5 — لكن المنتج “غير مكتمل”. السرعة والاستقرار والأدوات تحتاج إلى عمل. تشمل المشكلات الإضافية عدم دعم HuggingFace Transformers لمعمارية Gemma 4 في البداية، وعدم تعامل PEFT مع أنواع الطبقات الجديدة، ومعاناة مستخدمي Mac من تعطّل تحميل النماذج الأكبر.

ماذا يمكنك أن تفعل؟

إذا كنت تقيّم Gemma 4 للنشر، إليك خيارات عملية:

استخدم فك التشفير التخميني التقليدي. نماذج المسودة الخارجية لا تزال قادرة على تسريع استدلال Gemma 4. أُطر مثل vLLM تضيف دعم فك التشفير التخميني Eagle3 خصيصاً لـ Gemma 4. التسريع لن يضاهي MTP المدمج، لكنه أفضل من لا شيء.

فكّر في البدائل لأحمال العمل الحساسة للسرعة. Qwen 3.5 يقدم رموزاً في الثانية أكثر بشكل ملحوظ على نفس الأجهزة. إذا كانت سرعة الاستدلال هي قيدك الرئيسي، فإن Qwen يقدم حالياً نسبة سرعة-إلى-جودة أفضل.

راقب الحلول البديلة من المجتمع. صادرات LiteRT تحتوي على رؤوس MTP. قد يجد الباحثون طرقاً لاستخراجها وإعادة ربطها بأوزان HuggingFace، رغم أن Google لم تدعم هذا المسار رسمياً.

قدّم ملاحظاتك. مهندسو Google يراقبون بنشاط مواضيع النقاش على HuggingFace. الطلبات الواضحة والتقنية لإصدار رؤوس MTP لها ثقلها.

الخلاصة

Gemma 4 عائلة نماذج قادرة مع ابتكارات معمارية حقيقية ونتائج معيارية قوية. قرار تجريد رؤوس التنبؤ MTP من الإصدار العام — مع الاحتفاظ بها في إطار عمل Google الخاص LiteRT — يقوّض كلمة “مفتوح” في مفتوح الأوزان.

MTP ليس تحسيناً ثانوياً. يمكنه تقديم تسريع 1.5–2 ضعف في الاستدلال مع صفر تأثير على جودة المخرجات. حجبه عن الأوزان العامة بينما النموذج تم تدريبه معه بوضوح يخلق نظاماً من مستويين: استدلال سريع لأدوات Google، واستدلال بطيء لكل شخص آخر.

بالنسبة لمجتمع الذكاء الاصطناعي مفتوح المصدر، الرسالة واضحة: تحقق مما هو موجود فعلاً في الأوزان، وليس فقط المعايير. الترخيص المفتوح لا يعني دائماً إصداراً مفتوحاً.


تم البناء بواسطة FlowHunt . ابقَ على اطلاع بأحدث التطورات في الذكاء الاصطناعي مفتوح المصدر على مدونتنا .

الأسئلة الشائعة

فيكتور زيمان هو شريك مالك في QualityUnit. حتى بعد 20 عامًا من قيادة الشركة، لا يزال في الأساس مهندس برمجيات، متخصص في الذكاء الاصطناعي، وتحسين محركات البحث البرمجية، وتطوير الخلفيات. لقد ساهم في العديد من المشاريع، بما في ذلك LiveAgent و PostAffiliatePro و FlowHunt و UrlsLab والعديد غيرها.

فيكتور زيمان
فيكتور زيمان
المدير التنفيذي، مهندس ذكاء اصطناعي

ابنِ سير عمل الذكاء الاصطناعي مع أفضل النماذج

يتيح لك FlowHunt بناء خطوط أنابيب ذكاء اصطناعي مؤتمتة باستخدام واجهات API السحابية والنماذج مفتوحة المصدر — مع تحكم كامل في السرعة والتكلفة والجودة.

اعرف المزيد

ضبط دقيق لـ Gemma 4 على Apple Silicon: هل يمكنه استبدال Claude Sonnet لإنشاء المحتوى؟
ضبط دقيق لـ Gemma 4 على Apple Silicon: هل يمكنه استبدال Claude Sonnet لإنشاء المحتوى؟

ضبط دقيق لـ Gemma 4 على Apple Silicon: هل يمكنه استبدال Claude Sonnet لإنشاء المحتوى؟

قمنا بضبط دقيق لنموذج Gemma 4 31B من Google على MacBook Pro M3 Max لإنشاء مقالات رياضية. إليك كيفية مقارنته مع Claude Sonnet من حيث الجودة والسرعة والتكلفة — با...

10 دقيقة قراءة
AI LLM +6
وكلاء الذكاء الاصطناعي: كيف يفكر GPT 4o
وكلاء الذكاء الاصطناعي: كيف يفكر GPT 4o

وكلاء الذكاء الاصطناعي: كيف يفكر GPT 4o

استكشف عمليات التفكير لدى وكلاء الذكاء الاصطناعي في هذا التقييم الشامل لـ GPT-4o. اكتشف كيف يؤدي في مهام مثل توليد المحتوى، وحل المشكلات، والكتابة الإبداعية، با...

7 دقيقة قراءة
AI GPT-4o +6
ما هو روبوت الدردشة الذكي Google Gemini؟
ما هو روبوت الدردشة الذكي Google Gemini؟

ما هو روبوت الدردشة الذكي Google Gemini؟

اكتشف ما هو Google Gemini، وكيف يعمل، وكيف يقارن بـ ChatGPT. تعرف على قدراته المتعددة الوسائط، وأسعاره، وتطبيقاته العملية لعام 2025....

11 دقيقة قراءة