ما هو Multi-Token Prediction (MTP)؟

Multi-Token Prediction هي تقنية يتنبأ فيها نموذج LLM بعدة رموز مستقبلية في تمريرة أمامية واحدة بدلاً من رمز واحد في كل مرة. يتم تدريب رؤوس تنبؤ إضافية جنباً إلى جنب مع النموذج الرئيسي لصياغة الرموز N+1 وN+2 وN+3 وما إلى ذلك في وقت واحد، والتي يمكن بعد ذلك التحقق منها بالتوازي بواسطة النموذج الرئيسي. يمكّن هذا من تسريع الاستدلال بمقدار 1.5–2 ضعف دون أي فقدان في جودة المخرجات.

هل يدعم Gemma 4 تقنية MTP؟

تم تدريب Gemma 4 مع رؤوس تنبؤ MTP، وهي موجودة في صادرات LiteRT من Google (الاستدلال على الأجهزة). ومع ذلك، فإن الأوزان المنشورة علنياً على HuggingFace تم تجريدها عمداً من رؤوس MTP. تقول Google إن ذلك تم من أجل 'التوافق الواسع' مع أُطر الاستدلال الحالية.

لماذا يُعد إزالة رؤوس MTP أمراً مهماً؟

بدون رؤوس MTP، لا تستطيع محركات الاستدلال الخارجية مثل vLLM وllama.cpp وSGLang استخدام فك التشفير التخميني المدمج لـ Gemma 4. يبقى المستخدمون عالقين مع التوليد الانحداري التلقائي القياسي، وهو أبطأ بشكل ملحوظ. تُظهر المعايير أن Gemma 4 يولّد فقط 11 رمزاً في الثانية على أجهزة تحقق فيها نماذج مماثلة أكثر من 60 رمزاً في الثانية.

ما هو فك التشفير التخميني (Speculative Decoding)؟

فك التشفير التخميني هو تقنية لتسريع الاستدلال حيث يقترح نموذج 'مسودة' سريع عدة رموز دفعة واحدة، ويتحقق منها النموذج الرئيسي في تمريرة أمامية واحدة. إذا كانت رموز المسودة صحيحة، يتم تخطي عدة خطوات فك تشفير فعلياً. MTP هو نوع حيث تأتي رموز المسودة من رؤوس التنبؤ المدمجة في النموذج نفسه بدلاً من نموذج منفصل.

هل ستُصدر Google رؤوس MTP لـ Gemma 4؟

حتى أبريل 2026، لم تعلن Google عن خطط لإصدار رؤوس التنبؤ MTP لأوزان HuggingFace. هي متاحة حالياً فقط في النماذج المُصدَّرة عبر LiteRT، مما يقصر استخدامها على إطار الاستدلال الخاص بـ Google. يستمر المجتمع في المطالبة بإصدارها.

Gemma 4 صدر بدون بيانات MTP — إليك لماذا هذا مهم

أزالت Google رؤوس التنبؤ MTP من الإصدار العام لـ Gemma 4 مع الاحتفاظ بها في إطار عملها LiteRT. إليك ما يعنيه ذلك لسرعة الاستدلال والذكاء الاصطناعي مفتوح المصدر.

AI LLM Gemma Open Source

ابدأ الآن اقرأ المزيد

أصدرت Google نموذج Gemma 4 في 3 أبريل 2026 — عائلة من النماذج مفتوحة الأوزان مع نتائج معيارية قوية، وقدرات متعددة الوسائط، وسياق يصل إلى 256 ألف رمز. على الورق، إنه إصدار مُبهر. لكن في غضون ساعات، اكتشف المجتمع شيئاً مفقوداً: رؤوس Multi-Token Prediction تم تجريدها من الأوزان العامة.

النموذج تم تدريبه مع MTP. إطار عمل Google الخاص LiteRT يتضمن مكونات MTP. لكن النسخة التي يمكن للجميع تحميلها من HuggingFace؟ توليد انحداري تلقائي قياسي فقط. لا تعزيز في السرعة. لا فك تشفير تخميني.

يشرح هذا المقال ما هو MTP، ولماذا يهم، وماذا يعني هذا القرار لأي شخص يشغّل Gemma 4 على أجهزته الخاصة.

ما هو Gemma 4؟

Gemma 4 هو أحدث عائلة نماذج مفتوحة الأوزان من Google DeepMind، صدر بموجب ترخيص Apache 2.0. يأتي بأربعة أحجام:

النموذج	المعلمات	النوع	الميزات البارزة
Gemma 4 E2B	2.3 مليار فعالة	Dense	الرؤية + الصوت
Gemma 4 E4B	4.5 مليار فعالة	Dense	الرؤية + الصوت
Gemma 4 26B-A4B	26 مليار إجمالي / 4 مليار نشطة	Mixture of Experts	الرؤية
Gemma 4 31B	31 مليار	Dense	الرؤية

تشمل القدرات الرئيسية دعم الوسائط المتعددة الأصلي، واستدعاء الوظائف، ومخرجات JSON المُهيكلة، والتدريب على أكثر من 140 لغة. نموذج 31B يحتل المرتبة الثالثة على لوحة متصدري LMArena للنصوص.

من الناحية التقنية، يقدم Gemma 4 عدة ابتكارات معمارية: طبقات انتباه محلي متناوبة بنافذة منزلقة وانتباه شامل، وتقنية proportional RoPE (p-RoPE)، وPer-Layer Embeddings (PLE)، وذاكرة KV مشتركة، وتحسين ذاكرة “المفاتيح تساوي القيم”.

بالأرقام، هذا إصدار قوي. المشكلة هي ما ليس موجوداً في الأوزان العامة.

ما هو Multi-Token Prediction؟

نماذج اللغة الكبيرة القياسية تولّد النص رمزاً واحداً في كل مرة. كل رمز يتطلب تمريرة أمامية كاملة عبر النموذج. لا يمكن البدء بالرمز التالي حتى يكتمل الرمز السابق. هذا هو فك التشفير الانحداري التلقائي، وهو بطبيعته تسلسلي.

Diagram comparing standard autoregressive decoding (one token per step) with Multi-Token Prediction (multiple tokens per step)

Multi-Token Prediction (MTP) يغيّر هذا بإضافة رؤوس تنبؤ إضافية للنموذج. بدلاً من التنبؤ بالرمز التالي فقط، يتنبأ النموذج بالرموز N+1 وN+2 وN+3 وما بعدها — كل ذلك في تمريرة أمامية واحدة.

إليك كيف يعمل:

مرحلة التدريب: يتم تدريب رؤوس تنبؤ خفيفة إضافية جنباً إلى جنب مع النموذج الرئيسي. كل رأس يتعلم التنبؤ بموضع مستقبلي مختلف (1 للأمام، 2 للأمام، 3 للأمام، وهكذا).
مرحلة الاستدلال: الرؤوس الإضافية تولّد رموز “مسودة” بالتوازي. ثم يتحقق النموذج الرئيسي منها جميعاً في تمريرة أمامية واحدة.
التحقق: إذا تطابقت رموز المسودة مع ما كان النموذج الرئيسي سيولّده، يتم قبولها جميعاً دفعة واحدة — متخطياً عدة خطوات فك تشفير تسلسلية. إذا كان رمز مسودة خاطئاً، يعود التوليد إلى ذلك الموضع.

هذا مرتبط ارتباطاً وثيقاً بـ فك التشفير التخميني، لكن بميزة رئيسية: رموز المسودة تأتي من النموذج نفسه بدلاً من الحاجة إلى نموذج “مسودة” منفصل وأصغر.

Architecture diagram showing how MTP prediction heads attach to the main transformer model to generate multiple draft tokens simultaneously

ما مدى سرعة MTP؟

يعتمد التسريع على مدى صحة رموز المسودة (“معدل القبول”). أظهر DeepSeek V3 التأثير الفعلي:

المقياس	القيمة
متوسط طول القبول	2.4 رمز لكل خطوة تحقق
تسريع الاستدلال	1.8 ضعف في المتوسط (حتى 2.1 ضعف كحد أقصى)
التأثير على جودة المخرجات	صفر — جميع الرموز يتحقق منها النموذج الرئيسي

معدل قبول 2.4 يعني أنه في المتوسط، كل تمريرة أمامية عبر النموذج الرئيسي تنتج 2.4 رمز بدلاً من 1. المخرجات مطابقة رياضياً لفك التشفير القياسي — كل رمز يتم التحقق منه. تحصل على نفس الجودة بسرعة تقارب الضعف.

ماذا حدث مع Gemma 4

اكتشف مستخدم HuggingFace (@shadowlilac ) أن حزمة LiteRT من Google لـ Gemma 4 تحتوي على رؤوس تنبؤ MTP ووظائف التنبؤ متعدد الرموز. لكن الأوزان المنشورة علنياً على HuggingFace لا تحتوي على أي منها.

تم تجريد مكونات MTP عمداً:

لا رؤوس MTP في نقطة التحقق
لا MTP في إعدادات النموذج
لا MTP في التمريرة الأمامية

Diagram showing Gemma 4's training included MTP heads, but the public HuggingFace release has them stripped while Google's LiteRT version retains them

تفسير Google

أكد مهندس من Google (@srikanta-221 ) أن هذا كان مقصوداً:

النموذج العام يكشف فقط واجهة انحدارية تلقائية قياسية “للتوافق الواسع.” رؤوس MTP مستبعدة من إعدادات النموذج والتمريرة الأمامية ونقطة التحقق. هذا يضمن التوافق مع واجهات HuggingFace Transformers ويحافظ على سلوك متسق لنقطة التحقق ووقت التشغيل.

تُصوّر Google تقنية MTP على أنها “تحسين وقت النشر” وليست ميزة أساسية في النموذج. رؤوس التنبؤ MTP محفوظة فقط في النماذج المُصدَّرة عبر LiteRT — إطار الاستدلال الخاص بـ Google على الأجهزة.

لماذا هذه مشكلة

التفسير لا يصمد أمام التدقيق:

1. النموذج تم تدريبه مع MTP. القدرة موجودة. تجريدها من الإصدار هو اختيار، وليس قيداً تقنياً.

2. المحركات الخارجية لا تستطيع تنفيذها. vLLM وllama.cpp وSGLang وأُطر الاستدلال الأخرى لا تستطيع استخدام فك التشفير التخميني القائم على MTP بدون رؤوس التنبؤ. هذه المحركات تخدم الغالبية العظمى من نشر نماذج LLM مفتوحة المصدر.

3. المستخدمون يحصلون على النسخة البطيئة. بدون MTP، يعمل Gemma 4 بسرعات التوليد الانحداري التلقائي القياسية. فجوة الأداء واضحة بالفعل عملياً:

النموذج	الأجهزة	السرعة	ملاحظات
Gemma 4 26B-A4B	5060 Ti 16GB	11 رمز/ثانية	بدون MTP، فك تشفير قياسي
Qwen 3.5 35B-A3B	5060 Ti 16GB	+60 رمز/ثانية	نموذج MoE مماثل
Gemma 4 E4B	RTX 4090 (vLLM)	~9 رمز/ثانية	مشاكل FlashAttention الاحتياطية

4. يخلق حبساً في النظام البيئي. إطار عمل Google الخاص LiteRT يحصل على ميزة السرعة. كل شخص آخر يحصل على نموذج أبطأ. بالنسبة لإصدار “مفتوح الأوزان” بترخيص Apache 2.0، هذا تفاوت كبير.

كيف يعمل فك التشفير التخميني (ولماذا MTP أفضل)

لفهم لماذا رؤوس MTP المفقودة مهمة، يساعد أن نرى أين يقع MTP في تطور تحسين الاستدلال.

Comparison of three speculative decoding approaches: traditional (separate draft model), speculative-speculative, and MTP (built-in prediction heads)

النهج الأول: فك التشفير التخميني التقليدي

نموذج “مسودة” منفصل وأصغر يقترح الرموز. النموذج الرئيسي يتحقق منها بالتوازي. إذا كانت المسودات صحيحة، يتم قبول عدة رموز لكل خطوة.

المزايا: يعمل مع أي زوج من النماذج
العيوب: يتطلب صيانة وتحميل نموذج ثانٍ؛ جودة نموذج المسودة تحدّ من التسريع؛ استهلاك إضافي للذاكرة

النهج الثاني: MTP (رؤوس التنبؤ المدمجة)

النموذج الرئيسي لديه رؤوس تنبؤ خفيفة خاصة به تولّد رموز المسودة. لا حاجة لنموذج منفصل.

المزايا: لا حاجة لنموذج إضافي؛ التكامل الأوثق يعني معدلات قبول أعلى؛ استهلاك ذاكرة أقل
العيوب: يعمل فقط إذا كانت رؤوس التنبؤ مضمّنة في الإصدار

لماذا يتفوق MTP

رؤوس التنبؤ MTP يتم تدريبها جنباً إلى جنب مع النموذج الرئيسي. تتشارك نفس التمثيلات الداخلية وتتعلم توزيع الرموز الخاص بالنموذج. هذا عادةً ينتج معدلات قبول أعلى من نموذج مسودة خارجي، مما يعني المزيد من الرموز المقبولة لكل خطوة تحقق وتوليد أسرع بشكل عام.

رؤوس التنبؤ أيضاً صغيرة — عادةً تضيف فقط 1-3% من إجمالي معلمات النموذج. استهلاك الذاكرة الإضافي ضئيل مقارنة بتحميل نموذج مسودة منفصل.

التأثير الأوسع

هذا لا يتعلق فقط بـ Gemma 4. القرار يضع سابقة لمدى “انفتاح” إصدارات النماذج مفتوحة الأوزان فعلاً.

ما يخسره المستخدمون:

فك التشفير التخميني القائم على MTP على أي محرك استدلال خارجي
القدرة على ضبط أو تجربة رؤوس MTP
تكافؤ الأداء مع أدوات النشر الخاصة بـ Google

ما يملكه المستخدمون:

أوزان النموذج الأساسي (وهي جيدة حقاً)
فك التشفير التخميني التقليدي باستخدام نموذج مسودة منفصل (مشكلة vLLM رقم #38893 تتابع دعم Eagle3 لـ Gemma 4)
تقنيات التكميم والتحسين القياسية

استجابة المجتمع كانت مباشرة. كان الإجماع خلال 24 ساعة أن نتائج Gemma 4 المعيارية تنافسية — تتساوى مع أو تتأخر قليلاً عن Qwen 3.5 — لكن المنتج “غير مكتمل”. السرعة والاستقرار والأدوات تحتاج إلى عمل. تشمل المشكلات الإضافية عدم دعم HuggingFace Transformers لمعمارية Gemma 4 في البداية، وعدم تعامل PEFT مع أنواع الطبقات الجديدة، ومعاناة مستخدمي Mac من تعطّل تحميل النماذج الأكبر.

ماذا يمكنك أن تفعل؟

إذا كنت تقيّم Gemma 4 للنشر، إليك خيارات عملية:

استخدم فك التشفير التخميني التقليدي. نماذج المسودة الخارجية لا تزال قادرة على تسريع استدلال Gemma 4. أُطر مثل vLLM تضيف دعم فك التشفير التخميني Eagle3 خصيصاً لـ Gemma 4. التسريع لن يضاهي MTP المدمج، لكنه أفضل من لا شيء.

فكّر في البدائل لأحمال العمل الحساسة للسرعة. Qwen 3.5 يقدم رموزاً في الثانية أكثر بشكل ملحوظ على نفس الأجهزة. إذا كانت سرعة الاستدلال هي قيدك الرئيسي، فإن Qwen يقدم حالياً نسبة سرعة-إلى-جودة أفضل.

راقب الحلول البديلة من المجتمع. صادرات LiteRT تحتوي على رؤوس MTP. قد يجد الباحثون طرقاً لاستخراجها وإعادة ربطها بأوزان HuggingFace، رغم أن Google لم تدعم هذا المسار رسمياً.

قدّم ملاحظاتك. مهندسو Google يراقبون بنشاط مواضيع النقاش على HuggingFace. الطلبات الواضحة والتقنية لإصدار رؤوس MTP لها ثقلها.

الخلاصة

Gemma 4 عائلة نماذج قادرة مع ابتكارات معمارية حقيقية ونتائج معيارية قوية. قرار تجريد رؤوس التنبؤ MTP من الإصدار العام — مع الاحتفاظ بها في إطار عمل Google الخاص LiteRT — يقوّض كلمة “مفتوح” في مفتوح الأوزان.

MTP ليس تحسيناً ثانوياً. يمكنه تقديم تسريع 1.5–2 ضعف في الاستدلال مع صفر تأثير على جودة المخرجات. حجبه عن الأوزان العامة بينما النموذج تم تدريبه معه بوضوح يخلق نظاماً من مستويين: استدلال سريع لأدوات Google، واستدلال بطيء لكل شخص آخر.

بالنسبة لمجتمع الذكاء الاصطناعي مفتوح المصدر، الرسالة واضحة: تحقق مما هو موجود فعلاً في الأوزان، وليس فقط المعايير. الترخيص المفتوح لا يعني دائماً إصداراً مفتوحاً.

تم البناء بواسطة FlowHunt . ابقَ على اطلاع بأحدث التطورات في الذكاء الاصطناعي مفتوح المصدر على مدونتنا .

الأسئلة الشائعة

: Multi-Token Prediction هي تقنية يتنبأ فيها نموذج LLM بعدة رموز مستقبلية في تمريرة أمامية واحدة بدلاً من رمز واحد في كل مرة. يتم تدريب رؤوس تنبؤ إضافية جنباً إلى جنب مع النموذج الرئيسي لصياغة الرموز N+1 وN+2 وN+3 وما إلى ذلك في وقت واحد، والتي يمكن بعد ذلك التحقق منها بالتوازي بواسطة النموذج الرئيسي. يمكّن هذا من تسريع الاستدلال بمقدار 1.5–2 ضعف دون أي فقدان في جودة المخرجات.
: تم تدريب Gemma 4 مع رؤوس تنبؤ MTP، وهي موجودة في صادرات LiteRT من Google (الاستدلال على الأجهزة). ومع ذلك، فإن الأوزان المنشورة علنياً على HuggingFace تم تجريدها عمداً من رؤوس MTP. تقول Google إن ذلك تم من أجل 'التوافق الواسع' مع أُطر الاستدلال الحالية.
: بدون رؤوس MTP، لا تستطيع محركات الاستدلال الخارجية مثل vLLM وllama.cpp وSGLang استخدام فك التشفير التخميني المدمج لـ Gemma 4. يبقى المستخدمون عالقين مع التوليد الانحداري التلقائي القياسي، وهو أبطأ بشكل ملحوظ. تُظهر المعايير أن Gemma 4 يولّد فقط 11 رمزاً في الثانية على أجهزة تحقق فيها نماذج مماثلة أكثر من 60 رمزاً في الثانية.
: فك التشفير التخميني هو تقنية لتسريع الاستدلال حيث يقترح نموذج 'مسودة' سريع عدة رموز دفعة واحدة، ويتحقق منها النموذج الرئيسي في تمريرة أمامية واحدة. إذا كانت رموز المسودة صحيحة، يتم تخطي عدة خطوات فك تشفير فعلياً. MTP هو نوع حيث تأتي رموز المسودة من رؤوس التنبؤ المدمجة في النموذج نفسه بدلاً من نموذج منفصل.
: حتى أبريل 2026، لم تعلن Google عن خطط لإصدار رؤوس التنبؤ MTP لأوزان HuggingFace. هي متاحة حالياً فقط في النماذج المُصدَّرة عبر LiteRT، مما يقصر استخدامها على إطار الاستدلال الخاص بـ Google. يستمر المجتمع في المطالبة بإصدارها.

فيكتور زيمان
المدير التنفيذي، مهندس ذكاء اصطناعي

ابنِ سير عمل الذكاء الاصطناعي مع أفضل النماذج

يتيح لك FlowHunt بناء خطوط أنابيب ذكاء اصطناعي مؤتمتة باستخدام واجهات API السحابية والنماذج مفتوحة المصدر — مع تحكم كامل في السرعة والتكلفة والجودة.

ابدأ الآن اقرأ المزيد

اعرف المزيد

ضبط دقيق لـ Gemma 4 على Apple Silicon: هل يمكنه استبدال Claude Sonnet لإنشاء المحتوى؟

قمنا بضبط دقيق لنموذج Gemma 4 31B من Google على MacBook Pro M3 Max لإنشاء مقالات رياضية. إليك كيفية مقارنته مع Claude Sonnet من حيث الجودة والسرعة والتكلفة — با...

Apr 6, 2026 10 دقيقة قراءة

AI LLM +6

وكلاء الذكاء الاصطناعي: كيف يفكر GPT 4o

استكشف عمليات التفكير لدى وكلاء الذكاء الاصطناعي في هذا التقييم الشامل لـ GPT-4o. اكتشف كيف يؤدي في مهام مثل توليد المحتوى، وحل المشكلات، والكتابة الإبداعية، با...

May 30, 2025 7 دقيقة قراءة

AI GPT-4o +6

ما هو روبوت الدردشة الذكي Google Gemini؟

اكتشف ما هو Google Gemini، وكيف يعمل، وكيف يقارن بـ ChatGPT. تعرف على قدراته المتعددة الوسائط، وأسعاره، وتطبيقاته العملية لعام 2025....

Dec 1, 2025 11 دقيقة قراءة

Gemma 4 صدر بدون بيانات MTP — إليك لماذا هذا مهم

ما هو Gemma 4؟