ضبط دقيق لـ Gemma 4 على Apple Silicon: هل يمكنه استبدال Claude Sonnet لإنشاء المحتوى؟
قمنا بضبط دقيق لنموذج Gemma 4 31B من Google على MacBook Pro M3 Max لإنشاء مقالات رياضية. إليك كيفية مقارنته مع Claude Sonnet من حيث الجودة والسرعة والتكلفة — با...
أزالت Google رؤوس التنبؤ MTP من الإصدار العام لـ Gemma 4 مع الاحتفاظ بها في إطار عملها LiteRT. إليك ما يعنيه ذلك لسرعة الاستدلال والذكاء الاصطناعي مفتوح المصدر.
أصدرت Google نموذج Gemma 4 في 3 أبريل 2026 — عائلة من النماذج مفتوحة الأوزان مع نتائج معيارية قوية، وقدرات متعددة الوسائط، وسياق يصل إلى 256 ألف رمز. على الورق، إنه إصدار مُبهر. لكن في غضون ساعات، اكتشف المجتمع شيئاً مفقوداً: رؤوس Multi-Token Prediction تم تجريدها من الأوزان العامة.
النموذج تم تدريبه مع MTP. إطار عمل Google الخاص LiteRT يتضمن مكونات MTP. لكن النسخة التي يمكن للجميع تحميلها من HuggingFace؟ توليد انحداري تلقائي قياسي فقط. لا تعزيز في السرعة. لا فك تشفير تخميني.
يشرح هذا المقال ما هو MTP، ولماذا يهم، وماذا يعني هذا القرار لأي شخص يشغّل Gemma 4 على أجهزته الخاصة.
Gemma 4 هو أحدث عائلة نماذج مفتوحة الأوزان من Google DeepMind، صدر بموجب ترخيص Apache 2.0. يأتي بأربعة أحجام:
| النموذج | المعلمات | النوع | الميزات البارزة |
|---|---|---|---|
| Gemma 4 E2B | 2.3 مليار فعالة | Dense | الرؤية + الصوت |
| Gemma 4 E4B | 4.5 مليار فعالة | Dense | الرؤية + الصوت |
| Gemma 4 26B-A4B | 26 مليار إجمالي / 4 مليار نشطة | Mixture of Experts | الرؤية |
| Gemma 4 31B | 31 مليار | Dense | الرؤية |
تشمل القدرات الرئيسية دعم الوسائط المتعددة الأصلي، واستدعاء الوظائف، ومخرجات JSON المُهيكلة، والتدريب على أكثر من 140 لغة. نموذج 31B يحتل المرتبة الثالثة على لوحة متصدري LMArena للنصوص.
من الناحية التقنية، يقدم Gemma 4 عدة ابتكارات معمارية: طبقات انتباه محلي متناوبة بنافذة منزلقة وانتباه شامل، وتقنية proportional RoPE (p-RoPE)، وPer-Layer Embeddings (PLE)، وذاكرة KV مشتركة، وتحسين ذاكرة “المفاتيح تساوي القيم”.
بالأرقام، هذا إصدار قوي. المشكلة هي ما ليس موجوداً في الأوزان العامة.
نماذج اللغة الكبيرة القياسية تولّد النص رمزاً واحداً في كل مرة. كل رمز يتطلب تمريرة أمامية كاملة عبر النموذج. لا يمكن البدء بالرمز التالي حتى يكتمل الرمز السابق. هذا هو فك التشفير الانحداري التلقائي، وهو بطبيعته تسلسلي.
Multi-Token Prediction (MTP) يغيّر هذا بإضافة رؤوس تنبؤ إضافية للنموذج. بدلاً من التنبؤ بالرمز التالي فقط، يتنبأ النموذج بالرموز N+1 وN+2 وN+3 وما بعدها — كل ذلك في تمريرة أمامية واحدة.
إليك كيف يعمل:
هذا مرتبط ارتباطاً وثيقاً بـ فك التشفير التخميني، لكن بميزة رئيسية: رموز المسودة تأتي من النموذج نفسه بدلاً من الحاجة إلى نموذج “مسودة” منفصل وأصغر.
يعتمد التسريع على مدى صحة رموز المسودة (“معدل القبول”). أظهر DeepSeek V3 التأثير الفعلي:
| المقياس | القيمة |
|---|---|
| متوسط طول القبول | 2.4 رمز لكل خطوة تحقق |
| تسريع الاستدلال | 1.8 ضعف في المتوسط (حتى 2.1 ضعف كحد أقصى) |
| التأثير على جودة المخرجات | صفر — جميع الرموز يتحقق منها النموذج الرئيسي |
معدل قبول 2.4 يعني أنه في المتوسط، كل تمريرة أمامية عبر النموذج الرئيسي تنتج 2.4 رمز بدلاً من 1. المخرجات مطابقة رياضياً لفك التشفير القياسي — كل رمز يتم التحقق منه. تحصل على نفس الجودة بسرعة تقارب الضعف.
اكتشف مستخدم HuggingFace (@shadowlilac ) أن حزمة LiteRT من Google لـ Gemma 4 تحتوي على رؤوس تنبؤ MTP ووظائف التنبؤ متعدد الرموز. لكن الأوزان المنشورة علنياً على HuggingFace لا تحتوي على أي منها.
تم تجريد مكونات MTP عمداً:
أكد مهندس من Google (@srikanta-221 ) أن هذا كان مقصوداً:
النموذج العام يكشف فقط واجهة انحدارية تلقائية قياسية “للتوافق الواسع.” رؤوس MTP مستبعدة من إعدادات النموذج والتمريرة الأمامية ونقطة التحقق. هذا يضمن التوافق مع واجهات HuggingFace Transformers ويحافظ على سلوك متسق لنقطة التحقق ووقت التشغيل.
تُصوّر Google تقنية MTP على أنها “تحسين وقت النشر” وليست ميزة أساسية في النموذج. رؤوس التنبؤ MTP محفوظة فقط في النماذج المُصدَّرة عبر LiteRT — إطار الاستدلال الخاص بـ Google على الأجهزة.
التفسير لا يصمد أمام التدقيق:
1. النموذج تم تدريبه مع MTP. القدرة موجودة. تجريدها من الإصدار هو اختيار، وليس قيداً تقنياً.
2. المحركات الخارجية لا تستطيع تنفيذها. vLLM وllama.cpp وSGLang وأُطر الاستدلال الأخرى لا تستطيع استخدام فك التشفير التخميني القائم على MTP بدون رؤوس التنبؤ. هذه المحركات تخدم الغالبية العظمى من نشر نماذج LLM مفتوحة المصدر.
3. المستخدمون يحصلون على النسخة البطيئة. بدون MTP، يعمل Gemma 4 بسرعات التوليد الانحداري التلقائي القياسية. فجوة الأداء واضحة بالفعل عملياً:
| النموذج | الأجهزة | السرعة | ملاحظات |
|---|---|---|---|
| Gemma 4 26B-A4B | 5060 Ti 16GB | 11 رمز/ثانية | بدون MTP، فك تشفير قياسي |
| Qwen 3.5 35B-A3B | 5060 Ti 16GB | +60 رمز/ثانية | نموذج MoE مماثل |
| Gemma 4 E4B | RTX 4090 (vLLM) | ~9 رمز/ثانية | مشاكل FlashAttention الاحتياطية |
4. يخلق حبساً في النظام البيئي. إطار عمل Google الخاص LiteRT يحصل على ميزة السرعة. كل شخص آخر يحصل على نموذج أبطأ. بالنسبة لإصدار “مفتوح الأوزان” بترخيص Apache 2.0، هذا تفاوت كبير.
لفهم لماذا رؤوس MTP المفقودة مهمة، يساعد أن نرى أين يقع MTP في تطور تحسين الاستدلال.
نموذج “مسودة” منفصل وأصغر يقترح الرموز. النموذج الرئيسي يتحقق منها بالتوازي. إذا كانت المسودات صحيحة، يتم قبول عدة رموز لكل خطوة.
النموذج الرئيسي لديه رؤوس تنبؤ خفيفة خاصة به تولّد رموز المسودة. لا حاجة لنموذج منفصل.
رؤوس التنبؤ MTP يتم تدريبها جنباً إلى جنب مع النموذج الرئيسي. تتشارك نفس التمثيلات الداخلية وتتعلم توزيع الرموز الخاص بالنموذج. هذا عادةً ينتج معدلات قبول أعلى من نموذج مسودة خارجي، مما يعني المزيد من الرموز المقبولة لكل خطوة تحقق وتوليد أسرع بشكل عام.
رؤوس التنبؤ أيضاً صغيرة — عادةً تضيف فقط 1-3% من إجمالي معلمات النموذج. استهلاك الذاكرة الإضافي ضئيل مقارنة بتحميل نموذج مسودة منفصل.
هذا لا يتعلق فقط بـ Gemma 4. القرار يضع سابقة لمدى “انفتاح” إصدارات النماذج مفتوحة الأوزان فعلاً.
ما يخسره المستخدمون:
ما يملكه المستخدمون:
استجابة المجتمع كانت مباشرة. كان الإجماع خلال 24 ساعة أن نتائج Gemma 4 المعيارية تنافسية — تتساوى مع أو تتأخر قليلاً عن Qwen 3.5 — لكن المنتج “غير مكتمل”. السرعة والاستقرار والأدوات تحتاج إلى عمل. تشمل المشكلات الإضافية عدم دعم HuggingFace Transformers لمعمارية Gemma 4 في البداية، وعدم تعامل PEFT مع أنواع الطبقات الجديدة، ومعاناة مستخدمي Mac من تعطّل تحميل النماذج الأكبر.
إذا كنت تقيّم Gemma 4 للنشر، إليك خيارات عملية:
استخدم فك التشفير التخميني التقليدي. نماذج المسودة الخارجية لا تزال قادرة على تسريع استدلال Gemma 4. أُطر مثل vLLM تضيف دعم فك التشفير التخميني Eagle3 خصيصاً لـ Gemma 4. التسريع لن يضاهي MTP المدمج، لكنه أفضل من لا شيء.
فكّر في البدائل لأحمال العمل الحساسة للسرعة. Qwen 3.5 يقدم رموزاً في الثانية أكثر بشكل ملحوظ على نفس الأجهزة. إذا كانت سرعة الاستدلال هي قيدك الرئيسي، فإن Qwen يقدم حالياً نسبة سرعة-إلى-جودة أفضل.
راقب الحلول البديلة من المجتمع. صادرات LiteRT تحتوي على رؤوس MTP. قد يجد الباحثون طرقاً لاستخراجها وإعادة ربطها بأوزان HuggingFace، رغم أن Google لم تدعم هذا المسار رسمياً.
قدّم ملاحظاتك. مهندسو Google يراقبون بنشاط مواضيع النقاش على HuggingFace. الطلبات الواضحة والتقنية لإصدار رؤوس MTP لها ثقلها.
Gemma 4 عائلة نماذج قادرة مع ابتكارات معمارية حقيقية ونتائج معيارية قوية. قرار تجريد رؤوس التنبؤ MTP من الإصدار العام — مع الاحتفاظ بها في إطار عمل Google الخاص LiteRT — يقوّض كلمة “مفتوح” في مفتوح الأوزان.
MTP ليس تحسيناً ثانوياً. يمكنه تقديم تسريع 1.5–2 ضعف في الاستدلال مع صفر تأثير على جودة المخرجات. حجبه عن الأوزان العامة بينما النموذج تم تدريبه معه بوضوح يخلق نظاماً من مستويين: استدلال سريع لأدوات Google، واستدلال بطيء لكل شخص آخر.
بالنسبة لمجتمع الذكاء الاصطناعي مفتوح المصدر، الرسالة واضحة: تحقق مما هو موجود فعلاً في الأوزان، وليس فقط المعايير. الترخيص المفتوح لا يعني دائماً إصداراً مفتوحاً.
تم البناء بواسطة FlowHunt . ابقَ على اطلاع بأحدث التطورات في الذكاء الاصطناعي مفتوح المصدر على مدونتنا .
فيكتور زيمان هو شريك مالك في QualityUnit. حتى بعد 20 عامًا من قيادة الشركة، لا يزال في الأساس مهندس برمجيات، متخصص في الذكاء الاصطناعي، وتحسين محركات البحث البرمجية، وتطوير الخلفيات. لقد ساهم في العديد من المشاريع، بما في ذلك LiveAgent و PostAffiliatePro و FlowHunt و UrlsLab والعديد غيرها.

يتيح لك FlowHunt بناء خطوط أنابيب ذكاء اصطناعي مؤتمتة باستخدام واجهات API السحابية والنماذج مفتوحة المصدر — مع تحكم كامل في السرعة والتكلفة والجودة.
قمنا بضبط دقيق لنموذج Gemma 4 31B من Google على MacBook Pro M3 Max لإنشاء مقالات رياضية. إليك كيفية مقارنته مع Claude Sonnet من حيث الجودة والسرعة والتكلفة — با...

استكشف عمليات التفكير لدى وكلاء الذكاء الاصطناعي في هذا التقييم الشامل لـ GPT-4o. اكتشف كيف يؤدي في مهام مثل توليد المحتوى، وحل المشكلات، والكتابة الإبداعية، با...

اكتشف ما هو Google Gemini، وكيف يعمل، وكيف يقارن بـ ChatGPT. تعرف على قدراته المتعددة الوسائط، وأسعاره، وتطبيقاته العملية لعام 2025....