Gemma 4 a été publié sans données MTP — Voici pourquoi c'est important
Google a retiré les têtes de prédiction MTP de la version publique de Gemma 4 tout en les conservant dans son propre framework LiteRT. Voici ce que cela implique pour la vitesse d’inférence et l’IA open-source.
AI
LLM
Gemma
Open Source
Inference
Multi-Token Prediction
Google a publié Gemma 4 le 3 avril 2026 — une famille de modèles open-weight avec de solides résultats aux benchmarks, des capacités multimodales et jusqu’à 256K tokens de contexte. Sur le papier, c’est une sortie impressionnante. Mais en quelques heures, la communauté a découvert quelque chose de manquant : les têtes de Multi-Token Prediction avaient été retirées des poids publics.
Le modèle a été entraîné avec le MTP. Le propre framework LiteRT de Google inclut les composants MTP. Mais la version que tout le monde peut télécharger depuis HuggingFace ? Génération autorégressive standard uniquement. Pas d’accélération. Pas de décodage spéculatif.
Cet article explique ce qu’est le MTP, pourquoi c’est important, et ce que cette décision signifie pour quiconque utilise Gemma 4 sur son propre matériel.
Qu’est-ce que Gemma 4 ?
Gemma 4 est la dernière famille de modèles open-weight de Google DeepMind, publiée sous licence Apache 2.0. Elle se décline en quatre tailles :
Modèle
Paramètres
Type
Caractéristiques notables
Gemma 4 E2B
2,3 milliards effectifs
Dense
Vision + Audio
Gemma 4 E4B
4,5 milliards effectifs
Dense
Vision + Audio
Gemma 4 26B-A4B
26 milliards au total / 4 milliards actifs
Mixture of Experts
Vision
Gemma 4 31B
31 milliards
Dense
Vision
Parmi les capacités clés : le support multimodal natif, l’appel de fonctions, la sortie JSON structurée et un entraînement sur plus de 140 langues. La variante 31B se classe 3e au classement texte de LMArena.
Sous le capot, Gemma 4 introduit plusieurs innovations architecturales : des couches alternées d’attention locale par fenêtre glissante et d’attention globale, le RoPE proportionnel (p-RoPE), les Per-Layer Embeddings (PLE), le cache KV partagé et une optimisation mémoire « Keys equal Values ».
En termes de chiffres, c’est une sortie solide. Le problème, c’est ce qui n’est pas dans les poids publics.
Qu’est-ce que le Multi-Token Prediction ?
Les grands modèles de langage standard génèrent du texte un token à la fois. Chaque token nécessite une passe avant complète à travers le modèle. Le token suivant ne peut pas commencer tant que le précédent n’est pas terminé. C’est le décodage autorégressif, et il est intrinsèquement séquentiel.
Le Multi-Token Prediction (MTP) change la donne en ajoutant des têtes de prédiction supplémentaires au modèle. Au lieu de prédire uniquement le prochain token, le modèle prédit les tokens N+1, N+2, N+3, et ainsi de suite — le tout en une seule passe avant.
Voici comment cela fonctionne :
Phase d’entraînement : Des têtes de prédiction légères supplémentaires sont entraînées en parallèle du modèle principal. Chaque tête apprend à prédire une position future différente (1 en avance, 2 en avance, 3 en avance, etc.)
Phase d’inférence : Les têtes supplémentaires génèrent des tokens « brouillons » en parallèle. Le modèle principal les vérifie ensuite tous en une seule passe avant.
Vérification : Si les tokens brouillons correspondent à ce que le modèle principal aurait généré, ils sont tous acceptés en une fois — sautant ainsi plusieurs étapes de décodage séquentiel. Si un token brouillon est incorrect, la génération reprend à cette position.
Cela est étroitement lié au décodage spéculatif, mais avec un avantage clé : les tokens brouillons proviennent du modèle lui-même plutôt que de nécessiter un modèle « brouillon » séparé et plus petit.
Quelle est l’accélération avec le MTP ?
L’accélération dépend de la fréquence à laquelle les tokens brouillons sont corrects (le « taux d’acceptation »). DeepSeek V3 a démontré l’impact en conditions réelles :
Métrique
Valeur
Longueur moyenne d’acceptation
2,4 tokens par étape de vérification
Accélération de l’inférence
1,8x en moyenne (jusqu’à 2,1x en pointe)
Impact sur la qualité de sortie
Zéro — tous les tokens sont vérifiés par le modèle principal
Un taux d’acceptation de 2,4 signifie qu’en moyenne, chaque passe avant à travers le modèle principal produit 2,4 tokens au lieu d’un seul. La sortie est mathématiquement identique au décodage standard — chaque token est vérifié. Vous obtenez la même qualité à presque le double de la vitesse.
Prêt à développer votre entreprise?
Commencez votre essai gratuit aujourd'hui et voyez les résultats en quelques jours.
Un utilisateur de HuggingFace (@shadowlilac
) a découvert que le package LiteRT de Google pour Gemma 4 contient des têtes de prédiction MTP et une fonctionnalité de prédiction multi-tokens. Mais les poids publiés sur HuggingFace n’en contiennent aucune.
Les composants MTP ont été délibérément retirés :
Pas de têtes MTP dans le checkpoint
Pas de MTP dans la configuration du modèle
Pas de MTP dans la passe avant
L’explication de Google
Un ingénieur de Google (@srikanta-221
) a confirmé que c’était intentionnel :
Le modèle public expose uniquement une interface autorégressive standard « pour une large compatibilité ». Les têtes MTP sont exclues de la configuration du modèle, de la passe avant et du checkpoint. Cela garantit la compatibilité avec les API HuggingFace Transformers et maintient un comportement cohérent du checkpoint et de l’exécution.
Google présente le MTP comme une « optimisation au moment du déploiement » plutôt que comme une fonctionnalité centrale du modèle. Les têtes de prédiction MTP ne sont conservées que dans les modèles exportés via LiteRT — le propre framework d’inférence sur appareil de Google.
Pourquoi c’est un problème
L’explication ne résiste pas à l’examen :
1. Le modèle a été entraîné avec le MTP. La capacité existe. La retirer de la publication est un choix, pas une limitation technique.
2. Les moteurs tiers ne peuvent pas l’implémenter. vLLM, llama.cpp, SGLang et d’autres frameworks d’inférence ne peuvent pas utiliser le décodage spéculatif basé sur le MTP sans les têtes de prédiction. Ces moteurs servent la grande majorité des déploiements LLM open-source.
3. Les utilisateurs obtiennent la version lente. Sans MTP, Gemma 4 fonctionne à la vitesse autorégressive standard. L’écart de performance est déjà visible en pratique :
Modèle
Matériel
Vitesse
Notes
Gemma 4 26B-A4B
5060 Ti 16GB
11 tok/s
Pas de MTP, décodage standard
Qwen 3.5 35B-A3B
5060 Ti 16GB
60+ tok/s
Modèle MoE comparable
Gemma 4 E4B
RTX 4090 (vLLM)
~9 tok/s
Problèmes de repli FlashAttention
4. Cela crée un verrouillage écosystémique. Le propre framework LiteRT de Google bénéficie de l’avantage de vitesse. Tout le monde obtient un modèle plus lent. Pour une publication « open-weight » sous Apache 2.0, c’est une asymétrie significative.
Comment fonctionne le décodage spéculatif (et pourquoi le MTP est meilleur)
Pour comprendre pourquoi les têtes MTP manquantes sont importantes, il est utile de voir où le MTP s’inscrit dans l’évolution de l’optimisation de l’inférence.
Approche 1 : Décodage spéculatif traditionnel
Un modèle « brouillon » séparé et plus petit propose des tokens. Le modèle principal les vérifie en parallèle. Si les brouillons sont corrects, plusieurs tokens sont acceptés par étape.
Avantages : Fonctionne avec n’importe quelle paire de modèles
Inconvénients : Nécessite de maintenir et charger un second modèle ; la qualité du modèle brouillon limite l’accélération ; surcharge mémoire supplémentaire
Approche 2 : MTP (Têtes de prédiction intégrées)
Le modèle principal possède ses propres têtes de prédiction légères qui génèrent des tokens brouillons. Aucun modèle séparé n’est nécessaire.
Avantages : Pas de modèle supplémentaire nécessaire ; une intégration plus étroite signifie des taux d’acceptation plus élevés ; surcharge mémoire réduite
Inconvénients : Ne fonctionne que si les têtes de prédiction sont incluses dans la publication
Pourquoi le MTP l’emporte
Les têtes de prédiction MTP sont entraînées en même temps que le modèle principal. Elles partagent les mêmes représentations internes et apprennent la propre distribution de tokens du modèle. Cela produit généralement des taux d’acceptation plus élevés qu’un modèle brouillon externe, ce qui signifie plus de tokens acceptés par étape de vérification et une génération globalement plus rapide.
Les têtes de prédiction sont également petites — n’ajoutant généralement que 1 à 3 % au nombre total de paramètres du modèle. La surcharge mémoire est négligeable par rapport au chargement d’un modèle brouillon séparé.
Rejoignez notre newsletter
Recevez gratuitement les derniers conseils, tendances et offres.
L’impact global
Il ne s’agit pas seulement de Gemma 4. Cette décision crée un précédent quant au degré réel d’ouverture des publications open-weight.
Ce que les utilisateurs perdent :
Le décodage spéculatif basé sur le MTP sur tout moteur d’inférence tiers
La possibilité d’affiner ou d’expérimenter avec les têtes MTP
La parité de performance avec les propres outils de déploiement de Google
Ce que les utilisateurs conservent :
Les poids du modèle de base (qui sont véritablement bons)
Le décodage spéculatif traditionnel utilisant un modèle brouillon séparé (l’issue vLLM #38893
suit le support Eagle3 pour Gemma 4)
Les techniques standard de quantification et d’optimisation
La réponse de la communauté a été directe. Le consensus après 24 heures était que les résultats de benchmark de Gemma 4 sont compétitifs — il égale ou suit légèrement Qwen 3.5 — mais que le produit « n’est pas terminé ». La vitesse, la stabilité et l’outillage nécessitent du travail. Parmi les problèmes supplémentaires : HuggingFace Transformers manquait initialement du support de l’architecture Gemma 4, PEFT ne gère pas les nouveaux types de couches, et les utilisateurs Mac rencontrent des plantages lors du chargement des modèles les plus grands.
Que pouvez-vous faire ?
Si vous évaluez Gemma 4 pour un déploiement, voici des options pratiques :
Utilisez le décodage spéculatif traditionnel. Des modèles brouillons externes peuvent toujours accélérer l’inférence de Gemma 4. Des frameworks comme vLLM ajoutent le support du décodage spéculatif Eagle3 spécifiquement pour Gemma 4. L’accélération n’égalera pas le MTP intégré, mais c’est mieux que rien.
Envisagez des alternatives pour les charges de travail critiques en vitesse. Qwen 3.5 offre un débit en tokens par seconde nettement supérieur sur du matériel équivalent. Si la vitesse d’inférence est votre contrainte principale, Qwen offre actuellement un meilleur rapport vitesse-qualité.
Surveillez les solutions de contournement de la communauté. Les exports LiteRT contiennent les têtes MTP. Des chercheurs pourraient trouver des moyens de les extraire et de les rattacher aux poids HuggingFace, bien que Google n’ait pas officiellement soutenu cette voie.
Faites part de vos retours. Les ingénieurs de Google surveillent activement les fils de discussion sur HuggingFace. Des demandes claires et techniques pour la publication des têtes MTP ont du poids.
Conclusion
Gemma 4 est une famille de modèles performante avec de véritables innovations architecturales et de solides résultats aux benchmarks. La décision de retirer les têtes de prédiction MTP de la publication publique — tout en les conservant dans le propre framework LiteRT de Google — compromet le « open » d’open-weight.
Le MTP n’est pas une optimisation mineure. Il peut offrir des accélérations d’inférence de 1,5 à 2x sans aucun impact sur la qualité de sortie. Le retenir des poids publics alors que le modèle a clairement été entraîné avec crée un système à deux vitesses : une inférence rapide pour les outils de Google, une inférence lente pour tous les autres.
Pour la communauté IA open-source, le message est clair : vérifiez ce qui se trouve réellement dans les poids, pas seulement les benchmarks. Une licence ouverte ne signifie pas toujours une publication ouverte.
Construit avec FlowHunt
. Restez informé des dernières avancées en IA open-source sur notre blog
.
Questions fréquemment posées
Le Multi-Token Prediction est une technique où un LLM prédit plusieurs tokens futurs en une seule passe avant au lieu d'un token à la fois. Des têtes de prédiction supplémentaires sont entraînées en parallèle du modèle principal pour générer les tokens N+1, N+2, N+3, etc. simultanément, qui peuvent ensuite être vérifiés en parallèle par le modèle principal. Cela permet des accélérations d'inférence de 1,5 à 2x sans aucune perte de qualité de sortie.
Gemma 4 a été entraîné avec des têtes de prédiction MTP, et elles sont présentes dans les exports LiteRT de Google (inférence sur appareil). Cependant, les poids publiés sur HuggingFace ont été délibérément dépourvus des têtes MTP. Google affirme que cela a été fait pour une ' large compatibilité ' avec les frameworks d'inférence existants.
Sans les têtes MTP, les moteurs d'inférence tiers comme vLLM, llama.cpp et SGLang ne peuvent pas utiliser le décodage spéculatif intégré pour Gemma 4. Les utilisateurs sont limités à la génération autorégressive standard, qui est nettement plus lente. Les benchmarks montrent que Gemma 4 ne génère que 11 tokens/sec sur du matériel où des modèles comparables atteignent plus de 60 tokens/sec.
Le décodage spéculatif est une technique d'accélération de l'inférence où un modèle ' brouillon ' rapide propose plusieurs tokens à la fois, et le modèle principal les vérifie en une seule passe avant. Si les tokens brouillons sont corrects, plusieurs étapes de décodage sont effectivement sautées. Le MTP est une variante où les tokens brouillons proviennent des propres têtes de prédiction intégrées du modèle plutôt que d'un modèle séparé.
En avril 2026, Google n'a pas annoncé de plans pour publier les têtes de prédiction MTP pour les poids HuggingFace. Elles ne sont actuellement disponibles que dans les modèles exportés via LiteRT, ce qui limite leur utilisation au propre framework d'inférence de Google. La communauté continue de demander leur publication.
Viktor Zeman est co-propriétaire de QualityUnit. Même après 20 ans à la tête de l'entreprise, il reste avant tout un ingénieur logiciel, spécialisé en IA, SEO programmatique et développement back-end. Il a contribué à de nombreux projets, dont LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab et bien d'autres.
Viktor Zeman
CEO, Ingénieur IA
Créez des workflows IA avec les meilleurs modèles
FlowHunt vous permet de créer des pipelines IA automatisés en utilisant des API cloud et des modèles open-source — avec un contrôle total sur la vitesse, le coût et la qualité.
Fine-Tuning Gemma 4 sur Apple Silicon : Peut-il remplacer Claude Sonnet pour la génération de contenu ?
Nous avons affiné le modèle Gemma 4 31B de Google sur un MacBook Pro M3 Max pour générer des articles de sports. Voici comment il s'est comparé à Claude Sonnet ...
Découvrez ce qu'est Google Gemini, son fonctionnement, et sa comparaison avec ChatGPT. Apprenez-en plus sur ses capacités multimodales, ses tarifs et ses applic...
Gemini 3 Flash : le modèle d'IA révolutionnaire qui surpasse Pro pour une fraction du coût
Découvrez pourquoi Gemini 3 Flash de Google révolutionne l'IA avec des performances supérieures, des coûts réduits et des vitesses accrues—surpassant même Gemin...
16 min de lecture
AI Models
Google Gemini
+3
Consentement aux Cookies Nous utilisons des cookies pour améliorer votre expérience de navigation et analyser notre trafic. See our privacy policy.