Wat is Multi-Token Prediction (MTP)?

Multi-Token Prediction is een techniek waarbij een LLM meerdere toekomstige tokens voorspelt in één forward pass, in plaats van één token per keer. Extra predictieheads worden naast het hoofdmodel getraind om tokens N+1, N+2, N+3, enz. gelijktijdig te genereren, die vervolgens parallel door het hoofdmodel geverifieerd kunnen worden. Dit maakt inferentieversnellingen van 1,5–2x mogelijk zonder kwaliteitsverlies.

Ondersteunt Gemma 4 MTP?

Gemma 4 is getraind met MTP-predictieheads, en deze zijn aanwezig in Googles LiteRT (on-device inference) exports. De publiek vrijgegeven HuggingFace-gewichten hebben de MTP-heads echter bewust verwijderd. Google zegt dat dit is gedaan voor 'brede compatibiliteit' met bestaande inference-frameworks.

Waarom is het verwijderen van MTP-heads belangrijk?

Zonder MTP-heads kunnen third-party inference-engines zoals vLLM, llama.cpp en SGLang geen ingebouwde speculative decoding gebruiken voor Gemma 4. Gebruikers zitten vast aan standaard autoregressieve generatie, die aanzienlijk langzamer is. Benchmarks tonen aan dat Gemma 4 slechts 11 tokens/sec genereert op hardware waar vergelijkbare modellen 60+ tokens/sec halen.

Wat is speculative decoding?

Speculative decoding is een inferentieversnellingstechniek waarbij een snel 'concept'-model meerdere tokens tegelijk voorstelt, en het hoofdmodel deze in één forward pass verifieert. Als de concepttokens correct zijn, worden er effectief meerdere decodestappen overgeslagen. MTP is een variant waarbij de concepttokens afkomstig zijn van de eigen ingebouwde predictieheads van het model in plaats van een apart model.

Zal Google de MTP-heads voor Gemma 4 vrijgeven?

Per april 2026 heeft Google geen plannen aangekondigd om de MTP-predictieheads voor de HuggingFace-gewichten vrij te geven. Ze zijn momenteel alleen beschikbaar in de LiteRT-geëxporteerde modellen, wat het gebruik beperkt tot Googles eigen inference-framework. De gemeenschap blijft om vrijgave vragen.

Gemma 4 Uitgebracht Zonder MTP-data — Waarom Dat Belangrijk Is

Google heeft de MTP-predictieheads uit de publieke release van Gemma 4 verwijderd, terwijl ze wel beschikbaar zijn in het eigen LiteRT-framework. Dit is wat dat betekent voor inferentiesnelheid en open-source AI.

AI LLM Gemma Open Source

Aan de Slag Lees Meer

Google bracht Gemma 4 uit op 3 april 2026 — een familie van open-weight modellen met sterke benchmarkresultaten, multimodale mogelijkheden en tot 256K context. Op papier is het een indrukwekkende release. Maar binnen enkele uren ontdekte de gemeenschap dat er iets ontbrak: de Multi-Token Prediction-heads waren uit de publieke gewichten verwijderd.

Het model was getraind met MTP. Googles eigen LiteRT-framework bevat de MTP-componenten. Maar de versie die iedereen kan downloaden van HuggingFace? Alleen standaard autoregressieve generatie. Geen snelheidsboost. Geen speculative decoding.

Dit artikel legt uit wat MTP is, waarom het belangrijk is, en wat deze beslissing betekent voor iedereen die Gemma 4 op eigen hardware draait.

Wat Is Gemma 4?

Gemma 4 is de nieuwste open-weight modelfamilie van Google DeepMind, uitgebracht onder de Apache 2.0-licentie. Het is beschikbaar in vier formaten:

Model	Parameters	Type	Opvallende Kenmerken
Gemma 4 E2B	2,3B effectief	Dense	Vision + Audio
Gemma 4 E4B	4,5B effectief	Dense	Vision + Audio
Gemma 4 26B-A4B	26B totaal / 4B actief	Mixture of Experts	Vision
Gemma 4 31B	31B	Dense	Vision

Belangrijke mogelijkheden zijn onder meer native multimodale ondersteuning, function calling, gestructureerde JSON-uitvoer en training op 140+ talen. De 31B-variant staat op #3 op het LMArena-tekstklassement.

Onder de motorkap introduceert Gemma 4 diverse architectuurinnovaties: afwisselende lokale sliding-window en globale aandachtslagen, proportionele RoPE (p-RoPE), Per-Layer Embeddings (PLE), gedeelde KV-cache en een “Keys equal Values”-geheugenoptimalisatie.

Qua cijfers is dit een sterke release. Het probleem zit in wat er niet in de publieke gewichten zit.

Wat Is Multi-Token Prediction?

Standaard grote taalmodellen genereren tekst één token per keer. Elk token vereist een volledige forward pass door het model. Het volgende token kan pas beginnen als het vorige klaar is. Dit is autoregressieve decodering, en het is inherent sequentieel.

Diagram dat standaard autoregressieve decodering (één token per stap) vergelijkt met Multi-Token Prediction (meerdere tokens per stap)

Multi-Token Prediction (MTP) verandert dit door extra predictieheads aan het model toe te voegen. In plaats van alleen het volgende token te voorspellen, voorspelt het model tokens N+1, N+2, N+3, enzovoort — allemaal in één forward pass.

Zo werkt het:

Trainingsfase: Extra lichtgewicht predictieheads worden naast het hoofdmodel getraind. Elke head leert een andere toekomstige positie te voorspellen (1 vooruit, 2 vooruit, 3 vooruit, enz.)
Inferentiefase: De extra heads genereren “concept”-tokens parallel. Het hoofdmodel verifieert ze vervolgens allemaal in één forward pass.
Verificatie: Als de concepttokens overeenkomen met wat het hoofdmodel zou hebben gegenereerd, worden ze allemaal tegelijk geaccepteerd — waardoor meerdere sequentiële decodestappen worden overgeslagen. Als een concepttoken fout is, valt de generatie terug naar die positie.

Dit is nauw verwant aan speculative decoding, maar met een belangrijk voordeel: de concepttokens komen van het model zelf in plaats van dat er een apart, kleiner “concept-model” nodig is.

Architectuurdiagram dat laat zien hoe MTP-predictieheads aan het hoofd-transformermodel zijn gekoppeld om gelijktijdig meerdere concepttokens te genereren

Hoeveel Sneller Is MTP?

De versnelling hangt af van hoe vaak de concepttokens correct zijn (de “acceptatiegraad”). DeepSeek V3 demonstreerde de praktische impact:

Metriek	Waarde
Gemiddelde acceptatielengte	2,4 tokens per verificatiestap
Inferentieversnelling	Gemiddeld 1,8x (tot 2,1x piek)
Impact op uitvoerkwaliteit	Nul — alle tokens worden geverifieerd door het hoofdmodel

Een acceptatiegraad van 2,4 betekent dat elke forward pass door het hoofdmodel gemiddeld 2,4 tokens produceert in plaats van 1. De uitvoer is wiskundig identiek aan standaard decodering — elk token wordt geverifieerd. Je krijgt dezelfde kwaliteit tegen bijna dubbele snelheid.

Wat Er Gebeurde met Gemma 4

Een HuggingFace-gebruiker (@shadowlilac ) ontdekte dat Googles LiteRT-pakket voor Gemma 4 MTP-predictieheads en multi-token prediction-functionaliteit bevat. Maar de publiek vrijgegeven gewichten op HuggingFace bevatten hier niets van.

De MTP-componenten zijn bewust verwijderd:

Geen MTP-heads in het checkpoint
Geen MTP in de modelconfiguratie
Geen MTP in de forward pass

Diagram dat laat zien dat de training van Gemma 4 MTP-heads bevatte, maar de publieke HuggingFace-release deze heeft verwijderd terwijl Googles LiteRT-versie ze behoudt

Googles Uitleg

Een Google-engineer (@srikanta-221 ) bevestigde dat dit opzettelijk was:

Het publieke model biedt alleen een standaard autoregressieve interface “voor brede compatibiliteit.” MTP-heads zijn uitgesloten van de modelconfiguratie, forward pass en het checkpoint. Dit garandeert compatibiliteit met HuggingFace Transformers API’s en zorgt voor consistent checkpoint- en runtimegedrag.

Google presenteert MTP als een “deployment-time optimalisatie” in plaats van een kernfunctie van het model. De MTP-predictieheads zijn alleen bewaard in de LiteRT-geëxporteerde modellen — Googles eigen on-device inference-framework.

Waarom Dit Een Probleem Is

De uitleg houdt geen stand bij nader onderzoek:

1. Het model is getraind met MTP. De mogelijkheid bestaat. Het verwijderen uit de release is een keuze, geen technische beperking.

2. Third-party engines kunnen het niet implementeren. vLLM, llama.cpp, SGLang en andere inference-frameworks kunnen geen MTP-gebaseerde speculative decoding gebruiken zonder de predictieheads. Deze engines bedienen het overgrote deel van open-source LLM-implementaties.

3. Gebruikers krijgen de langzame versie. Zonder MTP draait Gemma 4 op standaard autoregressieve snelheden. Het prestatieverschil is in de praktijk al zichtbaar:

Model	Hardware	Snelheid	Opmerkingen
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Geen MTP, standaard decodering
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Vergelijkbaar MoE-model
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	FlashAttention-terugvalproblemen

4. Het creëert ecosysteem-lock-in. Googles eigen LiteRT-framework krijgt het snelheidsvoordeel. Alle anderen krijgen een langzamer model. Voor een “open-weight” Apache 2.0-release is dit een aanzienlijke asymmetrie.

Hoe Speculative Decoding Werkt (en Waarom MTP Beter Is)

Om te begrijpen waarom de ontbrekende MTP-heads belangrijk zijn, helpt het om te zien waar MTP past in de evolutie van inferentie-optimalisatie.

Vergelijking van drie speculative decoding-benaderingen: traditioneel (apart concept-model), speculatief-speculatief, en MTP (ingebouwde predictieheads)

Benadering 1: Traditionele Speculative Decoding

Een apart, kleiner “concept-model” stelt tokens voor. Het hoofdmodel verifieert ze parallel. Als de concepten correct zijn, worden er meerdere tokens per stap geaccepteerd.

Voordelen: Werkt met elk modelpaar
Nadelen: Vereist het onderhouden en laden van een tweede model; kwaliteit van het concept-model beperkt de versnelling; extra geheugenoverhead

Benadering 2: MTP (Ingebouwde Predictieheads)

Het hoofdmodel heeft zijn eigen lichtgewicht predictieheads die concepttokens genereren. Geen apart model nodig.

Voordelen: Geen extra model nodig; strakkere integratie betekent hogere acceptatiegraden; minder geheugenoverhead
Nadelen: Werkt alleen als de predictieheads zijn meegeleverd in de release

Waarom MTP Wint

MTP-predictieheads worden naast het hoofdmodel getraind. Ze delen dezelfde interne representaties en leren de tokenverdeling van het model. Dit levert doorgaans hogere acceptatiegraden op dan een extern concept-model, wat meer geaccepteerde tokens per verificatiestap betekent en snellere generatie overall.

De predictieheads zijn ook klein — ze voegen doorgaans slechts 1-3% toe aan het totale aantal parameters van het model. De geheugenoverhead is verwaarloosbaar vergeleken met het laden van een apart concept-model.

De Bredere Impact

Dit gaat niet alleen over Gemma 4. De beslissing schept een precedent voor hoe “open” open-weight releases werkelijk zijn.

Wat gebruikers verliezen:

MTP-gebaseerde speculative decoding op elke third-party inference-engine
De mogelijkheid om de MTP-heads te fine-tunen of ermee te experimenteren
Prestatiepariteit met Googles eigen deployment-tools

Wat gebruikers nog steeds hebben:

De basismodelgewichten (die oprecht goed zijn)
Traditionele speculative decoding met een apart concept-model (vLLM-issue #38893 volgt Eagle3-ondersteuning voor Gemma 4)
Standaard kwantisatie- en optimalisatietechnieken

De reactie van de gemeenschap was direct. De consensus na 24 uur was dat de benchmarkresultaten van Gemma 4 competitief zijn — het staat gelijk aan of loopt iets achter op Qwen 3.5 — maar het product “is niet af.” Snelheid, stabiliteit en tooling hebben werk nodig. Aanvullende problemen zijn onder meer dat HuggingFace Transformers aanvankelijk geen Gemma 4-architectuurondersteuning had, PEFT de nieuwe laagtypen niet aankan, en Mac-gebruikers crashes ervaren bij het laden van grotere modellen.

Wat Kun Je Doen?

Als je Gemma 4 evalueert voor deployment, zijn hier praktische opties:

Gebruik traditionele speculative decoding. Externe concept-modellen kunnen Gemma 4-inferentie nog steeds versnellen. Frameworks zoals vLLM voegen Eagle3 speculative decoding-ondersteuning toe specifiek voor Gemma 4. De versnelling zal niet gelijk zijn aan ingebouwde MTP, maar het is beter dan niets.

Overweeg alternatieven voor snelheidskritieke workloads. Qwen 3.5 levert aanzienlijk betere tokens-per-seconde op vergelijkbare hardware. Als inferentiesnelheid je primaire beperking is, biedt Qwen momenteel een betere snelheid-kwaliteitverhouding.

Houd community-workarounds in de gaten. De LiteRT-exports bevatten de MTP-heads. Onderzoekers vinden mogelijk manieren om deze te extraheren en opnieuw te koppelen aan de HuggingFace-gewichten, hoewel Google dit pad niet officieel ondersteunt.

Geef feedback. Googles engineers volgen de HuggingFace-discussiedraden actief. Duidelijke, technische verzoeken om vrijgave van de MTP-heads hebben gewicht.

Conclusie

Gemma 4 is een capabele modelfamilie met oprechte architectuurinnovaties en sterke benchmarkresultaten. De beslissing om MTP-predictieheads uit de publieke release te verwijderen — terwijl ze behouden blijven in Googles eigen LiteRT-framework — ondermijnt het “open” in open-weight.

MTP is geen kleine optimalisatie. Het kan inferentieversnellingen van 1,5–2x opleveren zonder enige impact op de uitvoerkwaliteit. Het achterhouden van de publieke gewichten terwijl het model er duidelijk mee getraind is, creëert een tweeledig systeem: snelle inferentie voor Googles tools, langzame inferentie voor alle anderen.

Voor de open-source AI-gemeenschap is de boodschap duidelijk: controleer wat er daadwerkelijk in de gewichten zit, niet alleen de benchmarks. Een open licentie betekent niet altijd een open release.

Gebouwd met FlowHunt . Blijf op de hoogte van de laatste ontwikkelingen in open-source AI op onze blog .

Veelgestelde vragen

: Multi-Token Prediction is een techniek waarbij een LLM meerdere toekomstige tokens voorspelt in één forward pass, in plaats van één token per keer. Extra predictieheads worden naast het hoofdmodel getraind om tokens N+1, N+2, N+3, enz. gelijktijdig te genereren, die vervolgens parallel door het hoofdmodel geverifieerd kunnen worden. Dit maakt inferentieversnellingen van 1,5–2x mogelijk zonder kwaliteitsverlies.
: Gemma 4 is getraind met MTP-predictieheads, en deze zijn aanwezig in Googles LiteRT (on-device inference) exports. De publiek vrijgegeven HuggingFace-gewichten hebben de MTP-heads echter bewust verwijderd. Google zegt dat dit is gedaan voor 'brede compatibiliteit' met bestaande inference-frameworks.
: Zonder MTP-heads kunnen third-party inference-engines zoals vLLM, llama.cpp en SGLang geen ingebouwde speculative decoding gebruiken voor Gemma 4. Gebruikers zitten vast aan standaard autoregressieve generatie, die aanzienlijk langzamer is. Benchmarks tonen aan dat Gemma 4 slechts 11 tokens/sec genereert op hardware waar vergelijkbare modellen 60+ tokens/sec halen.
: Speculative decoding is een inferentieversnellingstechniek waarbij een snel 'concept'-model meerdere tokens tegelijk voorstelt, en het hoofdmodel deze in één forward pass verifieert. Als de concepttokens correct zijn, worden er effectief meerdere decodestappen overgeslagen. MTP is een variant waarbij de concepttokens afkomstig zijn van de eigen ingebouwde predictieheads van het model in plaats van een apart model.
: Per april 2026 heeft Google geen plannen aangekondigd om de MTP-predictieheads voor de HuggingFace-gewichten vrij te geven. Ze zijn momenteel alleen beschikbaar in de LiteRT-geëxporteerde modellen, wat het gebruik beperkt tot Googles eigen inference-framework. De gemeenschap blijft om vrijgave vragen.

Bouw AI-workflows met de Beste Modellen

FlowHunt laat je geautomatiseerde AI-pipelines bouwen met cloud-API's en open-source modellen — met volledige controle over snelheid, kosten en kwaliteit.

Aan de Slag Lees Meer

Meer informatie

Gemma 4 Fine-Tuning op Apple Silicon: Kan het Claude Sonnet vervangen voor contentgeneratie?

We hebben Google's Gemma 4 31B model op een MacBook Pro M3 Max afgestemd om sportartikelen te genereren. Hier ziet u hoe het zich verhoudt tot Claude Sonnet in ...

Apr 6, 2026 10 min lezen

AI LLM +6

Wat is Google Gemini AI Chatbot?

Ontdek wat Google Gemini is, hoe het werkt en hoe het zich verhoudt tot ChatGPT. Leer over de multimodale mogelijkheden, prijzen en toepassingen in de praktijk ...

Dec 1, 2025 11 min lezen

Gemini 3 Flash: Het baanbrekende AI-model dat Pro verslaat voor een fractie van de kosten

Ontdek waarom Google's Gemini 3 Flash een revolutie teweegbrengt in AI met superieure prestaties, lagere kosten en snellere snelheid—zelfs beter dan Gemini 3 Pr...

Dec 22, 2025 16 min lezen

AI Models Google Gemini +3

Gemma 4 Uitgebracht Zonder MTP-data — Waarom Dat Belangrijk Is

Wat Is Gemma 4?