Hva er Multi-Token Prediction (MTP)?

Multi-Token Prediction er en teknikk der en LLM predikerer flere fremtidige tokens i en enkelt forward pass i stedet for ett token om gangen. Ekstra prediksjonshodene trenes sammen med hovedmodellen for å utarbeide tokens N+1, N+2, N+3 osv. samtidig, som deretter kan verifiseres parallelt av hovedmodellen. Dette muliggjør 1,5–2x raskere inferens uten tap i utdatakvalitet.

Støtter Gemma 4 MTP?

Gemma 4 ble trent med MTP-prediksjonshodene, og de finnes i Googles LiteRT-eksporter (inferens på enheten). Imidlertid har de offentlig publiserte HuggingFace-vektene bevisst fått MTP-hodene fjernet. Google sier dette ble gjort for 'bred kompatibilitet' med eksisterende inferensrammeverk.

Hvorfor betyr det noe at MTP-hodene er fjernet?

Uten MTP-hoder kan tredjeparts inferensmotorer som vLLM, llama.cpp og SGLang ikke bruke innebygd spekulativ dekoding for Gemma 4. Brukere er begrenset til standard autoregressiv generering, som er betydelig tregere. Benchmarks viser at Gemma 4 kun genererer 11 tokens/sek på maskinvare der sammenlignbare modeller oppnår 60+ tokens/sek.

Hva er spekulativ dekoding?

Spekulativ dekoding er en teknikk for akselerasjon av inferens der en rask 'utkast'-modell foreslår flere tokens på en gang, og hovedmodellen verifiserer dem i en enkelt forward pass. Hvis utkast-tokenene er korrekte, hoppes det effektivt over flere dekodingstrinn. MTP er en variant der utkast-tokenene kommer fra modellens egne innebygde prediksjonshodene i stedet for en separat modell.

Vil Google gi ut MTP-hodene for Gemma 4?

Per april 2026 har Google ikke kunngjort planer om å gi ut MTP-prediksjonhodene for HuggingFace-vektene. De er foreløpig kun tilgjengelige i de LiteRT-eksporterte modellene, noe som begrenser bruken til Googles eget inferensrammeverk. Fellesskapet fortsetter å be om at de utgis.

Gemma 4 ble lansert uten MTP-data — Her er hvorfor det betyr noe

Google fjernet MTP-prediksjonshodene fra Gemma 4s offentlige utgivelse, mens de beholdt dem i sitt eget LiteRT-rammeverk. Her er hva det betyr for inferenshastighet og åpen kildekode-AI.

AI LLM Gemma Open Source

Kom i gang Les mer

Google lanserte Gemma 4 den 3. april 2026 — en familie med åpne vektmodeller med sterke benchmarkresultater, multimodale egenskaper og opptil 256K kontekst. På papiret er det en imponerende utgivelse. Men i løpet av timer oppdaget fellesskapet noe som manglet: Multi-Token Prediction-hodene hadde blitt fjernet fra de offentlige vektene.

Modellen ble trent med MTP. Googles eget LiteRT-rammeverk inkluderer MTP-komponentene. Men versjonen alle kan laste ned fra HuggingFace? Kun standard autoregressiv generering. Ingen hastighetsøkning. Ingen spekulativ dekoding.

Dette innlegget forklarer hva MTP er, hvorfor det betyr noe, og hva denne beslutningen innebærer for alle som kjører Gemma 4 på egen maskinvare.

Hva er Gemma 4?

Gemma 4 er Google DeepMinds nyeste familie med åpne vektmodeller, utgitt under Apache 2.0-lisensen. Den kommer i fire størrelser:

Modell	Parametere	Type	Viktige egenskaper
Gemma 4 E2B	2,3B effektive	Dense	Vision + Audio
Gemma 4 E4B	4,5B effektive	Dense	Vision + Audio
Gemma 4 26B-A4B	26B totalt / 4B aktive	Mixture of Experts	Vision
Gemma 4 31B	31B	Dense	Vision

Viktige egenskaper inkluderer innebygd multimodal støtte, funksjonskall, strukturert JSON-utdata og trening på over 140 språk. 31B-varianten rangerer som #3 på LMArena-tekst-topplisten.

Under panseret introduserer Gemma 4 flere arkitektoniske nyvinninger: vekslende lokale glidende vindu- og globale oppmerksomhetslag, proporsjonal RoPE (p-RoPE), Per-Layer Embeddings (PLE), delt KV-cache og en «Keys equal Values»-minneoptimalisering.

Tallmessig er dette en sterk utgivelse. Problemet er det som ikke er med i de offentlige vektene.

Hva er Multi-Token Prediction?

Standard store språkmodeller genererer tekst ett token om gangen. Hvert token krever en full forward pass gjennom modellen. Neste token kan ikke starte før det forrige er ferdig. Dette er autoregressiv dekoding, og det er iboende sekvensielt.

Diagram som sammenligner standard autoregressiv dekoding (ett token per steg) med Multi-Token Prediction (flere tokens per steg)

Multi-Token Prediction (MTP) endrer dette ved å legge til ekstra prediksjonshodene i modellen. I stedet for å predikere bare neste token, predikerer modellen tokens N+1, N+2, N+3 og så videre — alt i en enkelt forward pass.

Slik fungerer det:

Treningsfase: Ekstra lette prediksjonshodene trenes sammen med hovedmodellen. Hvert hode lærer å predikere en annen fremtidig posisjon (1 fremover, 2 fremover, 3 fremover osv.)
Inferensfase: De ekstra hodene genererer «utkast»-tokens parallelt. Hovedmodellen verifiserer deretter alle i en enkelt forward pass.
Verifisering: Hvis utkast-tokenene matcher det hovedmodellen ville ha generert, aksepteres de alle på en gang — og hopper over flere sekvensielle dekodingstrinn. Hvis et utkast-token er feil, faller genereringen tilbake til den posisjonen.

Dette er nært beslektet med spekulativ dekoding, men med en nøkkelfordel: utkast-tokenene kommer fra modellen selv i stedet for å kreve en separat, mindre «utkast-modell».

Arkitekturdiagram som viser hvordan MTP-prediksjonshodene kobles til hovedtransformermodellen for å generere flere utkast-tokens samtidig

Hvor mye raskere er MTP?

Hastighetsøkningen avhenger av hvor ofte utkast-tokenene er korrekte («akseptraten»). DeepSeek V3 demonstrerte den virkelige effekten:

Metrikk	Verdi
Gjennomsnittlig akseptlengde	2,4 tokens per verifiseringssteg
Hastighetsøkning for inferens	1,8x gjennomsnitt (opptil 2,1x topp)
Påvirkning på utdatakvalitet	Null — alle tokens verifiseres av hovedmodellen

En akseptrate på 2,4 betyr at hver forward pass gjennom hovedmodellen i gjennomsnitt produserer 2,4 tokens i stedet for 1. Utdataen er matematisk identisk med standard dekoding — hvert token er verifisert. Du får samme kvalitet med nesten dobbel hastighet.

Hva skjedde med Gemma 4

En HuggingFace-bruker (@shadowlilac ) oppdaget at Googles LiteRT-pakke for Gemma 4 inneholder MTP-prediksjonshodene og multi-token prediction-funksjonalitet. Men de offentlig utgitte vektene på HuggingFace har ingenting av dette.

MTP-komponentene ble bevisst fjernet:

Ingen MTP-hoder i sjekkpunktet
Ingen MTP i modellkonfigurasjonen
Ingen MTP i forward pass

Diagram som viser at Gemma 4s trening inkluderte MTP-hoder, men den offentlige HuggingFace-utgivelsen har dem fjernet mens Googles LiteRT-versjon beholder dem

Googles forklaring

En Google-ingeniør (@srikanta-221 ) bekreftet at dette var tilsiktet:

Den offentlige modellen eksponerer kun et standard autoregressivt grensesnitt «for bred kompatibilitet.» MTP-hoder er ekskludert fra modellkonfigurasjonen, forward pass og sjekkpunktet. Dette sikrer kompatibilitet med HuggingFace Transformers API-er og opprettholder konsistent sjekkpunkt- og kjøretidsatferd.

Google fremstiller MTP som en «distribusjonsdelt-tidsoptimalisering» snarere enn en kjernefunksjon i modellen. MTP-prediksjonhodene er kun bevart i de LiteRT-eksporterte modellene — Googles eget rammeverk for inferens på enheten.

Hvorfor dette er et problem

Forklaringen holder ikke mål ved nærmere granskning:

1. Modellen ble trent med MTP. Funksjonaliteten eksisterer. Å fjerne den fra utgivelsen er et valg, ikke en teknisk begrensning.

2. Tredjepartsmotorer kan ikke implementere det. vLLM, llama.cpp, SGLang og andre inferensrammeverk kan ikke bruke MTP-basert spekulativ dekoding uten prediksjonhodene. Disse motorene betjener det store flertallet av LLM-distribusjoner med åpen kildekode.

3. Brukere får den trege versjonen. Uten MTP kjører Gemma 4 med standard autoregressive hastigheter. Ytelsesgapet er allerede synlig i praksis:

Modell	Maskinvare	Hastighet	Merknader
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Ingen MTP, standard dekoding
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Sammenlignbar MoE-modell
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	FlashAttention-fallback-problemer

4. Det skaper økosystem-innlåsing. Googles eget LiteRT-rammeverk får hastighetsfordelen. Alle andre får en tregere modell. For en «åpen vekt»-utgivelse under Apache 2.0 er dette en betydelig asymmetri.

Hvordan spekulativ dekoding fungerer (og hvorfor MTP er bedre)

For å forstå hvorfor de manglende MTP-hodene betyr noe, er det nyttig å se hvor MTP passer inn i utviklingen av inferensoptimalisering.

Sammenligning av tre tilnærminger til spekulativ dekoding: tradisjonell (separat utkast-modell), spekulativ-spekulativ, og MTP (innebygde prediksjonshodene)

Tilnærming 1: Tradisjonell spekulativ dekoding

En separat, mindre «utkast-modell» foreslår tokens. Hovedmodellen verifiserer dem parallelt. Hvis utkastene er korrekte, aksepteres flere tokens per steg.

Fordeler: Fungerer med alle modellpar
Ulemper: Krever vedlikehold og lasting av en ekstra modell; kvaliteten på utkast-modellen begrenser hastighetsøkningen; ekstra minneoverhead

Tilnærming 2: MTP (innebygde prediksjonshodene)

Hovedmodellen har sine egne lette prediksjonshodene som genererer utkast-tokens. Ingen separat modell nødvendig.

Fordeler: Ingen ekstra modell nødvendig; tettere integrasjon betyr høyere akseptrater; lavere minneoverhead
Ulemper: Fungerer kun hvis prediksjonhodene er inkludert i utgivelsen

Hvorfor MTP vinner

MTP-prediksjonshodene trenes sammen med hovedmodellen. De deler de samme interne representasjonene og lærer modellens egen token-distribusjon. Dette gir vanligvis høyere akseptrater enn en ekstern utkast-modell, som betyr flere tokens akseptert per verifiseringssteg og raskere generering totalt sett.

Prediksjonhodene er også små — de legger vanligvis bare til 1–3 % av modellens totale parameterantal. Minneoverheaden er ubetydelig sammenlignet med å laste en separat utkast-modell.

Den bredere konsekvensen

Dette handler ikke bare om Gemma 4. Beslutningen setter presedens for hvor «åpne» utgivelser med åpne vekter faktisk er.

Hva brukerne mister:

MTP-basert spekulativ dekoding på alle tredjeparts inferensmotorer
Muligheten til å finjustere eller eksperimentere med MTP-hodene
Ytelseslikhet med Googles egne distribusjonsverktøy

Hva brukerne fortsatt har:

Basismodellvektene (som er genuint gode)
Tradisjonell spekulativ dekoding med en separat utkast-modell (vLLM issue #38893 sporer Eagle3-støtte for Gemma 4)
Standard kvantisering og optimaliseringsteknikker

Fellesskapets respons har vært direkte. 24-timers-konsensus var at Gemma 4s benchmarkresultater er konkurransedyktige — den ligger likt med eller litt bak Qwen 3.5 — men produktet «er ikke ferdig.» Hastighet, stabilitet og verktøystøtte trenger arbeid. Ytterligere problemer inkluderer at HuggingFace Transformers i starten manglet arkitekturstøtte for Gemma 4, PEFT håndterer ikke de nye lagtypen, og Mac-brukere opplever krasj ved lasting av større modeller.

Hva kan du gjøre?

Hvis du vurderer Gemma 4 for distribusjon, her er praktiske alternativer:

Bruk tradisjonell spekulativ dekoding. Eksterne utkast-modeller kan fortsatt akselerere Gemma 4-inferens. Rammeverk som vLLM legger til Eagle3 spekulativ dekoding-støtte spesifikt for Gemma 4. Hastighetsøkningen vil ikke matche innebygd MTP, men det er bedre enn ingenting.

Vurder alternativer for hastigheskritiske arbeidsbelastninger. Qwen 3.5 leverer betydelig bedre tokens-per-sekund på tilsvarende maskinvare. Hvis inferenshastighet er din primære begrensning, tilbyr Qwen for øyeblikket et bedre hastighet-til-kvalitet-forhold.

Følg med på fellesskapets løsninger. LiteRT-eksportene inneholder MTP-hodene. Forskere kan finne måter å trekke ut og koble dem tilbake til HuggingFace-vektene, selv om Google ikke offisielt har støttet denne veien.

Gi tilbakemelding. Googles ingeniører overvåker aktivt HuggingFace-diskusjonsstrådene. Klare, tekniske forespørsler om utgivelse av MTP-hodene har innflytelse.

Konklusjon

Gemma 4 er en kapabel modellfamilie med genuine arkitektoniske nyvinninger og sterke benchmarkresultater. Beslutningen om å fjerne MTP-prediksjonhodene fra den offentlige utgivelsen — mens de beholdes i Googles eget LiteRT-rammeverk — undergraver det «åpne» i åpne vekter.

MTP er ikke en mindre optimalisering. Det kan levere 1,5–2x raskere inferens med null påvirkning på utdatakvalitet. Å holde tilbake det fra de offentlige vektene mens modellen tydelig ble trent med det, skaper et todelt system: rask inferens for Googles verktøy, treg inferens for alle andre.

For AI-fellesskapet med åpen kildekode er budskapet klart: sjekk hva som faktisk er i vektene, ikke bare benchmarkene. En åpen lisens betyr ikke alltid en åpen utgivelse.

Bygget med FlowHunt . Hold deg oppdatert med den siste utviklingen innen åpen kildekode-AI på vår blogg .

Vanlige spørsmål

: Multi-Token Prediction er en teknikk der en LLM predikerer flere fremtidige tokens i en enkelt forward pass i stedet for ett token om gangen. Ekstra prediksjonshodene trenes sammen med hovedmodellen for å utarbeide tokens N+1, N+2, N+3 osv. samtidig, som deretter kan verifiseres parallelt av hovedmodellen. Dette muliggjør 1,5–2x raskere inferens uten tap i utdatakvalitet.
: Gemma 4 ble trent med MTP-prediksjonshodene, og de finnes i Googles LiteRT-eksporter (inferens på enheten). Imidlertid har de offentlig publiserte HuggingFace-vektene bevisst fått MTP-hodene fjernet. Google sier dette ble gjort for 'bred kompatibilitet' med eksisterende inferensrammeverk.
: Uten MTP-hoder kan tredjeparts inferensmotorer som vLLM, llama.cpp og SGLang ikke bruke innebygd spekulativ dekoding for Gemma 4. Brukere er begrenset til standard autoregressiv generering, som er betydelig tregere. Benchmarks viser at Gemma 4 kun genererer 11 tokens/sek på maskinvare der sammenlignbare modeller oppnår 60+ tokens/sek.
: Spekulativ dekoding er en teknikk for akselerasjon av inferens der en rask 'utkast'-modell foreslår flere tokens på en gang, og hovedmodellen verifiserer dem i en enkelt forward pass. Hvis utkast-tokenene er korrekte, hoppes det effektivt over flere dekodingstrinn. MTP er en variant der utkast-tokenene kommer fra modellens egne innebygde prediksjonshodene i stedet for en separat modell.
: Per april 2026 har Google ikke kunngjort planer om å gi ut MTP-prediksjonhodene for HuggingFace-vektene. De er foreløpig kun tilgjengelige i de LiteRT-eksporterte modellene, noe som begrenser bruken til Googles eget inferensrammeverk. Fellesskapet fortsetter å be om at de utgis.

Bygg AI-arbeidsflyter med de beste modellene

FlowHunt lar deg bygge automatiserte AI-pipelines med sky-API-er og åpen kildekode-modeller — med full kontroll over hastighet, kostnad og kvalitet.

Kom i gang Les mer

Lær mer

Fine-Tuning Gemma 4 på Apple Silicon: Kan det erstatte Claude Sonnet for innholdsgenerering?

Vi fine-tunet Googles Gemma 4 31B-modell på en MacBook Pro M3 Max for å generere sportsartikler. Her er hvordan den sammenlignet seg med Claude Sonnet når det g...

Apr 6, 2026 10 min lesing

AI LLM +6

Hvordan AI-agenter som GPT 4 Vision Preview tenker

Utforsk de avanserte egenskapene til AI-agenten GPT 4 Vision Preview. Dette dypdykket avslører hvordan den går langt utover tekstgenerering, og viser frem dens ...

May 30, 2025 9 min lesing

AI Agents GPT-4 Vision +5

Hva er Google Gemini AI Chatbot?

Oppdag hva Google Gemini er, hvordan det fungerer, og hvordan det sammenlignes med ChatGPT. Lær om dets multimodale evner, priser og praktiske bruksområder for ...

Dec 1, 2025 11 min lesing

Gemma 4 ble lansert uten MTP-data — Her er hvorfor det betyr noe

Hva er Gemma 4?