Hvad er Multi-Token Prediction (MTP)?

Multi-Token Prediction er en teknik, hvor en LLM forudsiger flere fremtidige tokens i et enkelt forward pass i stedet for én token ad gangen. Ekstra prædiktionshoveder trænes sideløbende med hovedmodellen til at udkaste tokens N+1, N+2, N+3 osv. samtidigt, som derefter kan verificeres parallelt af hovedmodellen. Dette muliggør 1,5–2x inferensspeedups uden tab i outputkvalitet.

Understøtter Gemma 4 MTP?

Gemma 4 blev trænet med MTP-prædiktionshoveder, og de findes i Googles LiteRT-eksporter (on-device inferens). Men de offentligt udgivne HuggingFace-vægte har MTP-hovederne bevidst fjernet. Google siger, det blev gjort for 'bred kompatibilitet' med eksisterende inferens-frameworks.

Hvorfor er det vigtigt, at MTP-hovederne er fjernet?

Uden MTP-hoveder kan tredjepartsinfrensmotorer som vLLM, llama.cpp og SGLang ikke bruge indbygget speculative decoding til Gemma 4. Brugerne er begrænset til standard autoregressiv generering, som er markant langsommere. Benchmarks viser, at Gemma 4 kun genererer 11 tokens/sek på hardware, hvor sammenlignelige modeller opnår 60+ tokens/sek.

Hvad er speculative decoding?

Speculative decoding er en teknik til at accelerere inferens, hvor en hurtig 'udkast'-model foreslår flere tokens på én gang, og hovedmodellen verificerer dem i et enkelt forward pass. Hvis udkasttokens er korrekte, springes flere dekodningsskridt reelt over. MTP er en variant, hvor udkasttokens kommer fra modellens egne indbyggede prædiktionshoveder i stedet for en separat model.

Vil Google udgive MTP-hovederne til Gemma 4?

Per april 2026 har Google ikke annonceret planer om at udgive MTP-prædiktionshovederne til HuggingFace-vægtene. De er i øjeblikket kun tilgængelige i de LiteRT-eksporterede modeller, hvilket begrænser deres brug til Googles eget inferens-framework. Fællesskabet fortsætter med at anmode om deres udgivelse.

Gemma 4 blev udgivet uden MTP-data — her er hvorfor det er vigtigt

Google fjernede MTP-prædiktionshoveder fra Gemma 4’s offentlige udgivelse, mens de beholdt dem i deres eget LiteRT-framework. Her er hvad det betyder for inferenshastighed og open source AI.

AI LLM Gemma Open Source

Kom i gang Læs mere

Google udgav Gemma 4 den 3. april 2026 — en familie af open-weight-modeller med stærke benchmarkresultater, multimodale evner og op til 256K kontekst. På papiret er det en imponerende udgivelse. Men inden for få timer opdagede fællesskabet noget manglende: Multi-Token Prediction-hovederne var blevet fjernet fra de offentlige vægte.

Modellen blev trænet med MTP. Googles eget LiteRT-framework indeholder MTP-komponenterne. Men den version, alle kan downloade fra HuggingFace? Kun standard autoregressiv generering. Ingen hastighedsboost. Ingen speculative decoding.

Dette indlæg forklarer, hvad MTP er, hvorfor det er vigtigt, og hvad denne beslutning betyder for alle, der kører Gemma 4 på deres egen hardware.

Hvad er Gemma 4?

Gemma 4 er Google DeepMinds nyeste open-weight-modelfamilie, udgivet under Apache 2.0-licensen. Den kommer i fire størrelser:

Model	Parametre	Type	Bemærkelsesværdige funktioner
Gemma 4 E2B	2,3B effektive	Dense	Vision + Audio
Gemma 4 E4B	4,5B effektive	Dense	Vision + Audio
Gemma 4 26B-A4B	26B total / 4B aktive	Mixture of Experts	Vision
Gemma 4 31B	31B	Dense	Vision

Nøglefunktioner inkluderer native multimodal understøttelse, funktionskald, struktureret JSON-output og træning på 140+ sprog. 31B-varianten rangerer som #3 på LMArena-tekstranglisten.

Under motorhjelmen introducerer Gemma 4 flere arkitektoniske innovationer: alternerende lokale sliding-window- og globale attention-lag, proportional RoPE (p-RoPE), Per-Layer Embeddings (PLE), delt KV-cache og en “Keys equal Values”-hukommelsesoptimering.

Talmæssigt er det en stærk udgivelse. Problemet er, hvad der ikke er med i de offentlige vægte.

Hvad er Multi-Token Prediction?

Standard store sprogmodeller genererer tekst én token ad gangen. Hver token kræver et fuldt forward pass gennem modellen. Den næste token kan ikke starte, før den forrige er færdig. Dette er autoregressiv dekodning, og det er i sagens natur sekventielt.

Diagram der sammenligner standard autoregressiv dekodning (én token per skridt) med Multi-Token Prediction (flere tokens per skridt)

Multi-Token Prediction (MTP) ændrer dette ved at tilføje ekstra prædiktionshoveder til modellen. I stedet for kun at forudsige den næste token, forudsiger modellen tokens N+1, N+2, N+3 og så videre — alt i et enkelt forward pass.

Sådan fungerer det:

Træningsfasen: Ekstra letvægts-prædiktionshoveder trænes sideløbende med hovedmodellen. Hvert hoved lærer at forudsige en forskellig fremtidig position (1 frem, 2 frem, 3 frem osv.)
Inferensfasen: De ekstra hoveder genererer “udkast”-tokens parallelt. Hovedmodellen verificerer dem derefter alle i et enkelt forward pass.
Verifikation: Hvis udkasttokens matcher, hvad hovedmodellen ville have genereret, accepteres de alle på én gang — og flere sekventielle dekodningsskridt springes over. Hvis en udkasttoken er forkert, falder genereringen tilbage til den position.

Dette er tæt beslægtet med speculative decoding, men med en vigtig fordel: udkasttokens kommer fra selve modellen i stedet for at kræve en separat, mindre “udkastmodel.”

Arkitekturdiagram der viser, hvordan MTP-prædiktionshoveder kobles til hovedtransformermodellen for at generere flere udkasttokens samtidigt

Hvor meget hurtigere er MTP?

Hastighedsforøgelsen afhænger af, hvor ofte udkasttokens er korrekte (“acceptraten”). DeepSeek V3 demonstrerede den praktiske effekt:

Metrik	Værdi
Gennemsnitlig acceptlængde	2,4 tokens per verifikationsskridt
Inferensspeedup	1,8x gennemsnitligt (op til 2,1x spids)
Påvirkning af outputkvalitet	Ingen — alle tokens verificeres af hovedmodellen

En acceptrate på 2,4 betyder, at hvert forward pass gennem hovedmodellen i gennemsnit producerer 2,4 tokens i stedet for 1. Outputtet er matematisk identisk med standard dekodning — hver token er verificeret. Du får den samme kvalitet med næsten dobbelt hastighed.

Hvad skete der med Gemma 4

En HuggingFace-bruger (@shadowlilac ) opdagede, at Googles LiteRT-pakke til Gemma 4 indeholder MTP-prædiktionshoveder og multi-token prediction-funktionalitet. Men de offentligt udgivne vægte på HuggingFace har intet af det.

MTP-komponenterne blev bevidst fjernet:

Ingen MTP-hoveder i checkpoint
Ingen MTP i modelkonfigurationen
Ingen MTP i forward pass

Diagram der viser, at Gemma 4's træning inkluderede MTP-hoveder, men den offentlige HuggingFace-udgivelse har dem fjernet, mens Googles LiteRT-version beholder dem

Googles forklaring

En Google-ingeniør (@srikanta-221 ) bekræftede, at dette var bevidst:

Den offentlige model eksponerer kun en standard autoregressiv grænseflade “for bred kompatibilitet.” MTP-hoveder er udelukket fra modelkonfigurationen, forward pass og checkpoint. Dette sikrer kompatibilitet med HuggingFace Transformers API’er og opretholder konsistent checkpoint- og runtime-adfærd.

Google fremstiller MTP som en “deploymenttidsoptimering” snarere end en kernefunktion i modellen. MTP-prædiktionshovederne er kun bevaret i de LiteRT-eksporterede modeller — Googles eget on-device inferens-framework.

Hvorfor dette er et problem

Forklaringen holder ikke ved nærmere eftersyn:

1. Modellen blev trænet med MTP. Kapaciteten eksisterer. At fjerne den fra udgivelsen er et valg, ikke en teknisk begrænsning.

2. Tredjepartsmotorer kan ikke implementere det. vLLM, llama.cpp, SGLang og andre inferens-frameworks kan ikke bruge MTP-baseret speculative decoding uden prædiktionshovederne. Disse motorer betjener langt størstedelen af open source LLM-deployments.

3. Brugerne får den langsomme version. Uden MTP kører Gemma 4 med standard autoregressive hastigheder. Ydelsesgabet er allerede synligt i praksis:

Model	Hardware	Hastighed	Noter
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Ingen MTP, standard dekodning
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Sammenlignelig MoE-model
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	FlashAttention fallback-problemer

4. Det skaber økosystemlåsning. Googles eget LiteRT-framework får hastighedsfordelen. Alle andre får en langsommere model. For en “open-weight” Apache 2.0-udgivelse er dette en markant asymmetri.

Sådan fungerer speculative decoding (og hvorfor MTP er bedre)

For at forstå, hvorfor de manglende MTP-hoveder er vigtige, hjælper det at se, hvor MTP passer ind i udviklingen af inferensoptimering.

Sammenligning af tre speculative decoding-tilgange: traditionel (separat udkastmodel), spekulativ-spekulativ og MTP (indbyggede prædiktionshoveder)

Tilgang 1: Traditionel speculative decoding

En separat, mindre “udkastmodel” foreslår tokens. Hovedmodellen verificerer dem parallelt. Hvis udkastene er korrekte, accepteres flere tokens per skridt.

Fordele: Fungerer med ethvert modelpar
Ulemper: Kræver vedligeholdelse og indlæsning af en anden model; udkastmodellens kvalitet begrænser speedup; ekstra hukommelsesomkostninger

Tilgang 2: MTP (indbyggede prædiktionshoveder)

Hovedmodellen har sine egne letvægts-prædiktionshoveder, der genererer udkasttokens. Ingen separat model nødvendig.

Fordele: Ingen ekstra model nødvendig; tættere integration betyder højere acceptrater; lavere hukommelsesomkostninger
Ulemper: Fungerer kun, hvis prædiktionshovederne er inkluderet i udgivelsen

Hvorfor MTP vinder

MTP-prædiktionshoveder trænes sideløbende med hovedmodellen. De deler de samme interne repræsentationer og lærer modellens egen tokenfordeling. Dette producerer typisk højere acceptrater end en ekstern udkastmodel, hvilket betyder flere tokens accepteret per verifikationsskridt og hurtigere generering samlet set.

Prædiktionshovederne er også små — de tilføjer typisk kun 1-3% til modellens samlede parameterantal. Hukommelsesomkostningerne er ubetydelige sammenlignet med at indlæse en separat udkastmodel.

Den bredere påvirkning

Det handler ikke kun om Gemma 4. Beslutningen sætter en præcedens for, hvor “åbne” open-weight-udgivelser egentlig er.

Hvad brugerne mister:

MTP-baseret speculative decoding på enhver tredjeparts inferensmotor
Muligheden for at finjustere eller eksperimentere med MTP-hovederne
Ydelsesparitet med Googles egne deploymentværktøjer

Hvad brugerne stadig har:

Basismodellens vægte (som er genuint gode)
Traditionel speculative decoding med en separat udkastmodel (vLLM issue #38893 sporer Eagle3-understøttelse til Gemma 4)
Standard kvantiserings- og optimeringsteknikker

Fællesskabets reaktion har været direkte. Konsensussen efter 24 timer var, at Gemma 4’s benchmarkresultater er konkurrencedygtige — den ligger lige med eller en smule efter Qwen 3.5 — men produktet “er ikke færdigt.” Hastighed, stabilitet og værktøj mangler. Yderligere problemer inkluderer, at HuggingFace Transformers i starten manglede Gemma 4-arkitekturunderstøttelse, at PEFT ikke håndterer de nye lagtyper, og at Mac-brugere oplever nedbrud ved indlæsning af de større modeller.

Hvad kan du gøre?

Hvis du evaluerer Gemma 4 til deployment, er her praktiske muligheder:

Brug traditionel speculative decoding. Eksterne udkastmodeller kan stadig accelerere Gemma 4-inferens. Frameworks som vLLM tilføjer Eagle3 speculative decoding-understøttelse specifikt til Gemma 4. Speeduppen matcher ikke indbygget MTP, men det er bedre end ingenting.

Overvej alternativer til hastighedskritiske arbejdsbyrder. Qwen 3.5 leverer markant bedre tokens-per-sekund på tilsvarende hardware. Hvis inferenshastighed er din primære begrænsning, tilbyder Qwen i øjeblikket et bedre hastighed-til-kvalitet-forhold.

Hold øje med fællesskabets workarounds. LiteRT-eksporterne indeholder MTP-hovederne. Forskere kan finde måder at udtrække og genkoble dem til HuggingFace-vægtene, selvom Google ikke officielt har understøttet denne vej.

Giv feedback. Googles ingeniører overvåger aktivt HuggingFace-diskussionstrådene. Klare, tekniske anmodninger om udgivelse af MTP-hoveder har vægt.

Konklusion

Gemma 4 er en kompetent modelfamilie med genuint arkitektoniske innovationer og stærke benchmarkresultater. Beslutningen om at fjerne MTP-prædiktionshoveder fra den offentlige udgivelse — mens de bevares i Googles eget LiteRT-framework — underminerer det “åbne” i open-weight.

MTP er ikke en mindre optimering. Det kan levere 1,5–2x inferensspeedups uden påvirkning af outputkvalitet. At tilbageholde det fra de offentlige vægte, mens modellen tydeligt blev trænet med det, skaber et to-trins system: hurtig inferens til Googles værktøjer, langsom inferens til alle andre.

For open source AI-fællesskabet er budskabet klart: tjek hvad der faktisk er i vægtene, ikke kun benchmarks. En åben licens betyder ikke altid en åben udgivelse.

Bygget med FlowHunt . Hold dig opdateret med den seneste udvikling inden for open source AI på vores blog .

Ofte stillede spørgsmål

: Multi-Token Prediction er en teknik, hvor en LLM forudsiger flere fremtidige tokens i et enkelt forward pass i stedet for én token ad gangen. Ekstra prædiktionshoveder trænes sideløbende med hovedmodellen til at udkaste tokens N+1, N+2, N+3 osv. samtidigt, som derefter kan verificeres parallelt af hovedmodellen. Dette muliggør 1,5–2x inferensspeedups uden tab i outputkvalitet.
: Gemma 4 blev trænet med MTP-prædiktionshoveder, og de findes i Googles LiteRT-eksporter (on-device inferens). Men de offentligt udgivne HuggingFace-vægte har MTP-hovederne bevidst fjernet. Google siger, det blev gjort for 'bred kompatibilitet' med eksisterende inferens-frameworks.
: Uden MTP-hoveder kan tredjepartsinfrensmotorer som vLLM, llama.cpp og SGLang ikke bruge indbygget speculative decoding til Gemma 4. Brugerne er begrænset til standard autoregressiv generering, som er markant langsommere. Benchmarks viser, at Gemma 4 kun genererer 11 tokens/sek på hardware, hvor sammenlignelige modeller opnår 60+ tokens/sek.
: Speculative decoding er en teknik til at accelerere inferens, hvor en hurtig 'udkast'-model foreslår flere tokens på én gang, og hovedmodellen verificerer dem i et enkelt forward pass. Hvis udkasttokens er korrekte, springes flere dekodningsskridt reelt over. MTP er en variant, hvor udkasttokens kommer fra modellens egne indbyggede prædiktionshoveder i stedet for en separat model.
: Per april 2026 har Google ikke annonceret planer om at udgive MTP-prædiktionshovederne til HuggingFace-vægtene. De er i øjeblikket kun tilgængelige i de LiteRT-eksporterede modeller, hvilket begrænser deres brug til Googles eget inferens-framework. Fællesskabet fortsætter med at anmode om deres udgivelse.

Byg AI-workflows med de bedste modeller

FlowHunt lader dig bygge automatiserede AI-pipelines med cloud-API'er og open source-modeller — med fuld kontrol over hastighed, pris og kvalitet.

Kom i gang Læs mere

Lær mere

Fine-Tuning Gemma 4 på Apple Silicon: Kan det erstatte Claude Sonnet til indholdsgeneration?

Vi fine-tunede Googles Gemma 4 31B-model på en MacBook Pro M3 Max til at generere sportartikler. Her er hvordan det sammenlignes med Claude Sonnet hvad angår kv...

Apr 6, 2026 10 min læsning

AI LLM +6

Hvad er Google Gemini AI Chatbot?

Opdag, hvad Google Gemini er, hvordan det fungerer, og hvordan det sammenlignes med ChatGPT. Lær om dets multimodale kapaciteter, priser og virkelige anvendelse...

Dec 1, 2025 11 min læsning

Ventetiden på GPT-5 forklaret: Udforskning af OpenAI’s beslutning om at fokusere på o1-modeller

Hvorfor er GPT-5 ikke kommet endnu? Opdag OpenAI’s nye fokus på o1-modeller, og hvad det betyder for AI’s fremtid.

May 30, 2025 6 min læsning

OpenAI GPT-5 +5

Gemma 4 blev udgivet uden MTP-data — her er hvorfor det er vigtigt

Hvad er Gemma 4?