Was ist Multi-Token Prediction (MTP)?

Multi-Token Prediction ist eine Technik, bei der ein LLM mehrere zukünftige Tokens in einem einzigen Vorwärtsdurchlauf vorhersagt, anstatt nur ein Token nach dem anderen. Zusätzliche Prediction-Heads werden zusammen mit dem Hauptmodell trainiert, um die Tokens N+1, N+2, N+3 usw. gleichzeitig zu entwerfen. Diese können dann parallel vom Hauptmodell verifiziert werden. Das ermöglicht 1,5–2-fache Inferenzbeschleunigungen ohne Qualitätsverlust bei der Ausgabe.

Unterstützt Gemma 4 MTP?

Gemma 4 wurde mit MTP-Prediction-Heads trainiert, und diese sind in Googles LiteRT-Exporten (On-Device-Inferenz) vorhanden. Allerdings wurden die öffentlich veröffentlichten HuggingFace-Gewichte bewusst ohne die MTP-Heads bereitgestellt. Google begründet dies mit der ‚breiten Kompatibilität' mit bestehenden Inferenz-Frameworks.

Warum ist das Entfernen der MTP-Heads problematisch?

Ohne MTP-Heads können Drittanbieter-Inferenz-Engines wie vLLM, llama.cpp und SGLang kein eingebautes Speculative Decoding für Gemma 4 nutzen. Nutzer sind auf die standardmäßige autoregressive Generierung angewiesen, die deutlich langsamer ist. Benchmarks zeigen, dass Gemma 4 nur 11 Tokens/Sek. auf Hardware erzeugt, auf der vergleichbare Modelle über 60 Tokens/Sek. erreichen.

Was ist Speculative Decoding?

Speculative Decoding ist eine Technik zur Inferenzbeschleunigung, bei der ein schnelles ‚Draft-Modell' mehrere Tokens auf einmal vorschlägt und das Hauptmodell diese in einem einzigen Vorwärtsdurchlauf verifiziert. Wenn die Draft-Tokens korrekt sind, werden effektiv mehrere Dekodierungsschritte übersprungen. MTP ist eine Variante, bei der die Draft-Tokens von den eigenen eingebauten Prediction-Heads des Modells stammen, anstatt von einem separaten Modell.

Wird Google die MTP-Heads für Gemma 4 veröffentlichen?

Stand April 2026 hat Google keine Pläne zur Veröffentlichung der MTP-Prediction-Heads für die HuggingFace-Gewichte angekündigt. Sie sind derzeit nur in den LiteRT-exportierten Modellen verfügbar, was ihre Nutzung auf Googles eigenes Inferenz-Framework beschränkt. Die Community fordert weiterhin deren Freigabe.

Gemma 4 wurde ohne MTP-Daten veröffentlicht — Warum das wichtig ist

Google hat die MTP-Prediction-Heads aus der öffentlichen Veröffentlichung von Gemma 4 entfernt, sie aber in seinem eigenen LiteRT-Framework behalten. Hier erfahren Sie, was das für die Inferenzgeschwindigkeit und Open-Source-KI bedeutet.

AI LLM Gemma Open Source

Jetzt starten Mehr erfahren

Google hat Gemma 4 am 3. April 2026 veröffentlicht — eine Familie von Open-Weight-Modellen mit starken Benchmark-Ergebnissen, multimodalen Fähigkeiten und bis zu 256K Kontext. Auf dem Papier ist es eine beeindruckende Veröffentlichung. Doch innerhalb weniger Stunden entdeckte die Community etwas Fehlendes: Die Multi-Token-Prediction-Heads waren aus den öffentlichen Gewichten entfernt worden.

Das Modell wurde mit MTP trainiert. Googles eigenes LiteRT-Framework enthält die MTP-Komponenten. Aber die Version, die jeder von HuggingFace herunterladen kann? Nur standardmäßige autoregressive Generierung. Kein Geschwindigkeitsschub. Kein Speculative Decoding.

Dieser Beitrag erklärt, was MTP ist, warum es wichtig ist und was diese Entscheidung für alle bedeutet, die Gemma 4 auf eigener Hardware betreiben.

Was ist Gemma 4?

Gemma 4 ist die neueste Open-Weight-Modellfamilie von Google DeepMind, veröffentlicht unter der Apache 2.0-Lizenz. Sie umfasst vier Größen:

Modell	Parameter	Typ	Besondere Merkmale
Gemma 4 E2B	2,3 Mrd. effektiv	Dense	Vision + Audio
Gemma 4 E4B	4,5 Mrd. effektiv	Dense	Vision + Audio
Gemma 4 26B-A4B	26 Mrd. gesamt / 4 Mrd. aktiv	Mixture of Experts	Vision
Gemma 4 31B	31 Mrd.	Dense	Vision

Zu den wichtigsten Fähigkeiten gehören native multimodale Unterstützung, Funktionsaufrufe, strukturierte JSON-Ausgabe und Training in über 140 Sprachen. Die 31B-Variante belegt Platz 3 auf der LMArena-Text-Bestenliste.

Unter der Haube führt Gemma 4 mehrere architektonische Innovationen ein: alternierende lokale Sliding-Window- und globale Attention-Schichten, proportionales RoPE (p-RoPE), Per-Layer Embeddings (PLE), geteilter KV-Cache und eine „Keys equal Values"-Speicheroptimierung.

Nach den Zahlen ist dies eine starke Veröffentlichung. Das Problem ist, was in den öffentlichen Gewichten fehlt.

Was ist Multi-Token Prediction?

Standardmäßige große Sprachmodelle generieren Text Token für Token. Jedes Token erfordert einen vollständigen Vorwärtsdurchlauf durch das Modell. Das nächste Token kann erst beginnen, wenn das vorherige abgeschlossen ist. Dies ist autoregressive Dekodierung, und sie ist von Natur aus sequenziell.

Diagramm zum Vergleich der standardmäßigen autoregressiven Dekodierung (ein Token pro Schritt) mit Multi-Token Prediction (mehrere Tokens pro Schritt)

Multi-Token Prediction (MTP) ändert dies, indem dem Modell zusätzliche Prediction-Heads hinzugefügt werden. Anstatt nur das nächste Token vorherzusagen, sagt das Modell die Tokens N+1, N+2, N+3 und so weiter voraus — alles in einem einzigen Vorwärtsdurchlauf.

So funktioniert es:

Trainingsphase: Zusätzliche leichtgewichtige Prediction-Heads werden zusammen mit dem Hauptmodell trainiert. Jeder Head lernt, eine andere zukünftige Position vorherzusagen (1 voraus, 2 voraus, 3 voraus usw.)
Inferenzphase: Die zusätzlichen Heads generieren „Draft"-Tokens parallel. Das Hauptmodell verifiziert dann alle in einem einzigen Vorwärtsdurchlauf.
Verifikation: Wenn die Draft-Tokens mit dem übereinstimmen, was das Hauptmodell generiert hätte, werden sie alle auf einmal akzeptiert — mehrere sequenzielle Dekodierungsschritte werden übersprungen. Wenn ein Draft-Token falsch ist, kehrt die Generierung zu dieser Position zurück.

Dies ist eng mit Speculative Decoding verwandt, hat aber einen entscheidenden Vorteil: Die Draft-Tokens stammen vom Modell selbst, anstatt ein separates, kleineres „Draft-Modell" zu erfordern.

Architekturdiagramm, das zeigt, wie MTP-Prediction-Heads an das Haupttransformermodell angebunden werden, um gleichzeitig mehrere Draft-Tokens zu generieren

Wie viel schneller ist MTP?

Die Beschleunigung hängt davon ab, wie oft die Draft-Tokens korrekt sind (die „Akzeptanzrate"). DeepSeek V3 hat die Auswirkungen in der Praxis demonstriert:

Metrik	Wert
Durchschnittliche Akzeptanzlänge	2,4 Tokens pro Verifikationsschritt
Inferenzbeschleunigung	1,8-fach im Durchschnitt (bis zu 2,1-fach in der Spitze)
Auswirkung auf die Ausgabequalität	Null — alle Tokens werden vom Hauptmodell verifiziert

Eine Akzeptanzrate von 2,4 bedeutet, dass im Durchschnitt jeder Vorwärtsdurchlauf durch das Hauptmodell 2,4 Tokens statt 1 erzeugt. Die Ausgabe ist mathematisch identisch mit der Standarddekodierung — jedes Token wird verifiziert. Man erhält die gleiche Qualität bei nahezu doppelter Geschwindigkeit.

Was mit Gemma 4 passiert ist

Ein HuggingFace-Nutzer (@shadowlilac ) entdeckte, dass Googles LiteRT-Paket für Gemma 4 MTP-Prediction-Heads und Multi-Token-Prediction-Funktionalität enthält. Aber die öffentlich veröffentlichten Gewichte auf HuggingFace enthalten nichts davon.

Die MTP-Komponenten wurden bewusst entfernt:

Keine MTP-Heads im Checkpoint
Kein MTP in der Modellkonfiguration
Kein MTP im Vorwärtsdurchlauf

Diagramm, das zeigt, dass das Training von Gemma 4 MTP-Heads enthielt, aber die öffentliche HuggingFace-Veröffentlichung diese entfernt hat, während Googles LiteRT-Version sie behält

Googles Erklärung

Ein Google-Ingenieur (@srikanta-221 ) bestätigte, dass dies beabsichtigt war:

Das öffentliche Modell stellt nur eine standardmäßige autoregressive Schnittstelle „für breite Kompatibilität" bereit. MTP-Heads sind aus der Modellkonfiguration, dem Vorwärtsdurchlauf und dem Checkpoint ausgeschlossen. Dies gewährleistet die Kompatibilität mit HuggingFace-Transformers-APIs und sorgt für ein konsistentes Checkpoint- und Laufzeitverhalten.

Google stellt MTP als eine „Deployment-Zeit-Optimierung" dar, nicht als eine Kernfunktion des Modells. Die MTP-Prediction-Heads werden nur in den LiteRT-exportierten Modellen aufbewahrt — Googles eigenem On-Device-Inferenz-Framework.

Warum das ein Problem ist

Die Erklärung hält einer genaueren Prüfung nicht stand:

1. Das Modell wurde mit MTP trainiert. Die Fähigkeit existiert. Sie aus der Veröffentlichung zu entfernen, ist eine Entscheidung, keine technische Einschränkung.

2. Drittanbieter-Engines können es nicht implementieren. vLLM, llama.cpp, SGLang und andere Inferenz-Frameworks können MTP-basiertes Speculative Decoding ohne die Prediction-Heads nicht nutzen. Diese Engines bedienen die überwiegende Mehrheit der Open-Source-LLM-Deployments.

3. Nutzer erhalten die langsame Version. Ohne MTP läuft Gemma 4 mit standardmäßigen autoregressiven Geschwindigkeiten. Der Leistungsunterschied ist in der Praxis bereits sichtbar:

Modell	Hardware	Geschwindigkeit	Anmerkungen
Gemma 4 26B-A4B	5060 Ti 16GB	11 Tok/s	Kein MTP, Standarddekodierung
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ Tok/s	Vergleichbares MoE-Modell
Gemma 4 E4B	RTX 4090 (vLLM)	~9 Tok/s	FlashAttention-Fallback-Probleme

4. Es schafft Ökosystem-Lock-in. Googles eigenes LiteRT-Framework erhält den Geschwindigkeitsvorteil. Alle anderen bekommen ein langsameres Modell. Für eine „Open-Weight"-Veröffentlichung unter Apache 2.0 ist das eine erhebliche Asymmetrie.

Wie Speculative Decoding funktioniert (und warum MTP besser ist)

Um zu verstehen, warum die fehlenden MTP-Heads wichtig sind, hilft es zu sehen, wo MTP in der Entwicklung der Inferenzoptimierung steht.

Vergleich dreier Speculative-Decoding-Ansätze: traditionell (separates Draft-Modell), spekulativ-spekulativ und MTP (eingebaute Prediction-Heads)

Ansatz 1: Traditionelles Speculative Decoding

Ein separates, kleineres „Draft-Modell" schlägt Tokens vor. Das Hauptmodell verifiziert sie parallel. Wenn die Entwürfe korrekt sind, werden mehrere Tokens pro Schritt akzeptiert.

Vorteile: Funktioniert mit jedem Modellpaar
Nachteile: Erfordert die Pflege und das Laden eines zweiten Modells; die Qualität des Draft-Modells begrenzt die Beschleunigung; zusätzlicher Speicheraufwand

Ansatz 2: MTP (eingebaute Prediction-Heads)

Das Hauptmodell verfügt über eigene leichtgewichtige Prediction-Heads, die Draft-Tokens generieren. Kein separates Modell erforderlich.

Vorteile: Kein zusätzliches Modell nötig; engere Integration bedeutet höhere Akzeptanzraten; geringerer Speicheraufwand
Nachteile: Funktioniert nur, wenn die Prediction-Heads in der Veröffentlichung enthalten sind

Warum MTP gewinnt

MTP-Prediction-Heads werden zusammen mit dem Hauptmodell trainiert. Sie teilen die gleichen internen Repräsentationen und lernen die eigene Token-Verteilung des Modells. Dies führt typischerweise zu höheren Akzeptanzraten als ein externes Draft-Modell, was mehr akzeptierte Tokens pro Verifikationsschritt und insgesamt schnellere Generierung bedeutet.

Die Prediction-Heads sind zudem klein — sie erhöhen die Gesamtparameterzahl des Modells typischerweise nur um 1–3 %. Der Speicheraufwand ist im Vergleich zum Laden eines separaten Draft-Modells vernachlässigbar.

Die weiterreichenden Auswirkungen

Es geht hier nicht nur um Gemma 4. Die Entscheidung setzt einen Präzedenzfall dafür, wie „offen" Open-Weight-Veröffentlichungen tatsächlich sind.

Was Nutzer verlieren:

MTP-basiertes Speculative Decoding auf jeder Drittanbieter-Inferenz-Engine
Die Möglichkeit, die MTP-Heads zu feintunen oder damit zu experimentieren
Leistungsparität mit Googles eigenen Deployment-Tools

Was Nutzer weiterhin haben:

Die Basis-Modellgewichte (die wirklich gut sind)
Traditionelles Speculative Decoding mit einem separaten Draft-Modell (vLLM Issue #38893 verfolgt Eagle3-Unterstützung für Gemma 4)
Standardmäßige Quantisierungs- und Optimierungstechniken

Die Community-Reaktion war deutlich. Der 24-Stunden-Konsens war, dass Gemma 4s Benchmark-Ergebnisse konkurrenzfähig sind — es liegt gleichauf mit oder leicht hinter Qwen 3.5 — aber das Produkt „nicht fertig ist". Geschwindigkeit, Stabilität und Tooling müssen verbessert werden. Weitere Probleme umfassen die anfänglich fehlende Gemma-4-Architekturunterstützung in HuggingFace Transformers, PEFTs Unfähigkeit, die neuen Layer-Typen zu verarbeiten, und Abstürze bei Mac-Nutzern beim Laden größerer Modelle.

Was können Sie tun?

Wenn Sie Gemma 4 für den Einsatz evaluieren, gibt es praktische Optionen:

Nutzen Sie traditionelles Speculative Decoding. Externe Draft-Modelle können die Gemma-4-Inferenz weiterhin beschleunigen. Frameworks wie vLLM fügen speziell für Gemma 4 Eagle3-Speculative-Decoding-Unterstützung hinzu. Die Beschleunigung wird nicht an eingebautes MTP heranreichen, aber sie ist besser als nichts.

Ziehen Sie Alternativen für geschwindigkeitskritische Workloads in Betracht. Qwen 3.5 liefert deutlich bessere Tokens-pro-Sekunde auf vergleichbarer Hardware. Wenn die Inferenzgeschwindigkeit Ihre primäre Einschränkung ist, bietet Qwen derzeit ein besseres Geschwindigkeits-Qualitäts-Verhältnis.

Beobachten Sie Community-Workarounds. Die LiteRT-Exporte enthalten die MTP-Heads. Forscher könnten Wege finden, sie zu extrahieren und wieder an die HuggingFace-Gewichte anzuhängen, obwohl Google diesen Weg nicht offiziell unterstützt.

Geben Sie Feedback. Googles Ingenieure beobachten aktiv die HuggingFace-Diskussionsthreads. Klare, technische Anfragen zur Veröffentlichung der MTP-Heads haben Gewicht.

Fazit

Gemma 4 ist eine leistungsfähige Modellfamilie mit echten architektonischen Innovationen und starken Benchmark-Ergebnissen. Die Entscheidung, MTP-Prediction-Heads aus der öffentlichen Veröffentlichung zu entfernen — während sie in Googles eigenem LiteRT-Framework erhalten bleiben — untergräbt das „Open" in Open-Weight.

MTP ist keine geringfügige Optimierung. Es kann 1,5–2-fache Inferenzbeschleunigungen bei null Auswirkung auf die Ausgabequalität liefern. Das Zurückhalten aus den öffentlichen Gewichten, während das Modell offensichtlich damit trainiert wurde, schafft ein Zweiklassensystem: schnelle Inferenz für Googles Tools, langsame Inferenz für alle anderen.

Für die Open-Source-KI-Community ist die Botschaft klar: Prüfen Sie, was tatsächlich in den Gewichten steckt, nicht nur die Benchmarks. Eine offene Lizenz bedeutet nicht immer eine offene Veröffentlichung.

Erstellt mit FlowHunt . Bleiben Sie auf dem Laufenden über die neuesten Entwicklungen in der Open-Source-KI in unserem Blog .

Häufig gestellte Fragen

: Multi-Token Prediction ist eine Technik, bei der ein LLM mehrere zukünftige Tokens in einem einzigen Vorwärtsdurchlauf vorhersagt, anstatt nur ein Token nach dem anderen. Zusätzliche Prediction-Heads werden zusammen mit dem Hauptmodell trainiert, um die Tokens N+1, N+2, N+3 usw. gleichzeitig zu entwerfen. Diese können dann parallel vom Hauptmodell verifiziert werden. Das ermöglicht 1,5–2-fache Inferenzbeschleunigungen ohne Qualitätsverlust bei der Ausgabe.
: Gemma 4 wurde mit MTP-Prediction-Heads trainiert, und diese sind in Googles LiteRT-Exporten (On-Device-Inferenz) vorhanden. Allerdings wurden die öffentlich veröffentlichten HuggingFace-Gewichte bewusst ohne die MTP-Heads bereitgestellt. Google begründet dies mit der ‚breiten Kompatibilität' mit bestehenden Inferenz-Frameworks.
: Ohne MTP-Heads können Drittanbieter-Inferenz-Engines wie vLLM, llama.cpp und SGLang kein eingebautes Speculative Decoding für Gemma 4 nutzen. Nutzer sind auf die standardmäßige autoregressive Generierung angewiesen, die deutlich langsamer ist. Benchmarks zeigen, dass Gemma 4 nur 11 Tokens/Sek. auf Hardware erzeugt, auf der vergleichbare Modelle über 60 Tokens/Sek. erreichen.
: Speculative Decoding ist eine Technik zur Inferenzbeschleunigung, bei der ein schnelles ‚Draft-Modell' mehrere Tokens auf einmal vorschlägt und das Hauptmodell diese in einem einzigen Vorwärtsdurchlauf verifiziert. Wenn die Draft-Tokens korrekt sind, werden effektiv mehrere Dekodierungsschritte übersprungen. MTP ist eine Variante, bei der die Draft-Tokens von den eigenen eingebauten Prediction-Heads des Modells stammen, anstatt von einem separaten Modell.
: Stand April 2026 hat Google keine Pläne zur Veröffentlichung der MTP-Prediction-Heads für die HuggingFace-Gewichte angekündigt. Sie sind derzeit nur in den LiteRT-exportierten Modellen verfügbar, was ihre Nutzung auf Googles eigenes Inferenz-Framework beschränkt. Die Community fordert weiterhin deren Freigabe.

KI-Workflows mit den besten Modellen erstellen

Mit FlowHunt können Sie automatisierte KI-Pipelines mit Cloud-APIs und Open-Source-Modellen erstellen — mit voller Kontrolle über Geschwindigkeit, Kosten und Qualität.

Jetzt starten Mehr erfahren

Mehr erfahren

Fine-Tuning Gemma 4 auf Apple Silicon: Kann es Claude Sonnet für die Content-Generierung ersetzen?

Wir haben Googles Gemma 4 31B-Modell auf einem MacBook Pro M3 Max fine-tuned, um Sportartikel zu generieren. Hier ist, wie es sich mit Claude Sonnet in Qualität...

Apr 6, 2026 10 Min. Lesezeit

AI LLM +6

Gemini Flash 2.0: KI mit Geschwindigkeit und Präzision

Gemini Flash 2.0 setzt neue Maßstäbe in der KI mit verbesserter Leistung, Geschwindigkeit und multimodalen Fähigkeiten. Entdecken Sie das Potenzial in realen An...

May 30, 2025 3 Min. Lesezeit

AI Gemini Flash 2.0 +4

Was ist der Google Gemini KI-Chatbot?

Erfahren Sie, was Google Gemini ist, wie es funktioniert und wie es sich mit ChatGPT vergleicht. Lernen Sie seine multimodalen Fähigkeiten, Preisgestaltung und ...

Dec 1, 2025 11 Min. Lesezeit

Gemma 4 wurde ohne MTP-Daten veröffentlicht — Warum das wichtig ist

Was ist Gemma 4?