Co je Multi-Token Prediction (MTP)?

Multi-Token Prediction je technika, při které LLM predikuje více budoucích tokenů v jednom průchodu místo jednoho tokenu najednou. Společně s hlavním modelem jsou trénovány další predikční hlavy, které generují tokeny N+1, N+2, N+3 atd. současně. Ty pak mohou být paralelně ověřeny hlavním modelem. To umožňuje 1,5–2× zrychlení inference bez ztráty kvality výstupu.

Podporuje Gemma 4 MTP?

Gemma 4 byla trénována s MTP predikčními hlavami a ty jsou přítomny v LiteRT exportech od Googlu (inference na zařízení). Veřejně vydané váhy na HuggingFace však mají MTP hlavy záměrně odstraněny. Google tvrdí, že to bylo provedeno kvůli 'široké kompatibilitě' se stávajícími inference frameworky.

Proč je odstranění MTP hlav problém?

Bez MTP hlav nemohou inference enginy třetích stran jako vLLM, llama.cpp a SGLang využívat vestavěné spekulativní dekódování pro Gemma 4. Uživatelé jsou odkázáni na standardní autoregresivní generování, které je výrazně pomalejší. Benchmarky ukazují, že Gemma 4 generuje pouze 11 tokenů/s na hardwaru, kde srovnatelné modely dosahují 60+ tokenů/s.

Co je spekulativní dekódování?

Spekulativní dekódování je technika zrychlení inference, při které rychlý 'náčrtový' model navrhne více tokenů najednou a hlavní model je ověří v jednom průchodu. Pokud jsou navržené tokeny správné, efektivně se přeskočí více dekódovacích kroků. MTP je varianta, kde náčrtové tokeny pocházejí z vlastních vestavěných predikčních hlav modelu, nikoli ze samostatného modelu.

Vydá Google MTP hlavy pro Gemma 4?

K dubnu 2026 Google neoznámil plány na vydání MTP predikčních hlav pro HuggingFace váhy. V současnosti jsou dostupné pouze v modelech exportovaných pro LiteRT, což omezuje jejich použití na inference framework od Googlu. Komunita nadále žádá o jejich zveřejnění.

Gemma 4 vyšla bez MTP dat — proč je to důležité

Google odstranil MTP predikční hlavy z veřejného vydání Gemma 4, ale ponechal je ve svém vlastním LiteRT frameworku. Co to znamená pro rychlost inference a open-source AI.

AI LLM Gemma Open Source

Začít Číst dále

Google vydal Gemma 4 dne 3. dubna 2026 — rodinu modelů s otevřenými váhami, silnými benchmarkovými výsledky, multimodálními schopnostmi a kontextem až 256K. Na papíře je to impozantní vydání. Během několika hodin však komunita zjistila, že něco chybí: Multi-Token Prediction hlavy byly z veřejných vah odstraněny.

Model byl s MTP trénován. Vlastní LiteRT framework od Googlu MTP komponenty obsahuje. Ale verze, kterou si může každý stáhnout z HuggingFace? Pouze standardní autoregresivní generování. Žádné zrychlení. Žádné spekulativní dekódování.

Tento článek vysvětluje, co je MTP, proč je důležité a co toto rozhodnutí znamená pro každého, kdo provozuje Gemma 4 na vlastním hardwaru.

Co je Gemma 4?

Gemma 4 je nejnovější rodina modelů s otevřenými váhami od Google DeepMind, vydaná pod licencí Apache 2.0. Je dostupná ve čtyřech velikostech:

Model	Parametry	Typ	Hlavní vlastnosti
Gemma 4 E2B	2,3B efektivních	Dense	Obraz + Zvuk
Gemma 4 E4B	4,5B efektivních	Dense	Obraz + Zvuk
Gemma 4 26B-A4B	26B celkem / 4B aktivních	Mixture of Experts	Obraz
Gemma 4 31B	31B	Dense	Obraz

Mezi klíčové schopnosti patří nativní multimodální podpora, volání funkcí, strukturovaný JSON výstup a trénink na 140+ jazycích. Varianta 31B se umístila na 3. místě žebříčku LMArena pro text.

Pod kapotou přináší Gemma 4 několik architektonických inovací: střídající se lokální sliding-window a globální attention vrstvy, proporcionální RoPE (p-RoPE), Per-Layer Embeddings (PLE), sdílenou KV cache a paměťovou optimalizaci „Keys equal Values".

Podle čísel je to silné vydání. Problém je v tom, co ve veřejných váhách není.

Co je Multi-Token Prediction?

Standardní velké jazykové modely generují text po jednom tokenu. Každý token vyžaduje kompletní průchod modelem. Další token nemůže začít, dokud není předchozí dokončen. Jedná se o autoregresivní dekódování a je ze své podstaty sekvenční.

Diagram srovnávající standardní autoregresivní dekódování (jeden token na krok) s Multi-Token Prediction (více tokenů na krok)

Multi-Token Prediction (MTP) toto mění přidáním dalších predikčních hlav do modelu. Místo predikce pouze dalšího tokenu model predikuje tokeny N+1, N+2, N+3 a další — vše v jednom průchodu.

Jak to funguje:

Fáze tréninku: Společně s hlavním modelem jsou trénovány další lehké predikční hlavy. Každá hlava se učí predikovat jinou budoucí pozici (1 dopředu, 2 dopředu, 3 dopředu atd.)
Fáze inference: Další hlavy generují „náčrtové" tokeny paralelně. Hlavní model je poté všechny ověří v jednom průchodu.
Ověření: Pokud se náčrtové tokeny shodují s tím, co by hlavní model vygeneroval, jsou všechny přijaty najednou — čímž se přeskočí více sekvenčních dekódovacích kroků. Pokud je náčrtový token chybný, generování se vrací na tuto pozici.

To úzce souvisí se spekulativním dekódováním, ale s klíčovou výhodou: náčrtové tokeny pocházejí ze samotného modelu, místo aby vyžadovaly samostatný, menší „náčrtový model".

Diagram architektury ukazující, jak se MTP predikční hlavy připojují k hlavnímu transformer modelu a generují více náčrtových tokenů současně

O kolik je MTP rychlejší?

Zrychlení závisí na tom, jak často jsou náčrtové tokeny správné (míra přijetí, „acceptance rate"). DeepSeek V3 demonstroval reálný dopad:

Metrika	Hodnota
Průměrná délka přijetí	2,4 tokenu na ověřovací krok
Zrychlení inference	průměrně 1,8× (až 2,1× ve špičce)
Dopad na kvalitu výstupu	Žádný — všechny tokeny ověřeny hlavním modelem

Míra přijetí 2,4 znamená, že v průměru každý průchod hlavním modelem vyprodukuje 2,4 tokenu místo 1. Výstup je matematicky identický se standardním dekódováním — každý token je ověřen. Získáte stejnou kvalitu při téměř dvojnásobné rychlosti.

Co se stalo s Gemma 4

Uživatel HuggingFace (@shadowlilac ) zjistil, že LiteRT balíček od Googlu pro Gemma 4 obsahuje MTP predikční hlavy a funkcionalitu multi-token prediction. Veřejně vydané váhy na HuggingFace však nic z toho neobsahují.

MTP komponenty byly záměrně odstraněny:

Žádné MTP hlavy v checkpointu
Žádné MTP v konfiguraci modelu
Žádné MTP v průchodu (forward pass)

Diagram ukazující, že trénink Gemma 4 zahrnoval MTP hlavy, ale veřejné vydání na HuggingFace je má odstraněny, zatímco verze pro LiteRT od Googlu si je ponechává

Vyjádření Googlu

Inženýr Googlu (@srikanta-221 ) potvrdil, že šlo o záměr:

Veřejný model nabízí pouze standardní autoregresivní rozhraní „pro širokou kompatibilitu". MTP hlavy jsou vyloučeny z konfigurace modelu, průchodu a checkpointu. Tím je zajištěna kompatibilita s HuggingFace Transformers API a konzistentní chování checkpointu a běhového prostředí.

Google prezentuje MTP jako „optimalizaci při nasazení" spíše než jako klíčovou vlastnost modelu. MTP predikční hlavy jsou zachovány pouze v modelech exportovaných pro LiteRT — vlastní framework Googlu pro inference na zařízení.

Proč je to problém

Vysvětlení neobstojí při bližším zkoumání:

1. Model byl s MTP trénován. Schopnost existuje. Její odstranění z vydání je volba, nikoli technické omezení.

2. Enginy třetích stran ji nemohou implementovat. vLLM, llama.cpp, SGLang a další inference frameworky nemohou využívat spekulativní dekódování založené na MTP bez predikčních hlav. Tyto enginy obsluhují drtivou většinu open-source LLM nasazení.

3. Uživatelé dostávají pomalou verzi. Bez MTP běží Gemma 4 standardní autoregresivní rychlostí. Výkonnostní rozdíl je v praxi již patrný:

Model	Hardware	Rychlost	Poznámky
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Bez MTP, standardní dekódování
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Srovnatelný MoE model
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	Problémy s FlashAttention fallbackem

4. Vytváří to vendor lock-in. Vlastní LiteRT framework Googlu získává výhodu rychlosti. Všichni ostatní dostávají pomalejší model. Pro vydání s „otevřenými váhami" pod Apache 2.0 je to značná asymetrie.

Jak funguje spekulativní dekódování (a proč je MTP lepší)

Abychom pochopili, proč chybějící MTP hlavy záleží, pomůže vidět, kde se MTP nachází ve vývoji optimalizace inference.

Srovnání tří přístupů ke spekulativnímu dekódování: tradiční (samostatný náčrtový model), spekulativně-spekulativní a MTP (vestavěné predikční hlavy)

Přístup 1: Tradiční spekulativní dekódování

Samostatný, menší „náčrtový model" navrhuje tokeny. Hlavní model je ověřuje paralelně. Pokud jsou náčrty správné, je přijato více tokenů za krok.

Výhody: Funguje s jakoukoli dvojicí modelů
Nevýhody: Vyžaduje údržbu a načítání druhého modelu; kvalita náčrtového modelu omezuje zrychlení; vyšší paměťová náročnost

Přístup 2: MTP (vestavěné predikční hlavy)

Hlavní model má vlastní lehké predikční hlavy, které generují náčrtové tokeny. Žádný samostatný model není potřeba.

Výhody: Žádný další model; těsnější integrace znamená vyšší míru přijetí; nižší paměťová náročnost
Nevýhody: Funguje pouze tehdy, pokud jsou predikční hlavy zahrnuty ve vydání

Proč MTP vítězí

MTP predikční hlavy jsou trénovány společně s hlavním modelem. Sdílejí stejné interní reprezentace a učí se vlastní distribuci tokenů modelu. To obvykle produkuje vyšší míru přijetí než externí náčrtový model, což znamená více přijatých tokenů na ověřovací krok a celkově rychlejší generování.

Predikční hlavy jsou navíc malé — obvykle přidávají pouze 1–3 % k celkovému počtu parametrů modelu. Paměťová náročnost je zanedbatelná ve srovnání s načítáním samostatného náčrtového modelu.

Širší dopad

Nejde jen o Gemma 4. Toto rozhodnutí vytváří precedent pro to, jak „otevřená" jsou vydání s otevřenými váhami ve skutečnosti.

Co uživatelé ztrácejí:

Spekulativní dekódování založené na MTP na jakémkoli inference enginu třetí strany
Možnost doladit nebo experimentovat s MTP hlavami
Výkonnostní paritu s vlastními nástroji Googlu pro nasazení

Co uživatelé stále mají:

Váhy základního modelu (které jsou skutečně kvalitní)
Tradiční spekulativní dekódování pomocí samostatného náčrtového modelu (vLLM issue #38893 sleduje podporu Eagle3 pro Gemma 4)
Standardní kvantizační a optimalizační techniky

Reakce komunity byla přímočará. Během 24 hodin panoval konsensus, že benchmarkové výsledky Gemma 4 jsou konkurenceschopné — vyrovnává se nebo mírně zaostává za Qwen 3.5 — ale produkt „není hotový". Rychlost, stabilita a nástroje potřebují práci. Mezi další problémy patří, že HuggingFace Transformers zpočátku nepodporovaly architekturu Gemma 4, PEFT nezvládal nové typy vrstev a uživatelé Maců zažívali pády při načítání větších modelů.

Co můžete udělat?

Pokud zvažujete Gemma 4 pro nasazení, zde jsou praktické možnosti:

Použijte tradiční spekulativní dekódování. Externí náčrtové modely mohou stále zrychlit inference Gemma 4. Frameworky jako vLLM přidávají podporu Eagle3 spekulativního dekódování speciálně pro Gemma 4. Zrychlení nebude odpovídat vestavěnému MTP, ale je to lepší než nic.

Zvažte alternativy pro úlohy citlivé na rychlost. Qwen 3.5 poskytuje výrazně lepší tokeny za sekundu na ekvivalentním hardwaru. Pokud je rychlost inference vaším hlavním omezením, Qwen v současnosti nabízí lepší poměr rychlosti ke kvalitě.

Sledujte komunitní obcházení. LiteRT exporty obsahují MTP hlavy. Výzkumníci mohou najít způsoby, jak je extrahovat a znovu připojit k váhám na HuggingFace, ačkoli Google tuto cestu oficiálně nepodporuje.

Poskytněte zpětnou vazbu. Inženýři Googlu aktivně sledují diskuzní vlákna na HuggingFace. Jasné, technické požadavky na vydání MTP hlav mají váhu.

Závěr

Gemma 4 je schopná rodina modelů s autentickými architektonickými inovacemi a silnými benchmarkovými výsledky. Rozhodnutí odstranit MTP predikční hlavy z veřejného vydání — a zároveň je ponechat ve vlastním LiteRT frameworku Googlu — podkopává „otevřenost" v otevřených váhách.

MTP není drobná optimalizace. Může přinést 1,5–2× zrychlení inference s nulovým dopadem na kvalitu výstupu. Zadržování tohoto prvku ve veřejných váhách, když byl model jednoznačně s ním trénován, vytváří dvouúrovňový systém: rychlou inferenci pro nástroje Googlu, pomalou inferenci pro všechny ostatní.

Pro open-source AI komunitu je poselství jasné: kontrolujte, co je skutečně ve váhách, nejen v benchmarcích. Otevřená licence neznamená vždy otevřené vydání.

Vytvořeno s FlowHunt . Sledujte nejnovější vývoj v open-source AI na našem blogu .

Často kladené otázky

: Multi-Token Prediction je technika, při které LLM predikuje více budoucích tokenů v jednom průchodu místo jednoho tokenu najednou. Společně s hlavním modelem jsou trénovány další predikční hlavy, které generují tokeny N+1, N+2, N+3 atd. současně. Ty pak mohou být paralelně ověřeny hlavním modelem. To umožňuje 1,5–2× zrychlení inference bez ztráty kvality výstupu.
: Gemma 4 byla trénována s MTP predikčními hlavami a ty jsou přítomny v LiteRT exportech od Googlu (inference na zařízení). Veřejně vydané váhy na HuggingFace však mají MTP hlavy záměrně odstraněny. Google tvrdí, že to bylo provedeno kvůli 'široké kompatibilitě' se stávajícími inference frameworky.
: Bez MTP hlav nemohou inference enginy třetích stran jako vLLM, llama.cpp a SGLang využívat vestavěné spekulativní dekódování pro Gemma 4. Uživatelé jsou odkázáni na standardní autoregresivní generování, které je výrazně pomalejší. Benchmarky ukazují, že Gemma 4 generuje pouze 11 tokenů/s na hardwaru, kde srovnatelné modely dosahují 60+ tokenů/s.
: Spekulativní dekódování je technika zrychlení inference, při které rychlý 'náčrtový' model navrhne více tokenů najednou a hlavní model je ověří v jednom průchodu. Pokud jsou navržené tokeny správné, efektivně se přeskočí více dekódovacích kroků. MTP je varianta, kde náčrtové tokeny pocházejí z vlastních vestavěných predikčních hlav modelu, nikoli ze samostatného modelu.
: K dubnu 2026 Google neoznámil plány na vydání MTP predikčních hlav pro HuggingFace váhy. V současnosti jsou dostupné pouze v modelech exportovaných pro LiteRT, což omezuje jejich použití na inference framework od Googlu. Komunita nadále žádá o jejich zveřejnění.

Budujte AI workflow s nejlepšími modely

FlowHunt vám umožňuje vytvářet automatizované AI pipeline pomocí cloudových API a open-source modelů — s plnou kontrolou nad rychlostí, cenou a kvalitou.

Začít Číst dále

Zjistit více

Fine-tuning Gemma 4 na Apple Silicon: Může nahradit Claude Sonnet pro generování obsahu?

Vylaďovali jsme model Google Gemma 4 31B na MacBook Pro M3 Max pro generování sportovních článků. Zde je porovnání s Claude Sonnet v kvalitě, rychlosti a náklad...

Apr 6, 2026 10 min čtení

AI LLM +6

Co je Google Gemini AI chatbot?

Zjistěte, co je Google Gemini, jak funguje a jak si vede ve srovnání s ChatGPT. Seznamte se s jeho multimodálními schopnostmi, cenami a reálnými aplikacemi pro ...

Dec 1, 2025 10 min čtení

AI agenti: Jak přemýšlí GPT 4o

Prozkoumejte myšlenkové procesy AI agentů v této komplexní evaluaci GPT-4o. Objevte, jak si vede v úlohách jako generování obsahu, řešení problémů a kreativní p...

May 30, 2025 7 min čtení

AI GPT-4o +6

Gemma 4 vyšla bez MTP dat — proč je to důležité

Co je Gemma 4?