Čo je Multi-Token Prediction (MTP)?

Multi-Token Prediction je technika, pri ktorej LLM predpovedá viacero budúcich tokenov v jednom priechode namiesto jedného tokenu naraz. Dodatočné predikčné hlavy sú trénované spolu s hlavným modelom na návrh tokenov N+1, N+2, N+3 atď. simultánne, ktoré môže hlavný model následne paralelne overiť. To umožňuje 1,5–2× zrýchlenie inferencie bez straty kvality výstupu.

Podporuje Gemma 4 MTP?

Gemma 4 bola trénovaná s MTP predikčnými hlavami a tie sú prítomné v Google LiteRT (inferencia na zariadení) exportoch. Avšak verejne vydané váhy na HuggingFace majú MTP hlavy zámerne odstránené. Google tvrdí, že to bolo urobené kvôli 'širokej kompatibilite' s existujúcimi inferenčnými frameworkmi.

Prečo je odstránenie MTP hláv dôležité?

Bez MTP hláv nemôžu inferenčné enginy tretích strán ako vLLM, llama.cpp a SGLang používať vstavaný speculative decoding pre Gemma 4. Používatelia sú odkázaní na štandardnú autoregresívnu generáciu, ktorá je výrazne pomalšia. Benchmarky ukazujú, že Gemma 4 generuje len 11 tokenov/s na hardvéri, kde porovnateľné modely dosahujú 60+ tokenov/s.

Čo je speculative decoding?

Speculative decoding je technika na zrýchlenie inferencie, pri ktorej rýchly 'návrhový' model navrhne viacero tokenov naraz a hlavný model ich overí v jednom priechode. Ak sú navrhnuté tokeny správne, efektívne sa preskočí viacero dekódovacích krokov. MTP je variant, kde navrhnuté tokeny pochádzajú z vlastných vstavaných predikčných hláv modelu, nie z odděleného modelu.

Vydá Google MTP hlavy pre Gemma 4?

K aprílu 2026 Google neoznámil plány na vydanie MTP predikčných hláv pre HuggingFace váhy. V súčasnosti sú dostupné iba v LiteRT-exportovaných modeloch, čo obmedzuje ich použitie na inferenčný framework od Googlu. Komunita naďalej žiada o ich sprístupnenie.

Gemma 4 vyšla bez MTP dát — prečo je to dôležité

Google odstránil MTP predikčné hlavy z verejného vydania Gemma 4, no ponechal ich vo vlastnom LiteRT frameworku. Tu je, čo to znamená pre rýchlosť inferencie a open-source AI.

AI LLM Gemma Open Source

Začať Čítať viac

Google vydal Gemma 4 dňa 3. apríla 2026 — rodinu open-weight modelov so silnými výsledkami v benchmarkoch, multimodálnymi schopnosťami a kontextom až 256K. Na papieri je to pôsobivé vydanie. No v priebehu niekoľkých hodín komunita objavila niečo, čo chýba: Multi-Token Prediction hlavy boli z verejných váh odstránené.

Model bol trénovaný s MTP. Google vlastný LiteRT framework obsahuje MTP komponenty. Ale verzia, ktorú si každý môže stiahnuť z HuggingFace? Len štandardná autoregresívna generácia. Žiadne zrýchlenie. Žiadny speculative decoding.

Tento článok vysvetľuje, čo je MTP, prečo je to dôležité a čo toto rozhodnutie znamená pre každého, kto prevádzkuje Gemma 4 na vlastnom hardvéri.

Čo je Gemma 4?

Gemma 4 je najnovšia rodina open-weight modelov od Google DeepMind, vydaná pod licenciou Apache 2.0. Prichádza v štyroch veľkostiach:

Model	Parametre	Typ	Hlavné vlastnosti
Gemma 4 E2B	2,3B efektívnych	Dense	Obraz + Zvuk
Gemma 4 E4B	4,5B efektívnych	Dense	Obraz + Zvuk
Gemma 4 26B-A4B	26B celkovo / 4B aktívnych	Mixture of Experts	Obraz
Gemma 4 31B	31B	Dense	Obraz

Medzi kľúčové schopnosti patrí natívna multimodálna podpora, volanie funkcií, štruktúrovaný JSON výstup a tréning na 140+ jazykoch. Variant 31B sa umiestnil na 3. mieste v textovom rebríčku LMArena.

Pod kapotou Gemma 4 prináša niekoľko architektonických inovácií: striedavé lokálne sliding-window a globálne attention vrstvy, proporcionálne RoPE (p-RoPE), Per-Layer Embeddings (PLE), zdieľaný KV cache a optimalizáciu pamäte „Keys equal Values".

Podľa čísel je to silné vydanie. Problém je v tom, čo vo verejných váhach nie je.

Čo je Multi-Token Prediction?

Štandardné veľké jazykové modely generujú text po jednom tokene. Každý token vyžaduje úplný priechod modelom. Ďalší token nemôže začať, kým nie je dokončený predchádzajúci. Toto je autoregresívne dekódovanie a je z podstaty sekvenčné.

Diagram porovnávajúci štandardné autoregresívne dekódovanie (jeden token na krok) s Multi-Token Prediction (viacero tokenov na krok)

Multi-Token Prediction (MTP) toto mení pridaním ďalších predikčných hláv do modelu. Namiesto predpovedania iba ďalšieho tokenu model predpovedá tokeny N+1, N+2, N+3 a tak ďalej — všetko v jednom priechode.

Ako to funguje:

Fáza trénovania: Dodatočné ľahké predikčné hlavy sú trénované spolu s hlavným modelom. Každá hlava sa učí predpovedať inú budúcu pozíciu (1 dopredu, 2 dopredu, 3 dopredu atď.)
Fáza inferencie: Ďalšie hlavy generujú „návrhové" tokeny paralelne. Hlavný model ich potom všetky overí v jednom priechode.
Overenie: Ak návrhové tokeny zodpovedajú tomu, čo by hlavný model vygeneroval, sú všetky prijaté naraz — čím sa preskočí viacero sekvenčných dekódovacích krokov. Ak je návrhový token nesprávny, generovanie sa vráti na danú pozíciu.

Toto úzko súvisí so speculative decoding, ale s kľúčovou výhodou: návrhové tokeny pochádzajú zo samotného modelu namiesto toho, aby vyžadovali samostatný, menší „návrhový model".

Diagram architektúry ukazujúci, ako sa MTP predikčné hlavy pripájajú k hlavnému transformer modelu na simultánne generovanie viacerých návrhových tokenov

Aké veľké je zrýchlenie vďaka MTP?

Zrýchlenie závisí od toho, ako často sú návrhové tokeny správne („miera akceptácie"). DeepSeek V3 demonštroval reálny dopad:

Metrika	Hodnota
Priemerná dĺžka akceptácie	2,4 tokenov na overovací krok
Zrýchlenie inferencie	1,8× priemerne (až 2,1× maximálne)
Dopad na kvalitu výstupu	Žiadny — všetky tokeny overené hlavným modelom

Miera akceptácie 2,4 znamená, že v priemere každý priechod hlavným modelom vyprodukuje 2,4 tokenov namiesto 1. Výstup je matematicky identický so štandardným dekódovaním — každý token je overený. Získate rovnakú kvalitu pri takmer dvojnásobnej rýchlosti.

Čo sa stalo s Gemma 4

Používateľ HuggingFace (@shadowlilac ) objavil, že LiteRT balík od Googlu pre Gemma 4 obsahuje MTP predikčné hlavy a funkciu multi-token prediction. Ale verejne vydané váhy na HuggingFace nič z toho neobsahujú.

MTP komponenty boli zámerne odstránené:

Žiadne MTP hlavy v checkpointe
Žiadne MTP v konfigurácii modelu
Žiadne MTP v priechode vpred

Diagram ukazujúci, že tréning Gemma 4 zahŕňal MTP hlavy, ale verejné HuggingFace vydanie ich má odstránené, zatiaľ čo verzia Google LiteRT ich zachováva

Vysvetlenie od Googlu

Inžinier z Googlu (@srikanta-221 ) potvrdil, že to bolo zámerné:

Verejný model ponúka iba štandardné autoregresívne rozhranie „pre širokú kompatibilitu." MTP hlavy sú vylúčené z konfigurácie modelu, priechodu vpred a checkpointu. Toto zabezpečuje kompatibilitu s HuggingFace Transformers API a udržiava konzistentné správanie checkpointu a runtime.

Google prezentuje MTP ako „optimalizáciu pre nasadenie" namiesto základnej funkcie modelu. MTP predikčné hlavy sú zachované iba v LiteRT-exportovaných modeloch — inferenčnom frameworku od Googlu pre zariadenia.

Prečo je to problém

Vysvetlenie neobstojí pri bližšom preskúmaní:

1. Model bol trénovaný s MTP. Schopnosť existuje. Odstránenie z vydania je voľba, nie technické obmedzenie.

2. Inferenčné enginy tretích strán to nemôžu implementovať. vLLM, llama.cpp, SGLang a ďalšie inferenčné frameworky nemôžu používať MTP-založený speculative decoding bez predikčných hláv. Tieto enginy obsluhujú veľkú väčšinu open-source LLM nasadení.

3. Používatelia dostávajú pomalú verziu. Bez MTP beží Gemma 4 pri štandardných autoregresívnych rýchlostiach. Výkonnostný rozdiel je už viditeľný v praxi:

Model	Hardvér	Rýchlosť	Poznámky
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Bez MTP, štandardné dekódovanie
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Porovnateľný MoE model
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	Problémy s FlashAttention fallbackom

4. Vytvára to ekosystémové lock-in. Vlastný LiteRT framework od Googlu získava výhodu rýchlosti. Všetci ostatní dostávajú pomalší model. Pre „open-weight" Apache 2.0 vydanie je to výrazná asymetria.

Ako funguje speculative decoding (a prečo je MTP lepší)

Na pochopenie, prečo chýbajúce MTP hlavy dôležité, pomáha vidieť, kam MTP zapadá do vývoja optimalizácie inferencie.

Porovnanie troch prístupov k speculative decoding: tradičný (samostatný návrhový model), špekulatívno-špekulatívny a MTP (vstavané predikčné hlavy)

Prístup 1: Tradičný speculative decoding

Samostatný, menší „návrhový model" navrhuje tokeny. Hlavný model ich paralelne overuje. Ak sú návrhy správne, viacero tokenov je prijatých na jeden krok.

Výhody: Funguje s akoukoľvek dvojicou modelov
Nevýhody: Vyžaduje údržbu a načítanie druhého modelu; kvalita návrhového modelu limituje zrýchlenie; dodatočná pamäťová réžia

Prístup 2: MTP (vstavané predikčné hlavy)

Hlavný model má vlastné ľahké predikčné hlavy, ktoré generujú návrhové tokeny. Žiadny samostatný model nie je potrebný.

Výhody: Žiadny ďalší model nie je potrebný; tesnejšia integrácia znamená vyššiu mieru akceptácie; nižšia pamäťová réžia
Nevýhody: Funguje iba ak sú predikčné hlavy zahrnuté vo vydaní

Prečo MTP vyhráva

MTP predikčné hlavy sú trénované spolu s hlavným modelom. Zdieľajú rovnaké interné reprezentácie a učia sa vlastnú distribúciu tokenov modelu. To typicky produkuje vyššiu mieru akceptácie ako externý návrhový model, čo znamená viac tokenov prijatých na overovací krok a celkovo rýchlejšiu generáciu.

Predikčné hlavy sú tiež malé — zvyčajne pridávajú len 1–3 % k celkovému počtu parametrov modelu. Pamäťová réžia je zanedbateľná v porovnaní s načítaním samostatného návrhového modelu.

Širší dopad

Toto nie je len o Gemma 4. Rozhodnutie vytvára precedens pre to, aké „otvorené" sú open-weight vydania v skutočnosti.

Čo používatelia strácajú:

MTP-založený speculative decoding na akomkoľvek inferenčnom engine tretej strany
Možnosť doladiť alebo experimentovať s MTP hlavami
Výkonnostnú paritu s vlastnými nástrojmi na nasadenie od Googlu

Čo používatelia stále majú:

Základné váhy modelu (ktoré sú skutočne dobré)
Tradičný speculative decoding pomocou samostatného návrhového modelu (vLLM issue #38893 sleduje podporu Eagle3 pre Gemma 4)
Štandardné techniky kvantizácie a optimalizácie

Reakcia komunity bola priama. Konsenzus za 24 hodín bol, že výsledky benchmarkov Gemma 4 sú konkurencieschopné — vyrovná sa alebo mierne zaostáva za Qwen 3.5 — ale produkt „nie je dokončený." Rýchlosť, stabilita a nástroje potrebujú prácu. Medzi ďalšie problémy patrí, že HuggingFace Transformers spočiatku nemali podporu architektúry Gemma 4, PEFT nezvládal nové typy vrstiev a používatelia Macu zažívali pády pri načítavaní väčších modelov.

Čo môžete urobiť?

Ak zvažujete Gemma 4 pre nasadenie, tu sú praktické možnosti:

Použite tradičný speculative decoding. Externé návrhové modely stále môžu zrýchliť inferenciu Gemma 4. Frameworky ako vLLM pridávajú podporu Eagle3 speculative decoding špeciálne pre Gemma 4. Zrýchlenie nebude zodpovedať vstavanému MTP, ale je to lepšie ako nič.

Zvážte alternatívy pre workloady kritické na rýchlosť. Qwen 3.5 poskytuje výrazne lepšie tokeny za sekundu na ekvivalentnom hardvéri. Ak je rýchlosť inferencie vašou primárnou podmienkou, Qwen momentálne ponúka lepší pomer rýchlosť-kvalita.

Sledujte komunitné obchádzky. LiteRT exporty obsahujú MTP hlavy. Výskumníci môžu nájsť spôsoby, ako ich extrahovať a znovu pripojiť k HuggingFace váham, hoci Google túto cestu oficiálne nepodporuje.

Poskytnite spätnú väzbu. Inžinieri Googlu aktívne sledujú diskusné vlákna na HuggingFace. Jasné, technické požiadavky na vydanie MTP hláv majú váhu.

Záver

Gemma 4 je schopná rodina modelov s originálnymi architektonickými inováciami a silnými výsledkami v benchmarkoch. Rozhodnutie odstrániť MTP predikčné hlavy z verejného vydania — zatiaľ čo ich ponechali vo vlastnom LiteRT frameworku od Googlu — podkopáva „open" v open-weight.

MTP nie je zanedbateľná optimalizácia. Môže priniesť 1,5–2× zrýchlenie inferencie s nulovým dopadom na kvalitu výstupu. Zadržiavanie tejto funkcie z verejných váh, zatiaľ čo model bol zjavne s ňou trénovaný, vytvára dvojúrovňový systém: rýchla inferencia pre nástroje Googlu, pomalá inferencia pre všetkých ostatných.

Pre open-source AI komunitu je odkaz jasný: skontrolujte, čo je skutočne vo váhach, nie len v benchmarkoch. Otvorená licencia nemusí vždy znamenať otvorené vydanie.

Vytvorené s FlowHunt . Sledujte najnovšie novinky v open-source AI na našom blogu .

Najčastejšie kladené otázky

: Multi-Token Prediction je technika, pri ktorej LLM predpovedá viacero budúcich tokenov v jednom priechode namiesto jedného tokenu naraz. Dodatočné predikčné hlavy sú trénované spolu s hlavným modelom na návrh tokenov N+1, N+2, N+3 atď. simultánne, ktoré môže hlavný model následne paralelne overiť. To umožňuje 1,5–2× zrýchlenie inferencie bez straty kvality výstupu.
: Gemma 4 bola trénovaná s MTP predikčnými hlavami a tie sú prítomné v Google LiteRT (inferencia na zariadení) exportoch. Avšak verejne vydané váhy na HuggingFace majú MTP hlavy zámerne odstránené. Google tvrdí, že to bolo urobené kvôli 'širokej kompatibilite' s existujúcimi inferenčnými frameworkmi.
: Bez MTP hláv nemôžu inferenčné enginy tretích strán ako vLLM, llama.cpp a SGLang používať vstavaný speculative decoding pre Gemma 4. Používatelia sú odkázaní na štandardnú autoregresívnu generáciu, ktorá je výrazne pomalšia. Benchmarky ukazujú, že Gemma 4 generuje len 11 tokenov/s na hardvéri, kde porovnateľné modely dosahujú 60+ tokenov/s.
: Speculative decoding je technika na zrýchlenie inferencie, pri ktorej rýchly 'návrhový' model navrhne viacero tokenov naraz a hlavný model ich overí v jednom priechode. Ak sú navrhnuté tokeny správne, efektívne sa preskočí viacero dekódovacích krokov. MTP je variant, kde navrhnuté tokeny pochádzajú z vlastných vstavaných predikčných hláv modelu, nie z odděleného modelu.
: K aprílu 2026 Google neoznámil plány na vydanie MTP predikčných hláv pre HuggingFace váhy. V súčasnosti sú dostupné iba v LiteRT-exportovaných modeloch, čo obmedzuje ich použitie na inferenčný framework od Googlu. Komunita naďalej žiada o ich sprístupnenie.

Vytvárajte AI workflowy s najlepšími modelmi

FlowHunt vám umožňuje vytvárať automatizované AI pipeline pomocou cloudových API a open-source modelov — s plnou kontrolou nad rýchlosťou, nákladmi a kvalitou.

Začať Čítať viac

Zistiť viac

Fine-Tuning Gemma 4 na Apple Silicon: Môže nahradiť Claude Sonnet na generovanie obsahu?

Fine-tunovali sme model Google Gemma 4 31B na MacBook Pro M3 Max na generovanie športových článkov. Tu je porovnanie s Claude Sonnet z hľadiska kvality, rýchlos...

Apr 6, 2026 11 min čítania

AI LLM +6

AI agenti: Ako uvažuje GPT 4o

Preskúmajte procesy myslenia AI agentov v tomto komplexnom hodnotení GPT-4o. Objavte, ako si vedie pri úlohách ako generovanie obsahu, riešenie problémov a krea...

May 30, 2025 7 min čítania

AI GPT-4o +6

Čo je Google Gemini AI chatbot?

Zistite, čo je Google Gemini, ako funguje a ako sa porovnáva s ChatGPT. Spoznajte jeho multimodálne schopnosti, ceny a reálne aplikácie pre rok 2025.

Dec 1, 2025 10 min čítania

Gemma 4 vyšla bez MTP dát — prečo je to dôležité

Čo je Gemma 4?