Google odstránil MTP predikčné hlavy z verejného vydania Gemma 4, no ponechal ich vo vlastnom LiteRT frameworku. Tu je, čo to znamená pre rýchlosť inferencie a open-source AI.
AI
LLM
Gemma
Open Source
Inference
Multi-Token Prediction
Google vydal Gemma 4 dňa 3. apríla 2026 — rodinu open-weight modelov so silnými výsledkami v benchmarkoch, multimodálnymi schopnosťami a kontextom až 256K. Na papieri je to pôsobivé vydanie. No v priebehu niekoľkých hodín komunita objavila niečo, čo chýba: Multi-Token Prediction hlavy boli z verejných váh odstránené.
Model bol trénovaný s MTP. Google vlastný LiteRT framework obsahuje MTP komponenty. Ale verzia, ktorú si každý môže stiahnuť z HuggingFace? Len štandardná autoregresívna generácia. Žiadne zrýchlenie. Žiadny speculative decoding.
Tento článok vysvetľuje, čo je MTP, prečo je to dôležité a čo toto rozhodnutie znamená pre každého, kto prevádzkuje Gemma 4 na vlastnom hardvéri.
Čo je Gemma 4?
Gemma 4 je najnovšia rodina open-weight modelov od Google DeepMind, vydaná pod licenciou Apache 2.0. Prichádza v štyroch veľkostiach:
Model
Parametre
Typ
Hlavné vlastnosti
Gemma 4 E2B
2,3B efektívnych
Dense
Obraz + Zvuk
Gemma 4 E4B
4,5B efektívnych
Dense
Obraz + Zvuk
Gemma 4 26B-A4B
26B celkovo / 4B aktívnych
Mixture of Experts
Obraz
Gemma 4 31B
31B
Dense
Obraz
Medzi kľúčové schopnosti patrí natívna multimodálna podpora, volanie funkcií, štruktúrovaný JSON výstup a tréning na 140+ jazykoch. Variant 31B sa umiestnil na 3. mieste v textovom rebríčku LMArena.
Pod kapotou Gemma 4 prináša niekoľko architektonických inovácií: striedavé lokálne sliding-window a globálne attention vrstvy, proporcionálne RoPE (p-RoPE), Per-Layer Embeddings (PLE), zdieľaný KV cache a optimalizáciu pamäte „Keys equal Values".
Podľa čísel je to silné vydanie. Problém je v tom, čo vo verejných váhach nie je.
Čo je Multi-Token Prediction?
Štandardné veľké jazykové modely generujú text po jednom tokene. Každý token vyžaduje úplný priechod modelom. Ďalší token nemôže začať, kým nie je dokončený predchádzajúci. Toto je autoregresívne dekódovanie a je z podstaty sekvenčné.
Multi-Token Prediction (MTP) toto mení pridaním ďalších predikčných hláv do modelu. Namiesto predpovedania iba ďalšieho tokenu model predpovedá tokeny N+1, N+2, N+3 a tak ďalej — všetko v jednom priechode.
Ako to funguje:
Fáza trénovania: Dodatočné ľahké predikčné hlavy sú trénované spolu s hlavným modelom. Každá hlava sa učí predpovedať inú budúcu pozíciu (1 dopredu, 2 dopredu, 3 dopredu atď.)
Fáza inferencie: Ďalšie hlavy generujú „návrhové" tokeny paralelne. Hlavný model ich potom všetky overí v jednom priechode.
Overenie: Ak návrhové tokeny zodpovedajú tomu, čo by hlavný model vygeneroval, sú všetky prijaté naraz — čím sa preskočí viacero sekvenčných dekódovacích krokov. Ak je návrhový token nesprávny, generovanie sa vráti na danú pozíciu.
Toto úzko súvisí so speculative decoding, ale s kľúčovou výhodou: návrhové tokeny pochádzajú zo samotného modelu namiesto toho, aby vyžadovali samostatný, menší „návrhový model".
Aké veľké je zrýchlenie vďaka MTP?
Zrýchlenie závisí od toho, ako často sú návrhové tokeny správne („miera akceptácie"). DeepSeek V3 demonštroval reálny dopad:
Metrika
Hodnota
Priemerná dĺžka akceptácie
2,4 tokenov na overovací krok
Zrýchlenie inferencie
1,8× priemerne (až 2,1× maximálne)
Dopad na kvalitu výstupu
Žiadny — všetky tokeny overené hlavným modelom
Miera akceptácie 2,4 znamená, že v priemere každý priechod hlavným modelom vyprodukuje 2,4 tokenov namiesto 1. Výstup je matematicky identický so štandardným dekódovaním — každý token je overený. Získate rovnakú kvalitu pri takmer dvojnásobnej rýchlosti.
Pripravení rozšíriť svoje podnikanie?
Začnite svoju 30-dňovú skúšobnú verziu ešte dnes a vidzte výsledky behom pár dní.
Používateľ HuggingFace (@shadowlilac
) objavil, že LiteRT balík od Googlu pre Gemma 4 obsahuje MTP predikčné hlavy a funkciu multi-token prediction. Ale verejne vydané váhy na HuggingFace nič z toho neobsahujú.
MTP komponenty boli zámerne odstránené:
Žiadne MTP hlavy v checkpointe
Žiadne MTP v konfigurácii modelu
Žiadne MTP v priechode vpred
Vysvetlenie od Googlu
Inžinier z Googlu (@srikanta-221
) potvrdil, že to bolo zámerné:
Verejný model ponúka iba štandardné autoregresívne rozhranie „pre širokú kompatibilitu." MTP hlavy sú vylúčené z konfigurácie modelu, priechodu vpred a checkpointu. Toto zabezpečuje kompatibilitu s HuggingFace Transformers API a udržiava konzistentné správanie checkpointu a runtime.
Google prezentuje MTP ako „optimalizáciu pre nasadenie" namiesto základnej funkcie modelu. MTP predikčné hlavy sú zachované iba v LiteRT-exportovaných modeloch — inferenčnom frameworku od Googlu pre zariadenia.
Prečo je to problém
Vysvetlenie neobstojí pri bližšom preskúmaní:
1. Model bol trénovaný s MTP. Schopnosť existuje. Odstránenie z vydania je voľba, nie technické obmedzenie.
2. Inferenčné enginy tretích strán to nemôžu implementovať. vLLM, llama.cpp, SGLang a ďalšie inferenčné frameworky nemôžu používať MTP-založený speculative decoding bez predikčných hláv. Tieto enginy obsluhujú veľkú väčšinu open-source LLM nasadení.
3. Používatelia dostávajú pomalú verziu. Bez MTP beží Gemma 4 pri štandardných autoregresívnych rýchlostiach. Výkonnostný rozdiel je už viditeľný v praxi:
Model
Hardvér
Rýchlosť
Poznámky
Gemma 4 26B-A4B
5060 Ti 16GB
11 tok/s
Bez MTP, štandardné dekódovanie
Qwen 3.5 35B-A3B
5060 Ti 16GB
60+ tok/s
Porovnateľný MoE model
Gemma 4 E4B
RTX 4090 (vLLM)
~9 tok/s
Problémy s FlashAttention fallbackom
4. Vytvára to ekosystémové lock-in. Vlastný LiteRT framework od Googlu získava výhodu rýchlosti. Všetci ostatní dostávajú pomalší model. Pre „open-weight" Apache 2.0 vydanie je to výrazná asymetria.
Ako funguje speculative decoding (a prečo je MTP lepší)
Na pochopenie, prečo chýbajúce MTP hlavy dôležité, pomáha vidieť, kam MTP zapadá do vývoja optimalizácie inferencie.
Prístup 1: Tradičný speculative decoding
Samostatný, menší „návrhový model" navrhuje tokeny. Hlavný model ich paralelne overuje. Ak sú návrhy správne, viacero tokenov je prijatých na jeden krok.
Výhody: Funguje s akoukoľvek dvojicou modelov
Nevýhody: Vyžaduje údržbu a načítanie druhého modelu; kvalita návrhového modelu limituje zrýchlenie; dodatočná pamäťová réžia
Prístup 2: MTP (vstavané predikčné hlavy)
Hlavný model má vlastné ľahké predikčné hlavy, ktoré generujú návrhové tokeny. Žiadny samostatný model nie je potrebný.
Výhody: Žiadny ďalší model nie je potrebný; tesnejšia integrácia znamená vyššiu mieru akceptácie; nižšia pamäťová réžia
Nevýhody: Funguje iba ak sú predikčné hlavy zahrnuté vo vydaní
Prečo MTP vyhráva
MTP predikčné hlavy sú trénované spolu s hlavným modelom. Zdieľajú rovnaké interné reprezentácie a učia sa vlastnú distribúciu tokenov modelu. To typicky produkuje vyššiu mieru akceptácie ako externý návrhový model, čo znamená viac tokenov prijatých na overovací krok a celkovo rýchlejšiu generáciu.
Predikčné hlavy sú tiež malé — zvyčajne pridávajú len 1–3 % k celkovému počtu parametrov modelu. Pamäťová réžia je zanedbateľná v porovnaní s načítaním samostatného návrhového modelu.
Prihláste sa na newsletter
Získajte najnovšie tipy, trendy a ponuky zadarmo.
Širší dopad
Toto nie je len o Gemma 4. Rozhodnutie vytvára precedens pre to, aké „otvorené" sú open-weight vydania v skutočnosti.
Čo používatelia strácajú:
MTP-založený speculative decoding na akomkoľvek inferenčnom engine tretej strany
Možnosť doladiť alebo experimentovať s MTP hlavami
Výkonnostnú paritu s vlastnými nástrojmi na nasadenie od Googlu
Čo používatelia stále majú:
Základné váhy modelu (ktoré sú skutočne dobré)
Tradičný speculative decoding pomocou samostatného návrhového modelu (vLLM issue #38893
sleduje podporu Eagle3 pre Gemma 4)
Štandardné techniky kvantizácie a optimalizácie
Reakcia komunity bola priama. Konsenzus za 24 hodín bol, že výsledky benchmarkov Gemma 4 sú konkurencieschopné — vyrovná sa alebo mierne zaostáva za Qwen 3.5 — ale produkt „nie je dokončený." Rýchlosť, stabilita a nástroje potrebujú prácu. Medzi ďalšie problémy patrí, že HuggingFace Transformers spočiatku nemali podporu architektúry Gemma 4, PEFT nezvládal nové typy vrstiev a používatelia Macu zažívali pády pri načítavaní väčších modelov.
Čo môžete urobiť?
Ak zvažujete Gemma 4 pre nasadenie, tu sú praktické možnosti:
Použite tradičný speculative decoding. Externé návrhové modely stále môžu zrýchliť inferenciu Gemma 4. Frameworky ako vLLM pridávajú podporu Eagle3 speculative decoding špeciálne pre Gemma 4. Zrýchlenie nebude zodpovedať vstavanému MTP, ale je to lepšie ako nič.
Zvážte alternatívy pre workloady kritické na rýchlosť. Qwen 3.5 poskytuje výrazne lepšie tokeny za sekundu na ekvivalentnom hardvéri. Ak je rýchlosť inferencie vašou primárnou podmienkou, Qwen momentálne ponúka lepší pomer rýchlosť-kvalita.
Sledujte komunitné obchádzky. LiteRT exporty obsahujú MTP hlavy. Výskumníci môžu nájsť spôsoby, ako ich extrahovať a znovu pripojiť k HuggingFace váham, hoci Google túto cestu oficiálne nepodporuje.
Poskytnite spätnú väzbu. Inžinieri Googlu aktívne sledujú diskusné vlákna na HuggingFace. Jasné, technické požiadavky na vydanie MTP hláv majú váhu.
Záver
Gemma 4 je schopná rodina modelov s originálnymi architektonickými inováciami a silnými výsledkami v benchmarkoch. Rozhodnutie odstrániť MTP predikčné hlavy z verejného vydania — zatiaľ čo ich ponechali vo vlastnom LiteRT frameworku od Googlu — podkopáva „open" v open-weight.
MTP nie je zanedbateľná optimalizácia. Môže priniesť 1,5–2× zrýchlenie inferencie s nulovým dopadom na kvalitu výstupu. Zadržiavanie tejto funkcie z verejných váh, zatiaľ čo model bol zjavne s ňou trénovaný, vytvára dvojúrovňový systém: rýchla inferencia pre nástroje Googlu, pomalá inferencia pre všetkých ostatných.
Pre open-source AI komunitu je odkaz jasný: skontrolujte, čo je skutočne vo váhach, nie len v benchmarkoch. Otvorená licencia nemusí vždy znamenať otvorené vydanie.
Vytvorené s FlowHunt
. Sledujte najnovšie novinky v open-source AI na našom blogu
.
Najčastejšie kladené otázky
Multi-Token Prediction je technika, pri ktorej LLM predpovedá viacero budúcich tokenov v jednom priechode namiesto jedného tokenu naraz. Dodatočné predikčné hlavy sú trénované spolu s hlavným modelom na návrh tokenov N+1, N+2, N+3 atď. simultánne, ktoré môže hlavný model následne paralelne overiť. To umožňuje 1,5–2× zrýchlenie inferencie bez straty kvality výstupu.
Gemma 4 bola trénovaná s MTP predikčnými hlavami a tie sú prítomné v Google LiteRT (inferencia na zariadení) exportoch. Avšak verejne vydané váhy na HuggingFace majú MTP hlavy zámerne odstránené. Google tvrdí, že to bolo urobené kvôli 'širokej kompatibilite' s existujúcimi inferenčnými frameworkmi.
Bez MTP hláv nemôžu inferenčné enginy tretích strán ako vLLM, llama.cpp a SGLang používať vstavaný speculative decoding pre Gemma 4. Používatelia sú odkázaní na štandardnú autoregresívnu generáciu, ktorá je výrazne pomalšia. Benchmarky ukazujú, že Gemma 4 generuje len 11 tokenov/s na hardvéri, kde porovnateľné modely dosahujú 60+ tokenov/s.
Speculative decoding je technika na zrýchlenie inferencie, pri ktorej rýchly 'návrhový' model navrhne viacero tokenov naraz a hlavný model ich overí v jednom priechode. Ak sú navrhnuté tokeny správne, efektívne sa preskočí viacero dekódovacích krokov. MTP je variant, kde navrhnuté tokeny pochádzajú z vlastných vstavaných predikčných hláv modelu, nie z odděleného modelu.
K aprílu 2026 Google neoznámil plány na vydanie MTP predikčných hláv pre HuggingFace váhy. V súčasnosti sú dostupné iba v LiteRT-exportovaných modeloch, čo obmedzuje ich použitie na inferenčný framework od Googlu. Komunita naďalej žiada o ich sprístupnenie.
Viktor Zeman je spolumajiteľom spoločnosti QualityUnit. Aj po 20 rokoch vedenia firmy zostáva predovšetkým softvérovým inžinierom, špecializujúcim sa na AI, programatické SEO a backendový vývoj. Prispel k množstvu projektov vrátane LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab a mnohých ďalších.
Viktor Zeman
CEO, AI inžinier
Vytvárajte AI workflowy s najlepšími modelmi
FlowHunt vám umožňuje vytvárať automatizované AI pipeline pomocou cloudových API a open-source modelov — s plnou kontrolou nad rýchlosťou, nákladmi a kvalitou.
Fine-Tuning Gemma 4 na Apple Silicon: Môže nahradiť Claude Sonnet na generovanie obsahu?
Fine-tunovali sme model Google Gemma 4 31B na MacBook Pro M3 Max na generovanie športových článkov. Tu je porovnanie s Claude Sonnet z hľadiska kvality, rýchlos...
Preskúmajte procesy myslenia AI agentov v tomto komplexnom hodnotení GPT-4o. Objavte, ako si vedie pri úlohách ako generovanie obsahu, riešenie problémov a krea...