Gemma 4 vyšla bez MTP dát — prečo je to dôležité

AI LLM Gemma Open Source

Google vydal Gemma 4 dňa 3. apríla 2026 — rodinu open-weight modelov so silnými výsledkami v benchmarkoch, multimodálnymi schopnosťami a kontextom až 256K. Na papieri je to pôsobivé vydanie. No v priebehu niekoľkých hodín komunita objavila niečo, čo chýba: Multi-Token Prediction hlavy boli z verejných váh odstránené.

Model bol trénovaný s MTP. Google vlastný LiteRT framework obsahuje MTP komponenty. Ale verzia, ktorú si každý môže stiahnuť z HuggingFace? Len štandardná autoregresívna generácia. Žiadne zrýchlenie. Žiadny speculative decoding.

Tento článok vysvetľuje, čo je MTP, prečo je to dôležité a čo toto rozhodnutie znamená pre každého, kto prevádzkuje Gemma 4 na vlastnom hardvéri.

Čo je Gemma 4?

Gemma 4 je najnovšia rodina open-weight modelov od Google DeepMind, vydaná pod licenciou Apache 2.0. Prichádza v štyroch veľkostiach:

ModelParametreTypHlavné vlastnosti
Gemma 4 E2B2,3B efektívnychDenseObraz + Zvuk
Gemma 4 E4B4,5B efektívnychDenseObraz + Zvuk
Gemma 4 26B-A4B26B celkovo / 4B aktívnychMixture of ExpertsObraz
Gemma 4 31B31BDenseObraz

Medzi kľúčové schopnosti patrí natívna multimodálna podpora, volanie funkcií, štruktúrovaný JSON výstup a tréning na 140+ jazykoch. Variant 31B sa umiestnil na 3. mieste v textovom rebríčku LMArena.

Pod kapotou Gemma 4 prináša niekoľko architektonických inovácií: striedavé lokálne sliding-window a globálne attention vrstvy, proporcionálne RoPE (p-RoPE), Per-Layer Embeddings (PLE), zdieľaný KV cache a optimalizáciu pamäte „Keys equal Values".

Podľa čísel je to silné vydanie. Problém je v tom, čo vo verejných váhach nie je.

Čo je Multi-Token Prediction?

Štandardné veľké jazykové modely generujú text po jednom tokene. Každý token vyžaduje úplný priechod modelom. Ďalší token nemôže začať, kým nie je dokončený predchádzajúci. Toto je autoregresívne dekódovanie a je z podstaty sekvenčné.

Diagram porovnávajúci štandardné autoregresívne dekódovanie (jeden token na krok) s Multi-Token Prediction (viacero tokenov na krok)

Multi-Token Prediction (MTP) toto mení pridaním ďalších predikčných hláv do modelu. Namiesto predpovedania iba ďalšieho tokenu model predpovedá tokeny N+1, N+2, N+3 a tak ďalej — všetko v jednom priechode.

Ako to funguje:

  1. Fáza trénovania: Dodatočné ľahké predikčné hlavy sú trénované spolu s hlavným modelom. Každá hlava sa učí predpovedať inú budúcu pozíciu (1 dopredu, 2 dopredu, 3 dopredu atď.)
  2. Fáza inferencie: Ďalšie hlavy generujú „návrhové" tokeny paralelne. Hlavný model ich potom všetky overí v jednom priechode.
  3. Overenie: Ak návrhové tokeny zodpovedajú tomu, čo by hlavný model vygeneroval, sú všetky prijaté naraz — čím sa preskočí viacero sekvenčných dekódovacích krokov. Ak je návrhový token nesprávny, generovanie sa vráti na danú pozíciu.

Toto úzko súvisí so speculative decoding, ale s kľúčovou výhodou: návrhové tokeny pochádzajú zo samotného modelu namiesto toho, aby vyžadovali samostatný, menší „návrhový model".

Diagram architektúry ukazujúci, ako sa MTP predikčné hlavy pripájajú k hlavnému transformer modelu na simultánne generovanie viacerých návrhových tokenov

Aké veľké je zrýchlenie vďaka MTP?

Zrýchlenie závisí od toho, ako často sú návrhové tokeny správne („miera akceptácie"). DeepSeek V3 demonštroval reálny dopad:

MetrikaHodnota
Priemerná dĺžka akceptácie2,4 tokenov na overovací krok
Zrýchlenie inferencie1,8× priemerne (až 2,1× maximálne)
Dopad na kvalitu výstupuŽiadny — všetky tokeny overené hlavným modelom

Miera akceptácie 2,4 znamená, že v priemere každý priechod hlavným modelom vyprodukuje 2,4 tokenov namiesto 1. Výstup je matematicky identický so štandardným dekódovaním — každý token je overený. Získate rovnakú kvalitu pri takmer dvojnásobnej rýchlosti.

Logo

Pripravení rozšíriť svoje podnikanie?

Začnite svoju 30-dňovú skúšobnú verziu ešte dnes a vidzte výsledky behom pár dní.

Čo sa stalo s Gemma 4

Používateľ HuggingFace (@shadowlilac ) objavil, že LiteRT balík od Googlu pre Gemma 4 obsahuje MTP predikčné hlavy a funkciu multi-token prediction. Ale verejne vydané váhy na HuggingFace nič z toho neobsahujú.

MTP komponenty boli zámerne odstránené:

  • Žiadne MTP hlavy v checkpointe
  • Žiadne MTP v konfigurácii modelu
  • Žiadne MTP v priechode vpred
Diagram ukazujúci, že tréning Gemma 4 zahŕňal MTP hlavy, ale verejné HuggingFace vydanie ich má odstránené, zatiaľ čo verzia Google LiteRT ich zachováva

Vysvetlenie od Googlu

Inžinier z Googlu (@srikanta-221 ) potvrdil, že to bolo zámerné:

Verejný model ponúka iba štandardné autoregresívne rozhranie „pre širokú kompatibilitu." MTP hlavy sú vylúčené z konfigurácie modelu, priechodu vpred a checkpointu. Toto zabezpečuje kompatibilitu s HuggingFace Transformers API a udržiava konzistentné správanie checkpointu a runtime.

Google prezentuje MTP ako „optimalizáciu pre nasadenie" namiesto základnej funkcie modelu. MTP predikčné hlavy sú zachované iba v LiteRT-exportovaných modeloch — inferenčnom frameworku od Googlu pre zariadenia.

Prečo je to problém

Vysvetlenie neobstojí pri bližšom preskúmaní:

1. Model bol trénovaný s MTP. Schopnosť existuje. Odstránenie z vydania je voľba, nie technické obmedzenie.

2. Inferenčné enginy tretích strán to nemôžu implementovať. vLLM, llama.cpp, SGLang a ďalšie inferenčné frameworky nemôžu používať MTP-založený speculative decoding bez predikčných hláv. Tieto enginy obsluhujú veľkú väčšinu open-source LLM nasadení.

3. Používatelia dostávajú pomalú verziu. Bez MTP beží Gemma 4 pri štandardných autoregresívnych rýchlostiach. Výkonnostný rozdiel je už viditeľný v praxi:

ModelHardvérRýchlosťPoznámky
Gemma 4 26B-A4B5060 Ti 16GB11 tok/sBez MTP, štandardné dekódovanie
Qwen 3.5 35B-A3B5060 Ti 16GB60+ tok/sPorovnateľný MoE model
Gemma 4 E4BRTX 4090 (vLLM)~9 tok/sProblémy s FlashAttention fallbackom

4. Vytvára to ekosystémové lock-in. Vlastný LiteRT framework od Googlu získava výhodu rýchlosti. Všetci ostatní dostávajú pomalší model. Pre „open-weight" Apache 2.0 vydanie je to výrazná asymetria.

Ako funguje speculative decoding (a prečo je MTP lepší)

Na pochopenie, prečo chýbajúce MTP hlavy dôležité, pomáha vidieť, kam MTP zapadá do vývoja optimalizácie inferencie.

Porovnanie troch prístupov k speculative decoding: tradičný (samostatný návrhový model), špekulatívno-špekulatívny a MTP (vstavané predikčné hlavy)

Prístup 1: Tradičný speculative decoding

Samostatný, menší „návrhový model" navrhuje tokeny. Hlavný model ich paralelne overuje. Ak sú návrhy správne, viacero tokenov je prijatých na jeden krok.

  • Výhody: Funguje s akoukoľvek dvojicou modelov
  • Nevýhody: Vyžaduje údržbu a načítanie druhého modelu; kvalita návrhového modelu limituje zrýchlenie; dodatočná pamäťová réžia

Prístup 2: MTP (vstavané predikčné hlavy)

Hlavný model má vlastné ľahké predikčné hlavy, ktoré generujú návrhové tokeny. Žiadny samostatný model nie je potrebný.

  • Výhody: Žiadny ďalší model nie je potrebný; tesnejšia integrácia znamená vyššiu mieru akceptácie; nižšia pamäťová réžia
  • Nevýhody: Funguje iba ak sú predikčné hlavy zahrnuté vo vydaní

Prečo MTP vyhráva

MTP predikčné hlavy sú trénované spolu s hlavným modelom. Zdieľajú rovnaké interné reprezentácie a učia sa vlastnú distribúciu tokenov modelu. To typicky produkuje vyššiu mieru akceptácie ako externý návrhový model, čo znamená viac tokenov prijatých na overovací krok a celkovo rýchlejšiu generáciu.

Predikčné hlavy sú tiež malé — zvyčajne pridávajú len 1–3 % k celkovému počtu parametrov modelu. Pamäťová réžia je zanedbateľná v porovnaní s načítaním samostatného návrhového modelu.

Širší dopad

Toto nie je len o Gemma 4. Rozhodnutie vytvára precedens pre to, aké „otvorené" sú open-weight vydania v skutočnosti.

Čo používatelia strácajú:

  • MTP-založený speculative decoding na akomkoľvek inferenčnom engine tretej strany
  • Možnosť doladiť alebo experimentovať s MTP hlavami
  • Výkonnostnú paritu s vlastnými nástrojmi na nasadenie od Googlu

Čo používatelia stále majú:

  • Základné váhy modelu (ktoré sú skutočne dobré)
  • Tradičný speculative decoding pomocou samostatného návrhového modelu (vLLM issue #38893 sleduje podporu Eagle3 pre Gemma 4)
  • Štandardné techniky kvantizácie a optimalizácie

Reakcia komunity bola priama. Konsenzus za 24 hodín bol, že výsledky benchmarkov Gemma 4 sú konkurencieschopné — vyrovná sa alebo mierne zaostáva za Qwen 3.5 — ale produkt „nie je dokončený." Rýchlosť, stabilita a nástroje potrebujú prácu. Medzi ďalšie problémy patrí, že HuggingFace Transformers spočiatku nemali podporu architektúry Gemma 4, PEFT nezvládal nové typy vrstiev a používatelia Macu zažívali pády pri načítavaní väčších modelov.

Čo môžete urobiť?

Ak zvažujete Gemma 4 pre nasadenie, tu sú praktické možnosti:

Použite tradičný speculative decoding. Externé návrhové modely stále môžu zrýchliť inferenciu Gemma 4. Frameworky ako vLLM pridávajú podporu Eagle3 speculative decoding špeciálne pre Gemma 4. Zrýchlenie nebude zodpovedať vstavanému MTP, ale je to lepšie ako nič.

Zvážte alternatívy pre workloady kritické na rýchlosť. Qwen 3.5 poskytuje výrazne lepšie tokeny za sekundu na ekvivalentnom hardvéri. Ak je rýchlosť inferencie vašou primárnou podmienkou, Qwen momentálne ponúka lepší pomer rýchlosť-kvalita.

Sledujte komunitné obchádzky. LiteRT exporty obsahujú MTP hlavy. Výskumníci môžu nájsť spôsoby, ako ich extrahovať a znovu pripojiť k HuggingFace váham, hoci Google túto cestu oficiálne nepodporuje.

Poskytnite spätnú väzbu. Inžinieri Googlu aktívne sledujú diskusné vlákna na HuggingFace. Jasné, technické požiadavky na vydanie MTP hláv majú váhu.

Záver

Gemma 4 je schopná rodina modelov s originálnymi architektonickými inováciami a silnými výsledkami v benchmarkoch. Rozhodnutie odstrániť MTP predikčné hlavy z verejného vydania — zatiaľ čo ich ponechali vo vlastnom LiteRT frameworku od Googlu — podkopáva „open" v open-weight.

MTP nie je zanedbateľná optimalizácia. Môže priniesť 1,5–2× zrýchlenie inferencie s nulovým dopadom na kvalitu výstupu. Zadržiavanie tejto funkcie z verejných váh, zatiaľ čo model bol zjavne s ňou trénovaný, vytvára dvojúrovňový systém: rýchla inferencia pre nástroje Googlu, pomalá inferencia pre všetkých ostatných.

Pre open-source AI komunitu je odkaz jasný: skontrolujte, čo je skutočne vo váhach, nie len v benchmarkoch. Otvorená licencia nemusí vždy znamenať otvorené vydanie.


Vytvorené s FlowHunt . Sledujte najnovšie novinky v open-source AI na našom blogu .

Najčastejšie kladené otázky

Viktor Zeman je spolumajiteľom spoločnosti QualityUnit. Aj po 20 rokoch vedenia firmy zostáva predovšetkým softvérovým inžinierom, špecializujúcim sa na AI, programatické SEO a backendový vývoj. Prispel k množstvu projektov vrátane LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab a mnohých ďalších.

Viktor Zeman
Viktor Zeman
CEO, AI inžinier

Vytvárajte AI workflowy s najlepšími modelmi

FlowHunt vám umožňuje vytvárať automatizované AI pipeline pomocou cloudových API a open-source modelov — s plnou kontrolou nad rýchlosťou, nákladmi a kvalitou.

Zistiť viac

AI agenti: Ako uvažuje GPT 4o
AI agenti: Ako uvažuje GPT 4o

AI agenti: Ako uvažuje GPT 4o

Preskúmajte procesy myslenia AI agentov v tomto komplexnom hodnotení GPT-4o. Objavte, ako si vedie pri úlohách ako generovanie obsahu, riešenie problémov a krea...

7 min čítania
AI GPT-4o +6
Čo je Google Gemini AI chatbot?
Čo je Google Gemini AI chatbot?

Čo je Google Gemini AI chatbot?

Zistite, čo je Google Gemini, ako funguje a ako sa porovnáva s ChatGPT. Spoznajte jeho multimodálne schopnosti, ceny a reálne aplikácie pre rok 2025.

10 min čítania