Ce este Multi-Token Prediction (MTP)?

Multi-Token Prediction este o tehnică prin care un LLM prezice mai multe token-uri viitoare într-un singur pas forward, în loc de câte un token pe rând. Capete de predicție suplimentare sunt antrenate alături de modelul principal pentru a genera simultan token-urile N+1, N+2, N+3 etc., care pot fi apoi verificate în paralel de modelul principal. Aceasta permite accelerări de 1,5–2x la inferență fără pierderi de calitate a output-ului.

Gemma 4 suportă MTP?

Gemma 4 a fost antrenat cu capete de predicție MTP, iar acestea sunt prezente în exporturile LiteRT (inferență pe dispozitiv) ale Google. Cu toate acestea, ponderile publicate pe HuggingFace au capetele MTP eliminate în mod deliberat. Google a declarat că acest lucru a fost făcut pentru 'compatibilitate largă' cu framework-urile de inferență existente.

De ce contează eliminarea capetelor MTP?

Fără capetele MTP, motoarele de inferență terțe precum vLLM, llama.cpp și SGLang nu pot utiliza decodarea speculativă integrată pentru Gemma 4. Utilizatorii sunt blocați cu generarea autoregresivă standard, care este semnificativ mai lentă. Benchmark-urile arată că Gemma 4 generează doar 11 token-uri/sec pe hardware unde modele comparabile ating peste 60 token-uri/sec.

Ce este decodarea speculativă?

Decodarea speculativă este o tehnică de accelerare a inferenței în care un model 'draft' rapid propune mai multe token-uri simultan, iar modelul principal le verifică într-un singur pas forward. Dacă token-urile draft sunt corecte, mai mulți pași de decodare sunt efectiv săriți. MTP este o variantă în care token-urile draft provin din propriile capete de predicție ale modelului, nu dintr-un model separat.

Va lansa Google capetele MTP pentru Gemma 4?

Începând cu aprilie 2026, Google nu a anunțat planuri de a lansa capetele de predicție MTP pentru ponderile HuggingFace. Acestea sunt disponibile în prezent doar în modelele exportate pentru LiteRT, ceea ce le limitează utilizarea la propriul framework de inferență al Google. Comunitatea continuă să solicite lansarea lor.

Gemma 4 a fost lansat fără date MTP — De ce contează acest lucru

Google a eliminat capetele de predicție MTP din versiunea publică a Gemma 4, păstrându-le doar în propriul framework LiteRT. Iată ce înseamnă asta pentru viteza de inferență și AI-ul open-source.

AI LLM Gemma Open Source

Începe acum Citește mai mult

Google a lansat Gemma 4 pe 3 aprilie 2026 — o familie de modele cu ponderi deschise, cu rezultate puternice la benchmark-uri, capabilități multimodale și context de până la 256K. Pe hârtie, este o lansare impresionantă. Dar în câteva ore, comunitatea a descoperit ceva lipsă: capetele de Multi-Token Prediction fuseseră eliminate din ponderile publice.

Modelul a fost antrenat cu MTP. Propriul framework LiteRT al Google include componentele MTP. Dar versiunea pe care oricine o poate descărca de pe HuggingFace? Doar generare autoregresivă standard. Fără accelerare. Fără decodare speculativă.

Acest articol explică ce este MTP, de ce contează și ce înseamnă această decizie pentru oricine rulează Gemma 4 pe propriul hardware.

Ce este Gemma 4?

Gemma 4 este cea mai recentă familie de modele cu ponderi deschise de la Google DeepMind, lansată sub licența Apache 2.0. Vine în patru dimensiuni:

Model	Parametri	Tip	Caracteristici notabile
Gemma 4 E2B	2,3B efectivi	Dense	Viziune + Audio
Gemma 4 E4B	4,5B efectivi	Dense	Viziune + Audio
Gemma 4 26B-A4B	26B total / 4B activi	Mixture of Experts	Viziune
Gemma 4 31B	31B	Dense	Viziune

Capabilitățile cheie includ suport multimodal nativ, apelarea funcțiilor, output JSON structurat și antrenare pe peste 140 de limbi. Varianta 31B se clasează pe locul 3 în clasamentul text LMArena.

Sub capotă, Gemma 4 introduce mai multe inovații arhitecturale: straturi alternante de atenție locală cu fereastră glisantă și atenție globală, RoPE proporțional (p-RoPE), Per-Layer Embeddings (PLE), cache KV partajat și o optimizare de memorie „Keys equal Values".

Ca cifre, este o lansare solidă. Problema este ce nu se află în ponderile publice.

Ce este Multi-Token Prediction?

Modelele de limbaj mari standard generează text câte un token pe rând. Fiecare token necesită un pas forward complet prin model. Token-ul următor nu poate începe până când cel anterior nu este finalizat. Aceasta este decodarea autoregresivă și este inerent secvențială.

Diagramă comparând decodarea autoregresivă standard (un token per pas) cu Multi-Token Prediction (mai multe token-uri per pas)

Multi-Token Prediction (MTP) schimbă acest lucru prin adăugarea de capete de predicție suplimentare modelului. În loc să prezică doar token-ul următor, modelul prezice token-urile N+1, N+2, N+3 și așa mai departe — toate într-un singur pas forward.

Iată cum funcționează:

Faza de antrenament: Capete de predicție suplimentare ușoare sunt antrenate alături de modelul principal. Fiecare cap învață să prezică o poziție viitoare diferită (1 înainte, 2 înainte, 3 înainte etc.)
Faza de inferență: Capetele suplimentare generează token-uri „draft" în paralel. Modelul principal le verifică apoi pe toate într-un singur pas forward.
Verificare: Dacă token-urile draft corespund cu ce ar fi generat modelul principal, toate sunt acceptate simultan — sărind mai mulți pași de decodare secvențiali. Dacă un token draft este greșit, generarea revine la acea poziție.

Aceasta este strâns legată de decodarea speculativă, dar cu un avantaj cheie: token-urile draft provin din modelul însuși, fără a necesita un model „draft" separat, mai mic.

Diagramă arhitecturală arătând cum capetele de predicție MTP se atașează modelului transformer principal pentru a genera mai multe token-uri draft simultan

Cât de rapid este MTP?

Accelerarea depinde de cât de des sunt corecte token-urile draft („rata de acceptare"). DeepSeek V3 a demonstrat impactul real:

Metrică	Valoare
Lungimea medie de acceptare	2,4 token-uri per pas de verificare
Accelerarea inferenței	1,8x în medie (până la 2,1x vârf)
Impactul asupra calității output-ului	Zero — toate token-urile sunt verificate de modelul principal

O rată de acceptare de 2,4 înseamnă că, în medie, fiecare pas forward prin modelul principal produce 2,4 token-uri în loc de 1. Output-ul este matematic identic cu decodarea standard — fiecare token este verificat. Obții aceeași calitate la aproape dublu de viteză.

Ce s-a întâmplat cu Gemma 4

Un utilizator HuggingFace (@shadowlilac ) a descoperit că pachetul LiteRT al Google pentru Gemma 4 conține capete de predicție MTP și funcționalitate de multi-token prediction. Dar ponderile publicate pe HuggingFace nu conțin nimic din toate acestea.

Componentele MTP au fost eliminate deliberat:

Fără capete MTP în checkpoint
Fără MTP în configurația modelului
Fără MTP în pasul forward

Diagramă arătând că antrenamentul Gemma 4 a inclus capete MTP, dar versiunea publică HuggingFace le are eliminate, în timp ce versiunea LiteRT a Google le păstrează

Explicația Google

Un inginer Google (@srikanta-221 ) a confirmat că acest lucru a fost intenționat:

Modelul public expune doar o interfață autoregresivă standard „pentru compatibilitate largă." Capetele MTP sunt excluse din configurația modelului, pasul forward și checkpoint. Aceasta asigură compatibilitatea cu API-urile HuggingFace Transformers și menține un comportament consistent al checkpoint-ului și al runtime-ului.

Google prezintă MTP ca o „optimizare la momentul implementării" mai degrabă decât o funcționalitate de bază a modelului. Capetele de predicție MTP sunt păstrate doar în modelele exportate pentru LiteRT — propriul framework de inferență pe dispozitiv al Google.

De ce este aceasta o problemă

Explicația nu rezistă la o analiză atentă:

1. Modelul a fost antrenat cu MTP. Capabilitatea există. Eliminarea ei din lansare este o alegere, nu o limitare tehnică.

2. Motoarele terțe nu o pot implementa. vLLM, llama.cpp, SGLang și alte framework-uri de inferență nu pot utiliza decodarea speculativă bazată pe MTP fără capetele de predicție. Aceste motoare deservesc marea majoritate a implementărilor LLM open-source.

3. Utilizatorii primesc versiunea lentă. Fără MTP, Gemma 4 rulează la viteze autoregresive standard. Diferența de performanță este deja vizibilă în practică:

Model	Hardware	Viteză	Note
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Fără MTP, decodare standard
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Model MoE comparabil
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	Probleme de fallback FlashAttention

4. Creează dependență de ecosistem. Propriul framework LiteRT al Google beneficiază de avantajul de viteză. Toți ceilalți primesc un model mai lent. Pentru o lansare „cu ponderi deschise" sub Apache 2.0, aceasta este o asimetrie semnificativă.

Cum funcționează decodarea speculativă (și de ce MTP este mai bun)

Pentru a înțelege de ce contează capetele MTP lipsă, ajută să vedem unde se încadrează MTP în evoluția optimizării inferenței.

Comparație a trei abordări de decodare speculativă: tradițională (model draft separat), speculativ-speculativă și MTP (capete de predicție integrate)

Abordarea 1: Decodare speculativă tradițională

Un model „draft" separat, mai mic, propune token-uri. Modelul principal le verifică în paralel. Dacă draft-urile sunt corecte, mai multe token-uri sunt acceptate per pas.

Avantaje: Funcționează cu orice pereche de modele
Dezavantaje: Necesită menținerea și încărcarea unui al doilea model; calitatea modelului draft limitează accelerarea; overhead de memorie suplimentar

Abordarea 2: MTP (Capete de predicție integrate)

Modelul principal are propriile capete de predicție ușoare care generează token-uri draft. Nu este nevoie de un model separat.

Avantaje: Nu necesită un model suplimentar; integrarea mai strânsă înseamnă rate de acceptare mai mari; overhead de memorie mai redus
Dezavantaje: Funcționează doar dacă capetele de predicție sunt incluse în lansare

De ce MTP câștigă

Capetele de predicție MTP sunt antrenate alături de modelul principal. Acestea partajează aceleași reprezentări interne și învață propria distribuție de token-uri a modelului. Aceasta produce de obicei rate de acceptare mai mari decât un model draft extern, ceea ce înseamnă mai multe token-uri acceptate per pas de verificare și generare mai rapidă per ansamblu.

Capetele de predicție sunt, de asemenea, mici — adaugă de obicei doar 1-3% din numărul total de parametri ai modelului. Overhead-ul de memorie este neglijabil comparativ cu încărcarea unui model draft separat.

Impactul mai larg

Aceasta nu este doar despre Gemma 4. Decizia stabilește un precedent pentru cât de „deschise" sunt de fapt lansările cu ponderi deschise.

Ce pierd utilizatorii:

Decodare speculativă bazată pe MTP pe orice motor de inferență terț
Posibilitatea de a face fine-tuning sau a experimenta cu capetele MTP
Paritate de performanță cu propriile instrumente de implementare ale Google

Ce au încă utilizatorii:

Ponderile de bază ale modelului (care sunt cu adevărat bune)
Decodare speculativă tradițională folosind un model draft separat (issue-ul vLLM #38893 urmărește suportul Eagle3 pentru Gemma 4)
Tehnici standard de cuantizare și optimizare

Reacția comunității a fost directă. Consensul la 24 de ore a fost că rezultatele benchmark Gemma 4 sunt competitive — egalează sau este ușor în urma Qwen 3.5 — dar produsul „nu este finalizat." Viteza, stabilitatea și instrumentele necesită îmbunătățiri. Probleme suplimentare includ faptul că HuggingFace Transformers nu avea inițial suport pentru arhitectura Gemma 4, PEFT nu gestionează noile tipuri de straturi, iar utilizatorii Mac experimentează blocări la încărcarea modelelor mai mari.

Ce poți face?

Dacă evaluezi Gemma 4 pentru implementare, iată opțiuni practice:

Folosește decodarea speculativă tradițională. Modelele draft externe pot accelera în continuare inferența Gemma 4. Framework-uri precum vLLM adaugă suport de decodare speculativă Eagle3 special pentru Gemma 4. Accelerarea nu va egala MTP-ul integrat, dar este mai bine decât nimic.

Consideră alternative pentru sarcinile critice de viteză. Qwen 3.5 oferă semnificativ mai multe token-uri pe secundă pe hardware echivalent. Dacă viteza de inferență este constrângerea ta principală, Qwen oferă în prezent un raport viteză-calitate mai bun.

Urmărește soluțiile comunității. Exporturile LiteRT conțin capetele MTP. Cercetătorii pot găsi modalități de a le extrage și reatașa la ponderile HuggingFace, deși Google nu a susținut oficial această cale.

Oferă feedback. Inginerii Google monitorizează activ firele de discuție de pe HuggingFace. Solicitările clare și tehnice pentru lansarea capetelor MTP au greutate.

Concluzie

Gemma 4 este o familie de modele capabilă, cu inovații arhitecturale autentice și rezultate puternice la benchmark-uri. Decizia de a elimina capetele de predicție MTP din lansarea publică — păstrându-le în propriul framework LiteRT al Google — subminează termenul „deschis" din ponderi deschise.

MTP nu este o optimizare minoră. Poate oferi accelerări de 1,5–2x la inferență cu zero impact asupra calității output-ului. Reținerea acestora din ponderile publice, în timp ce modelul a fost clar antrenat cu ele, creează un sistem cu două niveluri: inferență rapidă pentru instrumentele Google, inferență lentă pentru toți ceilalți.

Pentru comunitatea AI open-source, mesajul este clar: verificați ce se află de fapt în ponderi, nu doar benchmark-urile. O licență deschisă nu înseamnă întotdeauna o lansare deschisă.

Construit cu FlowHunt . Rămâi la curent cu cele mai recente evoluții în AI open-source pe blogul nostru.

Întrebări frecvente

: Multi-Token Prediction este o tehnică prin care un LLM prezice mai multe token-uri viitoare într-un singur pas forward, în loc de câte un token pe rând. Capete de predicție suplimentare sunt antrenate alături de modelul principal pentru a genera simultan token-urile N+1, N+2, N+3 etc., care pot fi apoi verificate în paralel de modelul principal. Aceasta permite accelerări de 1,5–2x la inferență fără pierderi de calitate a output-ului.
: Gemma 4 a fost antrenat cu capete de predicție MTP, iar acestea sunt prezente în exporturile LiteRT (inferență pe dispozitiv) ale Google. Cu toate acestea, ponderile publicate pe HuggingFace au capetele MTP eliminate în mod deliberat. Google a declarat că acest lucru a fost făcut pentru 'compatibilitate largă' cu framework-urile de inferență existente.
: Fără capetele MTP, motoarele de inferență terțe precum vLLM, llama.cpp și SGLang nu pot utiliza decodarea speculativă integrată pentru Gemma 4. Utilizatorii sunt blocați cu generarea autoregresivă standard, care este semnificativ mai lentă. Benchmark-urile arată că Gemma 4 generează doar 11 token-uri/sec pe hardware unde modele comparabile ating peste 60 token-uri/sec.
: Decodarea speculativă este o tehnică de accelerare a inferenței în care un model 'draft' rapid propune mai multe token-uri simultan, iar modelul principal le verifică într-un singur pas forward. Dacă token-urile draft sunt corecte, mai mulți pași de decodare sunt efectiv săriți. MTP este o variantă în care token-urile draft provin din propriile capete de predicție ale modelului, nu dintr-un model separat.
: Începând cu aprilie 2026, Google nu a anunțat planuri de a lansa capetele de predicție MTP pentru ponderile HuggingFace. Acestea sunt disponibile în prezent doar în modelele exportate pentru LiteRT, ceea ce le limitează utilizarea la propriul framework de inferență al Google. Comunitatea continuă să solicite lansarea lor.

Construiește fluxuri AI cu cele mai bune modele

FlowHunt îți permite să construiești pipeline-uri AI automatizate folosind API-uri cloud și modele open-source — cu control total asupra vitezei, costului și calității.

Începe acum Citește mai mult

Află mai multe

Fine-Tuning Gemma 4 pe Apple Silicon: Poate înlocui Claude Sonnet pentru generarea de conținut?

Am fine-tunat modelul Gemma 4 31B al Google pe un MacBook Pro M3 Max pentru a genera articole despre sport. Iată cum s-a comparat cu Claude Sonnet în ceea ce pr...

Apr 6, 2026 12 min citire

AI LLM +6

Agenți AI: Cum gândește GPT 4o

Explorați procesele de gândire ale Agenților AI în această evaluare cuprinzătoare a GPT-4o. Descoperiți cum performează la sarcini precum generarea de conținut,...

May 30, 2025 8 min citire

AI GPT-4o +6

Ce este chatbotul Google Gemini AI?

Descoperă ce este Google Gemini, cum funcționează și cum se compară cu ChatGPT. Află despre capabilitățile sale multimodale, prețuri și aplicații reale pentru 2...

Dec 1, 2025 12 min citire

Gemma 4 a fost lansat fără date MTP — De ce contează acest lucru

Ce este Gemma 4?