Mikä on Multi-Token Prediction (MTP)?

Multi-Token Prediction on tekniikka, jossa LLM ennustaa useita tulevia tokeneita yhdellä eteenpäin-laskennalla yhden tokenin sijaan. Päämallin rinnalle koulutetaan ylimääräisiä ennustuspäitä, jotka tuottavat samanaikaisesti tokeneita N+1, N+2, N+3 jne., minkä jälkeen päämallin voi vahvistaa ne rinnakkain. Tämä mahdollistaa 1,5–2-kertaisen päättelynopeuden ilman laadun heikkenemistä.

Tukeeko Gemma 4 MTP:tä?

Gemma 4 koulutettiin MTP-ennustuspäillä, ja ne ovat mukana Googlen LiteRT-vienneissä (laitepäättely). Julkisesti julkaistuista HuggingFace-painoista MTP-päät on kuitenkin tarkoituksella poistettu. Googlen mukaan tämä tehtiin 'laajan yhteensopivuuden' vuoksi olemassa olevien päättelykehysten kanssa.

Miksi MTP-päiden poistamisella on merkitystä?

Ilman MTP-päitä kolmannen osapuolen päättelymoottorit kuten vLLM, llama.cpp ja SGLang eivät voi käyttää sisäänrakennettua spekulatiivista dekoodausta Gemma 4:lle. Käyttäjät jäävät tavallisen autoregressiivisen generoinnin varaan, mikä on huomattavasti hitaampaa. Vertailuarvot osoittavat Gemma 4:n tuottavan vain 11 tokenia/s laitteistolla, jossa vastaavat mallit saavuttavat yli 60 tokenia/s.

Mikä on spekulatiivinen dekoodaus?

Spekulatiivinen dekoodaus on päättelyn kiihdytystekniikka, jossa nopea 'luonnosmalli' ehdottaa useita tokeneita kerralla ja päämalli vahvistaa ne yhdellä eteenpäin-laskennalla. Jos luonnostokenit ovat oikein, useita dekoodausvaiheita voidaan käytännössä ohittaa. MTP on variantti, jossa luonnostokenit tulevat mallin omista sisäänrakennetuista ennustuspäistä erillisen mallin sijaan.

Julkaiseeko Google MTP-päät Gemma 4:lle?

Huhtikuussa 2026 Google ei ole ilmoittanut suunnitelmista julkaista MTP-ennustuspäitä HuggingFace-painoille. Ne ovat tällä hetkellä saatavilla ainoastaan LiteRT-viedyissä malleissa, mikä rajoittaa niiden käytön Googlen omaan päättelykehykseen. Yhteisö jatkaa niiden julkaisun pyytämistä.

Gemma 4 julkaistiin ilman MTP-dataa — miksi sillä on merkitystä

Google poisti MTP-ennustuspäät Gemma 4:n julkisesta julkaisusta, mutta säilytti ne omassa LiteRT-kehyksessään. Näin se vaikuttaa päättelynopeuteen ja avoimen lähdekoodin tekoälyyn.

AI LLM Gemma Open Source

Aloita Lue lisää

Google julkaisi Gemma 4:n 3. huhtikuuta 2026 — avoimen painojen malliperheen, jolla on vahvat vertailuarvotulokset, multimodaaliset ominaisuudet ja jopa 256K konteksti. Paperilla se on vaikuttava julkaisu. Mutta muutamassa tunnissa yhteisö havaitsi jotain puuttuvan: Multi-Token Prediction -päät oli poistettu julkisista painoista.

Malli koulutettiin MTP:llä. Googlen oma LiteRT-kehys sisältää MTP-komponentit. Mutta versio, jonka kaikki voivat ladata HuggingFacesta? Ainoastaan tavallinen autoregressiivinen generointi. Ei nopeushyötyä. Ei spekulatiivista dekoodausta.

Tässä artikkelissa selitämme, mikä MTP on, miksi sillä on merkitystä ja mitä tämä päätös tarkoittaa kaikille, jotka ajavat Gemma 4:ää omalla laitteistollaan.

Mikä on Gemma 4?

Gemma 4 on Google DeepMindin uusin avoimen painojen malliperheen julkaisu Apache 2.0 -lisenssillä. Se sisältää neljä kokoa:

Malli	Parametrit	Tyyppi	Merkittävät ominaisuudet
Gemma 4 E2B	2,3 mrd efektiivistä	Dense	Kuva + Ääni
Gemma 4 E4B	4,5 mrd efektiivistä	Dense	Kuva + Ääni
Gemma 4 26B-A4B	26 mrd yht. / 4 mrd aktiivista	Mixture of Experts	Kuva
Gemma 4 31B	31 mrd	Dense	Kuva

Keskeisiä ominaisuuksia ovat natiivi multimodaalituki, funktiokutsut, strukturoitu JSON-tuloste ja koulutus yli 140 kielellä. 31B-variantti sijoittuu kolmanneksi LMArena-tekstituloslistalla.

Arkkitehtuurin alla Gemma 4 tuo useita innovaatioita: vuorottelevat paikalliset liukuikkunat ja globaalit attention-kerrokset, suhteellinen RoPE (p-RoPE), kerroskohtaiset upotukset (PLE), jaettu KV-välimuisti ja “Keys equal Values” -muistioptimointeja.

Lukujen valossa tämä on vahva julkaisu. Ongelma on siinä, mitä julkisista painoista puuttuu.

Mikä on Multi-Token Prediction?

Tavalliset suuret kielimallit tuottavat tekstiä yksi token kerrallaan. Jokainen token vaatii täyden eteenpäin-laskennan mallin läpi. Seuraavaa tokenia ei voi aloittaa ennen kuin edellinen on valmis. Tämä on autoregressiivinen dekoodaus, ja se on luonteeltaan peräkkäistä.

Kaavio, joka vertaa tavallista autoregressiivistä dekoodausta (yksi token per vaihe) Multi-Token Predictioniin (useita tokeneita per vaihe)

Multi-Token Prediction (MTP) muuttaa tämän lisäämällä malliin ylimääräisiä ennustuspäitä. Pelkän seuraavan tokenin ennustamisen sijaan malli ennustaa tokeneita N+1, N+2, N+3 ja niin edelleen — kaikki yhdellä eteenpäin-laskennalla.

Näin se toimii:

Koulutusvaihe: Päämallin rinnalle koulutetaan ylimääräisiä kevyitä ennustuspäitä. Kukin pää oppii ennustamaan eri tulevaa positiota (1 eteenpäin, 2 eteenpäin, 3 eteenpäin jne.)
Päättelyvaihe: Ylimääräiset päät tuottavat “luonnostokeneita” rinnakkain. Päämalli vahvistaa ne sitten yhdellä eteenpäin-laskennalla.
Vahvistus: Jos luonnostokenit vastaavat sitä, mitä päämalli olisi tuottanut, ne kaikki hyväksytään kerralla — ohittaen useita peräkkäisiä dekoodausvaiheita. Jos luonnostoken on väärä, generointi palaa kyseiseen kohtaan.

Tämä liittyy läheisesti spekulatiiviseen dekoodaukseen, mutta sillä on keskeinen etu: luonnostokenit tulevat mallista itsestään eikä erillistä, pienempää “luonnosmallia” tarvita.

Arkkitehtuurikaavio, joka näyttää miten MTP-ennustuspäät kiinnittyvät päätransformermalliin tuottaakseen useita luonnostokeneita samanaikaisesti

Kuinka paljon nopeampi MTP on?

Nopeuslisä riippuu siitä, kuinka usein luonnostokenit ovat oikein (“hyväksymisaste”). DeepSeek V3 osoitti käytännön vaikutuksen:

Mittari	Arvo
Keskimääräinen hyväksymispituus	2,4 tokenia per vahvistusvaihe
Päättelyn nopeuslisä	1,8x keskimäärin (jopa 2,1x huippu)
Vaikutus tulosteen laatuun	Nolla — kaikki tokenit vahvistaa päämalli

Hyväksymisaste 2,4 tarkoittaa, että keskimäärin jokainen eteenpäin-laskenta päämallin läpi tuottaa 2,4 tokenia yhden sijaan. Tuloste on matemaattisesti identtinen tavalliseen dekoodaukseen — jokainen token vahvistetaan. Saat saman laadun lähes kaksinkertaisella nopeudella.

Mitä Gemma 4:lle tapahtui

HuggingFace-käyttäjä (@shadowlilac ) havaitsi, että Googlen Gemma 4:n LiteRT-paketti sisältää MTP-ennustuspäät ja monitokeniennustustoiminnallisuuden. Mutta julkisesti julkaistuissa HuggingFace-painoissa ei ole mitään näistä.

MTP-komponentit poistettiin tarkoituksella:

Ei MTP-päitä tarkistuspisteessä
Ei MTP:tä mallikonfiguraatiossa
Ei MTP:tä eteenpäin-laskennassa

Kaavio, joka näyttää miten Gemma 4:n koulutus sisälsi MTP-päät, mutta julkisesta HuggingFace-julkaisusta ne on poistettu, kun taas Googlen LiteRT-versio säilyttää ne

Googlen selitys

Googlen insinööri (@srikanta-221 ) vahvisti, että tämä oli tarkoituksellista:

Julkinen malli tarjoaa vain tavallisen autoregressiivisen rajapinnan “laajan yhteensopivuuden” vuoksi. MTP-päät on jätetty pois mallikonfiguraatiosta, eteenpäin-laskennasta ja tarkistuspisteestä. Tämä varmistaa yhteensopivuuden HuggingFace Transformers API:en kanssa ja ylläpitää yhdenmukaista tarkistuspisteen ja ajonaikaista käyttäytymistä.

Google kehystää MTP:n “käyttöönoton aikaiseksi optimoinniksi” eikä mallin ydinominaisuudeksi. MTP-ennustuspäät on säilytetty ainoastaan LiteRT-viedyissä malleissa — Googlen omassa laitepäättelykehyksessä.

Miksi tämä on ongelma

Selitys ei kestä tarkempaa tarkastelua:

1. Malli koulutettiin MTP:llä. Ominaisuus on olemassa. Sen poistaminen julkaisusta on valinta, ei tekninen rajoite.

2. Kolmannen osapuolen moottorit eivät voi toteuttaa sitä. vLLM, llama.cpp, SGLang ja muut päättelykehykset eivät voi käyttää MTP-pohjaista spekulatiivista dekoodausta ilman ennustuspäitä. Nämä moottorit palvelevat valtaosaa avoimen lähdekoodin LLM-käyttöönotoista.

3. Käyttäjät saavat hitaan version. Ilman MTP:tä Gemma 4 toimii tavallisilla autoregressiivisillä nopeuksilla. Suorituskykyero näkyy jo käytännössä:

Malli	Laitteisto	Nopeus	Huomiot
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Ei MTP:tä, tavallinen dekoodaus
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Vastaava MoE-malli
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	FlashAttention-varaongelmia

4. Se luo ekosysteemilukon. Googlen oma LiteRT-kehys saa nopeusedun. Kaikki muut saavat hitaamman mallin. “Avointen painojen” Apache 2.0 -julkaisuksi tämä on merkittävä epäsymmetria.

Miten spekulatiivinen dekoodaus toimii (ja miksi MTP on parempi)

Ymmärtääksesi miksi puuttuvat MTP-päät ovat merkityksellisiä, on hyödyllistä nähdä, mihin MTP sijoittuu päättelyoptimoinnin kehityksessä.

Vertailu kolmesta spekulatiivisen dekoodauksen lähestymistavasta: perinteinen (erillinen luonnosmalli), spekulatiivis-spekulatiivinen ja MTP (sisäänrakennetut ennustuspäät)

Lähestymistapa 1: Perinteinen spekulatiivinen dekoodaus

Erillinen, pienempi “luonnosmalli” ehdottaa tokeneita. Päämalli vahvistaa ne rinnakkain. Jos luonnokset ovat oikein, useita tokeneita hyväksytään per vaihe.

Edut: Toimii millä tahansa malliparilla
Haitat: Vaatii toisen mallin ylläpidon ja lataamisen; luonnosmallin laatu rajoittaa nopeuslisää; ylimääräistä muistikuormaa

Lähestymistapa 2: MTP (sisäänrakennetut ennustuspäät)

Päämallin omat kevyet ennustuspäät tuottavat luonnostokeneita. Erillistä mallia ei tarvita.

Edut: Ei ylimääräistä mallia; tiiviimpi integraatio tarkoittaa korkeampia hyväksymisasteita; pienempi muistikuorma
Haitat: Toimii vain, jos ennustuspäät sisältyvät julkaisuun

Miksi MTP voittaa

MTP-ennustuspäät koulutetaan päämallin rinnalla. Ne jakavat samat sisäiset esitykset ja oppivat mallin oman tokenien jakauman. Tämä tuottaa tyypillisesti korkeampia hyväksymisasteita kuin ulkoinen luonnosmalli, mikä tarkoittaa enemmän hyväksyttyjä tokeneita per vahvistusvaihe ja nopeampaa generointia kokonaisuudessaan.

Ennustuspäät ovat myös pieniä — tyypillisesti ne lisäävät vain 1–3 % mallin kokonaisparametrimäärään. Muistikuorma on merkityksetöntä verrattuna erillisen luonnosmallin lataamiseen.

Laajempi vaikutus

Tämä ei koske ainoastaan Gemma 4:ää. Päätös luo ennakkotapauksen sille, kuinka “avoimia” avoimen painojen julkaisut todella ovat.

Mitä käyttäjät menettävät:

MTP-pohjaisen spekulatiivisen dekoodauksen kaikilla kolmannen osapuolen päättelymoottoreilla
Mahdollisuuden hienosäätää tai kokeilla MTP-päitä
Suorituskyvyn yhdenvertaisuuden Googlen omien käyttöönottotyökalujen kanssa

Mitä käyttäjillä on edelleen:

Perusmallin painot (jotka ovat aidosti hyviä)
Perinteinen spekulatiivinen dekoodaus erillisellä luonnosmallilla (vLLM-issue #38893 seuraa Eagle3-tukea Gemma 4:lle)
Tavalliset kvantisointitekniikat ja optimointimenetelmät

Yhteisön reaktio on ollut suoraviivainen. 24 tunnin konsensus oli, että Gemma 4:n vertailuarvotulokset ovat kilpailukykyisiä — se on tasoissa tai hieman jäljessä Qwen 3.5:tä — mutta tuote “ei ole valmis.” Nopeus, vakaus ja työkalutuki vaativat työtä. Muita ongelmia ovat mm. HuggingFace Transformersin alun perin puuttuva Gemma 4 -arkkitehtuurituki, PEFT:n kyvyttömyys käsitellä uusia kerrostyyppejä ja Mac-käyttäjien kaatumisia suurempia malleja ladattaessa.

Mitä voit tehdä?

Jos arvioit Gemma 4:ää käyttöönottoa varten, tässä käytännön vaihtoehtoja:

Käytä perinteistä spekulatiivista dekoodausta. Ulkoiset luonnosmallit voivat edelleen kiihdyttää Gemma 4:n päättelyä. Kehykset kuten vLLM lisäävät Eagle3-spekulatiivisen dekoodauksen tukea nimenomaan Gemma 4:lle. Nopeuslisä ei vastaa sisäänrakennettua MTP:tä, mutta se on parempi kuin ei mitään.

Harkitse vaihtoehtoja nopeuskriittisille työkuormille. Qwen 3.5 tarjoaa merkittävästi paremman token-per-sekunti-suorituskyvyn vastaavalla laitteistolla. Jos päättelynopeus on ensisijainen rajoitteesi, Qwen tarjoaa tällä hetkellä paremman nopeus-laatu-suhteen.

Seuraa yhteisön kiertoratkaisuja. LiteRT-viennit sisältävät MTP-päät. Tutkijat saattavat löytää keinoja poimia ja liittää ne takaisin HuggingFace-painoihin, vaikka Google ei ole virallisesti tukenut tätä polkua.

Anna palautetta. Googlen insinöörit seuraavat aktiivisesti HuggingFacen keskusteluketjuja. Selkeät, tekniset pyynnöt MTP-päiden julkaisusta ovat painoarvoltaan merkittäviä.

Johtopäätös

Gemma 4 on kyvykäs malliperheen julkaisu, jossa on aitoja arkkitehtuurisia innovaatioita ja vahvat vertailuarvotulokset. Päätös poistaa MTP-ennustuspäät julkisesta julkaisusta — samalla kun ne säilytetään Googlen omassa LiteRT-kehyksessä — heikentää “avoimen” merkitystä avoimissa painoissa.

MTP ei ole vähäinen optimointi. Se voi tuottaa 1,5–2-kertaisen päättelynopeuden ilman minkäänlaista vaikutusta tulosteen laatuun. Sen pidättäminen julkisista painoista, kun malli selvästi koulutettiin sen kanssa, luo kaksitasoisen järjestelmän: nopea päättely Googlen työkaluille, hidas päättely kaikille muille.

Avoimen lähdekoodin tekoälyyhteisölle viesti on selvä: tarkista mitä painoissa todella on, älä pelkästään vertailuarvoja. Avoin lisenssi ei aina tarkoita avointa julkaisua.

Rakennettu FlowHuntilla . Pysy ajan tasalla uusimmista avoimen lähdekoodin tekoälyn kehityksistä blogissamme .

Usein kysytyt kysymykset

: Multi-Token Prediction on tekniikka, jossa LLM ennustaa useita tulevia tokeneita yhdellä eteenpäin-laskennalla yhden tokenin sijaan. Päämallin rinnalle koulutetaan ylimääräisiä ennustuspäitä, jotka tuottavat samanaikaisesti tokeneita N+1, N+2, N+3 jne., minkä jälkeen päämallin voi vahvistaa ne rinnakkain. Tämä mahdollistaa 1,5–2-kertaisen päättelynopeuden ilman laadun heikkenemistä.
: Gemma 4 koulutettiin MTP-ennustuspäillä, ja ne ovat mukana Googlen LiteRT-vienneissä (laitepäättely). Julkisesti julkaistuista HuggingFace-painoista MTP-päät on kuitenkin tarkoituksella poistettu. Googlen mukaan tämä tehtiin 'laajan yhteensopivuuden' vuoksi olemassa olevien päättelykehysten kanssa.
: Ilman MTP-päitä kolmannen osapuolen päättelymoottorit kuten vLLM, llama.cpp ja SGLang eivät voi käyttää sisäänrakennettua spekulatiivista dekoodausta Gemma 4:lle. Käyttäjät jäävät tavallisen autoregressiivisen generoinnin varaan, mikä on huomattavasti hitaampaa. Vertailuarvot osoittavat Gemma 4:n tuottavan vain 11 tokenia/s laitteistolla, jossa vastaavat mallit saavuttavat yli 60 tokenia/s.
: Spekulatiivinen dekoodaus on päättelyn kiihdytystekniikka, jossa nopea 'luonnosmalli' ehdottaa useita tokeneita kerralla ja päämalli vahvistaa ne yhdellä eteenpäin-laskennalla. Jos luonnostokenit ovat oikein, useita dekoodausvaiheita voidaan käytännössä ohittaa. MTP on variantti, jossa luonnostokenit tulevat mallin omista sisäänrakennetuista ennustuspäistä erillisen mallin sijaan.
: Huhtikuussa 2026 Google ei ole ilmoittanut suunnitelmista julkaista MTP-ennustuspäitä HuggingFace-painoille. Ne ovat tällä hetkellä saatavilla ainoastaan LiteRT-viedyissä malleissa, mikä rajoittaa niiden käytön Googlen omaan päättelykehykseen. Yhteisö jatkaa niiden julkaisun pyytämistä.

Viktor Zeman
Toimitusjohtaja, tekoälyinsinööri

Rakenna tekoälytyönkulkuja parhailla malleilla

FlowHunt mahdollistaa automatisoitujen tekoälyputkien rakentamisen pilvi-API:en ja avoimen lähdekoodin mallien avulla — täysi hallinta nopeuteen, kustannuksiin ja laatuun.

Aloita Lue lisää

Lue lisää

Gemma 4:n hienosäätö Apple Siliconilla: Voiko se korvata Claude Sonnetin sisällöntuotannossa?

Hienosäädimme Google:n Gemma 4 31B -mallia MacBook Pro M3 Max:lla urheiluartikkeleiden tuottamiseen. Tässä on vertailu Claude Sonnetiin laadun, nopeuden ja kust...

Apr 6, 2026 9 min lukuaika

AI LLM +6

Mikä on Google Gemini AI Chatbot?

Tutustu, mikä Google Gemini on, miten se toimii ja miten se vertautuu ChatGPT:hen. Lue sen multimodaalisista kyvyistä, hinnoittelusta ja tosielämän sovelluskoht...

Dec 1, 2025 9 min lukuaika

AI-agentit: Kuinka GPT-4o ajattelee

Tutustu AI-agenttien ajatteluprosesseihin tässä kattavassa GPT-4o:n arvioinnissa. Selvitä, miten se suoriutuu tehtävissä kuten sisällöntuotanto, ongelmanratkais...

May 30, 2025 6 min lukuaika

AI GPT-4o +6

Gemma 4 julkaistiin ilman MTP-dataa — miksi sillä on merkitystä

Mikä on Gemma 4?