Gemma 4 julkaistiin ilman MTP-dataa — miksi sillä on merkitystä
Google poisti MTP-ennustuspäät Gemma 4:n julkisesta julkaisusta, mutta säilytti ne omassa LiteRT-kehyksessään. Näin se vaikuttaa päättelynopeuteen ja avoimen lähdekoodin tekoälyyn.
AI
LLM
Gemma
Open Source
Inference
Multi-Token Prediction
Google julkaisi Gemma 4:n 3. huhtikuuta 2026 — avoimen painojen malliperheen, jolla on vahvat vertailuarvotulokset, multimodaaliset ominaisuudet ja jopa 256K konteksti. Paperilla se on vaikuttava julkaisu. Mutta muutamassa tunnissa yhteisö havaitsi jotain puuttuvan: Multi-Token Prediction -päät oli poistettu julkisista painoista.
Malli koulutettiin MTP:llä. Googlen oma LiteRT-kehys sisältää MTP-komponentit. Mutta versio, jonka kaikki voivat ladata HuggingFacesta? Ainoastaan tavallinen autoregressiivinen generointi. Ei nopeushyötyä. Ei spekulatiivista dekoodausta.
Tässä artikkelissa selitämme, mikä MTP on, miksi sillä on merkitystä ja mitä tämä päätös tarkoittaa kaikille, jotka ajavat Gemma 4:ää omalla laitteistollaan.
Mikä on Gemma 4?
Gemma 4 on Google DeepMindin uusin avoimen painojen malliperheen julkaisu Apache 2.0 -lisenssillä. Se sisältää neljä kokoa:
Malli
Parametrit
Tyyppi
Merkittävät ominaisuudet
Gemma 4 E2B
2,3 mrd efektiivistä
Dense
Kuva + Ääni
Gemma 4 E4B
4,5 mrd efektiivistä
Dense
Kuva + Ääni
Gemma 4 26B-A4B
26 mrd yht. / 4 mrd aktiivista
Mixture of Experts
Kuva
Gemma 4 31B
31 mrd
Dense
Kuva
Keskeisiä ominaisuuksia ovat natiivi multimodaalituki, funktiokutsut, strukturoitu JSON-tuloste ja koulutus yli 140 kielellä. 31B-variantti sijoittuu kolmanneksi LMArena-tekstituloslistalla.
Arkkitehtuurin alla Gemma 4 tuo useita innovaatioita: vuorottelevat paikalliset liukuikkunat ja globaalit attention-kerrokset, suhteellinen RoPE (p-RoPE), kerroskohtaiset upotukset (PLE), jaettu KV-välimuisti ja “Keys equal Values” -muistioptimointeja.
Lukujen valossa tämä on vahva julkaisu. Ongelma on siinä, mitä julkisista painoista puuttuu.
Mikä on Multi-Token Prediction?
Tavalliset suuret kielimallit tuottavat tekstiä yksi token kerrallaan. Jokainen token vaatii täyden eteenpäin-laskennan mallin läpi. Seuraavaa tokenia ei voi aloittaa ennen kuin edellinen on valmis. Tämä on autoregressiivinen dekoodaus, ja se on luonteeltaan peräkkäistä.
Multi-Token Prediction (MTP) muuttaa tämän lisäämällä malliin ylimääräisiä ennustuspäitä. Pelkän seuraavan tokenin ennustamisen sijaan malli ennustaa tokeneita N+1, N+2, N+3 ja niin edelleen — kaikki yhdellä eteenpäin-laskennalla.
Näin se toimii:
Koulutusvaihe: Päämallin rinnalle koulutetaan ylimääräisiä kevyitä ennustuspäitä. Kukin pää oppii ennustamaan eri tulevaa positiota (1 eteenpäin, 2 eteenpäin, 3 eteenpäin jne.)
Päättelyvaihe: Ylimääräiset päät tuottavat “luonnostokeneita” rinnakkain. Päämalli vahvistaa ne sitten yhdellä eteenpäin-laskennalla.
Vahvistus: Jos luonnostokenit vastaavat sitä, mitä päämalli olisi tuottanut, ne kaikki hyväksytään kerralla — ohittaen useita peräkkäisiä dekoodausvaiheita. Jos luonnostoken on väärä, generointi palaa kyseiseen kohtaan.
Tämä liittyy läheisesti spekulatiiviseen dekoodaukseen, mutta sillä on keskeinen etu: luonnostokenit tulevat mallista itsestään eikä erillistä, pienempää “luonnosmallia” tarvita.
Kuinka paljon nopeampi MTP on?
Nopeuslisä riippuu siitä, kuinka usein luonnostokenit ovat oikein (“hyväksymisaste”). DeepSeek V3 osoitti käytännön vaikutuksen:
Mittari
Arvo
Keskimääräinen hyväksymispituus
2,4 tokenia per vahvistusvaihe
Päättelyn nopeuslisä
1,8x keskimäärin (jopa 2,1x huippu)
Vaikutus tulosteen laatuun
Nolla — kaikki tokenit vahvistaa päämalli
Hyväksymisaste 2,4 tarkoittaa, että keskimäärin jokainen eteenpäin-laskenta päämallin läpi tuottaa 2,4 tokenia yhden sijaan. Tuloste on matemaattisesti identtinen tavalliseen dekoodaukseen — jokainen token vahvistetaan. Saat saman laadun lähes kaksinkertaisella nopeudella.
Valmis kasvattamaan liiketoimintaasi?
Aloita ilmainen kokeilujakso tänään ja näe tulokset muutamassa päivässä.
HuggingFace-käyttäjä (@shadowlilac
) havaitsi, että Googlen Gemma 4:n LiteRT-paketti sisältää MTP-ennustuspäät ja monitokeniennustustoiminnallisuuden. Mutta julkisesti julkaistuissa HuggingFace-painoissa ei ole mitään näistä.
MTP-komponentit poistettiin tarkoituksella:
Ei MTP-päitä tarkistuspisteessä
Ei MTP:tä mallikonfiguraatiossa
Ei MTP:tä eteenpäin-laskennassa
Googlen selitys
Googlen insinööri (@srikanta-221
) vahvisti, että tämä oli tarkoituksellista:
Julkinen malli tarjoaa vain tavallisen autoregressiivisen rajapinnan “laajan yhteensopivuuden” vuoksi. MTP-päät on jätetty pois mallikonfiguraatiosta, eteenpäin-laskennasta ja tarkistuspisteestä. Tämä varmistaa yhteensopivuuden HuggingFace Transformers API:en kanssa ja ylläpitää yhdenmukaista tarkistuspisteen ja ajonaikaista käyttäytymistä.
Google kehystää MTP:n “käyttöönoton aikaiseksi optimoinniksi” eikä mallin ydinominaisuudeksi. MTP-ennustuspäät on säilytetty ainoastaan LiteRT-viedyissä malleissa — Googlen omassa laitepäättelykehyksessä.
Miksi tämä on ongelma
Selitys ei kestä tarkempaa tarkastelua:
1. Malli koulutettiin MTP:llä. Ominaisuus on olemassa. Sen poistaminen julkaisusta on valinta, ei tekninen rajoite.
2. Kolmannen osapuolen moottorit eivät voi toteuttaa sitä. vLLM, llama.cpp, SGLang ja muut päättelykehykset eivät voi käyttää MTP-pohjaista spekulatiivista dekoodausta ilman ennustuspäitä. Nämä moottorit palvelevat valtaosaa avoimen lähdekoodin LLM-käyttöönotoista.
3. Käyttäjät saavat hitaan version. Ilman MTP:tä Gemma 4 toimii tavallisilla autoregressiivisillä nopeuksilla. Suorituskykyero näkyy jo käytännössä:
Malli
Laitteisto
Nopeus
Huomiot
Gemma 4 26B-A4B
5060 Ti 16GB
11 tok/s
Ei MTP:tä, tavallinen dekoodaus
Qwen 3.5 35B-A3B
5060 Ti 16GB
60+ tok/s
Vastaava MoE-malli
Gemma 4 E4B
RTX 4090 (vLLM)
~9 tok/s
FlashAttention-varaongelmia
4. Se luo ekosysteemilukon. Googlen oma LiteRT-kehys saa nopeusedun. Kaikki muut saavat hitaamman mallin. “Avointen painojen” Apache 2.0 -julkaisuksi tämä on merkittävä epäsymmetria.
Miten spekulatiivinen dekoodaus toimii (ja miksi MTP on parempi)
Ymmärtääksesi miksi puuttuvat MTP-päät ovat merkityksellisiä, on hyödyllistä nähdä, mihin MTP sijoittuu päättelyoptimoinnin kehityksessä.
Lähestymistapa 1: Perinteinen spekulatiivinen dekoodaus
Erillinen, pienempi “luonnosmalli” ehdottaa tokeneita. Päämalli vahvistaa ne rinnakkain. Jos luonnokset ovat oikein, useita tokeneita hyväksytään per vaihe.
Edut: Toimii millä tahansa malliparilla
Haitat: Vaatii toisen mallin ylläpidon ja lataamisen; luonnosmallin laatu rajoittaa nopeuslisää; ylimääräistä muistikuormaa
Päämallin omat kevyet ennustuspäät tuottavat luonnostokeneita. Erillistä mallia ei tarvita.
Edut: Ei ylimääräistä mallia; tiiviimpi integraatio tarkoittaa korkeampia hyväksymisasteita; pienempi muistikuorma
Haitat: Toimii vain, jos ennustuspäät sisältyvät julkaisuun
Miksi MTP voittaa
MTP-ennustuspäät koulutetaan päämallin rinnalla. Ne jakavat samat sisäiset esitykset ja oppivat mallin oman tokenien jakauman. Tämä tuottaa tyypillisesti korkeampia hyväksymisasteita kuin ulkoinen luonnosmalli, mikä tarkoittaa enemmän hyväksyttyjä tokeneita per vahvistusvaihe ja nopeampaa generointia kokonaisuudessaan.
Ennustuspäät ovat myös pieniä — tyypillisesti ne lisäävät vain 1–3 % mallin kokonaisparametrimäärään. Muistikuorma on merkityksetöntä verrattuna erillisen luonnosmallin lataamiseen.
Liity uutiskirjeellemme
Saa uusimmat vinkit, trendit ja tarjoukset ilmaiseksi.
Laajempi vaikutus
Tämä ei koske ainoastaan Gemma 4:ää. Päätös luo ennakkotapauksen sille, kuinka “avoimia” avoimen painojen julkaisut todella ovat.
Mitä käyttäjät menettävät:
MTP-pohjaisen spekulatiivisen dekoodauksen kaikilla kolmannen osapuolen päättelymoottoreilla
Mahdollisuuden hienosäätää tai kokeilla MTP-päitä
Suorituskyvyn yhdenvertaisuuden Googlen omien käyttöönottotyökalujen kanssa
Mitä käyttäjillä on edelleen:
Perusmallin painot (jotka ovat aidosti hyviä)
Perinteinen spekulatiivinen dekoodaus erillisellä luonnosmallilla (vLLM-issue #38893
seuraa Eagle3-tukea Gemma 4:lle)
Tavalliset kvantisointitekniikat ja optimointimenetelmät
Yhteisön reaktio on ollut suoraviivainen. 24 tunnin konsensus oli, että Gemma 4:n vertailuarvotulokset ovat kilpailukykyisiä — se on tasoissa tai hieman jäljessä Qwen 3.5:tä — mutta tuote “ei ole valmis.” Nopeus, vakaus ja työkalutuki vaativat työtä. Muita ongelmia ovat mm. HuggingFace Transformersin alun perin puuttuva Gemma 4 -arkkitehtuurituki, PEFT:n kyvyttömyys käsitellä uusia kerrostyyppejä ja Mac-käyttäjien kaatumisia suurempia malleja ladattaessa.
Mitä voit tehdä?
Jos arvioit Gemma 4:ää käyttöönottoa varten, tässä käytännön vaihtoehtoja:
Käytä perinteistä spekulatiivista dekoodausta. Ulkoiset luonnosmallit voivat edelleen kiihdyttää Gemma 4:n päättelyä. Kehykset kuten vLLM lisäävät Eagle3-spekulatiivisen dekoodauksen tukea nimenomaan Gemma 4:lle. Nopeuslisä ei vastaa sisäänrakennettua MTP:tä, mutta se on parempi kuin ei mitään.
Harkitse vaihtoehtoja nopeuskriittisille työkuormille. Qwen 3.5 tarjoaa merkittävästi paremman token-per-sekunti-suorituskyvyn vastaavalla laitteistolla. Jos päättelynopeus on ensisijainen rajoitteesi, Qwen tarjoaa tällä hetkellä paremman nopeus-laatu-suhteen.
Seuraa yhteisön kiertoratkaisuja. LiteRT-viennit sisältävät MTP-päät. Tutkijat saattavat löytää keinoja poimia ja liittää ne takaisin HuggingFace-painoihin, vaikka Google ei ole virallisesti tukenut tätä polkua.
Anna palautetta. Googlen insinöörit seuraavat aktiivisesti HuggingFacen keskusteluketjuja. Selkeät, tekniset pyynnöt MTP-päiden julkaisusta ovat painoarvoltaan merkittäviä.
Johtopäätös
Gemma 4 on kyvykäs malliperheen julkaisu, jossa on aitoja arkkitehtuurisia innovaatioita ja vahvat vertailuarvotulokset. Päätös poistaa MTP-ennustuspäät julkisesta julkaisusta — samalla kun ne säilytetään Googlen omassa LiteRT-kehyksessä — heikentää “avoimen” merkitystä avoimissa painoissa.
MTP ei ole vähäinen optimointi. Se voi tuottaa 1,5–2-kertaisen päättelynopeuden ilman minkäänlaista vaikutusta tulosteen laatuun. Sen pidättäminen julkisista painoista, kun malli selvästi koulutettiin sen kanssa, luo kaksitasoisen järjestelmän: nopea päättely Googlen työkaluille, hidas päättely kaikille muille.
Avoimen lähdekoodin tekoälyyhteisölle viesti on selvä: tarkista mitä painoissa todella on, älä pelkästään vertailuarvoja. Avoin lisenssi ei aina tarkoita avointa julkaisua.
Rakennettu FlowHuntilla
. Pysy ajan tasalla uusimmista avoimen lähdekoodin tekoälyn kehityksistä blogissamme
.
Usein kysytyt kysymykset
Multi-Token Prediction on tekniikka, jossa LLM ennustaa useita tulevia tokeneita yhdellä eteenpäin-laskennalla yhden tokenin sijaan. Päämallin rinnalle koulutetaan ylimääräisiä ennustuspäitä, jotka tuottavat samanaikaisesti tokeneita N+1, N+2, N+3 jne., minkä jälkeen päämallin voi vahvistaa ne rinnakkain. Tämä mahdollistaa 1,5–2-kertaisen päättelynopeuden ilman laadun heikkenemistä.
Gemma 4 koulutettiin MTP-ennustuspäillä, ja ne ovat mukana Googlen LiteRT-vienneissä (laitepäättely). Julkisesti julkaistuista HuggingFace-painoista MTP-päät on kuitenkin tarkoituksella poistettu. Googlen mukaan tämä tehtiin 'laajan yhteensopivuuden' vuoksi olemassa olevien päättelykehysten kanssa.
Ilman MTP-päitä kolmannen osapuolen päättelymoottorit kuten vLLM, llama.cpp ja SGLang eivät voi käyttää sisäänrakennettua spekulatiivista dekoodausta Gemma 4:lle. Käyttäjät jäävät tavallisen autoregressiivisen generoinnin varaan, mikä on huomattavasti hitaampaa. Vertailuarvot osoittavat Gemma 4:n tuottavan vain 11 tokenia/s laitteistolla, jossa vastaavat mallit saavuttavat yli 60 tokenia/s.
Spekulatiivinen dekoodaus on päättelyn kiihdytystekniikka, jossa nopea 'luonnosmalli' ehdottaa useita tokeneita kerralla ja päämalli vahvistaa ne yhdellä eteenpäin-laskennalla. Jos luonnostokenit ovat oikein, useita dekoodausvaiheita voidaan käytännössä ohittaa. MTP on variantti, jossa luonnostokenit tulevat mallin omista sisäänrakennetuista ennustuspäistä erillisen mallin sijaan.
Huhtikuussa 2026 Google ei ole ilmoittanut suunnitelmista julkaista MTP-ennustuspäitä HuggingFace-painoille. Ne ovat tällä hetkellä saatavilla ainoastaan LiteRT-viedyissä malleissa, mikä rajoittaa niiden käytön Googlen omaan päättelykehykseen. Yhteisö jatkaa niiden julkaisun pyytämistä.
Viktor Zeman on QualityUnitin osakas. Jopa 20 vuoden yrityksen johtamisen jälkeen hän on ensisijaisesti ohjelmistoinsinööri, joka on erikoistunut tekoälyyn, ohjelmalliseen hakukoneoptimointiin ja taustajärjestelmien kehittämiseen. Hän on osallistunut lukuisiin projekteihin, kuten LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab ja moniin muihin.
Viktor Zeman
Toimitusjohtaja, tekoälyinsinööri
Rakenna tekoälytyönkulkuja parhailla malleilla
FlowHunt mahdollistaa automatisoitujen tekoälyputkien rakentamisen pilvi-API:en ja avoimen lähdekoodin mallien avulla — täysi hallinta nopeuteen, kustannuksiin ja laatuun.
Gemma 4:n hienosäätö Apple Siliconilla: Voiko se korvata Claude Sonnetin sisällöntuotannossa?
Hienosäädimme Google:n Gemma 4 31B -mallia MacBook Pro M3 Max:lla urheiluartikkeleiden tuottamiseen. Tässä on vertailu Claude Sonnetiin laadun, nopeuden ja kust...
Tutustu, mikä Google Gemini on, miten se toimii ja miten se vertautuu ChatGPT:hen. Lue sen multimodaalisista kyvyistä, hinnoittelusta ja tosielämän sovelluskoht...
Tutustu AI-agenttien ajatteluprosesseihin tässä kattavassa GPT-4o:n arvioinnissa. Selvitä, miten se suoriutuu tehtävissä kuten sisällöntuotanto, ongelmanratkais...
6 min lukuaika
AI
GPT-4o
+6
Evästeiden Suostumus Käytämme evästeitä parantaaksemme selauskokemustasi ja analysoidaksemme liikennettämme. See our privacy policy.