Gemma 4 została wydana bez danych MTP — dlaczego to ma znaczenie

AI LLM Gemma Open Source

Google wydał Gemma 4 3 kwietnia 2026 roku — rodzinę modeli z otwartymi wagami, mocnymi wynikami benchmarków, możliwościami multimodalnymi i kontekstem do 256K tokenów. Na papierze to imponująca premiera. Jednak w ciągu kilku godzin społeczność odkryła, że czegoś brakuje: głowice Multi-Token Prediction zostały usunięte z publicznych wag.

Model był trenowany z MTP. Własny framework Google LiteRT zawiera komponenty MTP. Ale wersja, którą każdy może pobrać z HuggingFace? Tylko standardowe generowanie autoregresyjne. Żadnego przyspieszenia. Żadnego speculative decoding.

Ten artykuł wyjaśnia, czym jest MTP, dlaczego ma znaczenie i co ta decyzja oznacza dla każdego, kto uruchamia Gemma 4 na własnym sprzęcie.

Czym jest Gemma 4?

Gemma 4 to najnowsza rodzina modeli z otwartymi wagami od Google DeepMind, wydana na licencji Apache 2.0. Dostępna jest w czterech rozmiarach:

ModelParametryTypKluczowe cechy
Gemma 4 E2B2,3 mld efektywnychDenseWizja + Audio
Gemma 4 E4B4,5 mld efektywnychDenseWizja + Audio
Gemma 4 26B-A4B26 mld łącznie / 4 mld aktywnychMixture of ExpertsWizja
Gemma 4 31B31 mldDenseWizja

Do kluczowych możliwości należą natywna obsługa multimodalna, wywoływanie funkcji, strukturalne wyjście JSON oraz trening na ponad 140 językach. Wariant 31B zajmuje 3. miejsce na liście tekstowej LMArena.

Pod maską Gemma 4 wprowadza kilka innowacji architektonicznych: naprzemienne warstwy lokalnej uwagi przesuwnego okna i uwagi globalnej, proporcjonalny RoPE (p-RoPE), Per-Layer Embeddings (PLE), współdzielony KV cache oraz optymalizację pamięci „Keys equal Values".

Pod względem liczb to mocna premiera. Problem polega na tym, czego nie ma w publicznych wagach.

Czym jest Multi-Token Prediction?

Standardowe duże modele językowe generują tekst po jednym tokenie na raz. Każdy token wymaga pełnego przebiegu forward przez model. Następny token nie może się rozpocząć, dopóki poprzedni nie zostanie ukończony. To jest dekodowanie autoregresyjne i jest z natury sekwencyjne.

Diagram porównujący standardowe dekodowanie autoregresyjne (jeden token na krok) z Multi-Token Prediction (wiele tokenów na krok)

Multi-Token Prediction (MTP) zmienia to, dodając dodatkowe głowice predykcyjne do modelu. Zamiast przewidywać tylko następny token, model przewiduje tokeny N+1, N+2, N+3 i dalsze — wszystko w jednym przebiegu forward.

Oto jak to działa:

  1. Faza treningu: Dodatkowe lekkie głowice predykcyjne są trenowane równolegle z modelem głównym. Każda głowica uczy się przewidywać inną przyszłą pozycję (1 do przodu, 2 do przodu, 3 do przodu itd.)
  2. Faza inferencji: Dodatkowe głowice generują tokeny „draft" równolegle. Model główny następnie weryfikuje je wszystkie w jednym przebiegu forward.
  3. Weryfikacja: Jeśli tokeny draft pasują do tego, co model główny by wygenerował, wszystkie są akceptowane jednocześnie — pomijając wiele sekwencyjnych kroków dekodowania. Jeśli token draft jest błędny, generowanie wraca do tej pozycji.

Jest to ściśle powiązane ze speculative decoding, ale z kluczową przewagą: tokeny draft pochodzą z samego modelu, zamiast wymagać oddzielnego, mniejszego „modelu draft".

Diagram architektury pokazujący, jak głowice MTP są podłączone do głównego modelu transformer w celu jednoczesnego generowania wielu tokenów draft

O ile szybsze jest MTP?

Przyspieszenie zależy od tego, jak często tokeny draft są poprawne (tzw. „współczynnik akceptacji"). DeepSeek V3 zademonstrował realny wpływ:

MetrykaWartość
Średnia długość akceptacji2,4 tokena na krok weryfikacji
Przyspieszenie inferencjiŚrednio 1,8x (do 2,1x w szczycie)
Wpływ na jakość wynikówZerowy — wszystkie tokeny weryfikowane przez model główny

Współczynnik akceptacji 2,4 oznacza, że średnio każdy przebieg forward przez model główny produkuje 2,4 tokena zamiast 1. Wynik jest matematycznie identyczny ze standardowym dekodowaniem — każdy token jest weryfikowany. Otrzymujesz tę samą jakość przy prawie dwukrotnie większej szybkości.

Logo

Gotowy na rozwój swojej firmy?

Rozpocznij bezpłatny okres próbny już dziś i zobacz rezultaty w ciągu kilku dni.

Co się stało z Gemma 4

Użytkownik HuggingFace (@shadowlilac ) odkrył, że pakiet LiteRT od Google dla Gemma 4 zawiera głowice MTP i funkcjonalność multi-token prediction. Ale publicznie wydane wagi na HuggingFace nie zawierają nic z tego.

Komponenty MTP zostały celowo usunięte:

  • Brak głowic MTP w checkpoint
  • Brak MTP w konfiguracji modelu
  • Brak MTP w przebiegu forward
Diagram pokazujący, że trening Gemma 4 obejmował głowice MTP, ale publiczna wersja na HuggingFace ma je usunięte, podczas gdy wersja LiteRT od Google je zachowuje

Wyjaśnienie Google

Inżynier Google (@srikanta-221 ) potwierdził, że było to celowe:

Publiczny model udostępnia jedynie standardowy interfejs autoregresyjny „dla szerokiej kompatybilności". Głowice MTP są wykluczone z konfiguracji modelu, przebiegu forward i checkpoint. Zapewnia to kompatybilność z API HuggingFace Transformers i utrzymuje spójne zachowanie checkpoint i runtime.

Google przedstawia MTP jako „optymalizację na etapie wdrożenia", a nie podstawową funkcję modelu. Głowice MTP są zachowane jedynie w modelach eksportowanych do LiteRT — własnego frameworka inferencji Google na urządzeniu.

Dlaczego to jest problem

Wyjaśnienie nie wytrzymuje krytycznej analizy:

1. Model był trenowany z MTP. Możliwość istnieje. Usunięcie jej z wydania to wybór, a nie ograniczenie techniczne.

2. Silniki firm trzecich nie mogą tego zaimplementować. vLLM, llama.cpp, SGLang i inne frameworki inferencji nie mogą używać speculative decoding opartego na MTP bez głowic predykcyjnych. Te silniki obsługują zdecydowaną większość wdrożeń open-source LLM.

3. Użytkownicy dostają wolną wersję. Bez MTP Gemma 4 działa ze standardowymi prędkościami autoregresyjnymi. Różnica w wydajności jest już widoczna w praktyce:

ModelSprzętSzybkośćUwagi
Gemma 4 26B-A4B5060 Ti 16GB11 tok/sBez MTP, standardowe dekodowanie
Qwen 3.5 35B-A3B5060 Ti 16GB60+ tok/sPorównywalny model MoE
Gemma 4 E4BRTX 4090 (vLLM)~9 tok/sProblemy z fallbackiem FlashAttention

4. Tworzy to blokadę ekosystemową. Własny framework Google LiteRT dostaje przewagę szybkości. Wszyscy inni dostają wolniejszy model. Jak na wydanie „z otwartymi wagami" na licencji Apache 2.0, jest to znacząca asymetria.

Jak działa speculative decoding (i dlaczego MTP jest lepsze)

Aby zrozumieć, dlaczego brakujące głowice MTP mają znaczenie, warto zobaczyć, gdzie MTP mieści się w ewolucji optymalizacji inferencji.

Porównanie trzech podejść do speculative decoding: tradycyjnego (oddzielny model draft), spekulatywno-spekulatywnego i MTP (wbudowane głowice predykcyjne)

Podejście 1: Tradycyjne speculative decoding

Oddzielny, mniejszy „model draft" proponuje tokeny. Model główny weryfikuje je równolegle. Jeśli tokeny draft są poprawne, wiele tokenów jest akceptowanych w jednym kroku.

  • Zalety: Działa z dowolną parą modeli
  • Wady: Wymaga utrzymywania i ładowania drugiego modelu; jakość modelu draft ogranicza przyspieszenie; dodatkowe obciążenie pamięci

Podejście 2: MTP (wbudowane głowice predykcyjne)

Model główny ma własne lekkie głowice predykcyjne, które generują tokeny draft. Nie potrzeba oddzielnego modelu.

  • Zalety: Brak potrzeby dodatkowego modelu; ściślejsza integracja oznacza wyższe współczynniki akceptacji; niższe obciążenie pamięci
  • Wady: Działa tylko wtedy, gdy głowice predykcyjne są dołączone do wydania

Dlaczego MTP wygrywa

Głowice MTP są trenowane równolegle z modelem głównym. Współdzielą te same wewnętrzne reprezentacje i uczą się własnego rozkładu tokenów modelu. Zwykle daje to wyższe współczynniki akceptacji niż zewnętrzny model draft, co oznacza więcej tokenów akceptowanych na krok weryfikacji i szybsze generowanie ogólnie.

Głowice predykcyjne są też małe — zwykle dodają tylko 1-3% do całkowitej liczby parametrów modelu. Obciążenie pamięci jest znikome w porównaniu z ładowaniem oddzielnego modelu draft.

Szerszy wpływ

Nie chodzi tylko o Gemma 4. Ta decyzja ustanawia precedens dla tego, jak naprawdę „otwarte" są wydania z otwartymi wagami.

Co tracą użytkownicy:

  • Speculative decoding oparte na MTP na dowolnym silniku inferencji firm trzecich
  • Możliwość dostrajania lub eksperymentowania z głowicami MTP
  • Parytetu wydajności z własnymi narzędziami wdrożeniowymi Google

Co użytkownicy nadal mają:

  • Bazowe wagi modelu (które są naprawdę dobre)
  • Tradycyjne speculative decoding z użyciem oddzielnego modelu draft (issue vLLM #38893 śledzi wsparcie Eagle3 dla Gemma 4)
  • Standardowe techniki kwantyzacji i optymalizacji

Reakcja społeczności była bezpośrednia. Konsensus po 24 godzinach był taki, że wyniki benchmarków Gemma 4 są konkurencyjne — dorównuje lub nieznacznie ustępuje Qwen 3.5 — ale produkt „nie jest ukończony". Szybkość, stabilność i narzędzia wymagają pracy. Dodatkowe problemy obejmują początkowo brak wsparcia architektury Gemma 4 w HuggingFace Transformers, PEFT nieobsługujący nowych typów warstw oraz crashe na Macach przy ładowaniu większych modeli.

Co możesz zrobić?

Jeśli oceniasz Gemma 4 pod kątem wdrożenia, oto praktyczne opcje:

Użyj tradycyjnego speculative decoding. Zewnętrzne modele draft nadal mogą przyspieszyć inferencję Gemma 4. Frameworki takie jak vLLM dodają wsparcie Eagle3 speculative decoding specjalnie dla Gemma 4. Przyspieszenie nie dorówna wbudowanemu MTP, ale jest lepsze niż nic.

Rozważ alternatywy dla zadań wrażliwych na szybkość. Qwen 3.5 zapewnia znacząco więcej tokenów na sekundę na równoważnym sprzęcie. Jeśli szybkość inferencji jest Twoim głównym ograniczeniem, Qwen obecnie oferuje lepszy stosunek szybkości do jakości.

Obserwuj obejścia społeczności. Eksporty LiteRT zawierają głowice MTP. Badacze mogą znaleźć sposoby na ich wyodrębnienie i ponowne podłączenie do wag HuggingFace, choć Google oficjalnie nie wspiera tej ścieżki.

Zgłaszaj opinię. Inżynierowie Google aktywnie monitorują wątki dyskusyjne na HuggingFace. Jasne, techniczne prośby o udostępnienie głowic MTP mają znaczenie.

Podsumowanie

Gemma 4 to rodzina zdolnych modeli z prawdziwymi innowacjami architektonicznymi i mocnymi wynikami benchmarków. Decyzja o usunięciu głowic MTP z publicznego wydania — przy jednoczesnym zachowaniu ich we własnym frameworku LiteRT od Google — podważa „otwartość" w otwartych wagach.

MTP to nie drobna optymalizacja. Może zapewnić przyspieszenie inferencji o 1,5–2x bez żadnego wpływu na jakość wyników. Wstrzymanie tego z publicznych wag, podczas gdy model był wyraźnie z tym trenowany, tworzy system dwóch poziomów: szybka inferencja dla narzędzi Google, wolna inferencja dla wszystkich innych.

Dla społeczności open-source AI przekaz jest jasny: sprawdzaj, co faktycznie znajduje się w wagach, a nie tylko benchmarki. Otwarta licencja nie zawsze oznacza otwarte wydanie.


Zbudowane z FlowHunt . Bądź na bieżąco z najnowszymi wydarzeniami w open-source AI na naszym blogu .

Najczęściej zadawane pytania

Viktor Zeman jest współwłaścicielem QualityUnit. Nawet po 20 latach kierowania firmą pozostaje przede wszystkim inżynierem oprogramowania, specjalizującym się w AI, programatycznym SEO i programowaniu backendu. Przyczynił się do powstania wielu projektów, w tym LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab i wielu innych.

Viktor Zeman
Viktor Zeman
CEO, inżynier AI

Twórz workflow AI z najlepszymi modelami

FlowHunt pozwala budować zautomatyzowane pipeline'y AI z wykorzystaniem API w chmurze i modeli open-source — z pełną kontrolą nad szybkością, kosztami i jakością.

Dowiedz się więcej

Czym jest Google Gemini AI Chatbot?
Czym jest Google Gemini AI Chatbot?

Czym jest Google Gemini AI Chatbot?

Dowiedz się, czym jest Google Gemini, jak działa i jak wypada w porównaniu z ChatGPT. Poznaj jego multimodalne możliwości, ceny oraz zastosowania w praktyce na ...

10 min czytania
Agenci AI: Jak myśli GPT 4o
Agenci AI: Jak myśli GPT 4o

Agenci AI: Jak myśli GPT 4o

Poznaj procesy myślowe agentów AI w kompleksowej ocenie GPT-4o. Odkryj, jak radzi sobie z zadaniami takimi jak generowanie treści, rozwiązywanie problemów i pis...

7 min czytania
AI GPT-4o +6