Czym jest Multi-Token Prediction (MTP)?

Multi-Token Prediction to technika, w której LLM przewiduje wiele przyszłych tokenów w jednym przebiegu forward zamiast jednego tokena na raz. Dodatkowe głowice predykcyjne są trenowane równolegle z modelem głównym, aby generować tokeny N+1, N+2, N+3 itd. jednocześnie, które następnie mogą być weryfikowane równolegle przez model główny. Umożliwia to przyspieszenie inferencji o 1,5–2x bez utraty jakości wyników.

Czy Gemma 4 obsługuje MTP?

Gemma 4 była trenowana z głowicami MTP i są one obecne w eksportach Google LiteRT (inferencja na urządzeniu). Jednak publicznie wydane wagi na HuggingFace mają głowice MTP celowo usunięte. Google twierdzi, że zrobiono to dla 'szerokiej kompatybilności' z istniejącymi frameworkami inferencji.

Dlaczego usunięcie głowic MTP ma znaczenie?

Bez głowic MTP silniki inferencji firm trzecich, takie jak vLLM, llama.cpp i SGLang, nie mogą używać wbudowanego speculative decoding dla Gemma 4. Użytkownicy są skazani na standardowe generowanie autoregresyjne, które jest znacząco wolniejsze. Benchmarki pokazują, że Gemma 4 generuje zaledwie 11 tokenów/s na sprzęcie, na którym porównywalne modele osiągają 60+ tokenów/s.

Czym jest speculative decoding?

Speculative decoding to technika przyspieszania inferencji, w której szybki model 'draft' proponuje wiele tokenów naraz, a model główny weryfikuje je w jednym przebiegu forward. Jeśli zaproponowane tokeny są poprawne, wiele kroków dekodowania jest efektywnie pomijanych. MTP to wariant, w którym tokeny draft pochodzą z własnych wbudowanych głowic predykcyjnych modelu, a nie z oddzielnego modelu.

Czy Google udostępni głowice MTP dla Gemma 4?

Na kwiecień 2026 roku Google nie ogłosił planów udostępnienia głowic MTP dla wag na HuggingFace. Obecnie są one dostępne wyłącznie w modelach eksportowanych do LiteRT, co ogranicza ich użycie do frameworka inferencji Google. Społeczność nadal domaga się ich udostępnienia.

Gemma 4 została wydana bez danych MTP — dlaczego to ma znaczenie

Google usunął głowice MTP z publicznej wersji Gemma 4, zachowując je wyłącznie w swoim frameworku LiteRT. Oto co to oznacza dla szybkości inferencji i otwartego AI.

AI LLM Gemma Open Source

Rozpocznij Czytaj więcej

Google wydał Gemma 4 3 kwietnia 2026 roku — rodzinę modeli z otwartymi wagami, mocnymi wynikami benchmarków, możliwościami multimodalnymi i kontekstem do 256K tokenów. Na papierze to imponująca premiera. Jednak w ciągu kilku godzin społeczność odkryła, że czegoś brakuje: głowice Multi-Token Prediction zostały usunięte z publicznych wag.

Model był trenowany z MTP. Własny framework Google LiteRT zawiera komponenty MTP. Ale wersja, którą każdy może pobrać z HuggingFace? Tylko standardowe generowanie autoregresyjne. Żadnego przyspieszenia. Żadnego speculative decoding.

Ten artykuł wyjaśnia, czym jest MTP, dlaczego ma znaczenie i co ta decyzja oznacza dla każdego, kto uruchamia Gemma 4 na własnym sprzęcie.

Czym jest Gemma 4?

Gemma 4 to najnowsza rodzina modeli z otwartymi wagami od Google DeepMind, wydana na licencji Apache 2.0. Dostępna jest w czterech rozmiarach:

Model	Parametry	Typ	Kluczowe cechy
Gemma 4 E2B	2,3 mld efektywnych	Dense	Wizja + Audio
Gemma 4 E4B	4,5 mld efektywnych	Dense	Wizja + Audio
Gemma 4 26B-A4B	26 mld łącznie / 4 mld aktywnych	Mixture of Experts	Wizja
Gemma 4 31B	31 mld	Dense	Wizja

Do kluczowych możliwości należą natywna obsługa multimodalna, wywoływanie funkcji, strukturalne wyjście JSON oraz trening na ponad 140 językach. Wariant 31B zajmuje 3. miejsce na liście tekstowej LMArena.

Pod maską Gemma 4 wprowadza kilka innowacji architektonicznych: naprzemienne warstwy lokalnej uwagi przesuwnego okna i uwagi globalnej, proporcjonalny RoPE (p-RoPE), Per-Layer Embeddings (PLE), współdzielony KV cache oraz optymalizację pamięci „Keys equal Values".

Pod względem liczb to mocna premiera. Problem polega na tym, czego nie ma w publicznych wagach.

Czym jest Multi-Token Prediction?

Standardowe duże modele językowe generują tekst po jednym tokenie na raz. Każdy token wymaga pełnego przebiegu forward przez model. Następny token nie może się rozpocząć, dopóki poprzedni nie zostanie ukończony. To jest dekodowanie autoregresyjne i jest z natury sekwencyjne.

Diagram porównujący standardowe dekodowanie autoregresyjne (jeden token na krok) z Multi-Token Prediction (wiele tokenów na krok)

Multi-Token Prediction (MTP) zmienia to, dodając dodatkowe głowice predykcyjne do modelu. Zamiast przewidywać tylko następny token, model przewiduje tokeny N+1, N+2, N+3 i dalsze — wszystko w jednym przebiegu forward.

Oto jak to działa:

Faza treningu: Dodatkowe lekkie głowice predykcyjne są trenowane równolegle z modelem głównym. Każda głowica uczy się przewidywać inną przyszłą pozycję (1 do przodu, 2 do przodu, 3 do przodu itd.)
Faza inferencji: Dodatkowe głowice generują tokeny „draft" równolegle. Model główny następnie weryfikuje je wszystkie w jednym przebiegu forward.
Weryfikacja: Jeśli tokeny draft pasują do tego, co model główny by wygenerował, wszystkie są akceptowane jednocześnie — pomijając wiele sekwencyjnych kroków dekodowania. Jeśli token draft jest błędny, generowanie wraca do tej pozycji.

Jest to ściśle powiązane ze speculative decoding, ale z kluczową przewagą: tokeny draft pochodzą z samego modelu, zamiast wymagać oddzielnego, mniejszego „modelu draft".

Diagram architektury pokazujący, jak głowice MTP są podłączone do głównego modelu transformer w celu jednoczesnego generowania wielu tokenów draft

O ile szybsze jest MTP?

Przyspieszenie zależy od tego, jak często tokeny draft są poprawne (tzw. „współczynnik akceptacji"). DeepSeek V3 zademonstrował realny wpływ:

Metryka	Wartość
Średnia długość akceptacji	2,4 tokena na krok weryfikacji
Przyspieszenie inferencji	Średnio 1,8x (do 2,1x w szczycie)
Wpływ na jakość wyników	Zerowy — wszystkie tokeny weryfikowane przez model główny

Współczynnik akceptacji 2,4 oznacza, że średnio każdy przebieg forward przez model główny produkuje 2,4 tokena zamiast 1. Wynik jest matematycznie identyczny ze standardowym dekodowaniem — każdy token jest weryfikowany. Otrzymujesz tę samą jakość przy prawie dwukrotnie większej szybkości.

Co się stało z Gemma 4

Użytkownik HuggingFace (@shadowlilac ) odkrył, że pakiet LiteRT od Google dla Gemma 4 zawiera głowice MTP i funkcjonalność multi-token prediction. Ale publicznie wydane wagi na HuggingFace nie zawierają nic z tego.

Komponenty MTP zostały celowo usunięte:

Brak głowic MTP w checkpoint
Brak MTP w konfiguracji modelu
Brak MTP w przebiegu forward

Diagram pokazujący, że trening Gemma 4 obejmował głowice MTP, ale publiczna wersja na HuggingFace ma je usunięte, podczas gdy wersja LiteRT od Google je zachowuje

Wyjaśnienie Google

Inżynier Google (@srikanta-221 ) potwierdził, że było to celowe:

Publiczny model udostępnia jedynie standardowy interfejs autoregresyjny „dla szerokiej kompatybilności". Głowice MTP są wykluczone z konfiguracji modelu, przebiegu forward i checkpoint. Zapewnia to kompatybilność z API HuggingFace Transformers i utrzymuje spójne zachowanie checkpoint i runtime.

Google przedstawia MTP jako „optymalizację na etapie wdrożenia", a nie podstawową funkcję modelu. Głowice MTP są zachowane jedynie w modelach eksportowanych do LiteRT — własnego frameworka inferencji Google na urządzeniu.

Dlaczego to jest problem

Wyjaśnienie nie wytrzymuje krytycznej analizy:

1. Model był trenowany z MTP. Możliwość istnieje. Usunięcie jej z wydania to wybór, a nie ograniczenie techniczne.

2. Silniki firm trzecich nie mogą tego zaimplementować. vLLM, llama.cpp, SGLang i inne frameworki inferencji nie mogą używać speculative decoding opartego na MTP bez głowic predykcyjnych. Te silniki obsługują zdecydowaną większość wdrożeń open-source LLM.

3. Użytkownicy dostają wolną wersję. Bez MTP Gemma 4 działa ze standardowymi prędkościami autoregresyjnymi. Różnica w wydajności jest już widoczna w praktyce:

Model	Sprzęt	Szybkość	Uwagi
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Bez MTP, standardowe dekodowanie
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Porównywalny model MoE
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	Problemy z fallbackiem FlashAttention

4. Tworzy to blokadę ekosystemową. Własny framework Google LiteRT dostaje przewagę szybkości. Wszyscy inni dostają wolniejszy model. Jak na wydanie „z otwartymi wagami" na licencji Apache 2.0, jest to znacząca asymetria.

Jak działa speculative decoding (i dlaczego MTP jest lepsze)

Aby zrozumieć, dlaczego brakujące głowice MTP mają znaczenie, warto zobaczyć, gdzie MTP mieści się w ewolucji optymalizacji inferencji.

Porównanie trzech podejść do speculative decoding: tradycyjnego (oddzielny model draft), spekulatywno-spekulatywnego i MTP (wbudowane głowice predykcyjne)

Podejście 1: Tradycyjne speculative decoding

Oddzielny, mniejszy „model draft" proponuje tokeny. Model główny weryfikuje je równolegle. Jeśli tokeny draft są poprawne, wiele tokenów jest akceptowanych w jednym kroku.

Zalety: Działa z dowolną parą modeli
Wady: Wymaga utrzymywania i ładowania drugiego modelu; jakość modelu draft ogranicza przyspieszenie; dodatkowe obciążenie pamięci

Podejście 2: MTP (wbudowane głowice predykcyjne)

Model główny ma własne lekkie głowice predykcyjne, które generują tokeny draft. Nie potrzeba oddzielnego modelu.

Zalety: Brak potrzeby dodatkowego modelu; ściślejsza integracja oznacza wyższe współczynniki akceptacji; niższe obciążenie pamięci
Wady: Działa tylko wtedy, gdy głowice predykcyjne są dołączone do wydania

Dlaczego MTP wygrywa

Głowice MTP są trenowane równolegle z modelem głównym. Współdzielą te same wewnętrzne reprezentacje i uczą się własnego rozkładu tokenów modelu. Zwykle daje to wyższe współczynniki akceptacji niż zewnętrzny model draft, co oznacza więcej tokenów akceptowanych na krok weryfikacji i szybsze generowanie ogólnie.

Głowice predykcyjne są też małe — zwykle dodają tylko 1-3% do całkowitej liczby parametrów modelu. Obciążenie pamięci jest znikome w porównaniu z ładowaniem oddzielnego modelu draft.

Szerszy wpływ

Nie chodzi tylko o Gemma 4. Ta decyzja ustanawia precedens dla tego, jak naprawdę „otwarte" są wydania z otwartymi wagami.

Co tracą użytkownicy:

Speculative decoding oparte na MTP na dowolnym silniku inferencji firm trzecich
Możliwość dostrajania lub eksperymentowania z głowicami MTP
Parytetu wydajności z własnymi narzędziami wdrożeniowymi Google

Co użytkownicy nadal mają:

Bazowe wagi modelu (które są naprawdę dobre)
Tradycyjne speculative decoding z użyciem oddzielnego modelu draft (issue vLLM #38893 śledzi wsparcie Eagle3 dla Gemma 4)
Standardowe techniki kwantyzacji i optymalizacji

Reakcja społeczności była bezpośrednia. Konsensus po 24 godzinach był taki, że wyniki benchmarków Gemma 4 są konkurencyjne — dorównuje lub nieznacznie ustępuje Qwen 3.5 — ale produkt „nie jest ukończony". Szybkość, stabilność i narzędzia wymagają pracy. Dodatkowe problemy obejmują początkowo brak wsparcia architektury Gemma 4 w HuggingFace Transformers, PEFT nieobsługujący nowych typów warstw oraz crashe na Macach przy ładowaniu większych modeli.

Co możesz zrobić?

Jeśli oceniasz Gemma 4 pod kątem wdrożenia, oto praktyczne opcje:

Użyj tradycyjnego speculative decoding. Zewnętrzne modele draft nadal mogą przyspieszyć inferencję Gemma 4. Frameworki takie jak vLLM dodają wsparcie Eagle3 speculative decoding specjalnie dla Gemma 4. Przyspieszenie nie dorówna wbudowanemu MTP, ale jest lepsze niż nic.

Rozważ alternatywy dla zadań wrażliwych na szybkość. Qwen 3.5 zapewnia znacząco więcej tokenów na sekundę na równoważnym sprzęcie. Jeśli szybkość inferencji jest Twoim głównym ograniczeniem, Qwen obecnie oferuje lepszy stosunek szybkości do jakości.

Obserwuj obejścia społeczności. Eksporty LiteRT zawierają głowice MTP. Badacze mogą znaleźć sposoby na ich wyodrębnienie i ponowne podłączenie do wag HuggingFace, choć Google oficjalnie nie wspiera tej ścieżki.

Zgłaszaj opinię. Inżynierowie Google aktywnie monitorują wątki dyskusyjne na HuggingFace. Jasne, techniczne prośby o udostępnienie głowic MTP mają znaczenie.

Podsumowanie

Gemma 4 to rodzina zdolnych modeli z prawdziwymi innowacjami architektonicznymi i mocnymi wynikami benchmarków. Decyzja o usunięciu głowic MTP z publicznego wydania — przy jednoczesnym zachowaniu ich we własnym frameworku LiteRT od Google — podważa „otwartość" w otwartych wagach.

MTP to nie drobna optymalizacja. Może zapewnić przyspieszenie inferencji o 1,5–2x bez żadnego wpływu na jakość wyników. Wstrzymanie tego z publicznych wag, podczas gdy model był wyraźnie z tym trenowany, tworzy system dwóch poziomów: szybka inferencja dla narzędzi Google, wolna inferencja dla wszystkich innych.

Dla społeczności open-source AI przekaz jest jasny: sprawdzaj, co faktycznie znajduje się w wagach, a nie tylko benchmarki. Otwarta licencja nie zawsze oznacza otwarte wydanie.

Zbudowane z FlowHunt . Bądź na bieżąco z najnowszymi wydarzeniami w open-source AI na naszym blogu .

Najczęściej zadawane pytania

: Multi-Token Prediction to technika, w której LLM przewiduje wiele przyszłych tokenów w jednym przebiegu forward zamiast jednego tokena na raz. Dodatkowe głowice predykcyjne są trenowane równolegle z modelem głównym, aby generować tokeny N+1, N+2, N+3 itd. jednocześnie, które następnie mogą być weryfikowane równolegle przez model główny. Umożliwia to przyspieszenie inferencji o 1,5–2x bez utraty jakości wyników.
: Gemma 4 była trenowana z głowicami MTP i są one obecne w eksportach Google LiteRT (inferencja na urządzeniu). Jednak publicznie wydane wagi na HuggingFace mają głowice MTP celowo usunięte. Google twierdzi, że zrobiono to dla 'szerokiej kompatybilności' z istniejącymi frameworkami inferencji.
: Bez głowic MTP silniki inferencji firm trzecich, takie jak vLLM, llama.cpp i SGLang, nie mogą używać wbudowanego speculative decoding dla Gemma 4. Użytkownicy są skazani na standardowe generowanie autoregresyjne, które jest znacząco wolniejsze. Benchmarki pokazują, że Gemma 4 generuje zaledwie 11 tokenów/s na sprzęcie, na którym porównywalne modele osiągają 60+ tokenów/s.
: Speculative decoding to technika przyspieszania inferencji, w której szybki model 'draft' proponuje wiele tokenów naraz, a model główny weryfikuje je w jednym przebiegu forward. Jeśli zaproponowane tokeny są poprawne, wiele kroków dekodowania jest efektywnie pomijanych. MTP to wariant, w którym tokeny draft pochodzą z własnych wbudowanych głowic predykcyjnych modelu, a nie z oddzielnego modelu.
: Na kwiecień 2026 roku Google nie ogłosił planów udostępnienia głowic MTP dla wag na HuggingFace. Obecnie są one dostępne wyłącznie w modelach eksportowanych do LiteRT, co ogranicza ich użycie do frameworka inferencji Google. Społeczność nadal domaga się ich udostępnienia.

Twórz workflow AI z najlepszymi modelami

FlowHunt pozwala budować zautomatyzowane pipeline'y AI z wykorzystaniem API w chmurze i modeli open-source — z pełną kontrolą nad szybkością, kosztami i jakością.

Rozpocznij Czytaj więcej

Dowiedz się więcej

Fine-tuning Gemma 4 na Apple Silicon: Czy może zastąpić Claude Sonnet do generowania treści?

Dostroiliśmy model Gemma 4 31B firmy Google na MacBook Pro M3 Max, aby generować artykuły sportowe. Oto jak wypadł w porównaniu z Claude Sonnet pod względem jak...

Apr 6, 2026 10 min czytania

AI LLM +6

Czym jest Google Gemini AI Chatbot?

Dowiedz się, czym jest Google Gemini, jak działa i jak wypada w porównaniu z ChatGPT. Poznaj jego multimodalne możliwości, ceny oraz zastosowania w praktyce na ...

Dec 1, 2025 10 min czytania

Agenci AI: Jak myśli GPT 4o

Poznaj procesy myślowe agentów AI w kompleksowej ocenie GPT-4o. Odkryj, jak radzi sobie z zadaniami takimi jak generowanie treści, rozwiązywanie problemów i pis...

May 30, 2025 7 min czytania

AI GPT-4o +6

Gemma 4 została wydana bez danych MTP — dlaczego to ma znaczenie

Czym jest Gemma 4?