O que é Multi-Token Prediction (MTP)?

Multi-Token Prediction é uma técnica onde um LLM prevê múltiplos tokens futuros em uma única passagem forward, em vez de um token por vez. Cabeçalhos de previsão adicionais são treinados junto com o modelo principal para gerar rascunhos dos tokens N+1, N+2, N+3, etc. simultaneamente, que podem então ser verificados em paralelo pelo modelo principal. Isso permite acelerações de 1,5–2x na inferência sem perda na qualidade da saída.

O Gemma 4 suporta MTP?

O Gemma 4 foi treinado com cabeçalhos de previsão MTP, e eles estão presentes nas exportações LiteRT (inferência no dispositivo) do Google. No entanto, os pesos publicados no HuggingFace tiveram os cabeçalhos MTP deliberadamente removidos. O Google afirma que isso foi feito para 'ampla compatibilidade' com frameworks de inferência existentes.

Por que a remoção dos cabeçalhos MTP é importante?

Sem os cabeçalhos MTP, motores de inferência de terceiros como vLLM, llama.cpp e SGLang não conseguem usar speculative decoding integrado para o Gemma 4. Os usuários ficam limitados à geração autorregressiva padrão, que é significativamente mais lenta. Benchmarks mostram o Gemma 4 gerando apenas 11 tokens/seg em hardware onde modelos comparáveis atingem mais de 60 tokens/seg.

O que é speculative decoding?

Speculative decoding é uma técnica de aceleração de inferência onde um modelo 'rascunho' rápido propõe múltiplos tokens de uma vez, e o modelo principal os verifica em uma única passagem forward. Se os tokens rascunho estiverem corretos, múltiplos passos de decodificação são efetivamente pulados. MTP é uma variante onde os tokens rascunho vêm dos próprios cabeçalhos de previsão integrados do modelo, em vez de um modelo separado.

O Google vai liberar os cabeçalhos MTP do Gemma 4?

Até abril de 2026, o Google não anunciou planos para liberar os cabeçalhos de previsão MTP para os pesos no HuggingFace. Eles estão disponíveis atualmente apenas nos modelos exportados via LiteRT, o que limita seu uso ao próprio framework de inferência do Google. A comunidade continua solicitando sua liberação.

Automação de IA

Gemma 4 Foi Lançado Sem Dados MTP — Veja Por Que Isso Importa

O Google removeu os cabeçalhos de MTP do lançamento público do Gemma 4, mantendo-os apenas no seu próprio framework LiteRT. Veja o que isso significa para a velocidade de inferência e a IA open-source.

AI LLM Gemma Open Source

Comece Agora Saiba Mais

O Google lançou o Gemma 4 em 3 de abril de 2026 — uma família de modelos com pesos abertos, resultados fortes em benchmarks, capacidades multimodais e até 256K de contexto. No papel, é um lançamento impressionante. Mas em poucas horas, a comunidade descobriu algo faltando: os cabeçalhos de Multi-Token Prediction tinham sido removidos dos pesos públicos.

O modelo foi treinado com MTP. O próprio framework LiteRT do Google inclui os componentes MTP. Mas a versão que todos podem baixar do HuggingFace? Apenas geração autorregressiva padrão. Sem ganho de velocidade. Sem speculative decoding.

Este artigo explica o que é MTP, por que é importante e o que essa decisão significa para quem roda o Gemma 4 em seu próprio hardware.

O Que É o Gemma 4?

Gemma 4 é a mais recente família de modelos com pesos abertos do Google DeepMind, lançada sob a licença Apache 2.0. Vem em quatro tamanhos:

Modelo	Parâmetros	Tipo	Características Notáveis
Gemma 4 E2B	2,3B efetivos	Denso	Visão + Áudio
Gemma 4 E4B	4,5B efetivos	Denso	Visão + Áudio
Gemma 4 26B-A4B	26B total / 4B ativos	Mixture of Experts	Visão
Gemma 4 31B	31B	Denso	Visão

As principais capacidades incluem suporte multimodal nativo, chamada de funções, saída JSON estruturada e treinamento em mais de 140 idiomas. A variante 31B ocupa a 3ª posição no leaderboard de texto do LMArena.

Por baixo do capô, o Gemma 4 introduz diversas inovações arquiteturais: camadas alternadas de atenção local com janela deslizante e atenção global, RoPE proporcional (p-RoPE), Per-Layer Embeddings (PLE), cache KV compartilhado e uma otimização de memória “Keys equal Values”.

Pelos números, é um lançamento forte. O problema é o que não está nos pesos públicos.

O Que É Multi-Token Prediction?

Modelos de linguagem grandes padrão geram texto um token por vez. Cada token requer uma passagem forward completa pelo modelo. O próximo token não pode começar até que o anterior esteja completo. Isso é a decodificação autorregressiva, e é inerentemente sequencial.

Diagrama comparando a decodificação autorregressiva padrão (um token por passo) com Multi-Token Prediction (múltiplos tokens por passo)

Multi-Token Prediction (MTP) muda isso adicionando cabeçalhos de previsão extras ao modelo. Em vez de prever apenas o próximo token, o modelo prevê os tokens N+1, N+2, N+3, e assim por diante — tudo em uma única passagem forward.

Veja como funciona:

Fase de treinamento: Cabeçalhos de previsão leves adicionais são treinados junto com o modelo principal. Cada cabeçalho aprende a prever uma posição futura diferente (1 à frente, 2 à frente, 3 à frente, etc.)
Fase de inferência: Os cabeçalhos extras geram tokens “rascunho” em paralelo. O modelo principal então verifica todos eles em uma única passagem forward.
Verificação: Se os tokens rascunho correspondem ao que o modelo principal teria gerado, todos são aceitos de uma vez — pulando múltiplos passos sequenciais de decodificação. Se um token rascunho estiver errado, a geração recomeça a partir daquela posição.

Isso está intimamente relacionado ao speculative decoding, mas com uma vantagem chave: os tokens rascunho vêm do próprio modelo, em vez de exigir um modelo “rascunho” separado e menor.

Diagrama de arquitetura mostrando como os cabeçalhos de previsão MTP se conectam ao modelo transformer principal para gerar múltiplos tokens rascunho simultaneamente

Quanto Mais Rápido É o MTP?

A aceleração depende de quantas vezes os tokens rascunho estão corretos (a “taxa de aceitação”). O DeepSeek V3 demonstrou o impacto no mundo real:

Métrica	Valor
Comprimento médio de aceitação	2,4 tokens por passo de verificação
Aceleração na inferência	1,8x em média (até 2,1x no pico)
Impacto na qualidade da saída	Zero — todos os tokens verificados pelo modelo principal

Uma taxa de aceitação de 2,4 significa que, em média, cada passagem forward pelo modelo principal produz 2,4 tokens em vez de 1. A saída é matematicamente idêntica à decodificação padrão — cada token é verificado. Você obtém a mesma qualidade com quase o dobro da velocidade.

O Que Aconteceu com o Gemma 4

Um usuário do HuggingFace (@shadowlilac ) descobriu que o pacote LiteRT do Google para o Gemma 4 contém cabeçalhos de previsão MTP e funcionalidade de multi-token prediction. Mas os pesos publicados no HuggingFace não têm nada disso.

Os componentes MTP foram deliberadamente removidos:

Sem cabeçalhos MTP no checkpoint
Sem MTP na configuração do modelo
Sem MTP na passagem forward

Diagrama mostrando que o treinamento do Gemma 4 incluiu cabeçalhos MTP, mas o lançamento público no HuggingFace os removeu enquanto a versão LiteRT do Google os mantém

A Explicação do Google

Um engenheiro do Google (@srikanta-221 ) confirmou que isso foi intencional:

O modelo público expõe apenas uma interface autorregressiva padrão “para ampla compatibilidade”. Os cabeçalhos MTP são excluídos da configuração do modelo, da passagem forward e do checkpoint. Isso garante compatibilidade com as APIs do HuggingFace Transformers e mantém comportamento consistente do checkpoint e do runtime.

O Google enquadra o MTP como uma “otimização em tempo de implantação” em vez de uma funcionalidade central do modelo. Os cabeçalhos de previsão MTP são preservados apenas nos modelos exportados via LiteRT — o próprio framework de inferência no dispositivo do Google.

Por Que Isso É um Problema

A explicação não resiste a uma análise mais cuidadosa:

1. O modelo foi treinado com MTP. A capacidade existe. Removê-la do lançamento é uma escolha, não uma limitação técnica.

2. Motores de terceiros não conseguem implementá-lo. vLLM, llama.cpp, SGLang e outros frameworks de inferência não conseguem usar speculative decoding baseado em MTP sem os cabeçalhos de previsão. Esses motores atendem a grande maioria das implantações de LLM open-source.

3. Os usuários recebem a versão lenta. Sem MTP, o Gemma 4 roda na velocidade autorregressiva padrão. A diferença de desempenho já é visível na prática:

Modelo	Hardware	Velocidade	Observações
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Sem MTP, decodificação padrão
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Modelo MoE comparável
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	Problemas de fallback com FlashAttention

4. Cria dependência do ecossistema. O próprio framework LiteRT do Google obtém a vantagem de velocidade. Todos os outros recebem um modelo mais lento. Para um lançamento “pesos abertos” Apache 2.0, essa é uma assimetria significativa.

Como Funciona o Speculative Decoding (e Por Que o MTP É Melhor)

Para entender por que os cabeçalhos MTP ausentes são importantes, é útil ver onde o MTP se encaixa na evolução da otimização de inferência.

Comparação de três abordagens de speculative decoding: tradicional (modelo rascunho separado), especulativo-especulativo e MTP (cabeçalhos de previsão integrados)

Abordagem 1: Speculative Decoding Tradicional

Um modelo “rascunho” separado e menor propõe tokens. O modelo principal os verifica em paralelo. Se os rascunhos estiverem corretos, múltiplos tokens são aceitos por passo.

Prós: Funciona com qualquer par de modelos
Contras: Requer manter e carregar um segundo modelo; a qualidade do modelo rascunho limita a aceleração; sobrecarga extra de memória

Abordagem 2: MTP (Cabeçalhos de Previsão Integrados)

O modelo principal tem seus próprios cabeçalhos de previsão leves que geram tokens rascunho. Nenhum modelo separado necessário.

Prós: Sem necessidade de modelo extra; integração mais forte significa taxas de aceitação mais altas; menor sobrecarga de memória
Contras: Só funciona se os cabeçalhos de previsão estiverem incluídos no lançamento

Por Que o MTP Vence

Os cabeçalhos de previsão MTP são treinados junto com o modelo principal. Eles compartilham as mesmas representações internas e aprendem a própria distribuição de tokens do modelo. Isso normalmente produz taxas de aceitação mais altas do que um modelo rascunho externo, o que significa mais tokens aceitos por passo de verificação e geração mais rápida no geral.

Os cabeçalhos de previsão também são pequenos — normalmente adicionando apenas 1-3% à contagem total de parâmetros do modelo. A sobrecarga de memória é desprezível comparada a carregar um modelo rascunho separado.

O Impacto Mais Amplo

Isso não é apenas sobre o Gemma 4. A decisão estabelece um precedente sobre quão “abertos” os lançamentos de pesos abertos realmente são.

O que os usuários perdem:

Speculative decoding baseado em MTP em qualquer motor de inferência de terceiros
A capacidade de fazer fine-tune ou experimentar com os cabeçalhos MTP
Paridade de desempenho com as próprias ferramentas de implantação do Google

O que os usuários ainda têm:

Os pesos base do modelo (que são genuinamente bons)
Speculative decoding tradicional usando um modelo rascunho separado (a issue #38893 do vLLM acompanha o suporte Eagle3 para o Gemma 4)
Técnicas padrão de quantização e otimização

A resposta da comunidade foi direta. O consenso em 24 horas foi que os resultados de benchmark do Gemma 4 são competitivos — empata com ou fica ligeiramente atrás do Qwen 3.5 — mas o produto “não está finalizado”. Velocidade, estabilidade e ferramentas precisam de trabalho. Problemas adicionais incluem o HuggingFace Transformers inicialmente sem suporte à arquitetura Gemma 4, o PEFT não lidando com os novos tipos de camadas e usuários de Mac enfrentando travamentos ao carregar modelos maiores.

O Que Você Pode Fazer?

Se você está avaliando o Gemma 4 para implantação, aqui estão opções práticas:

Use speculative decoding tradicional. Modelos rascunho externos ainda podem acelerar a inferência do Gemma 4. Frameworks como vLLM estão adicionando suporte a speculative decoding Eagle3 especificamente para o Gemma 4. A aceleração não vai igualar o MTP integrado, mas é melhor do que nada.

Considere alternativas para cargas de trabalho críticas em velocidade. O Qwen 3.5 entrega significativamente mais tokens por segundo em hardware equivalente. Se a velocidade de inferência é sua principal restrição, o Qwen atualmente oferece uma melhor relação velocidade-qualidade.

Fique de olho em soluções da comunidade. As exportações LiteRT contêm os cabeçalhos MTP. Pesquisadores podem encontrar formas de extraí-los e reintegrá-los aos pesos do HuggingFace, embora o Google não tenha oficialmente apoiado esse caminho.

Dê seu feedback. Os engenheiros do Google estão monitorando ativamente os fóruns de discussão do HuggingFace. Solicitações claras e técnicas pela liberação dos cabeçalhos MTP têm peso.

Conclusão

O Gemma 4 é uma família de modelos capaz, com inovações arquiteturais genuínas e resultados fortes em benchmarks. A decisão de remover os cabeçalhos de previsão MTP do lançamento público — mantendo-os no próprio framework LiteRT do Google — prejudica o “aberto” em pesos abertos.

MTP não é uma otimização menor. Pode entregar acelerações de 1,5–2x na inferência sem nenhum impacto na qualidade da saída. Reter isso dos pesos públicos enquanto o modelo foi claramente treinado com essa funcionalidade cria um sistema de dois níveis: inferência rápida para as ferramentas do Google, inferência lenta para todos os outros.

Para a comunidade de IA open-source, a mensagem é clara: verifique o que realmente está nos pesos, não apenas nos benchmarks. Uma licença aberta nem sempre significa um lançamento aberto.

Construído com FlowHunt . Fique por dentro dos últimos desenvolvimentos em IA open-source no nosso blog .

Perguntas frequentes

: Multi-Token Prediction é uma técnica onde um LLM prevê múltiplos tokens futuros em uma única passagem forward, em vez de um token por vez. Cabeçalhos de previsão adicionais são treinados junto com o modelo principal para gerar rascunhos dos tokens N+1, N+2, N+3, etc. simultaneamente, que podem então ser verificados em paralelo pelo modelo principal. Isso permite acelerações de 1,5–2x na inferência sem perda na qualidade da saída.
: O Gemma 4 foi treinado com cabeçalhos de previsão MTP, e eles estão presentes nas exportações LiteRT (inferência no dispositivo) do Google. No entanto, os pesos publicados no HuggingFace tiveram os cabeçalhos MTP deliberadamente removidos. O Google afirma que isso foi feito para 'ampla compatibilidade' com frameworks de inferência existentes.
: Sem os cabeçalhos MTP, motores de inferência de terceiros como vLLM, llama.cpp e SGLang não conseguem usar speculative decoding integrado para o Gemma 4. Os usuários ficam limitados à geração autorregressiva padrão, que é significativamente mais lenta. Benchmarks mostram o Gemma 4 gerando apenas 11 tokens/seg em hardware onde modelos comparáveis atingem mais de 60 tokens/seg.
: Speculative decoding é uma técnica de aceleração de inferência onde um modelo 'rascunho' rápido propõe múltiplos tokens de uma vez, e o modelo principal os verifica em uma única passagem forward. Se os tokens rascunho estiverem corretos, múltiplos passos de decodificação são efetivamente pulados. MTP é uma variante onde os tokens rascunho vêm dos próprios cabeçalhos de previsão integrados do modelo, em vez de um modelo separado.
: Até abril de 2026, o Google não anunciou planos para liberar os cabeçalhos de previsão MTP para os pesos no HuggingFace. Eles estão disponíveis atualmente apenas nos modelos exportados via LiteRT, o que limita seu uso ao próprio framework de inferência do Google. A comunidade continua solicitando sua liberação.

Construa Workflows de IA com os Melhores Modelos

O FlowHunt permite construir pipelines de IA automatizados usando APIs na nuvem e modelos open-source — com controle total sobre velocidade, custo e qualidade.

Comece Agora Saiba Mais

Saiba mais

Fine-Tuning Gemma 4 no Apple Silicon: Pode Substituir Claude Sonnet para Geração de Conteúdo?

Fizemos fine-tuning do modelo Gemma 4 31B do Google em um MacBook Pro M3 Max para gerar artigos de esportes. Aqui está como se comparou ao Claude Sonnet em qual...

Apr 6, 2026 12 min de leitura

AI LLM +6

O que é o Google Gemini AI Chatbot?

Descubra o que é o Google Gemini, como funciona e como se compara ao ChatGPT. Conheça suas capacidades multimodais, preços e aplicações reais para 2025.

Dec 1, 2025 13 min de leitura

Gemini 3 Flash: O Modelo de IA Revolucionário Que Supera o Pro por uma Fração do Custo

Descubra por que o Gemini 3 Flash do Google está revolucionando a IA com desempenho superior, custos menores e velocidades mais rápidas — superando até mesmo o ...

Dec 22, 2025 18 min de leitura

AI Models Google Gemini +3

Gemma 4 Foi Lançado Sem Dados MTP — Veja Por Que Isso Importa

O Que É o Gemma 4?