Gemma 4 Foi Lançado Sem Dados MTP — Veja Por Que Isso Importa
O Google removeu os cabeçalhos de MTP do lançamento público do Gemma 4, mantendo-os apenas no seu próprio framework LiteRT. Veja o que isso significa para a velocidade de inferência e a IA open-source.
AI
LLM
Gemma
Open Source
Inference
Multi-Token Prediction
O Google lançou o Gemma 4 em 3 de abril de 2026 — uma família de modelos com pesos abertos, resultados fortes em benchmarks, capacidades multimodais e até 256K de contexto. No papel, é um lançamento impressionante. Mas em poucas horas, a comunidade descobriu algo faltando: os cabeçalhos de Multi-Token Prediction tinham sido removidos dos pesos públicos.
O modelo foi treinado com MTP. O próprio framework LiteRT do Google inclui os componentes MTP. Mas a versão que todos podem baixar do HuggingFace? Apenas geração autorregressiva padrão. Sem ganho de velocidade. Sem speculative decoding.
Este artigo explica o que é MTP, por que é importante e o que essa decisão significa para quem roda o Gemma 4 em seu próprio hardware.
O Que É o Gemma 4?
Gemma 4 é a mais recente família de modelos com pesos abertos do Google DeepMind, lançada sob a licença Apache 2.0. Vem em quatro tamanhos:
Modelo
Parâmetros
Tipo
Características Notáveis
Gemma 4 E2B
2,3B efetivos
Denso
Visão + Áudio
Gemma 4 E4B
4,5B efetivos
Denso
Visão + Áudio
Gemma 4 26B-A4B
26B total / 4B ativos
Mixture of Experts
Visão
Gemma 4 31B
31B
Denso
Visão
As principais capacidades incluem suporte multimodal nativo, chamada de funções, saída JSON estruturada e treinamento em mais de 140 idiomas. A variante 31B ocupa a 3ª posição no leaderboard de texto do LMArena.
Por baixo do capô, o Gemma 4 introduz diversas inovações arquiteturais: camadas alternadas de atenção local com janela deslizante e atenção global, RoPE proporcional (p-RoPE), Per-Layer Embeddings (PLE), cache KV compartilhado e uma otimização de memória “Keys equal Values”.
Pelos números, é um lançamento forte. O problema é o que não está nos pesos públicos.
O Que É Multi-Token Prediction?
Modelos de linguagem grandes padrão geram texto um token por vez. Cada token requer uma passagem forward completa pelo modelo. O próximo token não pode começar até que o anterior esteja completo. Isso é a decodificação autorregressiva, e é inerentemente sequencial.
Multi-Token Prediction (MTP) muda isso adicionando cabeçalhos de previsão extras ao modelo. Em vez de prever apenas o próximo token, o modelo prevê os tokens N+1, N+2, N+3, e assim por diante — tudo em uma única passagem forward.
Veja como funciona:
Fase de treinamento: Cabeçalhos de previsão leves adicionais são treinados junto com o modelo principal. Cada cabeçalho aprende a prever uma posição futura diferente (1 à frente, 2 à frente, 3 à frente, etc.)
Fase de inferência: Os cabeçalhos extras geram tokens “rascunho” em paralelo. O modelo principal então verifica todos eles em uma única passagem forward.
Verificação: Se os tokens rascunho correspondem ao que o modelo principal teria gerado, todos são aceitos de uma vez — pulando múltiplos passos sequenciais de decodificação. Se um token rascunho estiver errado, a geração recomeça a partir daquela posição.
Isso está intimamente relacionado ao speculative decoding, mas com uma vantagem chave: os tokens rascunho vêm do próprio modelo, em vez de exigir um modelo “rascunho” separado e menor.
Quanto Mais Rápido É o MTP?
A aceleração depende de quantas vezes os tokens rascunho estão corretos (a “taxa de aceitação”). O DeepSeek V3 demonstrou o impacto no mundo real:
Métrica
Valor
Comprimento médio de aceitação
2,4 tokens por passo de verificação
Aceleração na inferência
1,8x em média (até 2,1x no pico)
Impacto na qualidade da saída
Zero — todos os tokens verificados pelo modelo principal
Uma taxa de aceitação de 2,4 significa que, em média, cada passagem forward pelo modelo principal produz 2,4 tokens em vez de 1. A saída é matematicamente idêntica à decodificação padrão — cada token é verificado. Você obtém a mesma qualidade com quase o dobro da velocidade.
Pronto para expandir seu negócio?
Comece seu teste gratuito hoje e veja resultados em dias.
Um usuário do HuggingFace (@shadowlilac
) descobriu que o pacote LiteRT do Google para o Gemma 4 contém cabeçalhos de previsão MTP e funcionalidade de multi-token prediction. Mas os pesos publicados no HuggingFace não têm nada disso.
Os componentes MTP foram deliberadamente removidos:
Sem cabeçalhos MTP no checkpoint
Sem MTP na configuração do modelo
Sem MTP na passagem forward
A Explicação do Google
Um engenheiro do Google (@srikanta-221
) confirmou que isso foi intencional:
O modelo público expõe apenas uma interface autorregressiva padrão “para ampla compatibilidade”. Os cabeçalhos MTP são excluídos da configuração do modelo, da passagem forward e do checkpoint. Isso garante compatibilidade com as APIs do HuggingFace Transformers e mantém comportamento consistente do checkpoint e do runtime.
O Google enquadra o MTP como uma “otimização em tempo de implantação” em vez de uma funcionalidade central do modelo. Os cabeçalhos de previsão MTP são preservados apenas nos modelos exportados via LiteRT — o próprio framework de inferência no dispositivo do Google.
Por Que Isso É um Problema
A explicação não resiste a uma análise mais cuidadosa:
1. O modelo foi treinado com MTP. A capacidade existe. Removê-la do lançamento é uma escolha, não uma limitação técnica.
2. Motores de terceiros não conseguem implementá-lo. vLLM, llama.cpp, SGLang e outros frameworks de inferência não conseguem usar speculative decoding baseado em MTP sem os cabeçalhos de previsão. Esses motores atendem a grande maioria das implantações de LLM open-source.
3. Os usuários recebem a versão lenta. Sem MTP, o Gemma 4 roda na velocidade autorregressiva padrão. A diferença de desempenho já é visível na prática:
Modelo
Hardware
Velocidade
Observações
Gemma 4 26B-A4B
5060 Ti 16GB
11 tok/s
Sem MTP, decodificação padrão
Qwen 3.5 35B-A3B
5060 Ti 16GB
60+ tok/s
Modelo MoE comparável
Gemma 4 E4B
RTX 4090 (vLLM)
~9 tok/s
Problemas de fallback com FlashAttention
4. Cria dependência do ecossistema. O próprio framework LiteRT do Google obtém a vantagem de velocidade. Todos os outros recebem um modelo mais lento. Para um lançamento “pesos abertos” Apache 2.0, essa é uma assimetria significativa.
Como Funciona o Speculative Decoding (e Por Que o MTP É Melhor)
Para entender por que os cabeçalhos MTP ausentes são importantes, é útil ver onde o MTP se encaixa na evolução da otimização de inferência.
Abordagem 1: Speculative Decoding Tradicional
Um modelo “rascunho” separado e menor propõe tokens. O modelo principal os verifica em paralelo. Se os rascunhos estiverem corretos, múltiplos tokens são aceitos por passo.
Prós: Funciona com qualquer par de modelos
Contras: Requer manter e carregar um segundo modelo; a qualidade do modelo rascunho limita a aceleração; sobrecarga extra de memória
Abordagem 2: MTP (Cabeçalhos de Previsão Integrados)
O modelo principal tem seus próprios cabeçalhos de previsão leves que geram tokens rascunho. Nenhum modelo separado necessário.
Prós: Sem necessidade de modelo extra; integração mais forte significa taxas de aceitação mais altas; menor sobrecarga de memória
Contras: Só funciona se os cabeçalhos de previsão estiverem incluídos no lançamento
Por Que o MTP Vence
Os cabeçalhos de previsão MTP são treinados junto com o modelo principal. Eles compartilham as mesmas representações internas e aprendem a própria distribuição de tokens do modelo. Isso normalmente produz taxas de aceitação mais altas do que um modelo rascunho externo, o que significa mais tokens aceitos por passo de verificação e geração mais rápida no geral.
Os cabeçalhos de previsão também são pequenos — normalmente adicionando apenas 1-3% à contagem total de parâmetros do modelo. A sobrecarga de memória é desprezível comparada a carregar um modelo rascunho separado.
Junte-se à nossa newsletter
Receba gratuitamente as últimas dicas, tendências e ofertas.
O Impacto Mais Amplo
Isso não é apenas sobre o Gemma 4. A decisão estabelece um precedente sobre quão “abertos” os lançamentos de pesos abertos realmente são.
O que os usuários perdem:
Speculative decoding baseado em MTP em qualquer motor de inferência de terceiros
A capacidade de fazer fine-tune ou experimentar com os cabeçalhos MTP
Paridade de desempenho com as próprias ferramentas de implantação do Google
O que os usuários ainda têm:
Os pesos base do modelo (que são genuinamente bons)
Speculative decoding tradicional usando um modelo rascunho separado (a issue #38893
do vLLM acompanha o suporte Eagle3 para o Gemma 4)
Técnicas padrão de quantização e otimização
A resposta da comunidade foi direta. O consenso em 24 horas foi que os resultados de benchmark do Gemma 4 são competitivos — empata com ou fica ligeiramente atrás do Qwen 3.5 — mas o produto “não está finalizado”. Velocidade, estabilidade e ferramentas precisam de trabalho. Problemas adicionais incluem o HuggingFace Transformers inicialmente sem suporte à arquitetura Gemma 4, o PEFT não lidando com os novos tipos de camadas e usuários de Mac enfrentando travamentos ao carregar modelos maiores.
O Que Você Pode Fazer?
Se você está avaliando o Gemma 4 para implantação, aqui estão opções práticas:
Use speculative decoding tradicional. Modelos rascunho externos ainda podem acelerar a inferência do Gemma 4. Frameworks como vLLM estão adicionando suporte a speculative decoding Eagle3 especificamente para o Gemma 4. A aceleração não vai igualar o MTP integrado, mas é melhor do que nada.
Considere alternativas para cargas de trabalho críticas em velocidade. O Qwen 3.5 entrega significativamente mais tokens por segundo em hardware equivalente. Se a velocidade de inferência é sua principal restrição, o Qwen atualmente oferece uma melhor relação velocidade-qualidade.
Fique de olho em soluções da comunidade. As exportações LiteRT contêm os cabeçalhos MTP. Pesquisadores podem encontrar formas de extraí-los e reintegrá-los aos pesos do HuggingFace, embora o Google não tenha oficialmente apoiado esse caminho.
Dê seu feedback. Os engenheiros do Google estão monitorando ativamente os fóruns de discussão do HuggingFace. Solicitações claras e técnicas pela liberação dos cabeçalhos MTP têm peso.
Conclusão
O Gemma 4 é uma família de modelos capaz, com inovações arquiteturais genuínas e resultados fortes em benchmarks. A decisão de remover os cabeçalhos de previsão MTP do lançamento público — mantendo-os no próprio framework LiteRT do Google — prejudica o “aberto” em pesos abertos.
MTP não é uma otimização menor. Pode entregar acelerações de 1,5–2x na inferência sem nenhum impacto na qualidade da saída. Reter isso dos pesos públicos enquanto o modelo foi claramente treinado com essa funcionalidade cria um sistema de dois níveis: inferência rápida para as ferramentas do Google, inferência lenta para todos os outros.
Para a comunidade de IA open-source, a mensagem é clara: verifique o que realmente está nos pesos, não apenas nos benchmarks. Uma licença aberta nem sempre significa um lançamento aberto.
Construído com FlowHunt
. Fique por dentro dos últimos desenvolvimentos em IA open-source no nosso blog
.
Perguntas frequentes
Multi-Token Prediction é uma técnica onde um LLM prevê múltiplos tokens futuros em uma única passagem forward, em vez de um token por vez. Cabeçalhos de previsão adicionais são treinados junto com o modelo principal para gerar rascunhos dos tokens N+1, N+2, N+3, etc. simultaneamente, que podem então ser verificados em paralelo pelo modelo principal. Isso permite acelerações de 1,5–2x na inferência sem perda na qualidade da saída.
O Gemma 4 foi treinado com cabeçalhos de previsão MTP, e eles estão presentes nas exportações LiteRT (inferência no dispositivo) do Google. No entanto, os pesos publicados no HuggingFace tiveram os cabeçalhos MTP deliberadamente removidos. O Google afirma que isso foi feito para 'ampla compatibilidade' com frameworks de inferência existentes.
Sem os cabeçalhos MTP, motores de inferência de terceiros como vLLM, llama.cpp e SGLang não conseguem usar speculative decoding integrado para o Gemma 4. Os usuários ficam limitados à geração autorregressiva padrão, que é significativamente mais lenta. Benchmarks mostram o Gemma 4 gerando apenas 11 tokens/seg em hardware onde modelos comparáveis atingem mais de 60 tokens/seg.
Speculative decoding é uma técnica de aceleração de inferência onde um modelo 'rascunho' rápido propõe múltiplos tokens de uma vez, e o modelo principal os verifica em uma única passagem forward. Se os tokens rascunho estiverem corretos, múltiplos passos de decodificação são efetivamente pulados. MTP é uma variante onde os tokens rascunho vêm dos próprios cabeçalhos de previsão integrados do modelo, em vez de um modelo separado.
Até abril de 2026, o Google não anunciou planos para liberar os cabeçalhos de previsão MTP para os pesos no HuggingFace. Eles estão disponíveis atualmente apenas nos modelos exportados via LiteRT, o que limita seu uso ao próprio framework de inferência do Google. A comunidade continua solicitando sua liberação.
Viktor Zeman é co-proprietário da QualityUnit. Mesmo após 20 anos liderando a empresa, ele continua sendo principalmente um engenheiro de software, especializado em IA, SEO programático e desenvolvimento backend. Ele contribuiu para inúmeros projetos, incluindo LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab e muitos outros.
Viktor Zeman
CEO, Engenheiro de IA
Construa Workflows de IA com os Melhores Modelos
O FlowHunt permite construir pipelines de IA automatizados usando APIs na nuvem e modelos open-source — com controle total sobre velocidade, custo e qualidade.
Fine-Tuning Gemma 4 no Apple Silicon: Pode Substituir Claude Sonnet para Geração de Conteúdo?
Fizemos fine-tuning do modelo Gemma 4 31B do Google em um MacBook Pro M3 Max para gerar artigos de esportes. Aqui está como se comparou ao Claude Sonnet em qual...
Descubra o que é o Google Gemini, como funciona e como se compara ao ChatGPT. Conheça suas capacidades multimodais, preços e aplicações reais para 2025.
Gemini 3 Flash: O Modelo de IA Revolucionário Que Supera o Pro por uma Fração do Custo
Descubra por que o Gemini 3 Flash do Google está revolucionando a IA com desempenho superior, custos menores e velocidades mais rápidas — superando até mesmo o ...
18 min de leitura
AI Models
Google Gemini
+3
Consentimento de Cookies Usamos cookies para melhorar sua experiência de navegação e analisar nosso tráfego. See our privacy policy.