Automação de IA

Gemma 4 Foi Lançado Sem Dados MTP — Veja Por Que Isso Importa

AI LLM Gemma Open Source

O Google lançou o Gemma 4 em 3 de abril de 2026 — uma família de modelos com pesos abertos, resultados fortes em benchmarks, capacidades multimodais e até 256K de contexto. No papel, é um lançamento impressionante. Mas em poucas horas, a comunidade descobriu algo faltando: os cabeçalhos de Multi-Token Prediction tinham sido removidos dos pesos públicos.

O modelo foi treinado com MTP. O próprio framework LiteRT do Google inclui os componentes MTP. Mas a versão que todos podem baixar do HuggingFace? Apenas geração autorregressiva padrão. Sem ganho de velocidade. Sem speculative decoding.

Este artigo explica o que é MTP, por que é importante e o que essa decisão significa para quem roda o Gemma 4 em seu próprio hardware.

O Que É o Gemma 4?

Gemma 4 é a mais recente família de modelos com pesos abertos do Google DeepMind, lançada sob a licença Apache 2.0. Vem em quatro tamanhos:

ModeloParâmetrosTipoCaracterísticas Notáveis
Gemma 4 E2B2,3B efetivosDensoVisão + Áudio
Gemma 4 E4B4,5B efetivosDensoVisão + Áudio
Gemma 4 26B-A4B26B total / 4B ativosMixture of ExpertsVisão
Gemma 4 31B31BDensoVisão

As principais capacidades incluem suporte multimodal nativo, chamada de funções, saída JSON estruturada e treinamento em mais de 140 idiomas. A variante 31B ocupa a 3ª posição no leaderboard de texto do LMArena.

Por baixo do capô, o Gemma 4 introduz diversas inovações arquiteturais: camadas alternadas de atenção local com janela deslizante e atenção global, RoPE proporcional (p-RoPE), Per-Layer Embeddings (PLE), cache KV compartilhado e uma otimização de memória “Keys equal Values”.

Pelos números, é um lançamento forte. O problema é o que não está nos pesos públicos.

O Que É Multi-Token Prediction?

Modelos de linguagem grandes padrão geram texto um token por vez. Cada token requer uma passagem forward completa pelo modelo. O próximo token não pode começar até que o anterior esteja completo. Isso é a decodificação autorregressiva, e é inerentemente sequencial.

Diagrama comparando a decodificação autorregressiva padrão (um token por passo) com Multi-Token Prediction (múltiplos tokens por passo)

Multi-Token Prediction (MTP) muda isso adicionando cabeçalhos de previsão extras ao modelo. Em vez de prever apenas o próximo token, o modelo prevê os tokens N+1, N+2, N+3, e assim por diante — tudo em uma única passagem forward.

Veja como funciona:

  1. Fase de treinamento: Cabeçalhos de previsão leves adicionais são treinados junto com o modelo principal. Cada cabeçalho aprende a prever uma posição futura diferente (1 à frente, 2 à frente, 3 à frente, etc.)
  2. Fase de inferência: Os cabeçalhos extras geram tokens “rascunho” em paralelo. O modelo principal então verifica todos eles em uma única passagem forward.
  3. Verificação: Se os tokens rascunho correspondem ao que o modelo principal teria gerado, todos são aceitos de uma vez — pulando múltiplos passos sequenciais de decodificação. Se um token rascunho estiver errado, a geração recomeça a partir daquela posição.

Isso está intimamente relacionado ao speculative decoding, mas com uma vantagem chave: os tokens rascunho vêm do próprio modelo, em vez de exigir um modelo “rascunho” separado e menor.

Diagrama de arquitetura mostrando como os cabeçalhos de previsão MTP se conectam ao modelo transformer principal para gerar múltiplos tokens rascunho simultaneamente

Quanto Mais Rápido É o MTP?

A aceleração depende de quantas vezes os tokens rascunho estão corretos (a “taxa de aceitação”). O DeepSeek V3 demonstrou o impacto no mundo real:

MétricaValor
Comprimento médio de aceitação2,4 tokens por passo de verificação
Aceleração na inferência1,8x em média (até 2,1x no pico)
Impacto na qualidade da saídaZero — todos os tokens verificados pelo modelo principal

Uma taxa de aceitação de 2,4 significa que, em média, cada passagem forward pelo modelo principal produz 2,4 tokens em vez de 1. A saída é matematicamente idêntica à decodificação padrão — cada token é verificado. Você obtém a mesma qualidade com quase o dobro da velocidade.

Logo

Pronto para expandir seu negócio?

Comece seu teste gratuito hoje e veja resultados em dias.

O Que Aconteceu com o Gemma 4

Um usuário do HuggingFace (@shadowlilac ) descobriu que o pacote LiteRT do Google para o Gemma 4 contém cabeçalhos de previsão MTP e funcionalidade de multi-token prediction. Mas os pesos publicados no HuggingFace não têm nada disso.

Os componentes MTP foram deliberadamente removidos:

  • Sem cabeçalhos MTP no checkpoint
  • Sem MTP na configuração do modelo
  • Sem MTP na passagem forward
Diagrama mostrando que o treinamento do Gemma 4 incluiu cabeçalhos MTP, mas o lançamento público no HuggingFace os removeu enquanto a versão LiteRT do Google os mantém

A Explicação do Google

Um engenheiro do Google (@srikanta-221 ) confirmou que isso foi intencional:

O modelo público expõe apenas uma interface autorregressiva padrão “para ampla compatibilidade”. Os cabeçalhos MTP são excluídos da configuração do modelo, da passagem forward e do checkpoint. Isso garante compatibilidade com as APIs do HuggingFace Transformers e mantém comportamento consistente do checkpoint e do runtime.

O Google enquadra o MTP como uma “otimização em tempo de implantação” em vez de uma funcionalidade central do modelo. Os cabeçalhos de previsão MTP são preservados apenas nos modelos exportados via LiteRT — o próprio framework de inferência no dispositivo do Google.

Por Que Isso É um Problema

A explicação não resiste a uma análise mais cuidadosa:

1. O modelo foi treinado com MTP. A capacidade existe. Removê-la do lançamento é uma escolha, não uma limitação técnica.

2. Motores de terceiros não conseguem implementá-lo. vLLM, llama.cpp, SGLang e outros frameworks de inferência não conseguem usar speculative decoding baseado em MTP sem os cabeçalhos de previsão. Esses motores atendem a grande maioria das implantações de LLM open-source.

3. Os usuários recebem a versão lenta. Sem MTP, o Gemma 4 roda na velocidade autorregressiva padrão. A diferença de desempenho já é visível na prática:

ModeloHardwareVelocidadeObservações
Gemma 4 26B-A4B5060 Ti 16GB11 tok/sSem MTP, decodificação padrão
Qwen 3.5 35B-A3B5060 Ti 16GB60+ tok/sModelo MoE comparável
Gemma 4 E4BRTX 4090 (vLLM)~9 tok/sProblemas de fallback com FlashAttention

4. Cria dependência do ecossistema. O próprio framework LiteRT do Google obtém a vantagem de velocidade. Todos os outros recebem um modelo mais lento. Para um lançamento “pesos abertos” Apache 2.0, essa é uma assimetria significativa.

Como Funciona o Speculative Decoding (e Por Que o MTP É Melhor)

Para entender por que os cabeçalhos MTP ausentes são importantes, é útil ver onde o MTP se encaixa na evolução da otimização de inferência.

Comparação de três abordagens de speculative decoding: tradicional (modelo rascunho separado), especulativo-especulativo e MTP (cabeçalhos de previsão integrados)

Abordagem 1: Speculative Decoding Tradicional

Um modelo “rascunho” separado e menor propõe tokens. O modelo principal os verifica em paralelo. Se os rascunhos estiverem corretos, múltiplos tokens são aceitos por passo.

  • Prós: Funciona com qualquer par de modelos
  • Contras: Requer manter e carregar um segundo modelo; a qualidade do modelo rascunho limita a aceleração; sobrecarga extra de memória

Abordagem 2: MTP (Cabeçalhos de Previsão Integrados)

O modelo principal tem seus próprios cabeçalhos de previsão leves que geram tokens rascunho. Nenhum modelo separado necessário.

  • Prós: Sem necessidade de modelo extra; integração mais forte significa taxas de aceitação mais altas; menor sobrecarga de memória
  • Contras: Só funciona se os cabeçalhos de previsão estiverem incluídos no lançamento

Por Que o MTP Vence

Os cabeçalhos de previsão MTP são treinados junto com o modelo principal. Eles compartilham as mesmas representações internas e aprendem a própria distribuição de tokens do modelo. Isso normalmente produz taxas de aceitação mais altas do que um modelo rascunho externo, o que significa mais tokens aceitos por passo de verificação e geração mais rápida no geral.

Os cabeçalhos de previsão também são pequenos — normalmente adicionando apenas 1-3% à contagem total de parâmetros do modelo. A sobrecarga de memória é desprezível comparada a carregar um modelo rascunho separado.

O Impacto Mais Amplo

Isso não é apenas sobre o Gemma 4. A decisão estabelece um precedente sobre quão “abertos” os lançamentos de pesos abertos realmente são.

O que os usuários perdem:

  • Speculative decoding baseado em MTP em qualquer motor de inferência de terceiros
  • A capacidade de fazer fine-tune ou experimentar com os cabeçalhos MTP
  • Paridade de desempenho com as próprias ferramentas de implantação do Google

O que os usuários ainda têm:

  • Os pesos base do modelo (que são genuinamente bons)
  • Speculative decoding tradicional usando um modelo rascunho separado (a issue #38893 do vLLM acompanha o suporte Eagle3 para o Gemma 4)
  • Técnicas padrão de quantização e otimização

A resposta da comunidade foi direta. O consenso em 24 horas foi que os resultados de benchmark do Gemma 4 são competitivos — empata com ou fica ligeiramente atrás do Qwen 3.5 — mas o produto “não está finalizado”. Velocidade, estabilidade e ferramentas precisam de trabalho. Problemas adicionais incluem o HuggingFace Transformers inicialmente sem suporte à arquitetura Gemma 4, o PEFT não lidando com os novos tipos de camadas e usuários de Mac enfrentando travamentos ao carregar modelos maiores.

O Que Você Pode Fazer?

Se você está avaliando o Gemma 4 para implantação, aqui estão opções práticas:

Use speculative decoding tradicional. Modelos rascunho externos ainda podem acelerar a inferência do Gemma 4. Frameworks como vLLM estão adicionando suporte a speculative decoding Eagle3 especificamente para o Gemma 4. A aceleração não vai igualar o MTP integrado, mas é melhor do que nada.

Considere alternativas para cargas de trabalho críticas em velocidade. O Qwen 3.5 entrega significativamente mais tokens por segundo em hardware equivalente. Se a velocidade de inferência é sua principal restrição, o Qwen atualmente oferece uma melhor relação velocidade-qualidade.

Fique de olho em soluções da comunidade. As exportações LiteRT contêm os cabeçalhos MTP. Pesquisadores podem encontrar formas de extraí-los e reintegrá-los aos pesos do HuggingFace, embora o Google não tenha oficialmente apoiado esse caminho.

Dê seu feedback. Os engenheiros do Google estão monitorando ativamente os fóruns de discussão do HuggingFace. Solicitações claras e técnicas pela liberação dos cabeçalhos MTP têm peso.

Conclusão

O Gemma 4 é uma família de modelos capaz, com inovações arquiteturais genuínas e resultados fortes em benchmarks. A decisão de remover os cabeçalhos de previsão MTP do lançamento público — mantendo-os no próprio framework LiteRT do Google — prejudica o “aberto” em pesos abertos.

MTP não é uma otimização menor. Pode entregar acelerações de 1,5–2x na inferência sem nenhum impacto na qualidade da saída. Reter isso dos pesos públicos enquanto o modelo foi claramente treinado com essa funcionalidade cria um sistema de dois níveis: inferência rápida para as ferramentas do Google, inferência lenta para todos os outros.

Para a comunidade de IA open-source, a mensagem é clara: verifique o que realmente está nos pesos, não apenas nos benchmarks. Uma licença aberta nem sempre significa um lançamento aberto.


Construído com FlowHunt . Fique por dentro dos últimos desenvolvimentos em IA open-source no nosso blog .

Perguntas frequentes

Viktor Zeman é co-proprietário da QualityUnit. Mesmo após 20 anos liderando a empresa, ele continua sendo principalmente um engenheiro de software, especializado em IA, SEO programático e desenvolvimento backend. Ele contribuiu para inúmeros projetos, incluindo LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab e muitos outros.

Viktor Zeman
Viktor Zeman
CEO, Engenheiro de IA

Construa Workflows de IA com os Melhores Modelos

O FlowHunt permite construir pipelines de IA automatizados usando APIs na nuvem e modelos open-source — com controle total sobre velocidade, custo e qualidade.

Saiba mais

O que é o Google Gemini AI Chatbot?
O que é o Google Gemini AI Chatbot?

O que é o Google Gemini AI Chatbot?

Descubra o que é o Google Gemini, como funciona e como se compara ao ChatGPT. Conheça suas capacidades multimodais, preços e aplicações reais para 2025.

13 min de leitura