Gemma 4 fue lanzado sin datos MTP — Por qué eso importa

AI LLM Gemma Open Source

Google lanzó Gemma 4 el 3 de abril de 2026 — una familia de modelos de pesos abiertos con resultados sólidos en benchmarks, capacidades multimodales y hasta 256K tokens de contexto. Sobre el papel, es un lanzamiento impresionante. Pero en cuestión de horas, la comunidad descubrió algo que faltaba: las cabezas de Multi-Token Prediction habían sido eliminadas de los pesos públicos.

El modelo fue entrenado con MTP. El propio framework LiteRT de Google incluye los componentes MTP. Pero la versión que todos pueden descargar de HuggingFace? Solo generación autorregresiva estándar. Sin aceleración. Sin decodificación especulativa.

Este artículo explica qué es MTP, por qué importa y qué significa esta decisión para cualquiera que ejecute Gemma 4 en su propio hardware.

¿Qué es Gemma 4?

Gemma 4 es la última familia de modelos de pesos abiertos de Google DeepMind, publicada bajo la licencia Apache 2.0. Viene en cuatro tamaños:

ModeloParámetrosTipoCaracterísticas destacadas
Gemma 4 E2B2.3B efectivosDensoVisión + Audio
Gemma 4 E4B4.5B efectivosDensoVisión + Audio
Gemma 4 26B-A4B26B total / 4B activosMixture of ExpertsVisión
Gemma 4 31B31BDensoVisión

Las capacidades clave incluyen soporte multimodal nativo, llamada a funciones, salida JSON estructurada y entrenamiento en más de 140 idiomas. La variante 31B se ubica en el puesto #3 del ranking de texto de LMArena.

Bajo el capó, Gemma 4 introduce varias innovaciones arquitectónicas: capas alternadas de atención local con ventana deslizante y atención global, RoPE proporcional (p-RoPE), Per-Layer Embeddings (PLE), caché KV compartida y una optimización de memoria “Keys equal Values”.

En números, es un lanzamiento sólido. El problema es lo que no está en los pesos públicos.

¿Qué es Multi-Token Prediction?

Los modelos de lenguaje grandes estándar generan texto un token a la vez. Cada token requiere un paso completo hacia adelante a través del modelo. El siguiente token no puede comenzar hasta que el anterior se complete. Esto es la decodificación autorregresiva, y es inherentemente secuencial.

Diagrama comparando la decodificación autorregresiva estándar (un token por paso) con Multi-Token Prediction (múltiples tokens por paso)

Multi-Token Prediction (MTP) cambia esto al agregar cabezas de predicción adicionales al modelo. En lugar de predecir solo el siguiente token, el modelo predice los tokens N+1, N+2, N+3, y así sucesivamente — todo en un solo paso hacia adelante.

Así es como funciona:

  1. Fase de entrenamiento: Se entrenan cabezas de predicción ligeras adicionales junto con el modelo principal. Cada cabeza aprende a predecir una posición futura diferente (1 adelante, 2 adelante, 3 adelante, etc.)
  2. Fase de inferencia: Las cabezas adicionales generan tokens “borrador” en paralelo. El modelo principal luego los verifica todos en un solo paso hacia adelante.
  3. Verificación: Si los tokens borrador coinciden con lo que el modelo principal habría generado, se aceptan todos a la vez — omitiendo múltiples pasos secuenciales de decodificación. Si un token borrador es incorrecto, la generación retrocede a esa posición.

Esto está estrechamente relacionado con la decodificación especulativa, pero con una ventaja clave: los tokens borrador provienen del propio modelo en lugar de requerir un modelo “borrador” separado y más pequeño.

Diagrama de arquitectura mostrando cómo las cabezas de predicción MTP se conectan al modelo transformer principal para generar múltiples tokens borrador simultáneamente

¿Cuánto más rápido es MTP?

La aceleración depende de cuán frecuentemente los tokens borrador son correctos (la “tasa de aceptación”). DeepSeek V3 demostró el impacto en el mundo real:

MétricaValor
Longitud promedio de aceptación2.4 tokens por paso de verificación
Aceleración de inferencia1.8x promedio (hasta 2.1x pico)
Impacto en calidad de salidaCero — todos los tokens verificados por el modelo principal

Una tasa de aceptación de 2.4 significa que, en promedio, cada paso hacia adelante a través del modelo principal produce 2.4 tokens en lugar de 1. La salida es matemáticamente idéntica a la decodificación estándar — cada token es verificado. Obtienes la misma calidad a casi el doble de velocidad.

Logo

¿Listo para hacer crecer tu negocio?

Comienza tu prueba gratuita hoy y ve resultados en días.

Qué pasó con Gemma 4

Un usuario de HuggingFace (@shadowlilac ) descubrió que el paquete LiteRT de Google para Gemma 4 contiene cabezas de predicción MTP y funcionalidad de predicción multi-token. Pero los pesos publicados en HuggingFace no tienen nada de eso.

Los componentes MTP fueron deliberadamente eliminados:

  • Sin cabezas MTP en el checkpoint
  • Sin MTP en la configuración del modelo
  • Sin MTP en el paso hacia adelante
Diagrama mostrando que el entrenamiento de Gemma 4 incluyó cabezas MTP, pero la versión pública de HuggingFace las tiene eliminadas mientras la versión LiteRT de Google las conserva

La explicación de Google

Un ingeniero de Google (@srikanta-221 ) confirmó que esto fue intencional:

El modelo público expone solo una interfaz autorregresiva estándar “para amplia compatibilidad”. Las cabezas MTP están excluidas de la configuración del modelo, el paso hacia adelante y el checkpoint. Esto asegura compatibilidad con las APIs de HuggingFace Transformers y mantiene un comportamiento consistente del checkpoint y el tiempo de ejecución.

Google presenta MTP como una “optimización de tiempo de despliegue” en lugar de una característica central del modelo. Las cabezas de predicción MTP se preservan solo en los modelos exportados con LiteRT — el propio framework de inferencia en dispositivo de Google.

Por qué esto es un problema

La explicación no resiste el escrutinio:

1. El modelo fue entrenado con MTP. La capacidad existe. Eliminarla de la versión pública es una decisión, no una limitación técnica.

2. Los motores de terceros no pueden implementarlo. vLLM, llama.cpp, SGLang y otros frameworks de inferencia no pueden usar decodificación especulativa basada en MTP sin las cabezas de predicción. Estos motores sirven a la gran mayoría de despliegues de LLM de código abierto.

3. Los usuarios obtienen la versión lenta. Sin MTP, Gemma 4 funciona a velocidades autorregresivas estándar. La brecha de rendimiento ya es visible en la práctica:

ModeloHardwareVelocidadNotas
Gemma 4 26B-A4B5060 Ti 16GB11 tok/sSin MTP, decodificación estándar
Qwen 3.5 35B-A3B5060 Ti 16GB60+ tok/sModelo MoE comparable
Gemma 4 E4BRTX 4090 (vLLM)~9 tok/sProblemas de fallback con FlashAttention

4. Crea dependencia del ecosistema. El propio framework LiteRT de Google obtiene la ventaja de velocidad. Todos los demás obtienen un modelo más lento. Para un lanzamiento de pesos abiertos bajo Apache 2.0, esta es una asimetría significativa.

Cómo funciona la decodificación especulativa (y por qué MTP es mejor)

Para entender por qué las cabezas MTP faltantes importan, es útil ver dónde encaja MTP en la evolución de la optimización de inferencia.

Comparación de tres enfoques de decodificación especulativa: tradicional (modelo borrador separado), especulativo-especulativo, y MTP (cabezas de predicción integradas)

Enfoque 1: Decodificación especulativa tradicional

Un modelo “borrador” separado y más pequeño propone tokens. El modelo principal los verifica en paralelo. Si los borradores son correctos, se aceptan múltiples tokens por paso.

  • Ventajas: Funciona con cualquier par de modelos
  • Desventajas: Requiere mantener y cargar un segundo modelo; la calidad del modelo borrador limita la aceleración; sobrecarga de memoria adicional

Enfoque 2: MTP (cabezas de predicción integradas)

El modelo principal tiene sus propias cabezas de predicción ligeras que generan tokens borrador. No se necesita un modelo separado.

  • Ventajas: No se necesita modelo extra; una integración más estrecha significa tasas de aceptación más altas; menor sobrecarga de memoria
  • Desventajas: Solo funciona si las cabezas de predicción están incluidas en la versión publicada

Por qué MTP gana

Las cabezas de predicción MTP se entrenan junto con el modelo principal. Comparten las mismas representaciones internas y aprenden la propia distribución de tokens del modelo. Esto típicamente produce tasas de aceptación más altas que un modelo borrador externo, lo que significa más tokens aceptados por paso de verificación y una generación más rápida en general.

Las cabezas de predicción también son pequeñas — típicamente agregan solo un 1-3% al conteo total de parámetros del modelo. La sobrecarga de memoria es insignificante comparada con cargar un modelo borrador separado.

El impacto más amplio

Esto no se trata solo de Gemma 4. La decisión establece un precedente sobre cuán “abiertos” son realmente los lanzamientos de pesos abiertos.

Lo que los usuarios pierden:

  • Decodificación especulativa basada en MTP en cualquier motor de inferencia de terceros
  • La capacidad de ajustar finamente o experimentar con las cabezas MTP
  • Paridad de rendimiento con las propias herramientas de despliegue de Google

Lo que los usuarios conservan:

  • Los pesos base del modelo (que son genuinamente buenos)
  • Decodificación especulativa tradicional usando un modelo borrador separado (el issue de vLLM #38893 rastrea el soporte de Eagle3 para Gemma 4)
  • Técnicas estándar de cuantización y optimización

La respuesta de la comunidad ha sido directa. El consenso en las primeras 24 horas fue que los resultados de Gemma 4 en benchmarks son competitivos — empata o queda ligeramente por detrás de Qwen 3.5 — pero el producto “no está terminado”. La velocidad, estabilidad y herramientas necesitan trabajo. Problemas adicionales incluyen que HuggingFace Transformers inicialmente carecía de soporte para la arquitectura de Gemma 4, PEFT no maneja los nuevos tipos de capas, y los usuarios de Mac experimentan cuelgues al cargar modelos más grandes.

¿Qué puedes hacer?

Si estás evaluando Gemma 4 para despliegue, aquí hay opciones prácticas:

Usa decodificación especulativa tradicional. Los modelos borrador externos aún pueden acelerar la inferencia de Gemma 4. Frameworks como vLLM están agregando soporte de decodificación especulativa Eagle3 específicamente para Gemma 4. La aceleración no igualará al MTP integrado, pero es mejor que nada.

Considera alternativas para cargas de trabajo donde la velocidad es crítica. Qwen 3.5 ofrece significativamente más tokens por segundo en hardware equivalente. Si la velocidad de inferencia es tu principal restricción, Qwen actualmente ofrece una mejor relación velocidad-calidad.

Vigila las soluciones de la comunidad. Las exportaciones de LiteRT contienen las cabezas MTP. Los investigadores pueden encontrar formas de extraerlas y reincorporarlas a los pesos de HuggingFace, aunque Google no ha dado soporte oficial a este camino.

Proporciona retroalimentación. Los ingenieros de Google están monitoreando activamente los hilos de discusión en HuggingFace. Las solicitudes claras y técnicas para la publicación de las cabezas MTP tienen peso.

Conclusión

Gemma 4 es una familia de modelos capaz con innovaciones arquitectónicas genuinas y resultados sólidos en benchmarks. La decisión de eliminar las cabezas de predicción MTP de la versión pública — mientras se conservan en el propio framework LiteRT de Google — socava lo “abierto” en pesos abiertos.

MTP no es una optimización menor. Puede ofrecer aceleraciones de inferencia de 1.5–2x sin impacto en la calidad de la salida. Retenerlo de los pesos públicos cuando el modelo fue claramente entrenado con él crea un sistema de dos niveles: inferencia rápida para las herramientas de Google, inferencia lenta para todos los demás.

Para la comunidad de IA de código abierto, el mensaje es claro: verifica lo que realmente está en los pesos, no solo los benchmarks. Una licencia abierta no siempre significa un lanzamiento abierto.


Creado con FlowHunt . Mantente al día con los últimos avances en IA de código abierto en nuestro blog .

Preguntas frecuentes

Viktor Zeman es copropietario de QualityUnit. Incluso después de 20 años liderando la empresa, sigue siendo principalmente un ingeniero de software, especializado en IA, SEO programático y desarrollo backend. Ha contribuido a numerosos proyectos, incluidos LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab y muchos otros.

Viktor Zeman
Viktor Zeman
CEO, Ingeniero de IA

Crea flujos de trabajo de IA con los mejores modelos

FlowHunt te permite crear pipelines de IA automatizados usando APIs en la nube y modelos de código abierto — con control total sobre velocidad, costo y calidad.

Saber más

¿Qué es el chatbot de IA Google Gemini?
¿Qué es el chatbot de IA Google Gemini?

¿Qué es el chatbot de IA Google Gemini?

Descubre qué es Google Gemini, cómo funciona y cómo se compara con ChatGPT. Conoce sus capacidades multimodales, precios y aplicaciones reales para 2025.

13 min de lectura
Gemini Flash 2.0: IA con velocidad y precisión
Gemini Flash 2.0: IA con velocidad y precisión

Gemini Flash 2.0: IA con velocidad y precisión

Gemini Flash 2.0 está estableciendo nuevos estándares en IA con un rendimiento mejorado, velocidad y capacidades multimodales. Explora su potencial en aplicacio...

4 min de lectura
AI Gemini Flash 2.0 +4