Gemma 4 fue lanzado sin datos MTP — Por qué eso importa
Google eliminó las cabezas de predicción MTP de la versión pública de Gemma 4 mientras las mantiene en su propio framework LiteRT. Esto es lo que significa para la velocidad de inferencia y la IA de código abierto.
AI
LLM
Gemma
Open Source
Inference
Multi-Token Prediction
Google lanzó Gemma 4 el 3 de abril de 2026 — una familia de modelos de pesos abiertos con resultados sólidos en benchmarks, capacidades multimodales y hasta 256K tokens de contexto. Sobre el papel, es un lanzamiento impresionante. Pero en cuestión de horas, la comunidad descubrió algo que faltaba: las cabezas de Multi-Token Prediction habían sido eliminadas de los pesos públicos.
El modelo fue entrenado con MTP. El propio framework LiteRT de Google incluye los componentes MTP. Pero la versión que todos pueden descargar de HuggingFace? Solo generación autorregresiva estándar. Sin aceleración. Sin decodificación especulativa.
Este artículo explica qué es MTP, por qué importa y qué significa esta decisión para cualquiera que ejecute Gemma 4 en su propio hardware.
¿Qué es Gemma 4?
Gemma 4 es la última familia de modelos de pesos abiertos de Google DeepMind, publicada bajo la licencia Apache 2.0. Viene en cuatro tamaños:
Modelo
Parámetros
Tipo
Características destacadas
Gemma 4 E2B
2.3B efectivos
Denso
Visión + Audio
Gemma 4 E4B
4.5B efectivos
Denso
Visión + Audio
Gemma 4 26B-A4B
26B total / 4B activos
Mixture of Experts
Visión
Gemma 4 31B
31B
Denso
Visión
Las capacidades clave incluyen soporte multimodal nativo, llamada a funciones, salida JSON estructurada y entrenamiento en más de 140 idiomas. La variante 31B se ubica en el puesto #3 del ranking de texto de LMArena.
Bajo el capó, Gemma 4 introduce varias innovaciones arquitectónicas: capas alternadas de atención local con ventana deslizante y atención global, RoPE proporcional (p-RoPE), Per-Layer Embeddings (PLE), caché KV compartida y una optimización de memoria “Keys equal Values”.
En números, es un lanzamiento sólido. El problema es lo que no está en los pesos públicos.
¿Qué es Multi-Token Prediction?
Los modelos de lenguaje grandes estándar generan texto un token a la vez. Cada token requiere un paso completo hacia adelante a través del modelo. El siguiente token no puede comenzar hasta que el anterior se complete. Esto es la decodificación autorregresiva, y es inherentemente secuencial.
Multi-Token Prediction (MTP) cambia esto al agregar cabezas de predicción adicionales al modelo. En lugar de predecir solo el siguiente token, el modelo predice los tokens N+1, N+2, N+3, y así sucesivamente — todo en un solo paso hacia adelante.
Así es como funciona:
Fase de entrenamiento: Se entrenan cabezas de predicción ligeras adicionales junto con el modelo principal. Cada cabeza aprende a predecir una posición futura diferente (1 adelante, 2 adelante, 3 adelante, etc.)
Fase de inferencia: Las cabezas adicionales generan tokens “borrador” en paralelo. El modelo principal luego los verifica todos en un solo paso hacia adelante.
Verificación: Si los tokens borrador coinciden con lo que el modelo principal habría generado, se aceptan todos a la vez — omitiendo múltiples pasos secuenciales de decodificación. Si un token borrador es incorrecto, la generación retrocede a esa posición.
Esto está estrechamente relacionado con la decodificación especulativa, pero con una ventaja clave: los tokens borrador provienen del propio modelo en lugar de requerir un modelo “borrador” separado y más pequeño.
¿Cuánto más rápido es MTP?
La aceleración depende de cuán frecuentemente los tokens borrador son correctos (la “tasa de aceptación”). DeepSeek V3 demostró el impacto en el mundo real:
Métrica
Valor
Longitud promedio de aceptación
2.4 tokens por paso de verificación
Aceleración de inferencia
1.8x promedio (hasta 2.1x pico)
Impacto en calidad de salida
Cero — todos los tokens verificados por el modelo principal
Una tasa de aceptación de 2.4 significa que, en promedio, cada paso hacia adelante a través del modelo principal produce 2.4 tokens en lugar de 1. La salida es matemáticamente idéntica a la decodificación estándar — cada token es verificado. Obtienes la misma calidad a casi el doble de velocidad.
¿Listo para hacer crecer tu negocio?
Comienza tu prueba gratuita hoy y ve resultados en días.
Un usuario de HuggingFace (@shadowlilac
) descubrió que el paquete LiteRT de Google para Gemma 4 contiene cabezas de predicción MTP y funcionalidad de predicción multi-token. Pero los pesos publicados en HuggingFace no tienen nada de eso.
Los componentes MTP fueron deliberadamente eliminados:
Sin cabezas MTP en el checkpoint
Sin MTP en la configuración del modelo
Sin MTP en el paso hacia adelante
La explicación de Google
Un ingeniero de Google (@srikanta-221
) confirmó que esto fue intencional:
El modelo público expone solo una interfaz autorregresiva estándar “para amplia compatibilidad”. Las cabezas MTP están excluidas de la configuración del modelo, el paso hacia adelante y el checkpoint. Esto asegura compatibilidad con las APIs de HuggingFace Transformers y mantiene un comportamiento consistente del checkpoint y el tiempo de ejecución.
Google presenta MTP como una “optimización de tiempo de despliegue” en lugar de una característica central del modelo. Las cabezas de predicción MTP se preservan solo en los modelos exportados con LiteRT — el propio framework de inferencia en dispositivo de Google.
Por qué esto es un problema
La explicación no resiste el escrutinio:
1. El modelo fue entrenado con MTP. La capacidad existe. Eliminarla de la versión pública es una decisión, no una limitación técnica.
2. Los motores de terceros no pueden implementarlo. vLLM, llama.cpp, SGLang y otros frameworks de inferencia no pueden usar decodificación especulativa basada en MTP sin las cabezas de predicción. Estos motores sirven a la gran mayoría de despliegues de LLM de código abierto.
3. Los usuarios obtienen la versión lenta. Sin MTP, Gemma 4 funciona a velocidades autorregresivas estándar. La brecha de rendimiento ya es visible en la práctica:
Modelo
Hardware
Velocidad
Notas
Gemma 4 26B-A4B
5060 Ti 16GB
11 tok/s
Sin MTP, decodificación estándar
Qwen 3.5 35B-A3B
5060 Ti 16GB
60+ tok/s
Modelo MoE comparable
Gemma 4 E4B
RTX 4090 (vLLM)
~9 tok/s
Problemas de fallback con FlashAttention
4. Crea dependencia del ecosistema. El propio framework LiteRT de Google obtiene la ventaja de velocidad. Todos los demás obtienen un modelo más lento. Para un lanzamiento de pesos abiertos bajo Apache 2.0, esta es una asimetría significativa.
Cómo funciona la decodificación especulativa (y por qué MTP es mejor)
Para entender por qué las cabezas MTP faltantes importan, es útil ver dónde encaja MTP en la evolución de la optimización de inferencia.
Enfoque 1: Decodificación especulativa tradicional
Un modelo “borrador” separado y más pequeño propone tokens. El modelo principal los verifica en paralelo. Si los borradores son correctos, se aceptan múltiples tokens por paso.
Ventajas: Funciona con cualquier par de modelos
Desventajas: Requiere mantener y cargar un segundo modelo; la calidad del modelo borrador limita la aceleración; sobrecarga de memoria adicional
Enfoque 2: MTP (cabezas de predicción integradas)
El modelo principal tiene sus propias cabezas de predicción ligeras que generan tokens borrador. No se necesita un modelo separado.
Ventajas: No se necesita modelo extra; una integración más estrecha significa tasas de aceptación más altas; menor sobrecarga de memoria
Desventajas: Solo funciona si las cabezas de predicción están incluidas en la versión publicada
Por qué MTP gana
Las cabezas de predicción MTP se entrenan junto con el modelo principal. Comparten las mismas representaciones internas y aprenden la propia distribución de tokens del modelo. Esto típicamente produce tasas de aceptación más altas que un modelo borrador externo, lo que significa más tokens aceptados por paso de verificación y una generación más rápida en general.
Las cabezas de predicción también son pequeñas — típicamente agregan solo un 1-3% al conteo total de parámetros del modelo. La sobrecarga de memoria es insignificante comparada con cargar un modelo borrador separado.
Únete a nuestro boletín
Obtén los últimos consejos, tendencias y ofertas gratis.
El impacto más amplio
Esto no se trata solo de Gemma 4. La decisión establece un precedente sobre cuán “abiertos” son realmente los lanzamientos de pesos abiertos.
Lo que los usuarios pierden:
Decodificación especulativa basada en MTP en cualquier motor de inferencia de terceros
La capacidad de ajustar finamente o experimentar con las cabezas MTP
Paridad de rendimiento con las propias herramientas de despliegue de Google
Lo que los usuarios conservan:
Los pesos base del modelo (que son genuinamente buenos)
Decodificación especulativa tradicional usando un modelo borrador separado (el issue de vLLM #38893
rastrea el soporte de Eagle3 para Gemma 4)
Técnicas estándar de cuantización y optimización
La respuesta de la comunidad ha sido directa. El consenso en las primeras 24 horas fue que los resultados de Gemma 4 en benchmarks son competitivos — empata o queda ligeramente por detrás de Qwen 3.5 — pero el producto “no está terminado”. La velocidad, estabilidad y herramientas necesitan trabajo. Problemas adicionales incluyen que HuggingFace Transformers inicialmente carecía de soporte para la arquitectura de Gemma 4, PEFT no maneja los nuevos tipos de capas, y los usuarios de Mac experimentan cuelgues al cargar modelos más grandes.
¿Qué puedes hacer?
Si estás evaluando Gemma 4 para despliegue, aquí hay opciones prácticas:
Usa decodificación especulativa tradicional. Los modelos borrador externos aún pueden acelerar la inferencia de Gemma 4. Frameworks como vLLM están agregando soporte de decodificación especulativa Eagle3 específicamente para Gemma 4. La aceleración no igualará al MTP integrado, pero es mejor que nada.
Considera alternativas para cargas de trabajo donde la velocidad es crítica. Qwen 3.5 ofrece significativamente más tokens por segundo en hardware equivalente. Si la velocidad de inferencia es tu principal restricción, Qwen actualmente ofrece una mejor relación velocidad-calidad.
Vigila las soluciones de la comunidad. Las exportaciones de LiteRT contienen las cabezas MTP. Los investigadores pueden encontrar formas de extraerlas y reincorporarlas a los pesos de HuggingFace, aunque Google no ha dado soporte oficial a este camino.
Proporciona retroalimentación. Los ingenieros de Google están monitoreando activamente los hilos de discusión en HuggingFace. Las solicitudes claras y técnicas para la publicación de las cabezas MTP tienen peso.
Conclusión
Gemma 4 es una familia de modelos capaz con innovaciones arquitectónicas genuinas y resultados sólidos en benchmarks. La decisión de eliminar las cabezas de predicción MTP de la versión pública — mientras se conservan en el propio framework LiteRT de Google — socava lo “abierto” en pesos abiertos.
MTP no es una optimización menor. Puede ofrecer aceleraciones de inferencia de 1.5–2x sin impacto en la calidad de la salida. Retenerlo de los pesos públicos cuando el modelo fue claramente entrenado con él crea un sistema de dos niveles: inferencia rápida para las herramientas de Google, inferencia lenta para todos los demás.
Para la comunidad de IA de código abierto, el mensaje es claro: verifica lo que realmente está en los pesos, no solo los benchmarks. Una licencia abierta no siempre significa un lanzamiento abierto.
Creado con FlowHunt
. Mantente al día con los últimos avances en IA de código abierto en nuestro blog
.
Preguntas frecuentes
Multi-Token Prediction es una técnica en la que un LLM predice múltiples tokens futuros en un solo paso hacia adelante en lugar de un token a la vez. Se entrenan cabezas de predicción adicionales junto con el modelo principal para generar borradores de los tokens N+1, N+2, N+3, etc. simultáneamente, que luego pueden ser verificados en paralelo por el modelo principal. Esto permite aceleraciones de inferencia de 1.5–2x sin pérdida en la calidad de la salida.
Gemma 4 fue entrenado con cabezas de predicción MTP, y están presentes en las exportaciones de LiteRT (inferencia en dispositivo) de Google. Sin embargo, los pesos publicados en HuggingFace tienen las cabezas MTP deliberadamente eliminadas. Google dice que esto se hizo por 'amplia compatibilidad' con los frameworks de inferencia existentes.
Sin las cabezas MTP, los motores de inferencia de terceros como vLLM, llama.cpp y SGLang no pueden usar decodificación especulativa integrada para Gemma 4. Los usuarios quedan limitados a la generación autorregresiva estándar, que es significativamente más lenta. Las pruebas muestran que Gemma 4 genera solo 11 tokens/seg en hardware donde modelos comparables alcanzan más de 60 tokens/seg.
La decodificación especulativa es una técnica de aceleración de inferencia donde un modelo 'borrador' rápido propone múltiples tokens a la vez, y el modelo principal los verifica en un solo paso hacia adelante. Si los tokens borrador son correctos, se omiten efectivamente múltiples pasos de decodificación. MTP es una variante donde los tokens borrador provienen de las propias cabezas de predicción integradas del modelo en lugar de un modelo separado.
A abril de 2026, Google no ha anunciado planes para publicar las cabezas de predicción MTP para los pesos de HuggingFace. Actualmente solo están disponibles en los modelos exportados con LiteRT, lo que limita su uso al propio framework de inferencia de Google. La comunidad continúa solicitando su publicación.
Viktor Zeman es copropietario de QualityUnit. Incluso después de 20 años liderando la empresa, sigue siendo principalmente un ingeniero de software, especializado en IA, SEO programático y desarrollo backend. Ha contribuido a numerosos proyectos, incluidos LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab y muchos otros.
Viktor Zeman
CEO, Ingeniero de IA
Crea flujos de trabajo de IA con los mejores modelos
FlowHunt te permite crear pipelines de IA automatizados usando APIs en la nube y modelos de código abierto — con control total sobre velocidad, costo y calidad.
Ajuste fino de Gemma 4 en Apple Silicon: ¿Puede reemplazar a Claude Sonnet para la generación de contenido?
Ajustamos el modelo Gemma 4 31B de Google en una MacBook Pro M3 Max para generar artículos deportivos. Así es cómo se comparó con Claude Sonnet en calidad, velo...
Descubre qué es Google Gemini, cómo funciona y cómo se compara con ChatGPT. Conoce sus capacidades multimodales, precios y aplicaciones reales para 2025.
Gemini Flash 2.0 está estableciendo nuevos estándares en IA con un rendimiento mejorado, velocidad y capacidades multimodales. Explora su potencial en aplicacio...
4 min de lectura
AI
Gemini Flash 2.0
+4
Consentimiento de Cookies Usamos cookies para mejorar tu experiencia de navegación y analizar nuestro tráfico. See our privacy policy.