¿Qué es Multi-Token Prediction (MTP)?

Multi-Token Prediction es una técnica en la que un LLM predice múltiples tokens futuros en un solo paso hacia adelante en lugar de un token a la vez. Se entrenan cabezas de predicción adicionales junto con el modelo principal para generar borradores de los tokens N+1, N+2, N+3, etc. simultáneamente, que luego pueden ser verificados en paralelo por el modelo principal. Esto permite aceleraciones de inferencia de 1.5–2x sin pérdida en la calidad de la salida.

¿Gemma 4 soporta MTP?

Gemma 4 fue entrenado con cabezas de predicción MTP, y están presentes en las exportaciones de LiteRT (inferencia en dispositivo) de Google. Sin embargo, los pesos publicados en HuggingFace tienen las cabezas MTP deliberadamente eliminadas. Google dice que esto se hizo por 'amplia compatibilidad' con los frameworks de inferencia existentes.

¿Por qué importa la eliminación de las cabezas MTP?

Sin las cabezas MTP, los motores de inferencia de terceros como vLLM, llama.cpp y SGLang no pueden usar decodificación especulativa integrada para Gemma 4. Los usuarios quedan limitados a la generación autorregresiva estándar, que es significativamente más lenta. Las pruebas muestran que Gemma 4 genera solo 11 tokens/seg en hardware donde modelos comparables alcanzan más de 60 tokens/seg.

¿Qué es la decodificación especulativa?

La decodificación especulativa es una técnica de aceleración de inferencia donde un modelo 'borrador' rápido propone múltiples tokens a la vez, y el modelo principal los verifica en un solo paso hacia adelante. Si los tokens borrador son correctos, se omiten efectivamente múltiples pasos de decodificación. MTP es una variante donde los tokens borrador provienen de las propias cabezas de predicción integradas del modelo en lugar de un modelo separado.

¿Google lanzará las cabezas MTP para Gemma 4?

A abril de 2026, Google no ha anunciado planes para publicar las cabezas de predicción MTP para los pesos de HuggingFace. Actualmente solo están disponibles en los modelos exportados con LiteRT, lo que limita su uso al propio framework de inferencia de Google. La comunidad continúa solicitando su publicación.

Gemma 4 fue lanzado sin datos MTP — Por qué eso importa

Google eliminó las cabezas de predicción MTP de la versión pública de Gemma 4 mientras las mantiene en su propio framework LiteRT. Esto es lo que significa para la velocidad de inferencia y la IA de código abierto.

AI LLM Gemma Open Source

Comenzar Leer más

Google lanzó Gemma 4 el 3 de abril de 2026 — una familia de modelos de pesos abiertos con resultados sólidos en benchmarks, capacidades multimodales y hasta 256K tokens de contexto. Sobre el papel, es un lanzamiento impresionante. Pero en cuestión de horas, la comunidad descubrió algo que faltaba: las cabezas de Multi-Token Prediction habían sido eliminadas de los pesos públicos.

El modelo fue entrenado con MTP. El propio framework LiteRT de Google incluye los componentes MTP. Pero la versión que todos pueden descargar de HuggingFace? Solo generación autorregresiva estándar. Sin aceleración. Sin decodificación especulativa.

Este artículo explica qué es MTP, por qué importa y qué significa esta decisión para cualquiera que ejecute Gemma 4 en su propio hardware.

¿Qué es Gemma 4?

Gemma 4 es la última familia de modelos de pesos abiertos de Google DeepMind, publicada bajo la licencia Apache 2.0. Viene en cuatro tamaños:

Modelo	Parámetros	Tipo	Características destacadas
Gemma 4 E2B	2.3B efectivos	Denso	Visión + Audio
Gemma 4 E4B	4.5B efectivos	Denso	Visión + Audio
Gemma 4 26B-A4B	26B total / 4B activos	Mixture of Experts	Visión
Gemma 4 31B	31B	Denso	Visión

Las capacidades clave incluyen soporte multimodal nativo, llamada a funciones, salida JSON estructurada y entrenamiento en más de 140 idiomas. La variante 31B se ubica en el puesto #3 del ranking de texto de LMArena.

Bajo el capó, Gemma 4 introduce varias innovaciones arquitectónicas: capas alternadas de atención local con ventana deslizante y atención global, RoPE proporcional (p-RoPE), Per-Layer Embeddings (PLE), caché KV compartida y una optimización de memoria “Keys equal Values”.

En números, es un lanzamiento sólido. El problema es lo que no está en los pesos públicos.

¿Qué es Multi-Token Prediction?

Los modelos de lenguaje grandes estándar generan texto un token a la vez. Cada token requiere un paso completo hacia adelante a través del modelo. El siguiente token no puede comenzar hasta que el anterior se complete. Esto es la decodificación autorregresiva, y es inherentemente secuencial.

Diagrama comparando la decodificación autorregresiva estándar (un token por paso) con Multi-Token Prediction (múltiples tokens por paso)

Multi-Token Prediction (MTP) cambia esto al agregar cabezas de predicción adicionales al modelo. En lugar de predecir solo el siguiente token, el modelo predice los tokens N+1, N+2, N+3, y así sucesivamente — todo en un solo paso hacia adelante.

Así es como funciona:

Fase de entrenamiento: Se entrenan cabezas de predicción ligeras adicionales junto con el modelo principal. Cada cabeza aprende a predecir una posición futura diferente (1 adelante, 2 adelante, 3 adelante, etc.)
Fase de inferencia: Las cabezas adicionales generan tokens “borrador” en paralelo. El modelo principal luego los verifica todos en un solo paso hacia adelante.
Verificación: Si los tokens borrador coinciden con lo que el modelo principal habría generado, se aceptan todos a la vez — omitiendo múltiples pasos secuenciales de decodificación. Si un token borrador es incorrecto, la generación retrocede a esa posición.

Esto está estrechamente relacionado con la decodificación especulativa, pero con una ventaja clave: los tokens borrador provienen del propio modelo en lugar de requerir un modelo “borrador” separado y más pequeño.

Diagrama de arquitectura mostrando cómo las cabezas de predicción MTP se conectan al modelo transformer principal para generar múltiples tokens borrador simultáneamente

¿Cuánto más rápido es MTP?

La aceleración depende de cuán frecuentemente los tokens borrador son correctos (la “tasa de aceptación”). DeepSeek V3 demostró el impacto en el mundo real:

Métrica	Valor
Longitud promedio de aceptación	2.4 tokens por paso de verificación
Aceleración de inferencia	1.8x promedio (hasta 2.1x pico)
Impacto en calidad de salida	Cero — todos los tokens verificados por el modelo principal

Una tasa de aceptación de 2.4 significa que, en promedio, cada paso hacia adelante a través del modelo principal produce 2.4 tokens en lugar de 1. La salida es matemáticamente idéntica a la decodificación estándar — cada token es verificado. Obtienes la misma calidad a casi el doble de velocidad.

Qué pasó con Gemma 4

Un usuario de HuggingFace (@shadowlilac ) descubrió que el paquete LiteRT de Google para Gemma 4 contiene cabezas de predicción MTP y funcionalidad de predicción multi-token. Pero los pesos publicados en HuggingFace no tienen nada de eso.

Los componentes MTP fueron deliberadamente eliminados:

Sin cabezas MTP en el checkpoint
Sin MTP en la configuración del modelo
Sin MTP en el paso hacia adelante

Diagrama mostrando que el entrenamiento de Gemma 4 incluyó cabezas MTP, pero la versión pública de HuggingFace las tiene eliminadas mientras la versión LiteRT de Google las conserva

La explicación de Google

Un ingeniero de Google (@srikanta-221 ) confirmó que esto fue intencional:

El modelo público expone solo una interfaz autorregresiva estándar “para amplia compatibilidad”. Las cabezas MTP están excluidas de la configuración del modelo, el paso hacia adelante y el checkpoint. Esto asegura compatibilidad con las APIs de HuggingFace Transformers y mantiene un comportamiento consistente del checkpoint y el tiempo de ejecución.

Google presenta MTP como una “optimización de tiempo de despliegue” en lugar de una característica central del modelo. Las cabezas de predicción MTP se preservan solo en los modelos exportados con LiteRT — el propio framework de inferencia en dispositivo de Google.

Por qué esto es un problema

La explicación no resiste el escrutinio:

1. El modelo fue entrenado con MTP. La capacidad existe. Eliminarla de la versión pública es una decisión, no una limitación técnica.

2. Los motores de terceros no pueden implementarlo. vLLM, llama.cpp, SGLang y otros frameworks de inferencia no pueden usar decodificación especulativa basada en MTP sin las cabezas de predicción. Estos motores sirven a la gran mayoría de despliegues de LLM de código abierto.

3. Los usuarios obtienen la versión lenta. Sin MTP, Gemma 4 funciona a velocidades autorregresivas estándar. La brecha de rendimiento ya es visible en la práctica:

Modelo	Hardware	Velocidad	Notas
Gemma 4 26B-A4B	5060 Ti 16GB	11 tok/s	Sin MTP, decodificación estándar
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ tok/s	Modelo MoE comparable
Gemma 4 E4B	RTX 4090 (vLLM)	~9 tok/s	Problemas de fallback con FlashAttention

4. Crea dependencia del ecosistema. El propio framework LiteRT de Google obtiene la ventaja de velocidad. Todos los demás obtienen un modelo más lento. Para un lanzamiento de pesos abiertos bajo Apache 2.0, esta es una asimetría significativa.

Cómo funciona la decodificación especulativa (y por qué MTP es mejor)

Para entender por qué las cabezas MTP faltantes importan, es útil ver dónde encaja MTP en la evolución de la optimización de inferencia.

Comparación de tres enfoques de decodificación especulativa: tradicional (modelo borrador separado), especulativo-especulativo, y MTP (cabezas de predicción integradas)

Enfoque 1: Decodificación especulativa tradicional

Un modelo “borrador” separado y más pequeño propone tokens. El modelo principal los verifica en paralelo. Si los borradores son correctos, se aceptan múltiples tokens por paso.

Ventajas: Funciona con cualquier par de modelos
Desventajas: Requiere mantener y cargar un segundo modelo; la calidad del modelo borrador limita la aceleración; sobrecarga de memoria adicional

Enfoque 2: MTP (cabezas de predicción integradas)

El modelo principal tiene sus propias cabezas de predicción ligeras que generan tokens borrador. No se necesita un modelo separado.

Ventajas: No se necesita modelo extra; una integración más estrecha significa tasas de aceptación más altas; menor sobrecarga de memoria
Desventajas: Solo funciona si las cabezas de predicción están incluidas en la versión publicada

Por qué MTP gana

Las cabezas de predicción MTP se entrenan junto con el modelo principal. Comparten las mismas representaciones internas y aprenden la propia distribución de tokens del modelo. Esto típicamente produce tasas de aceptación más altas que un modelo borrador externo, lo que significa más tokens aceptados por paso de verificación y una generación más rápida en general.

Las cabezas de predicción también son pequeñas — típicamente agregan solo un 1-3% al conteo total de parámetros del modelo. La sobrecarga de memoria es insignificante comparada con cargar un modelo borrador separado.

El impacto más amplio

Esto no se trata solo de Gemma 4. La decisión establece un precedente sobre cuán “abiertos” son realmente los lanzamientos de pesos abiertos.

Lo que los usuarios pierden:

Decodificación especulativa basada en MTP en cualquier motor de inferencia de terceros
La capacidad de ajustar finamente o experimentar con las cabezas MTP
Paridad de rendimiento con las propias herramientas de despliegue de Google

Lo que los usuarios conservan:

Los pesos base del modelo (que son genuinamente buenos)
Decodificación especulativa tradicional usando un modelo borrador separado (el issue de vLLM #38893 rastrea el soporte de Eagle3 para Gemma 4)
Técnicas estándar de cuantización y optimización

La respuesta de la comunidad ha sido directa. El consenso en las primeras 24 horas fue que los resultados de Gemma 4 en benchmarks son competitivos — empata o queda ligeramente por detrás de Qwen 3.5 — pero el producto “no está terminado”. La velocidad, estabilidad y herramientas necesitan trabajo. Problemas adicionales incluyen que HuggingFace Transformers inicialmente carecía de soporte para la arquitectura de Gemma 4, PEFT no maneja los nuevos tipos de capas, y los usuarios de Mac experimentan cuelgues al cargar modelos más grandes.

¿Qué puedes hacer?

Si estás evaluando Gemma 4 para despliegue, aquí hay opciones prácticas:

Usa decodificación especulativa tradicional. Los modelos borrador externos aún pueden acelerar la inferencia de Gemma 4. Frameworks como vLLM están agregando soporte de decodificación especulativa Eagle3 específicamente para Gemma 4. La aceleración no igualará al MTP integrado, pero es mejor que nada.

Considera alternativas para cargas de trabajo donde la velocidad es crítica. Qwen 3.5 ofrece significativamente más tokens por segundo en hardware equivalente. Si la velocidad de inferencia es tu principal restricción, Qwen actualmente ofrece una mejor relación velocidad-calidad.

Vigila las soluciones de la comunidad. Las exportaciones de LiteRT contienen las cabezas MTP. Los investigadores pueden encontrar formas de extraerlas y reincorporarlas a los pesos de HuggingFace, aunque Google no ha dado soporte oficial a este camino.

Proporciona retroalimentación. Los ingenieros de Google están monitoreando activamente los hilos de discusión en HuggingFace. Las solicitudes claras y técnicas para la publicación de las cabezas MTP tienen peso.

Conclusión

Gemma 4 es una familia de modelos capaz con innovaciones arquitectónicas genuinas y resultados sólidos en benchmarks. La decisión de eliminar las cabezas de predicción MTP de la versión pública — mientras se conservan en el propio framework LiteRT de Google — socava lo “abierto” en pesos abiertos.

MTP no es una optimización menor. Puede ofrecer aceleraciones de inferencia de 1.5–2x sin impacto en la calidad de la salida. Retenerlo de los pesos públicos cuando el modelo fue claramente entrenado con él crea un sistema de dos niveles: inferencia rápida para las herramientas de Google, inferencia lenta para todos los demás.

Para la comunidad de IA de código abierto, el mensaje es claro: verifica lo que realmente está en los pesos, no solo los benchmarks. Una licencia abierta no siempre significa un lanzamiento abierto.

Creado con FlowHunt . Mantente al día con los últimos avances en IA de código abierto en nuestro blog .

Preguntas frecuentes

: Multi-Token Prediction es una técnica en la que un LLM predice múltiples tokens futuros en un solo paso hacia adelante en lugar de un token a la vez. Se entrenan cabezas de predicción adicionales junto con el modelo principal para generar borradores de los tokens N+1, N+2, N+3, etc. simultáneamente, que luego pueden ser verificados en paralelo por el modelo principal. Esto permite aceleraciones de inferencia de 1.5–2x sin pérdida en la calidad de la salida.
: Gemma 4 fue entrenado con cabezas de predicción MTP, y están presentes en las exportaciones de LiteRT (inferencia en dispositivo) de Google. Sin embargo, los pesos publicados en HuggingFace tienen las cabezas MTP deliberadamente eliminadas. Google dice que esto se hizo por 'amplia compatibilidad' con los frameworks de inferencia existentes.
: Sin las cabezas MTP, los motores de inferencia de terceros como vLLM, llama.cpp y SGLang no pueden usar decodificación especulativa integrada para Gemma 4. Los usuarios quedan limitados a la generación autorregresiva estándar, que es significativamente más lenta. Las pruebas muestran que Gemma 4 genera solo 11 tokens/seg en hardware donde modelos comparables alcanzan más de 60 tokens/seg.
: La decodificación especulativa es una técnica de aceleración de inferencia donde un modelo 'borrador' rápido propone múltiples tokens a la vez, y el modelo principal los verifica en un solo paso hacia adelante. Si los tokens borrador son correctos, se omiten efectivamente múltiples pasos de decodificación. MTP es una variante donde los tokens borrador provienen de las propias cabezas de predicción integradas del modelo en lugar de un modelo separado.
: A abril de 2026, Google no ha anunciado planes para publicar las cabezas de predicción MTP para los pesos de HuggingFace. Actualmente solo están disponibles en los modelos exportados con LiteRT, lo que limita su uso al propio framework de inferencia de Google. La comunidad continúa solicitando su publicación.

Crea flujos de trabajo de IA con los mejores modelos

FlowHunt te permite crear pipelines de IA automatizados usando APIs en la nube y modelos de código abierto — con control total sobre velocidad, costo y calidad.

Comenzar Leer más

Saber más

Ajuste fino de Gemma 4 en Apple Silicon: ¿Puede reemplazar a Claude Sonnet para la generación de contenido?

Ajustamos el modelo Gemma 4 31B de Google en una MacBook Pro M3 Max para generar artículos deportivos. Así es cómo se comparó con Claude Sonnet en calidad, velo...

Apr 6, 2026 12 min de lectura

AI LLM +6

¿Qué es el chatbot de IA Google Gemini?

Descubre qué es Google Gemini, cómo funciona y cómo se compara con ChatGPT. Conoce sus capacidades multimodales, precios y aplicaciones reales para 2025.

Dec 1, 2025 13 min de lectura

Gemini Flash 2.0: IA con velocidad y precisión

Gemini Flash 2.0 está estableciendo nuevos estándares en IA con un rendimiento mejorado, velocidad y capacidades multimodales. Explora su potencial en aplicacio...

May 30, 2025 4 min de lectura

AI Gemini Flash 2.0 +4

Gemma 4 fue lanzado sin datos MTP — Por qué eso importa

¿Qué es Gemma 4?