什么是多标记预测（MTP）？

多标记预测是一种技术，LLM 在单次前向传播中预测多个未来标记，而非一次一个标记。额外的预测头与主模型一同训练，同时生成 N+1、N+2、N+3 等位置的草稿标记，然后由主模型并行验证。这可以在不损失输出质量的情况下实现 1.5–2 倍的推理加速。

Gemma 4 支持 MTP 吗？

Gemma 4 在训练时使用了 MTP 预测头，且在 Google 的 LiteRT（设备端推理）导出版本中保留了它们。然而，在 HuggingFace 上公开发布的权重被刻意去除了 MTP 头。Google 表示这是为了与现有推理框架的'广泛兼容性'。

去除 MTP 头为什么很重要？

没有 MTP 头，vLLM、llama.cpp 和 SGLang 等第三方推理引擎就无法对 Gemma 4 使用内置的推测性解码。用户只能使用标准的自回归生成，速度明显更慢。基准测试显示，Gemma 4 在同等硬件上仅能生成 11 标记/秒，而同类模型可达 60+ 标记/秒。

什么是推测性解码？

推测性解码是一种推理加速技术，由一个快速的'草稿'模型一次性提出多个标记，然后由主模型在单次前向传播中进行验证。如果草稿标记正确，就相当于跳过了多个解码步骤。MTP 是其变体，草稿标记来自模型自身的内置预测头，而非独立模型。

Google 会发布 Gemma 4 的 MTP 头吗？

截至 2026 年 4 月，Google 尚未宣布发布 HuggingFace 权重中 MTP 预测头的计划。它们目前仅在 LiteRT 导出的模型中可用，这意味着只能在 Google 自己的推理框架中使用。社区仍在持续请求发布。

Gemma 4 发布时未包含 MTP 数据——为什么这很重要

Google 从 Gemma 4 的公开发布版本中剥离了 MTP 预测头，却在自家 LiteRT 框架中保留了它们。以下是这对推理速度和开源 AI 的影响。

AI LLM Gemma Open Source

立即开始阅读更多

Google 于 2026 年 4 月 3 日发布了 Gemma 4——一系列具有出色基准测试结果、多模态能力和最高 256K 上下文长度的开放权重模型。从数据上看，这是一次令人印象深刻的发布。但在几小时内，社区就发现了一个缺失：多标记预测头已从公开权重中被剥离。

该模型训练时使用了 MTP。Google 自己的 LiteRT 框架包含 MTP 组件。但所有人能从 HuggingFace 下载到的版本？只有标准自回归生成。没有速度提升。没有推测性解码。

这篇文章将解释什么是 MTP、它为何重要，以及这一决定对所有在自有硬件上运行 Gemma 4 的用户意味着什么。

什么是 Gemma 4？

Gemma 4 是 Google DeepMind 最新的开放权重模型系列，基于 Apache 2.0 许可证发布。它有四种规模：

模型	参数量	类型	主要特性
Gemma 4 E2B	23 亿有效参数	Dense	视觉 + 音频
Gemma 4 E4B	45 亿有效参数	Dense	视觉 + 音频
Gemma 4 26B-A4B	总计 260 亿 / 40 亿活跃	混合专家模型	视觉
Gemma 4 31B	310 亿	Dense	视觉

主要能力包括原生多模态支持、函数调用、结构化 JSON 输出，以及基于 140+ 种语言的训练。31B 版本在 LMArena 文本排行榜上排名第三。

在架构层面，Gemma 4 引入了多项创新：交替使用局部滑动窗口和全局注意力层、比例 RoPE（p-RoPE）、逐层嵌入（PLE）、共享 KV 缓存，以及"键等于值"内存优化。

从数据来看，这是一次优秀的发布。问题在于公开权重中缺少了什么。

什么是多标记预测？

标准大语言模型一次生成一个标记。每个标记都需要一次完整的模型前向传播。下一个标记必须等到上一个完成后才能开始。这就是自回归解码，本质上是顺序执行的。

**多标记预测（MTP）**通过为模型添加额外的预测头来改变这一点。模型不再只预测下一个标记，而是在单次前向传播中同时预测 N+1、N+2、N+3 等标记。

其工作原理如下：

训练阶段：额外的轻量级预测头与主模型一同训练。每个头学习预测不同的未来位置（提前 1 步、提前 2 步、提前 3 步等）。
推理阶段：额外的预测头并行生成"草稿"标记。然后主模型在单次前向传播中验证所有草稿标记。
验证：如果草稿标记与主模型本身会生成的结果一致，它们全部被一次性接受——跳过多个顺序解码步骤。如果某个草稿标记有误，生成过程会回退到该位置。

这与推测性解码密切相关，但有一个关键优势：草稿标记来自模型本身，而不需要一个单独的、更小的"草稿模型"。

MTP 预测头如何连接到主 Transformer 模型以同时生成多个草稿标记的架构图

MTP 能快多少？

加速幅度取决于草稿标记的正确率（“接受率”）。DeepSeek V3 展示了实际效果：

指标	数值
平均接受长度	每次验证步骤 2.4 个标记
推理加速	平均 1.8 倍（峰值可达 2.1 倍）
输出质量影响	零——所有标记均经主模型验证

平均接受率 2.4 意味着每次主模型前向传播平均产生 2.4 个标记而非 1 个。输出在数学上与标准解码完全一致——每个标记都经过验证。你以接近两倍的速度获得相同质量的结果。

Gemma 4 发生了什么

一位 HuggingFace 用户（@shadowlilac ）发现 Google 的 LiteRT 包中 Gemma 4 包含 MTP 预测头和多标记预测功能。但在 HuggingFace 上公开发布的权重中完全没有。

MTP 组件被刻意剥离：

检查点中没有 MTP 头
模型配置中没有 MTP
前向传播中没有 MTP

展示 Gemma 4 训练时包含 MTP 头，但公开的 HuggingFace 版本将其剥离，而 Google 的 LiteRT 版本保留了它们的示意图

Google 的解释

一位 Google 工程师（@srikanta-221 ）确认这是有意为之：

公开模型仅暴露标准自回归接口，“以确保广泛兼容性。“MTP 头从模型配置、前向传播和检查点中排除。这确保了与 HuggingFace Transformers API 的兼容性，并保持一致的检查点和运行时行为。

Google 将 MTP 定义为"部署时优化"而非核心模型特性。MTP 预测头仅保留在 LiteRT 导出的模型中——即 Google 自己的设备端推理框架。

为什么这是个问题

这个解释经不起推敲：

1. 模型训练时使用了 MTP。 这个能力是存在的。从发布版本中剥离它是一种选择，而非技术限制。

2. 第三方引擎无法实现。 vLLM、llama.cpp、SGLang 和其他推理框架在没有预测头的情况下无法使用基于 MTP 的推测性解码。这些引擎服务于绝大多数开源 LLM 部署。

3. 用户得到的是慢速版本。 没有 MTP，Gemma 4 只能以标准自回归速度运行。性能差距在实践中已经显现：

模型	硬件	速度	备注
Gemma 4 26B-A4B	5060 Ti 16GB	11 标记/秒	无 MTP，标准解码
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ 标记/秒	同类 MoE 模型
Gemma 4 E4B	RTX 4090 (vLLM)	~9 标记/秒	FlashAttention 回退问题

4. 这造成了生态锁定。 Google 自家的 LiteRT 框架获得了速度优势。其他所有人得到一个更慢的模型。对于一个"开放权重"的 Apache 2.0 发布来说，这是严重的不对等。

推测性解码的工作原理（以及为什么 MTP 更优）

要理解缺失的 MTP 头为何重要，有必要了解 MTP 在推理优化演进中的位置。

三种推测性解码方法的比较：传统方法（独立草稿模型）、推测-推测方法和 MTP（内置预测头）

方法一：传统推测性解码

一个独立的、更小的"草稿模型"提出标记。主模型并行验证它们。如果草稿正确，每步可接受多个标记。

优点：适用于任何模型组合
缺点：需要维护和加载第二个模型；草稿模型的质量限制加速效果；额外的内存开销

方法二：MTP（内置预测头）

主模型拥有自己的轻量级预测头来生成草稿标记。无需独立模型。

优点：无需额外模型；更紧密的集成意味着更高的接受率；更低的内存开销
缺点：仅在预测头包含在发布版本中时才有效

为什么 MTP 更优

MTP 预测头与主模型一同训练。它们共享相同的内部表示，学习模型自身的标记分布。这通常比外部草稿模型产生更高的接受率，意味着每次验证步骤接受更多标记，整体生成更快。

预测头也很小——通常仅增加模型总参数量的 1-3%。与加载一个独立草稿模型相比，内存开销可以忽略不计。

更广泛的影响

这不仅仅关乎 Gemma 4。这一决定为"开放"权重发布的实际开放程度树立了先例。

用户失去了什么：

在任何第三方推理引擎上使用基于 MTP 的推测性解码
微调或试验 MTP 头的能力
与 Google 自有部署工具的性能对等

用户仍然拥有的：

基础模型权重（质量确实很好）
使用独立草稿模型的传统推测性解码（vLLM issue #38893 正在跟进 Gemma 4 的 Eagle3 支持）
标准量化和优化技术

社区反应非常直接。24 小时内的共识是，Gemma 4 的基准测试结果具有竞争力——与 Qwen 3.5 持平或略逊——但产品"尚未完成”。速度、稳定性和工具支持都需要改进。其他问题包括 HuggingFace Transformers 最初缺乏 Gemma 4 架构支持、PEFT 无法处理新的层类型，以及 Mac 用户在加载大模型时遇到崩溃。

你能做什么？

如果你正在评估 Gemma 4 用于部署，以下是一些实用建议：

使用传统推测性解码。 外部草稿模型仍然可以加速 Gemma 4 推理。vLLM 等框架正在专门为 Gemma 4 添加 Eagle3 推测性解码支持。加速效果不及内置 MTP，但总比没有好。

对速度要求高的工作负载考虑替代方案。 Qwen 3.5 在同等硬件上提供明显更高的每秒标记数。如果推理速度是你的首要约束，Qwen 目前提供更好的速度-质量比。

关注社区变通方案。 LiteRT 导出版本包含 MTP 头。研究人员可能会找到方法将它们提取并重新附加到 HuggingFace 权重中，尽管 Google 尚未官方支持这条路径。

提供反馈。 Google 的工程师正在积极关注 HuggingFace 讨论帖。清晰的、技术性的 MTP 头发布请求是有分量的。

结论

Gemma 4 是一个功能强大的模型系列，具有真正的架构创新和出色的基准测试结果。将 MTP 预测头从公开版本中剥离——同时在 Google 自家的 LiteRT 框架中保留——削弱了"开放"权重中"开放"的含义。

MTP 不是一个小优化。它可以在输出质量零损失的情况下实现 1.5–2 倍的推理加速。在模型明显经过 MTP 训练的情况下，从公开权重中剔除它，创造了一个双层体系：Google 工具享有快速推理，其他所有人只能使用慢速推理。

对于开源 AI 社区，信息很明确：检查权重中实际包含了什么，而不仅仅是基准测试。开放许可证并不总是意味着开放的发布。

由 FlowHunt 构建。在我们的博客上关注开源 AI 的最新动态。

常见问题

: 多标记预测是一种技术，LLM 在单次前向传播中预测多个未来标记，而非一次一个标记。额外的预测头与主模型一同训练，同时生成 N+1、N+2、N+3 等位置的草稿标记，然后由主模型并行验证。这可以在不损失输出质量的情况下实现 1.5–2 倍的推理加速。
: Gemma 4 在训练时使用了 MTP 预测头，且在 Google 的 LiteRT（设备端推理）导出版本中保留了它们。然而，在 HuggingFace 上公开发布的权重被刻意去除了 MTP 头。Google 表示这是为了与现有推理框架的'广泛兼容性'。
: 没有 MTP 头，vLLM、llama.cpp 和 SGLang 等第三方推理引擎就无法对 Gemma 4 使用内置的推测性解码。用户只能使用标准的自回归生成，速度明显更慢。基准测试显示，Gemma 4 在同等硬件上仅能生成 11 标记/秒，而同类模型可达 60+ 标记/秒。
: 推测性解码是一种推理加速技术，由一个快速的'草稿'模型一次性提出多个标记，然后由主模型在单次前向传播中进行验证。如果草稿标记正确，就相当于跳过了多个解码步骤。MTP 是其变体，草稿标记来自模型自身的内置预测头，而非独立模型。
: 截至 2026 年 4 月，Google 尚未宣布发布 HuggingFace 权重中 MTP 预测头的计划。它们目前仅在 LiteRT 导出的模型中可用，这意味着只能在 Google 自己的推理框架中使用。社区仍在持续请求发布。

用最佳模型构建 AI 工作流

FlowHunt 让你使用云端 API 和开源模型构建自动化 AI 流水线——完全掌控速度、成本和质量。

立即开始阅读更多

了解更多

在Apple Silicon上微调Gemma 4：它能取代Claude Sonnet进行内容生成吗？

我们在MacBook Pro M3 Max上微调了Google的Gemma 4 31B模型来生成体育文章。以下是它与Claude Sonnet在质量、速度和成本方面的比较——加上本地推理与云GPU与API调用成本的完整分析。...

Apr 6, 2026 2 分钟阅读

AI LLM +6

什么是 Google Gemini AI 聊天机器人？

了解 Google Gemini 是什么、其工作原理，以及与 ChatGPT 的对比。探索其多模态能力、定价和 2025 年的实际应用。

Dec 1, 2025 3 分钟阅读

AI智能体：GPT-4o的思维方式

通过全面评估GPT-4o，深入探索AI智能体的思维过程。了解其在内容生成、问题解决与创意写作等任务中的表现，结合先进指标与深度分析，揭示自适应推理与多模态AI能力的未来。...

May 30, 2025 2 分钟阅读

AI GPT-4o +6

Gemma 4 发布时未包含 MTP 数据——为什么这很重要

什么是 Gemma 4？