在Apple Silicon上微调Gemma 4:它能取代Claude Sonnet进行内容生成吗?
我们在MacBook Pro M3 Max上微调了Google的Gemma 4 31B模型来生成体育文章。以下是它与Claude Sonnet在质量、速度和成本方面的比较——加上本地推理与云GPU与API调用成本的完整分析。...
Google 于 2026 年 4 月 3 日发布了 Gemma 4——一系列具有出色基准测试结果、多模态能力和最高 256K 上下文长度的开放权重模型。从数据上看,这是一次令人印象深刻的发布。但在几小时内,社区就发现了一个缺失:多标记预测头已从公开权重中被剥离。
该模型训练时使用了 MTP。Google 自己的 LiteRT 框架包含 MTP 组件。但所有人能从 HuggingFace 下载到的版本?只有标准自回归生成。没有速度提升。没有推测性解码。
这篇文章将解释什么是 MTP、它为何重要,以及这一决定对所有在自有硬件上运行 Gemma 4 的用户意味着什么。
Gemma 4 是 Google DeepMind 最新的开放权重模型系列,基于 Apache 2.0 许可证发布。它有四种规模:
| 模型 | 参数量 | 类型 | 主要特性 |
|---|---|---|---|
| Gemma 4 E2B | 23 亿有效参数 | Dense | 视觉 + 音频 |
| Gemma 4 E4B | 45 亿有效参数 | Dense | 视觉 + 音频 |
| Gemma 4 26B-A4B | 总计 260 亿 / 40 亿活跃 | 混合专家模型 | 视觉 |
| Gemma 4 31B | 310 亿 | Dense | 视觉 |
主要能力包括原生多模态支持、函数调用、结构化 JSON 输出,以及基于 140+ 种语言的训练。31B 版本在 LMArena 文本排行榜上排名第三。
在架构层面,Gemma 4 引入了多项创新:交替使用局部滑动窗口和全局注意力层、比例 RoPE(p-RoPE)、逐层嵌入(PLE)、共享 KV 缓存,以及"键等于值"内存优化。
从数据来看,这是一次优秀的发布。问题在于公开权重中缺少了什么。
标准大语言模型一次生成一个标记。每个标记都需要一次完整的模型前向传播。下一个标记必须等到上一个完成后才能开始。这就是自回归解码,本质上是顺序执行的。
**多标记预测(MTP)**通过为模型添加额外的预测头来改变这一点。模型不再只预测下一个标记,而是在单次前向传播中同时预测 N+1、N+2、N+3 等标记。
其工作原理如下:
这与推测性解码密切相关,但有一个关键优势:草稿标记来自模型本身,而不需要一个单独的、更小的"草稿模型"。
加速幅度取决于草稿标记的正确率(“接受率”)。DeepSeek V3 展示了实际效果:
| 指标 | 数值 |
|---|---|
| 平均接受长度 | 每次验证步骤 2.4 个标记 |
| 推理加速 | 平均 1.8 倍(峰值可达 2.1 倍) |
| 输出质量影响 | 零——所有标记均经主模型验证 |
平均接受率 2.4 意味着每次主模型前向传播平均产生 2.4 个标记而非 1 个。输出在数学上与标准解码完全一致——每个标记都经过验证。你以接近两倍的速度获得相同质量的结果。
一位 HuggingFace 用户(@shadowlilac )发现 Google 的 LiteRT 包中 Gemma 4 包含 MTP 预测头和多标记预测功能。但在 HuggingFace 上公开发布的权重中完全没有。
MTP 组件被刻意剥离:
一位 Google 工程师(@srikanta-221 )确认这是有意为之:
公开模型仅暴露标准自回归接口,“以确保广泛兼容性。“MTP 头从模型配置、前向传播和检查点中排除。这确保了与 HuggingFace Transformers API 的兼容性,并保持一致的检查点和运行时行为。
Google 将 MTP 定义为"部署时优化"而非核心模型特性。MTP 预测头仅保留在 LiteRT 导出的模型中——即 Google 自己的设备端推理框架。
这个解释经不起推敲:
1. 模型训练时使用了 MTP。 这个能力是存在的。从发布版本中剥离它是一种选择,而非技术限制。
2. 第三方引擎无法实现。 vLLM、llama.cpp、SGLang 和其他推理框架在没有预测头的情况下无法使用基于 MTP 的推测性解码。这些引擎服务于绝大多数开源 LLM 部署。
3. 用户得到的是慢速版本。 没有 MTP,Gemma 4 只能以标准自回归速度运行。性能差距在实践中已经显现:
| 模型 | 硬件 | 速度 | 备注 |
|---|---|---|---|
| Gemma 4 26B-A4B | 5060 Ti 16GB | 11 标记/秒 | 无 MTP,标准解码 |
| Qwen 3.5 35B-A3B | 5060 Ti 16GB | 60+ 标记/秒 | 同类 MoE 模型 |
| Gemma 4 E4B | RTX 4090 (vLLM) | ~9 标记/秒 | FlashAttention 回退问题 |
4. 这造成了生态锁定。 Google 自家的 LiteRT 框架获得了速度优势。其他所有人得到一个更慢的模型。对于一个"开放权重"的 Apache 2.0 发布来说,这是严重的不对等。
要理解缺失的 MTP 头为何重要,有必要了解 MTP 在推理优化演进中的位置。
一个独立的、更小的"草稿模型"提出标记。主模型并行验证它们。如果草稿正确,每步可接受多个标记。
主模型拥有自己的轻量级预测头来生成草稿标记。无需独立模型。
MTP 预测头与主模型一同训练。它们共享相同的内部表示,学习模型自身的标记分布。这通常比外部草稿模型产生更高的接受率,意味着每次验证步骤接受更多标记,整体生成更快。
预测头也很小——通常仅增加模型总参数量的 1-3%。与加载一个独立草稿模型相比,内存开销可以忽略不计。
这不仅仅关乎 Gemma 4。这一决定为"开放"权重发布的实际开放程度树立了先例。
用户失去了什么:
用户仍然拥有的:
社区反应非常直接。24 小时内的共识是,Gemma 4 的基准测试结果具有竞争力——与 Qwen 3.5 持平或略逊——但产品"尚未完成”。速度、稳定性和工具支持都需要改进。其他问题包括 HuggingFace Transformers 最初缺乏 Gemma 4 架构支持、PEFT 无法处理新的层类型,以及 Mac 用户在加载大模型时遇到崩溃。
如果你正在评估 Gemma 4 用于部署,以下是一些实用建议:
使用传统推测性解码。 外部草稿模型仍然可以加速 Gemma 4 推理。vLLM 等框架正在专门为 Gemma 4 添加 Eagle3 推测性解码支持。加速效果不及内置 MTP,但总比没有好。
对速度要求高的工作负载考虑替代方案。 Qwen 3.5 在同等硬件上提供明显更高的每秒标记数。如果推理速度是你的首要约束,Qwen 目前提供更好的速度-质量比。
关注社区变通方案。 LiteRT 导出版本包含 MTP 头。研究人员可能会找到方法将它们提取并重新附加到 HuggingFace 权重中,尽管 Google 尚未官方支持这条路径。
提供反馈。 Google 的工程师正在积极关注 HuggingFace 讨论帖。清晰的、技术性的 MTP 头发布请求是有分量的。
Gemma 4 是一个功能强大的模型系列,具有真正的架构创新和出色的基准测试结果。将 MTP 预测头从公开版本中剥离——同时在 Google 自家的 LiteRT 框架中保留——削弱了"开放"权重中"开放"的含义。
MTP 不是一个小优化。它可以在输出质量零损失的情况下实现 1.5–2 倍的推理加速。在模型明显经过 MTP 训练的情况下,从公开权重中剔除它,创造了一个双层体系:Google 工具享有快速推理,其他所有人只能使用慢速推理。
对于开源 AI 社区,信息很明确:检查权重中实际包含了什么,而不仅仅是基准测试。开放许可证并不总是意味着开放的发布。
Viktor Zeman 是 QualityUnit 的共同所有人。即使在领导公司 20 年后,他仍然主要是一名软件工程师,专注于人工智能、程序化 SEO 和后端开发。他参与了众多项目,包括 LiveAgent、PostAffiliatePro、FlowHunt、UrlsLab 等等。

我们在MacBook Pro M3 Max上微调了Google的Gemma 4 31B模型来生成体育文章。以下是它与Claude Sonnet在质量、速度和成本方面的比较——加上本地推理与云GPU与API调用成本的完整分析。...

了解 Google Gemini 是什么、其工作原理,以及与 ChatGPT 的对比。探索其多模态能力、定价和 2025 年的实际应用。

通过全面评估GPT-4o,深入探索AI智能体的思维过程。了解其在内容生成、问题解决与创意写作等任务中的表现,结合先进指标与深度分析,揭示自适应推理与多模态AI能力的未来。...