Apple Silicon上でGemma 4をファインチューニング: Claude Sonnetをコンテンツ生成で置き換えられるか?
MacBook Pro M3 MaxでGoogle's Gemma 4 31Bモデルをスポーツ記事生成用にファインチューニングしました。品質、速度、コストにおいてClaude Sonnetとの比較結果、ローカル推論対クラウドGPU対APIコールの完全なコスト分析をここに示します。...
Googleは2026年4月3日にGemma 4をリリースしました。優れたベンチマーク結果、マルチモーダル機能、最大256Kのコンテキスト長を備えたオープンウェイトモデルファミリーです。スペック上は印象的なリリースですが、数時間のうちにコミュニティはあることに気づきました。公開ウェイトからMulti-Token Predictionヘッドが削除されていたのです。
このモデルはMTPを使って訓練されていました。GoogleのLiteRTフレームワークにはMTPコンポーネントが含まれています。しかし、HuggingFaceからダウンロードできるバージョンは標準的な自己回帰生成のみ。速度向上なし。投機的デコーディングなし。
本記事では、MTPとは何か、なぜ重要なのか、そしてこの決定がGemma 4を自分のハードウェアで実行するすべての人にとって何を意味するのかを解説します。
Gemma 4はGoogle DeepMindの最新オープンウェイトモデルファミリーで、Apache 2.0ライセンスの下でリリースされました。4つのサイズで提供されています:
| モデル | パラメータ数 | タイプ | 主な特徴 |
|---|---|---|---|
| Gemma 4 E2B | 有効23億 | Dense | Vision + Audio |
| Gemma 4 E4B | 有効45億 | Dense | Vision + Audio |
| Gemma 4 26B-A4B | 総260億 / アクティブ40億 | Mixture of Experts | Vision |
| Gemma 4 31B | 310億 | Dense | Vision |
主な機能として、ネイティブマルチモーダル対応、ファンクションコール、構造化JSON出力、140以上の言語での訓練が含まれます。31Bバリアントは、LMArenaテキストリーダーボードで第3位にランクインしています。
内部構造として、Gemma 4にはいくつかのアーキテクチャ上の革新が導入されています:交互に配置されたローカルスライディングウィンドウアテンションとグローバルアテンション層、比例RoPE(p-RoPE)、レイヤーごとの埋め込み(PLE)、共有KVキャッシュ、「Keys equal Values」メモリ最適化などです。
数値で見れば、これは優れたリリースです。問題は、公開ウェイトに含まれていないものにあります。
標準的な大規模言語モデルは、一度に1トークンずつテキストを生成します。各トークンにはモデル全体のフォワードパスが必要です。前のトークンが完了するまで次のトークンは開始できません。これが自己回帰デコーディングであり、本質的に逐次処理です。
Multi-Token Prediction(MTP) は、モデルに追加の予測ヘッドを加えることでこれを変えます。次のトークンだけでなく、N+1、N+2、N+3といったトークンを1回のフォワードパスですべて予測します。
その仕組みは以下の通りです:
これは投機的デコーディングと密接に関連していますが、重要な利点があります:ドラフトトークンが別の小さな「ドラフトモデル」を必要とせず、モデル自身から生成される点です。
高速化の度合いは、ドラフトトークンが正しい頻度(「受け入れ率」)に依存します。DeepSeek V3が実際の効果を実証しました:
| 指標 | 値 |
|---|---|
| 平均受け入れ長 | 検証ステップあたり2.4トークン |
| 推論高速化 | 平均1.8倍(ピーク時最大2.1倍) |
| 出力品質への影響 | なし — すべてのトークンはメインモデルが検証 |
受け入れ率2.4とは、平均してメインモデルの1回のフォワードパスで1トークンではなく2.4トークンが生成されることを意味します。出力は標準デコーディングと数学的に同一であり、すべてのトークンが検証されます。同じ品質がほぼ2倍の速度で得られるのです。
HuggingFaceユーザー(@shadowlilac )が、GoogleのGemma 4用LiteRTパッケージにMTP予測ヘッドとマルチトークン予測機能が含まれていることを発見しました。しかし、HuggingFaceで公開されたウェイトにはそれらが一切ありません。
MTPコンポーネントは意図的に削除されていました:
Googleのエンジニア(@srikanta-221 )がこれは意図的であると確認しました:
公開モデルは「幅広い互換性」のために標準的な自己回帰インターフェースのみを公開しています。MTPヘッドはモデル設定、フォワードパス、チェックポイントから除外されています。これにより、HuggingFace Transformers APIとの互換性が確保され、一貫したチェックポイントとランタイムの動作が維持されます。
Googleは、MTPをモデルの中核機能ではなく「デプロイ時の最適化」と位置づけています。MTP予測ヘッドはLiteRTエクスポートモデルにのみ保存されています。これはGoogleの自社オンデバイス推論フレームワークです。
この説明は精査に耐えません:
1. このモデルはMTPで訓練された。 その機能は存在します。リリースから削除するのは技術的制約ではなく、選択です。
2. サードパーティエンジンが実装できない。 vLLM、llama.cpp、SGLang、その他の推論フレームワークは、予測ヘッドなしにはMTPベースの投機的デコーディングを使用できません。これらのエンジンはオープンソースLLMデプロイメントの大多数を担っています。
3. ユーザーは遅いバージョンを使わされる。 MTPなしでは、Gemma 4は標準的な自己回帰速度で動作します。そのパフォーマンス差は実際にすでに表れています:
| モデル | ハードウェア | 速度 | 備考 |
|---|---|---|---|
| Gemma 4 26B-A4B | 5060 Ti 16GB | 11 tok/s | MTPなし、標準デコーディング |
| Qwen 3.5 35B-A3B | 5060 Ti 16GB | 60+ tok/s | 同等のMoEモデル |
| Gemma 4 E4B | RTX 4090 (vLLM) | ~9 tok/s | FlashAttentionフォールバック問題あり |
4. エコシステムのロックインを生む。 Googleの自社LiteRTフレームワークだけが速度の恩恵を受けます。それ以外は遅いモデルを使うことになります。「オープンウェイト」Apache 2.0リリースとしては、重大な非対称性です。
欠如したMTPヘッドの重要性を理解するには、推論最適化の進化の中でMTPがどこに位置するかを見ることが役立ちます。
別の小さな「ドラフトモデル」がトークンを提案します。メインモデルがそれらを並列に検証します。ドラフトが正しければ、ステップごとに複数のトークンが受け入れられます。
メインモデルが独自の軽量予測ヘッドを持ち、ドラフトトークンを生成します。別のモデルは不要です。
MTP予測ヘッドはメインモデルと並行して訓練されます。同じ内部表現を共有し、モデル自身のトークン分布を学習します。これにより、外部ドラフトモデルよりも高い受け入れ率が実現され、検証ステップごとにより多くのトークンが受け入れられ、全体的な生成が高速化します。
予測ヘッドは非常に小さく、通常モデルの総パラメータ数の1〜3%しか追加しません。メモリオーバーヘッドは別のドラフトモデルをロードする場合と比べて無視できるレベルです。
これはGemma 4だけの問題ではありません。この決定は、「オープン」ウェイトリリースが実際にどれだけオープンかという前例を作ります。
ユーザーが失うもの:
ユーザーが依然として持っているもの:
コミュニティの反応は率直でした。24時間のコンセンサスは、Gemma 4のベンチマーク結果は競争力がある — Qwen 3.5と同等かわずかに劣る — が、製品としては「未完成」であるというものでした。速度、安定性、ツーリングに改善が必要です。追加の問題として、HuggingFace Transformersが当初Gemma 4のアーキテクチャをサポートしていなかったこと、PEFTが新しいレイヤータイプに対応していなかったこと、Macユーザーが大型モデルのロード時にクラッシュを経験していることが挙げられています。
Gemma 4のデプロイを検討している方に、実用的な選択肢を紹介します:
従来の投機的デコーディングを使用する。 外部ドラフトモデルでGemma 4の推論を高速化できます。vLLMなどのフレームワークがGemma 4専用のEagle3投機的デコーディングサポートを追加中です。組み込みMTPほどの高速化は得られませんが、何もしないよりは良いでしょう。
速度重視のワークロードには代替を検討する。 Qwen 3.5は同等のハードウェアで大幅に高いトークン/秒を実現します。推論速度が最大の制約であれば、Qwenの方が速度対品質比で優れています。
コミュニティの回避策に注目する。 LiteRTエクスポートにはMTPヘッドが含まれています。研究者がそれらを抽出してHuggingFaceウェイトに再接続する方法を見つける可能性がありますが、Googleは公式にはこのパスをサポートしていません。
フィードバックを提供する。 Googleのエンジニアは積極的にHuggingFaceのディスカッションスレッドを監視しています。MTPヘッドのリリースに関する明確で技術的なリクエストは影響力があります。
Gemma 4は真のアーキテクチャ革新と優れたベンチマーク結果を持つ有能なモデルファミリーです。MTP予測ヘッドを公開リリースから削除し、GoogleのLiteRTフレームワークにのみ保持するという決定は、オープンウェイトの「オープン」を損なうものです。
MTPは些細な最適化ではありません。出力品質に影響を与えることなく、1.5〜2倍の推論高速化を実現できます。明らかにMTPで訓練されたモデルの公開ウェイトからそれを除外することは、二層システムを生み出します:Googleのツールには高速推論、それ以外には低速推論という構図です。
オープンソースAIコミュニティにとって、メッセージは明確です:ベンチマークだけでなく、ウェイトの中に実際に何が含まれているかを確認しましょう。オープンライセンスが常にオープンリリースを意味するわけではないのです。
ヴィクトル・ゼマンはQualityUnitの共同所有者です。20年以上会社を率いてきた今も、主にソフトウェアエンジニアとして、AI、プログラム的SEO、バックエンド開発を専門としています。LiveAgent、PostAffiliatePro、FlowHunt、UrlsLabなど、数多くのプロジェクトに貢献してきました。

MacBook Pro M3 MaxでGoogle's Gemma 4 31Bモデルをスポーツ記事生成用にファインチューニングしました。品質、速度、コストにおいてClaude Sonnetとの比較結果、ローカル推論対クラウドGPU対APIコールの完全なコスト分析をここに示します。...

Google Geminiとは何か、その仕組みやChatGPTとの比較、マルチモーダル機能、価格、2025年の実際の活用例について解説します。...

Google I/O 2025の主要発表をチェック。Gemini 2.5 Flash、Project Astra、Android XR、Android StudioのAIエージェント、Gemini Nano、Gemma 3n、SignGemma、そしてFlowHuntがこれらの新しいAIネイティブ機能をどのように活用し...