Multi-Token Prediction (MTP) Nedir?

Multi-Token Prediction, bir LLM'nin tek seferde bir token yerine tek bir ileri geçişte birden fazla gelecek token tahmin ettiği bir tekniktir. Ana modelin yanında ek tahmin başlıkları eğitilerek N+1, N+2, N+3 vb. tokenler eş zamanlı olarak taslak haline getirilir ve ardından ana model tarafından paralel olarak doğrulanır. Bu, çıktı kalitesinde hiçbir kayıp olmadan 1,5–2 kat çıkarım hızlanması sağlar.

Gemma 4, MTP'yi destekliyor mu?

Gemma 4, MTP tahmin başlıkları ile eğitilmiştir ve bunlar Google'ın LiteRT (cihaz üzerinde çıkarım) dışa aktarmalarında mevcuttur. Ancak halka açık HuggingFace ağırlıklarından MTP başlıkları kasıtlı olarak çıkarılmıştır. Google, bunun mevcut çıkarım çerçeveleriyle 'geniş uyumluluk' sağlamak için yapıldığını belirtmiştir.

MTP başlıklarının kaldırılması neden önemli?

MTP başlıkları olmadan vLLM, llama.cpp ve SGLang gibi üçüncü taraf çıkarım motorları Gemma 4 için yerleşik spekülatif kod çözme kullanamaz. Kullanıcılar, önemli ölçüde daha yavaş olan standart otoregresif üretimle sınırlı kalır. Karşılaştırma testleri, Gemma 4'ün karşılaştırılabilir modellerin saniyede 60+ token ürettiği donanımlarda yalnızca 11 token/sn ürettiğini göstermektedir.

Spekülatif kod çözme nedir?

Spekülatif kod çözme, hızlı bir 'taslak' modelin aynı anda birden fazla token önermesi ve ana modelin bunları tek bir ileri geçişte doğrulaması esasına dayanan bir çıkarım hızlandırma tekniğidir. Taslak tokenler doğruysa, birden fazla kod çözme adımı etkin bir şekilde atlanır. MTP, taslak tokenlerin ayrı bir model yerine modelin kendi yerleşik tahmin başlıklarından geldiği bir varyanttır.

Google, Gemma 4 için MTP başlıklarını yayınlayacak mı?

Nisan 2026 itibarıyla Google, HuggingFace ağırlıkları için MTP tahmin başlıklarını yayınlama planı açıklamamıştır. Şu anda yalnızca LiteRT ile dışa aktarılan modellerde mevcutturlar ve bu da kullanımlarını Google'ın kendi çıkarım çerçevesiyle sınırlandırmaktadır. Topluluk, yayınlanmaları için talepte bulunmaya devam etmektedir.

Gemma 4, MTP Verileri Olmadan Yayınlandı — İşte Bunun Neden Önemli Olduğu

Google, Gemma 4’ün halka açık sürümünden MTP tahmin başlıklarını çıkarırken bunları kendi LiteRT çerçevesinde korudu. İşte bunun çıkarım hızı ve açık kaynak yapay zeka için anlamı.

AI LLM Gemma Open Source

Başlayın Daha Fazla Oku

Google, 3 Nisan 2026’da Gemma 4’ü yayınladı — güçlü karşılaştırma sonuçları, çok modlu yetenekler ve 256K’ya kadar bağlam uzunluğu sunan bir açık ağırlıklı model ailesi. Kağıt üzerinde etkileyici bir sürüm. Ancak saatler içinde topluluk eksik bir şey keşfetti: Multi-Token Prediction başlıkları halka açık ağırlıklardan çıkarılmıştı.

Model MTP ile eğitilmişti. Google’ın kendi LiteRT çerçevesi MTP bileşenlerini içeriyor. Ama herkesin HuggingFace’den indirebileceği sürüm? Yalnızca standart otoregresif üretim. Hız artışı yok. Spekülatif kod çözme yok.

Bu yazı, MTP’nin ne olduğunu, neden önemli olduğunu ve bu kararın Gemma 4’ü kendi donanımında çalıştıran herkes için ne anlama geldiğini açıklıyor.

Gemma 4 Nedir?

Gemma 4, Google DeepMind’ın Apache 2.0 lisansı altında yayınlanan en son açık ağırlıklı model ailesidir. Dört boyutta sunulmaktadır:

Model	Parametreler	Tür	Öne Çıkan Özellikler
Gemma 4 E2B	2,3 milyar efektif	Yoğun	Görüntü + Ses
Gemma 4 E4B	4,5 milyar efektif	Yoğun	Görüntü + Ses
Gemma 4 26B-A4B	26 milyar toplam / 4 milyar aktif	Mixture of Experts	Görüntü
Gemma 4 31B	31 milyar	Yoğun	Görüntü

Temel yetenekler arasında doğal çok modlu destek, fonksiyon çağırma, yapılandırılmış JSON çıktısı ve 140’tan fazla dilde eğitim bulunmaktadır. 31B varyantı, LMArena metin sıralamasında 3. sırada yer almaktadır.

Mimari açıdan Gemma 4, birçok yenilik getirmektedir: dönüşümlü yerel kayan pencere ve global dikkat katmanları, oransal RoPE (p-RoPE), Katman Başına Gömme (PLE), paylaşımlı KV önbellek ve “Anahtarlar eşittir Değerler” bellek optimizasyonu.

Rakamlara bakıldığında bu güçlü bir sürüm. Sorun, halka açık ağırlıklarda olmayan şey.

Multi-Token Prediction Nedir?

Standart büyük dil modelleri metni her seferinde bir token üretir. Her token, modelden tam bir ileri geçiş gerektirir. Bir sonraki token, önceki tamamlanana kadar başlayamaz. Bu otoregresif kod çözmedir ve doğası gereği sıralıdır.

Standart otoregresif kod çözme (adım başına bir token) ile Multi-Token Prediction'ı (adım başına birden fazla token) karşılaştıran diyagram

Multi-Token Prediction (MTP), modele ekstra tahmin başlıkları ekleyerek bunu değiştirir. Yalnızca bir sonraki tokeni tahmin etmek yerine, model N+1, N+2, N+3 ve sonraki tokenleri — hepsini tek bir ileri geçişte tahmin eder.

İşleyiş şöyledir:

Eğitim aşaması: Ana modelin yanında ek hafif tahmin başlıkları eğitilir. Her başlık, farklı bir gelecek konumu tahmin etmeyi öğrenir (1 ileri, 2 ileri, 3 ileri vb.)
Çıkarım aşaması: Ekstra başlıklar paralel olarak “taslak” tokenler üretir. Ana model daha sonra hepsini tek bir ileri geçişte doğrular.
Doğrulama: Taslak tokenler, ana modelin üreteceğiyle eşleşirse, hepsi bir kerede kabul edilir — birden fazla sıralı kod çözme adımı atlanmış olur. Bir taslak token yanlışsa, üretim o konuma geri döner.

Bu, spekülatif kod çözme ile yakından ilişkilidir, ancak önemli bir avantajı vardır: taslak tokenler, ayrı, daha küçük bir “taslak model” gerektirmek yerine modelin kendisinden gelir.

MTP tahmin başlıklarının ana transformer modeline nasıl bağlandığını ve eş zamanlı olarak birden fazla taslak token ürettiğini gösteren mimari diyagram

MTP Ne Kadar Hızlı?

Hızlanma, taslak tokenlerin ne sıklıkta doğru olduğuna (“kabul oranı”) bağlıdır. DeepSeek V3, gerçek dünyadaki etkiyi göstermiştir:

Metrik	Değer
Ortalama kabul uzunluğu	Doğrulama adımı başına 2,4 token
Çıkarım hızlanması	Ortalama 1,8x (zirve 2,1x’e kadar)
Çıktı kalitesi etkisi	Sıfır — tüm tokenler ana model tarafından doğrulanır

2,4’lük bir kabul oranı, ortalamada ana modelden her ileri geçişin 1 yerine 2,4 token ürettiği anlamına gelir. Çıktı, standart kod çözmeyle matematiksel olarak aynıdır — her token doğrulanır. Aynı kaliteyi neredeyse iki kat hızda elde edersiniz.

Gemma 4 ile Ne Oldu?

Bir HuggingFace kullanıcısı (@shadowlilac ), Google’ın Gemma 4 için LiteRT paketinin MTP tahmin başlıkları ve çok tokenli tahmin işlevselliği içerdiğini keşfetti. Ancak HuggingFace’de halka açık yayınlanan ağırlıklarda bunların hiçbiri yok.

MTP bileşenleri kasıtlı olarak çıkarılmış:

Kontrol noktasında MTP başlıkları yok
Model yapılandırmasında MTP yok
İleri geçişte MTP yok

Gemma 4'ün eğitiminin MTP başlıkları içerdiğini, ancak halka açık HuggingFace sürümünün bunları çıkardığını, Google'ın LiteRT sürümünün ise koruduğunu gösteren diyagram

Google’ın Açıklaması

Bir Google mühendisi (@srikanta-221 ) bunun kasıtlı olduğunu doğruladı:

Halka açık model, “geniş uyumluluk” için yalnızca standart bir otoregresif arayüz sunmaktadır. MTP başlıkları model yapılandırmasından, ileri geçişten ve kontrol noktasından çıkarılmıştır. Bu, HuggingFace Transformers API’leri ile uyumluluğu sağlar ve tutarlı kontrol noktası ve çalışma zamanı davranışını korur.

Google, MTP’yi temel bir model özelliği yerine bir “dağıtım zamanı optimizasyonu” olarak çerçeveliyor. MTP tahmin başlıkları yalnızca LiteRT ile dışa aktarılan modellerde korunuyor — Google’ın kendi cihaz üzerinde çıkarım çerçevesi.

Bunun Neden Sorun Olduğu

Açıklama, yakından incelendiğinde tutarlı değil:

1. Model MTP ile eğitildi. Yetenek mevcut. Bunu sürümden çıkarmak bir tercih, teknik bir sınırlama değil.

2. Üçüncü taraf motorlar bunu uygulayamıyor. vLLM, llama.cpp, SGLang ve diğer çıkarım çerçeveleri, tahmin başlıkları olmadan MTP tabanlı spekülatif kod çözme kullanamaz. Bu motorlar, açık kaynak LLM dağıtımlarının büyük çoğunluğuna hizmet vermektedir.

3. Kullanıcılar yavaş sürümü alıyor. MTP olmadan Gemma 4, standart otoregresif hızlarda çalışır. Performans farkı pratikte zaten görülmektedir:

Model	Donanım	Hız	Notlar
Gemma 4 26B-A4B	5060 Ti 16GB	11 token/sn	MTP yok, standart kod çözme
Qwen 3.5 35B-A3B	5060 Ti 16GB	60+ token/sn	Karşılaştırılabilir MoE model
Gemma 4 E4B	RTX 4090 (vLLM)	~9 token/sn	FlashAttention geri dönüş sorunları

4. Ekosistem kilitlenmesi yaratıyor. Google’ın kendi LiteRT çerçevesi hız avantajını alıyor. Diğer herkes daha yavaş bir model alıyor. “Açık ağırlıklı” Apache 2.0 sürümü için bu önemli bir asimetri.

Spekülatif Kod Çözme Nasıl Çalışır (ve MTP Neden Daha İyi)

Eksik MTP başlıklarının neden önemli olduğunu anlamak için, MTP’nin çıkarım optimizasyonunun evrimindeki yerine bakmak faydalıdır.

Üç spekülatif kod çözme yaklaşımının karşılaştırması: geleneksel (ayrı taslak model), spekülatif-spekülatif ve MTP (yerleşik tahmin başlıkları)

Yaklaşım 1: Geleneksel Spekülatif Kod Çözme

Ayrı, daha küçük bir “taslak model” tokenler önerir. Ana model bunları paralel olarak doğrular. Taslaklar doğruysa, adım başına birden fazla token kabul edilir.

Avantajlar: Herhangi bir model çiftiyle çalışır
Dezavantajlar: İkinci bir modelin yönetilmesi ve yüklenmesi gerekir; taslak model kalitesi hızlanmayı sınırlar; ekstra bellek yükü

Yaklaşım 2: MTP (Yerleşik Tahmin Başlıkları)

Ana modelin taslak tokenler üreten kendi hafif tahmin başlıkları vardır. Ayrı bir modele gerek yoktur.

Avantajlar: Ekstra model gerekmez; daha sıkı entegrasyon daha yüksek kabul oranları sağlar; daha düşük bellek yükü
Dezavantajlar: Yalnızca tahmin başlıkları sürüme dahil edilmişse çalışır

MTP Neden Kazanır

MTP tahmin başlıkları ana modelin yanında eğitilir. Aynı dahili temsilleri paylaşır ve modelin kendi token dağılımını öğrenir. Bu, genellikle harici bir taslak modelden daha yüksek kabul oranları üretir; bu da doğrulama adımı başına daha fazla token kabulü ve genel olarak daha hızlı üretim anlamına gelir.

Tahmin başlıkları ayrıca küçüktür — genellikle modelin toplam parametre sayısına yalnızca %1-3 ekler. Bellek yükü, ayrı bir taslak model yüklemeyle karşılaştırıldığında ihmal edilebilir düzeydedir.

Daha Geniş Etki

Bu sadece Gemma 4 ile ilgili değil. Bu karar, “açık” ağırlıklı sürümlerin gerçekte ne kadar açık olduğu konusunda bir emsal teşkil ediyor.

Kullanıcıların kaybettiği:

Herhangi bir üçüncü taraf çıkarım motorunda MTP tabanlı spekülatif kod çözme
MTP başlıklarını ince ayar yapma veya deneme olanağı
Google’ın kendi dağıtım araçlarıyla performans eşitliği

Kullanıcıların hâlâ sahip olduğu:

Temel model ağırlıkları (gerçekten iyi olan)
Ayrı bir taslak model kullanarak geleneksel spekülatif kod çözme (vLLM sorun kaydı #38893 Gemma 4 için Eagle3 desteğini takip ediyor)
Standart niceleme ve optimizasyon teknikleri

Topluluk tepkisi doğrudan oldu. 24 saatlik genel kanı, Gemma 4’ün karşılaştırma sonuçlarının rekabetçi olduğu — Qwen 3.5 ile eşleştiği veya biraz gerisinde kaldığı — ancak ürünün “tamamlanmamış” olduğu yönündeydi. Hız, kararlılık ve araç desteği çalışma gerektiriyor. Ek sorunlar arasında HuggingFace Transformers’ın başlangıçta Gemma 4 mimari desteğinden yoksun olması, PEFT’in yeni katman türlerini işleyememesi ve Mac kullanıcılarının daha büyük modelleri yüklerken çökme yaşaması yer alıyor.

Ne Yapabilirsiniz?

Gemma 4’ü dağıtım için değerlendiriyorsanız, işte pratik seçenekler:

Geleneksel spekülatif kod çözme kullanın. Harici taslak modeller yine de Gemma 4 çıkarımını hızlandırabilir. vLLM gibi çerçeveler, özellikle Gemma 4 için Eagle3 spekülatif kod çözme desteği ekliyor. Hızlanma yerleşik MTP ile eşleşmeyecektir, ancak hiç yoktan iyidir.

Hız açısından kritik iş yükleri için alternatifleri değerlendirin. Qwen 3.5, eşdeğer donanımda önemli ölçüde daha iyi token/saniye performansı sunuyor. Çıkarım hızı birincil kısıtlamanızsa, Qwen şu anda daha iyi bir hız-kalite oranı sunmaktadır.

Topluluk çözümlerini takip edin. LiteRT dışa aktarmaları MTP başlıklarını içeriyor. Araştırmacılar bunları çıkarıp HuggingFace ağırlıklarına yeniden ekleyecek yollar bulabilir, ancak Google bu yolu resmi olarak desteklememektedir.

Geri bildirim sağlayın. Google mühendisleri HuggingFace tartışma başlıklarını aktif olarak takip ediyor. MTP başlıklarının yayınlanması için net, teknik talepler etkili olabilir.

Sonuç

Gemma 4, gerçek mimari yenilikler ve güçlü karşılaştırma sonuçlarına sahip yetenekli bir model ailesidir. MTP tahmin başlıklarını halka açık sürümden çıkarıp bunları Google’ın kendi LiteRT çerçevesinde koruma kararı, açık ağırlığın içindeki “açık"lığı zayıflatmaktadır.

MTP küçük bir optimizasyon değildir. Çıktı kalitesinde sıfır etki ile 1,5–2 kat çıkarım hızlanması sağlayabilir. Model açıkça MTP ile eğitilmişken bunu halka açık ağırlıklardan esirgemek iki katmanlı bir sistem yaratmaktadır: Google’ın araçları için hızlı çıkarım, diğer herkes için yavaş çıkarım.

Açık kaynak yapay zeka topluluğu için mesaj açıktır: yalnızca karşılaştırma sonuçlarına değil, ağırlıkların içinde gerçekte ne olduğuna bakın. Açık bir lisans, her zaman açık bir sürüm anlamına gelmez.

FlowHunt ile oluşturuldu. Açık kaynak yapay zeka alanındaki en son gelişmeleri bloğumuzda takip edin.

Sıkça sorulan sorular

: Multi-Token Prediction, bir LLM'nin tek seferde bir token yerine tek bir ileri geçişte birden fazla gelecek token tahmin ettiği bir tekniktir. Ana modelin yanında ek tahmin başlıkları eğitilerek N+1, N+2, N+3 vb. tokenler eş zamanlı olarak taslak haline getirilir ve ardından ana model tarafından paralel olarak doğrulanır. Bu, çıktı kalitesinde hiçbir kayıp olmadan 1,5–2 kat çıkarım hızlanması sağlar.
: Gemma 4, MTP tahmin başlıkları ile eğitilmiştir ve bunlar Google'ın LiteRT (cihaz üzerinde çıkarım) dışa aktarmalarında mevcuttur. Ancak halka açık HuggingFace ağırlıklarından MTP başlıkları kasıtlı olarak çıkarılmıştır. Google, bunun mevcut çıkarım çerçeveleriyle 'geniş uyumluluk' sağlamak için yapıldığını belirtmiştir.
: MTP başlıkları olmadan vLLM, llama.cpp ve SGLang gibi üçüncü taraf çıkarım motorları Gemma 4 için yerleşik spekülatif kod çözme kullanamaz. Kullanıcılar, önemli ölçüde daha yavaş olan standart otoregresif üretimle sınırlı kalır. Karşılaştırma testleri, Gemma 4'ün karşılaştırılabilir modellerin saniyede 60+ token ürettiği donanımlarda yalnızca 11 token/sn ürettiğini göstermektedir.
: Spekülatif kod çözme, hızlı bir 'taslak' modelin aynı anda birden fazla token önermesi ve ana modelin bunları tek bir ileri geçişte doğrulaması esasına dayanan bir çıkarım hızlandırma tekniğidir. Taslak tokenler doğruysa, birden fazla kod çözme adımı etkin bir şekilde atlanır. MTP, taslak tokenlerin ayrı bir model yerine modelin kendi yerleşik tahmin başlıklarından geldiği bir varyanttır.
: Nisan 2026 itibarıyla Google, HuggingFace ağırlıkları için MTP tahmin başlıklarını yayınlama planı açıklamamıştır. Şu anda yalnızca LiteRT ile dışa aktarılan modellerde mevcutturlar ve bu da kullanımlarını Google'ın kendi çıkarım çerçevesiyle sınırlandırmaktadır. Topluluk, yayınlanmaları için talepte bulunmaya devam etmektedir.

En İyi Modellerle Yapay Zeka İş Akışları Oluşturun

FlowHunt, bulut API'leri ve açık kaynak modelleri kullanarak otomatik yapay zeka boru hatları oluşturmanıza olanak tanır — hız, maliyet ve kalite üzerinde tam kontrol ile.

Başlayın Daha Fazla Oku

Daha fazla bilgi

Gemma 4'ün Apple Silicon'da Fine-Tuning'i: Claude Sonnet'in Yerini Alabilir mi?

Google'ın Gemma 4 31B modelini bir MacBook Pro M3 Max'te spor makaleleri oluşturmak için fine-tune ettik. İşte kalite, hız ve maliyet açısından Claude Sonnet il...

Apr 6, 2026 10 dakika okuma

AI LLM +6

Google Gemini AI Sohbet Botu Nedir?

Google Gemini'nin ne olduğunu, nasıl çalıştığını ve ChatGPT ile nasıl karşılaştırıldığını keşfedin. 2025 için çok modlu yetenekleri, fiyatlandırması ve gerçek d...

Dec 1, 2025 10 dakika okuma

Gemini 3 Flash: Profesyoneli Geride Bırakan, Maliyetin Çok Altında Olan Oyun Değiştirici AI Modeli

Google'ın Gemini 3 Flash modelinin, üstün performansı, düşük maliyeti ve yüksek hızıyla AI dünyasını nasıl dönüştürdüğünü; hatta kodlama görevlerinde Gemini 3 P...

Dec 22, 2025 14 dakika okuma

AI Models Google Gemini +3

Gemma 4, MTP Verileri Olmadan Yayınlandı — İşte Bunun Neden Önemli Olduğu

Gemma 4 Nedir?