Gemma 4'ün Apple Silicon'da Fine-Tuning'i: Claude Sonnet'in Yerini Alabilir mi?

AI LLM Fine-Tuning Gemma

Dokuz spor dalında maç raporları ve lig tur özeti yayınlayan bir spor veri platformu işletiyoruz. Her makale Claude Sonnet’e API çağrıları aracılığıyla oluşturulmuştur — güvenilir, yüksek kaliteli, ancak ölçekte pahalı. Merak ettik: kendi verilerimizde fine-tune edilmiş açık kaynaklı bir model, tamamen yerel donanımda çalışırken karşılaştırılabilir kalitede makaleler üretebilir mi?

Bu yazı tam denemeyi açıklıyor — veri hazırlığından LoRA fine-tuning’e, başa baş karşılaştırmaya kadar — Google’ın Gemma 4 31B modelini, Apple’ın MLX çerçevesini ve 96GB birleşik belleğe sahip bir MacBook Pro M3 Max’i kullanarak. Ayrıca gerçek dünya ekonomisini de açıklıyoruz: özel bir modeli eğitmek API çağrılarına kıyasla ne zaman gerçekten para tasarrufu sağlar?

Gemma 4 Nedir?

Gemma 4, Google’ın 2025’te Gemma 2 serisinin halefi olarak yayınlanan açık ağırlıklı geniş dil modeli ailesidir. Anahtar sözcük açık ağırlıklı — GPT-4 veya Claude gibi mülkiyet modelleri aksine, Gemma 4’ün ağırlıkları devam eden API ücretleri olmaksızın indirme, fine-tuning ve dağıtım için serbestçe kullanılabilir.

Model birkaç boyutta gelir. 31B parametre talimat ayarlamalı varyantını (google/gemma-4-31B-it) kullandık; bu yetenek ve donanım gereksinimleri arasında iyi bir denge noktasında yer alır. Tam fp16 hassasiyetinde yaklaşık 62GB bellek gerekir; 4-bit niceleme ile yaklaşık 16GB’a sıkıştırılır ve 32GB RAM’e sahip bir dizüstü bilgisayarda çalışmak için yeterince küçüktür.

Gemma 4’ü kullanım durumumuz için özellikle ilgi çekici kılan şeyler:

  • API maliyeti yok — indirildikten sonra, çıkarım ücretsizdir (elektrik hariç)
  • Fine-tunable — LoRA adaptörleri, modeli minimum işlem ile alan adınıza özelleştirmenize izin verir
  • Tüketici donanımında çalışır — Apple Silicon’ın birleşik bellek mimarisi, MacBook Pro’da 31B modeli eğitmek ve çalıştırmak mümkün kılar
  • Ticari dostu lisans — Gemma’nın şartları ticari kullanıma izin verir ve üretim iş yükleri için uygulanabilir hale getirir

Ödünleşim açıktır: API çağrısının tak ve çalıştır rahatlığından vazgeçersiniz, kontrol, gizlilik ve ölçekte dramatik olarak daha düşük marjinal maliyetler karşılığında.

Sorun

Platformumuz futbol, basketbol, hokey, NFL, beyzbol, ragbi, voleybol ve hentbol arasında günde yüzlerce makale oluşturur. Her makale Claude Sonnet’e API çağrıları için kabaca 0,016 dolar maliyetlidir. Bu hızla birikir — günde 500 makale, ayda 240 dolar veya yılda 2.880 dolar anlamına gelir.

Maliyetin ötesinde, şunları istedik:

  • Model üzerinde kontrol — genel amaçlı bir modeli isteme yerine tam olarak yayın tarzımızda fine-tune etme yeteneği
  • Çevrimdışı çıkarım — harici API kullanılabilirliğine bağlılık yok
  • Veri gizliliği — maç verileri altyapımızı asla terk etmez

Hipotez: Claude Sonnet tarafından yazılmış 120 “mükemmel” makalede 31B parametre modeli eğitip eğitseydik, yapıyı, tonu ve spor spesifik kuralları yeterince öğrenebilmeli ve makaleleri bağımsız olarak oluşturabilmeliydi.

Ardışık Düzen

Deney beş aşamada yürütüldü:

Aşama 1: Eğitim Maçlarını Seçme — Tüm maçlar iyi eğitim örnekleri değildir. Olaylar, istatistikler ve puan tablosu bağlamı ile veri yoğun maçları tercih eden bir zenginlik puanlama sistemi oluşturduk. 100 maç makalesi ve 20 lig günü özeti seçtik; sonuç türleri arasında çeşitlilik (ev kazanışları, deplasman kazanışları, beraberlikler, ezilişler, geri dönüşler). Bu ilk deney için, yalnızca futbola odaklandık: toplam 120 eğitim örneği.

Aşama 2: Claude Sonnet ile Referans Makaleler Oluşturma — Her maçın JSON verileri yapılandırılmış bir metin isteme dönüştürüldü ve ters piramit makale yapısını tanımlayan sistem istemi ile Claude Sonnet’e gönderildi: başlık, puan ile giriş paragrafı, kronolojik anahtar anlar, istatistik analizi, lig bağlamı ve kısa bir ileriye bakış. Her makale yaklaşık 0,016 dolar maliyetlidir. Tam 120 makaleli veri seti 2 dolardan az maliyetlidir.

Aşama 3: Veri Seti Biçimlendirmesi — Makaleler Gemma’nın sohbet biçimine dönüştürüldü (<start_of_turn>user / <start_of_turn>model) ve 90/10 oranında 115 eğitim ve 13 doğrulama örneğine bölündü.

Aşama 4: MLX’te LoRA ile Fine-Tuning — Apple Silicon’ın değerini kanıtladığı yer burası. Tam 31B model M3 Max’in birleşik belleğine sığar. LoRA’yı 16 katmana küçük eğitilebilir matrisler eklemek için kullandık, sadece 16,3 milyon eğitilebilir parametre ekledi — toplamın %0,053’ü.

ParametreDeğer
Temel modelgoogle/gemma-4-31B-it
Eğitilebilir parametreler16.3M (31B’nin %0,053’ü)
Eğitim örnekleri115
Dönemler3
Toplam tekrar345
Toplu iş boyutu1
Öğrenme oranı1e-4
Tepe bellek kullanımı76.4 GB
Eğitim süresi~2,5 saat

Doğrulama kaybı 345 tekrar üzerinde 6.614’ten 1.224’e düştü; ilk 100 adımda en dik iyileşme.

Aşama 5: Niceleme — MLX kullanarak 4-bit niceleme uyguladık; modeli 62GB’dan ~16GB’a sıkıştırdık. Bu, kabul edilebilir kaliteyi korurken çıkarımı 2,6 kat hızlandırdı.

Sonuçlar: Gemma 4 vs. Claude Sonnet

Özdeş maç verilerinden oluşturulan beş makaleyi üç konfigürasyonun tamamında karşılaştırdık.

KonfigürasyonOrtalama KelimelerOrtalama ZamanKalite
Claude Sonnet (API)402~2sEn iyi anlatı akışı, sıfır halüsinasyon
Gemma 4 31B fp16 + LoRA391207sGüçlü yapı, ara sıra tekrar
Gemma 4 31B 4-bit + LoRA42580sİyi yapı, ara sıra küçük gerçek hataları

Fine-tune edilmiş Gemma 4’ün başarılı olduğu yerler:

  • Başlıklar tutarlı olarak güçlüdür — bir durumda Sonnet’in çıktısı ile kelime kelime aynıdır
  • Makale yapısı ters piramit desenini mükemmel şekilde takip eder
  • Maç gerçekleri (takım adları, puanlar, gol atan oyuncular, dakikalar) çoğu durumda doğru şekilde raporlanır

Sonnet’in hala öncü olduğu yerler:

  • Anlatı akışı — Sonnet’in makaleleri daha doğal okunur ve daha iyi paragraf geçişlerine sahiptir
  • Gerçek doğruluk — test seti içinde sıfır halüsinasyon veya yanlış atıf
  • Tutarlılık — hedef kelime sayısında makaleler güvenilir şekilde üretir ve tek biçimli kalite sağlar

LoRA eğitimi buna değer miydi? Kesinlikle. LoRA olmadan, temel Gemma 4 modeli iç düşünce belirteçleri (<|channel>thought), markdown biçimlendirmesi ve genel spor yazısı ile dolu çıktı üretir. Fine-tune edilmiş model, tam olarak yayın tarzımızda temiz, üretim kullanımına hazır metin çıktı verir. Tüm LoRA eğitimi API çağrılarında 2 dolar ve 2,5 saatlik işlem maliyetlidir.

Önemli Not: M3 Max Bir Üretim Hedefi Değil, Bir Test Tezgahıydı

MacBook Pro M3 Max, geliştirme ve deney platformu olarak amacını yerine getirdi. Bir MacBook Pro’da 31B modelde fine-tuning ve çıkarımın teknik olarak uygulanabilir olduğunu kanıtladı. Ancak üretim iş yüklerini asla yerel bir dizüstü bilgisayarda dağıtmazdık.

Gerçek üretim dağıtımı için bulut GPU örneği doğru seçimdir. AWS’de gerçekçi bir dağıtım şöyle görünür.

Maliyet Analizi: Bulut GPU vs. Sonnet API vs. Yerel Makine

AWS GPU Dağıtımı (g5.xlarge — NVIDIA A10G, 24GB VRAM)

Nicemlenen 4-bit Gemma 4 modeli (16GB) rahatça tek bir A10G GPU’ya sığar. A10G’de çıkarım hızı Apple Silicon’dan çarpıcı şekilde daha hızlıdır — M3 Max’te 80 saniyeye karşı kabaca makale başına 15 saniye.

MetrikDeğer
Örnek türüg5.xlarge
GPUNVIDIA A10G (24GB VRAM)
İsteğe bağlı fiyat1,006 dolar/saat
Spot fiyatı (tipik)~0,40 dolar/saat
Çıkarım hızı~15 saniye/makale
Verim~240 makale/saat
Makale başına maliyet (isteğe bağlı)0,0042 dolar
Makale başına maliyet (spot)0,0017 dolar

Yan Yana Aylık Maliyet Karşılaştırması (günde 500 makale)

YaklaşımMakale Başına MaliyetGünlük MaliyetAylık MaliyetYıllık Maliyet
Claude Sonnet API0,016 dolar8,00 dolar240 dolar2.880 dolar
AWS g5.xlarge (isteğe bağlı)0,0042 dolar2,10 dolar63 dolar756 dolar
AWS g5.xlarge (spot)0,0017 dolar0,85 dolar25,50 dolar306 dolar
Yerel M3 Max (elektrik)0,0007 dolar0,35 dolar10,50 dolar126 dolar

GPU avantajı açıktır: Sonnet API çağrılarına kıyasla isteğe bağlı örneklerde %74 maliyet azalması, spot örneklerde %89 — API çağrısından sadece 7-8 kat daha yavaş üretim hızları, M3 Max’te 40 kat daha yavaş yerine.

Yerel Makine Ekonomisi

Yerel M3 Max’in en düşük marjinal maliyeti vardır (elektrik açısından makale başına 0,0007 dolar) ancak en yüksek ön yatırım. Saatte ~45 makale (4-bit nicemlendi), tek bir M3 Max 24/7 çalışırken kabaca günde 1.080 makale üretir.

Maliyet FaktörüDeğer
Donanım maliyeti~4.000 dolar (MacBook Pro M3 Max 96GB)
Güç tüketimi~200W yük altında
Elektrik maliyeti~0,72 dolar/gün (24 saat sürekli)
Verim~1.080 makale/gün
Sonnet’e karşı kırılma noktası~260.000 makale (~8 ay, günde 500’de)

Yerel ne zaman mantıklı olur? %100 veri gizliliği gerektiren ve bulut tabanlı modelleri kullanamayan şirketler için — yasal gereklilikler, sözleşmesel yükümlülükler veya hassas alanlarda çalışma nedeniyle — yerel dağıtım tüm harici veri iletimini ortadan kaldırır. Maç verileri, model ağırlıkları ve oluşturulan içerik şirketin tesislerini asla terk etmez. Bu maliyet optimizasyonu hakkında değil; uyum ve kontrol hakkında. Savunma, sağlık, finans ve hukuk gibi endüstriler bunu tek kabul edilebilir dağıtım modeli bulabilir.

Özel Model Ne Zaman Kendini Amorti Eder?

Kritik soru: fine-tuning yatırımı, her şey için Claude Sonnet kullanmaya karşı ne zaman kırılma noktasına ulaşır?

Özel Model Ardışık Düzeni için Tek Seferlik Maliyetler

MaddeMaliyet
Eğitim veri oluşturma (Sonnet aracılığıyla 120 makale)2 dolar
Tam 9-spor eğitim verileri (960 makale)16 dolar
Ardışık düzen için geliştirici zamanı (~20 saat)~500 dolar
Eğitim için AWS GPU süresi (isteğe bağlı)~5 dolar
Toplam tek seferlik yatırım~523 dolar

Kırılma Noktası Hesaplaması

Makale başına tasarruf dağıtımınıza bağlıdır:

DağıtımMakale Başına MaliyetSonnet’e Karşı TasarrufKırılma Noktası (makaleler)Günde 500’de Kırılma Noktası
AWS isteğe bağlı0,0042 dolar0,0118 dolar~44.300~89 gün (~3 ay)
AWS spot0,0017 dolar0,0143 dolar~36.600~73 gün (~2,5 ay)
Yerel M3 Max0,0007 dolar0,0153 dolar~34.200~68 gün (~2 ay)

Geliştirici zamanını hariç tutarsak (öğrenme deneyimi için batık maliyet olarak kabul ederek) ve yalnızca sabit altyapı maliyetlerini sayarsak (21 dolar):

DağıtımKırılma Noktası (makaleler)Günde 500’de Kırılma Noktası
AWS isteğe bağlı~1.7803,5 gün
AWS spot~1.4703 gün
Yerel M3 Max~1.3702,7 gün

Matematik açıktır: ~1.500’den fazla makale oluşturursanız, özel model kendini sabit maliyetler açısından amorti eder. Geliştirici zamanı eklemek kırılma noktasını kabaca 35.000-45.000 makale veya günde 500 makalede yaklaşık 2,5-3 aya itiyor.

Ölçekte (günde 500+ makale), yıllık tasarruflar önemlidir:

YaklaşımYıllık MaliyetSonnet’e Karşı Yıllık Tasarruf
Claude Sonnet2.880 dolar
AWS g5 isteğe bağlı756 dolar + 523 dolar tek seferlik = 1.279 dolar (1. yıl)1.601 dolar
AWS g5 spot306 dolar + 523 dolar tek seferlik = 829 dolar (1. yıl)2.051 dolar
Yerel M3 Max126 dolar + 4.523 dolar (donanım + kurulum) = 4.649 dolar (1. yıl)-1.769 dolar (1. yıl), +2.754 dolar (2. yıl+)

Melez Strateji

En pratik yaklaşım melez: fine-tune edilmiş Gemma 4 modelini rutin içerik (hacmin çoğu) için kullanın ve Claude Sonnet’i şunlar için ayırın:

  • Daha derin analitik akıl yürütme gerektiren karmaşık makaleler
  • Modelin eğitim verisi olmayan olağandışı durumlar
  • Fine-tuning verileri mevcut olmadan önce yeni spor veya içerik türleri
  • Sıfır halüsinasyon riski gerekli olan kalite açısından kritik parçalar

Bu, hacminizin %80-90’ında kendi kendine barındırılan çıkarımın maliyet faydalarını alırken, en önemli kenar durumlar için Sonnet’in üstün kalitesini elinizdede tutarsınız.

Öğrendiklerimiz

LoRA stil transferi için dikkat çekici derecede verimlidir. Sadece 115 eğitim örneği ile model, tam olarak yayın formatımızı, tonumuzu ve spor spesifik kurallarımızı öğrendi. Ters piramit yapısı, aktif fiil stili ve veri temelli yaklaşım tümü temiz şekilde aktarıldı.

Apple Silicon, 31B modelleri için uygulanabilir bir eğitim platformudur. M3 Max, gradyan kontrol noktası oluşturma ile tam modeli ele aldı; 76.4GB’da zirveye ulaştı. Eğitim 2,5 saatte tamamlandı — hiperparametre ayarlamalarında tek bir iş günü içinde yineleme yapmak için yeterince hızlı.

Yapılandırılmış giriş verileri büyük ölçüde önemlidir. Veri biçimlendirici kalitesi doğrudan makale kalitesini etkiler. Kapsamlı veri çıkarımına yatırım yapmak, hem API hem de kendi kendine barındırılan yollar üzerinde temettü sağlar.

Üretim dağıtımı buluta ait olur (çoğu takım için). M3 Max konsepti kanıtladı. AWS GPU örnekleri API çağrılarından %74-89 daha düşük maliyetle üretim iş yükleri için gereken hız ve güvenilirliği sağlar. Yerel makineler yalnızca veri gizliliği gereksinimleri tüm harici altyapıyı dışlayıp dışlamadığında doğru seçim kalır.

Kırılma noktası matematiği orta ölçekte özel modelleri destekler. ~1.500’den fazla makale oluşturan herhangi bir takım, fine-tuning sabit maliyetlerini neredeyse hemen geri kazanacaktır. Gerçek soru, özel modellerin para tasarrufu sağlayıp sağlamadığı değil — takımınızın ardışık düzeni oluşturma ve bakım yapma mühendislik kapasitesi olup olmadığıdır.

Sonuç

Gemma 4 31B’yi fine-tune etmek, başlık kalitesi, makale yapısı ve gerçek doğruluk açısında Claude Sonnet ile eşleşen bir içerik oluşturucu üretmiş — makale başına maliyeti bulut altyapısında %74-89 azaltırken ve bunu gerektiren kuruluşlar için tam özel, şirket içi dağıtımı etkinleştirmiştir.

M3 Max MacBook, bu deney için tamamen bir test tezgahı olarak hizmet etti. Gerçek üretim dağıtımı AWS GPU örnekleri (A10G ile g5.xlarge) üzerinde çalışacak; nicemlenen model makaleleri kabaca 15 saniyede makale başına 0,0042 dolardan oluşturur — Sonnet API çağrısı başına 0,016 dolara karşın.

Bulut tabanlı AI hizmetlerini kullanamayan ve tam veri gizliliği gerektiren şirketler için, nicemlenen modeli çalıştıran yerel makine meşru bir seçenektir. Saatte ~45 makalede, tek bir iş istasyonu sıfır harici veri maruziyeti ile orta hacimleri işler. Donanım yatırımı API maliyetlerine kıyasla yaklaşık 8 ayda kendini amorti eder.

Ekonomi açıktır: günde 500 makalede, AWS spot örneklerinde özel fine-tune edilmiş model, Claude Sonnet API çağrılarına kıyasla yılda 2.000 dolardan fazla tasarrufu sağlar. Kırılma noktası 3 aydan kısa sürede gelir. Ölçekte içerik oluşturmayı zaten çalıştıran takımlar için, açık ağırlıklı modellerin, LoRA fine-tuning’in ve emtia GPU donanımının kombinasyonu, mülkiyet API’lerine karşı güvenilir, uygun maliyetli bir alternatifi temsil eder.


FlowHunt ile oluşturuldu. Tam ardışık düzen — veri hazırlığından fine-tuning’e çıkarıma kadar — spor veri platformu araç seti’nin bir parçası olarak mevcuttur.

Sıkça sorulan sorular

Viktor Zeman, QualityUnit'in ortaklarından biridir. Şirketi 20 yıl boyunca yönettikten sonra bile, öncelikli olarak bir yazılım mühendisi olarak kalmaya devam etmektedir; yapay zeka, programatik SEO ve arka uç geliştirme konularında uzmanlaşmıştır. LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab ve daha birçok projeye katkıda bulunmuştur.

Viktor Zeman
Viktor Zeman
CEO, Yapay Zeka Mühendisi

AI Destekli İçerik Ardışık Düzenleri Oluşturun

FlowHunt, en iyi AI modellerini kullanarak otomatik içerik oluşturma iş akışları oluşturmanıza yardımcı olur — bulut API'leri veya kendi kendine barındırılan açık kaynak modelleri kullanın.

Daha fazla bilgi

Yapay Zeka Ajanları: GPT 4o Nasıl Düşünüyor?
Yapay Zeka Ajanları: GPT 4o Nasıl Düşünüyor?

Yapay Zeka Ajanları: GPT 4o Nasıl Düşünüyor?

GPT-4o’nun düşünme süreçlerine dair kapsamlı bir değerlendirme ile AI Ajanlarının nasıl çalıştığını keşfedin. İçerik üretimi, problem çözme ve yaratıcı yazım gi...

7 dakika okuma
AI GPT-4o +6
KNIME
KNIME

KNIME

KNIME (Konstanz Information Miner), görsel iş akışları, sorunsuz veri entegrasyonu, gelişmiş analizler ve otomasyon sunan güçlü bir açık kaynaklı veri analitiği...

8 dakika okuma
KNIME Data Analytics +5
Gemini Flash 2.0: Hız ve Hassasiyetle Yapay Zeka
Gemini Flash 2.0: Hız ve Hassasiyetle Yapay Zeka

Gemini Flash 2.0: Hız ve Hassasiyetle Yapay Zeka

Gemini Flash 2.0, geliştirilmiş performans, hız ve çok modlu yetenekleriyle yapay zekada yeni standartlar belirliyor. Gerçek dünya uygulamalarındaki potansiyeli...

3 dakika okuma
AI Gemini Flash 2.0 +4