
Yapay Zeka Ajanları: GPT 4o Nasıl Düşünüyor?
GPT-4o’nun düşünme süreçlerine dair kapsamlı bir değerlendirme ile AI Ajanlarının nasıl çalıştığını keşfedin. İçerik üretimi, problem çözme ve yaratıcı yazım gi...
Apple Silicon’da LoRA ile Gemma 4 31B’yi fine-tune etme deneyimi, spor makaleleri oluşturmak için Claude Sonnet ile başa baş karşılaştırma.
Dokuz spor dalında maç raporları ve lig tur özeti yayınlayan bir spor veri platformu işletiyoruz. Her makale Claude Sonnet’e API çağrıları aracılığıyla oluşturulmuştur — güvenilir, yüksek kaliteli, ancak ölçekte pahalı. Merak ettik: kendi verilerimizde fine-tune edilmiş açık kaynaklı bir model, tamamen yerel donanımda çalışırken karşılaştırılabilir kalitede makaleler üretebilir mi?
Bu yazı tam denemeyi açıklıyor — veri hazırlığından LoRA fine-tuning’e, başa baş karşılaştırmaya kadar — Google’ın Gemma 4 31B modelini, Apple’ın MLX çerçevesini ve 96GB birleşik belleğe sahip bir MacBook Pro M3 Max’i kullanarak. Ayrıca gerçek dünya ekonomisini de açıklıyoruz: özel bir modeli eğitmek API çağrılarına kıyasla ne zaman gerçekten para tasarrufu sağlar?
Gemma 4, Google’ın 2025’te Gemma 2 serisinin halefi olarak yayınlanan açık ağırlıklı geniş dil modeli ailesidir. Anahtar sözcük açık ağırlıklı — GPT-4 veya Claude gibi mülkiyet modelleri aksine, Gemma 4’ün ağırlıkları devam eden API ücretleri olmaksızın indirme, fine-tuning ve dağıtım için serbestçe kullanılabilir.
Model birkaç boyutta gelir. 31B parametre talimat ayarlamalı varyantını (google/gemma-4-31B-it) kullandık; bu yetenek ve donanım gereksinimleri arasında iyi bir denge noktasında yer alır. Tam fp16 hassasiyetinde yaklaşık 62GB bellek gerekir; 4-bit niceleme ile yaklaşık 16GB’a sıkıştırılır ve 32GB RAM’e sahip bir dizüstü bilgisayarda çalışmak için yeterince küçüktür.
Gemma 4’ü kullanım durumumuz için özellikle ilgi çekici kılan şeyler:
Ödünleşim açıktır: API çağrısının tak ve çalıştır rahatlığından vazgeçersiniz, kontrol, gizlilik ve ölçekte dramatik olarak daha düşük marjinal maliyetler karşılığında.
Platformumuz futbol, basketbol, hokey, NFL, beyzbol, ragbi, voleybol ve hentbol arasında günde yüzlerce makale oluşturur. Her makale Claude Sonnet’e API çağrıları için kabaca 0,016 dolar maliyetlidir. Bu hızla birikir — günde 500 makale, ayda 240 dolar veya yılda 2.880 dolar anlamına gelir.
Maliyetin ötesinde, şunları istedik:
Hipotez: Claude Sonnet tarafından yazılmış 120 “mükemmel” makalede 31B parametre modeli eğitip eğitseydik, yapıyı, tonu ve spor spesifik kuralları yeterince öğrenebilmeli ve makaleleri bağımsız olarak oluşturabilmeliydi.
Deney beş aşamada yürütüldü:
Aşama 1: Eğitim Maçlarını Seçme — Tüm maçlar iyi eğitim örnekleri değildir. Olaylar, istatistikler ve puan tablosu bağlamı ile veri yoğun maçları tercih eden bir zenginlik puanlama sistemi oluşturduk. 100 maç makalesi ve 20 lig günü özeti seçtik; sonuç türleri arasında çeşitlilik (ev kazanışları, deplasman kazanışları, beraberlikler, ezilişler, geri dönüşler). Bu ilk deney için, yalnızca futbola odaklandık: toplam 120 eğitim örneği.
Aşama 2: Claude Sonnet ile Referans Makaleler Oluşturma — Her maçın JSON verileri yapılandırılmış bir metin isteme dönüştürüldü ve ters piramit makale yapısını tanımlayan sistem istemi ile Claude Sonnet’e gönderildi: başlık, puan ile giriş paragrafı, kronolojik anahtar anlar, istatistik analizi, lig bağlamı ve kısa bir ileriye bakış. Her makale yaklaşık 0,016 dolar maliyetlidir. Tam 120 makaleli veri seti 2 dolardan az maliyetlidir.
Aşama 3: Veri Seti Biçimlendirmesi — Makaleler Gemma’nın sohbet biçimine dönüştürüldü (<start_of_turn>user / <start_of_turn>model) ve 90/10 oranında 115 eğitim ve 13 doğrulama örneğine bölündü.
Aşama 4: MLX’te LoRA ile Fine-Tuning — Apple Silicon’ın değerini kanıtladığı yer burası. Tam 31B model M3 Max’in birleşik belleğine sığar. LoRA’yı 16 katmana küçük eğitilebilir matrisler eklemek için kullandık, sadece 16,3 milyon eğitilebilir parametre ekledi — toplamın %0,053’ü.
| Parametre | Değer |
|---|---|
| Temel model | google/gemma-4-31B-it |
| Eğitilebilir parametreler | 16.3M (31B’nin %0,053’ü) |
| Eğitim örnekleri | 115 |
| Dönemler | 3 |
| Toplam tekrar | 345 |
| Toplu iş boyutu | 1 |
| Öğrenme oranı | 1e-4 |
| Tepe bellek kullanımı | 76.4 GB |
| Eğitim süresi | ~2,5 saat |
Doğrulama kaybı 345 tekrar üzerinde 6.614’ten 1.224’e düştü; ilk 100 adımda en dik iyileşme.
Aşama 5: Niceleme — MLX kullanarak 4-bit niceleme uyguladık; modeli 62GB’dan ~16GB’a sıkıştırdık. Bu, kabul edilebilir kaliteyi korurken çıkarımı 2,6 kat hızlandırdı.
Özdeş maç verilerinden oluşturulan beş makaleyi üç konfigürasyonun tamamında karşılaştırdık.
| Konfigürasyon | Ortalama Kelimeler | Ortalama Zaman | Kalite |
|---|---|---|---|
| Claude Sonnet (API) | 402 | ~2s | En iyi anlatı akışı, sıfır halüsinasyon |
| Gemma 4 31B fp16 + LoRA | 391 | 207s | Güçlü yapı, ara sıra tekrar |
| Gemma 4 31B 4-bit + LoRA | 425 | 80s | İyi yapı, ara sıra küçük gerçek hataları |
Fine-tune edilmiş Gemma 4’ün başarılı olduğu yerler:
Sonnet’in hala öncü olduğu yerler:
LoRA eğitimi buna değer miydi? Kesinlikle. LoRA olmadan, temel Gemma 4 modeli iç düşünce belirteçleri (<|channel>thought), markdown biçimlendirmesi ve genel spor yazısı ile dolu çıktı üretir. Fine-tune edilmiş model, tam olarak yayın tarzımızda temiz, üretim kullanımına hazır metin çıktı verir. Tüm LoRA eğitimi API çağrılarında 2 dolar ve 2,5 saatlik işlem maliyetlidir.
MacBook Pro M3 Max, geliştirme ve deney platformu olarak amacını yerine getirdi. Bir MacBook Pro’da 31B modelde fine-tuning ve çıkarımın teknik olarak uygulanabilir olduğunu kanıtladı. Ancak üretim iş yüklerini asla yerel bir dizüstü bilgisayarda dağıtmazdık.
Gerçek üretim dağıtımı için bulut GPU örneği doğru seçimdir. AWS’de gerçekçi bir dağıtım şöyle görünür.
Nicemlenen 4-bit Gemma 4 modeli (16GB) rahatça tek bir A10G GPU’ya sığar. A10G’de çıkarım hızı Apple Silicon’dan çarpıcı şekilde daha hızlıdır — M3 Max’te 80 saniyeye karşı kabaca makale başına 15 saniye.
| Metrik | Değer |
|---|---|
| Örnek türü | g5.xlarge |
| GPU | NVIDIA A10G (24GB VRAM) |
| İsteğe bağlı fiyat | 1,006 dolar/saat |
| Spot fiyatı (tipik) | ~0,40 dolar/saat |
| Çıkarım hızı | ~15 saniye/makale |
| Verim | ~240 makale/saat |
| Makale başına maliyet (isteğe bağlı) | 0,0042 dolar |
| Makale başına maliyet (spot) | 0,0017 dolar |
| Yaklaşım | Makale Başına Maliyet | Günlük Maliyet | Aylık Maliyet | Yıllık Maliyet |
|---|---|---|---|---|
| Claude Sonnet API | 0,016 dolar | 8,00 dolar | 240 dolar | 2.880 dolar |
| AWS g5.xlarge (isteğe bağlı) | 0,0042 dolar | 2,10 dolar | 63 dolar | 756 dolar |
| AWS g5.xlarge (spot) | 0,0017 dolar | 0,85 dolar | 25,50 dolar | 306 dolar |
| Yerel M3 Max (elektrik) | 0,0007 dolar | 0,35 dolar | 10,50 dolar | 126 dolar |
GPU avantajı açıktır: Sonnet API çağrılarına kıyasla isteğe bağlı örneklerde %74 maliyet azalması, spot örneklerde %89 — API çağrısından sadece 7-8 kat daha yavaş üretim hızları, M3 Max’te 40 kat daha yavaş yerine.
Yerel M3 Max’in en düşük marjinal maliyeti vardır (elektrik açısından makale başına 0,0007 dolar) ancak en yüksek ön yatırım. Saatte ~45 makale (4-bit nicemlendi), tek bir M3 Max 24/7 çalışırken kabaca günde 1.080 makale üretir.
| Maliyet Faktörü | Değer |
|---|---|
| Donanım maliyeti | ~4.000 dolar (MacBook Pro M3 Max 96GB) |
| Güç tüketimi | ~200W yük altında |
| Elektrik maliyeti | ~0,72 dolar/gün (24 saat sürekli) |
| Verim | ~1.080 makale/gün |
| Sonnet’e karşı kırılma noktası | ~260.000 makale (~8 ay, günde 500’de) |
Yerel ne zaman mantıklı olur? %100 veri gizliliği gerektiren ve bulut tabanlı modelleri kullanamayan şirketler için — yasal gereklilikler, sözleşmesel yükümlülükler veya hassas alanlarda çalışma nedeniyle — yerel dağıtım tüm harici veri iletimini ortadan kaldırır. Maç verileri, model ağırlıkları ve oluşturulan içerik şirketin tesislerini asla terk etmez. Bu maliyet optimizasyonu hakkında değil; uyum ve kontrol hakkında. Savunma, sağlık, finans ve hukuk gibi endüstriler bunu tek kabul edilebilir dağıtım modeli bulabilir.
Kritik soru: fine-tuning yatırımı, her şey için Claude Sonnet kullanmaya karşı ne zaman kırılma noktasına ulaşır?
| Madde | Maliyet |
|---|---|
| Eğitim veri oluşturma (Sonnet aracılığıyla 120 makale) | 2 dolar |
| Tam 9-spor eğitim verileri (960 makale) | 16 dolar |
| Ardışık düzen için geliştirici zamanı (~20 saat) | ~500 dolar |
| Eğitim için AWS GPU süresi (isteğe bağlı) | ~5 dolar |
| Toplam tek seferlik yatırım | ~523 dolar |
Makale başına tasarruf dağıtımınıza bağlıdır:
| Dağıtım | Makale Başına Maliyet | Sonnet’e Karşı Tasarruf | Kırılma Noktası (makaleler) | Günde 500’de Kırılma Noktası |
|---|---|---|---|---|
| AWS isteğe bağlı | 0,0042 dolar | 0,0118 dolar | ~44.300 | ~89 gün (~3 ay) |
| AWS spot | 0,0017 dolar | 0,0143 dolar | ~36.600 | ~73 gün (~2,5 ay) |
| Yerel M3 Max | 0,0007 dolar | 0,0153 dolar | ~34.200 | ~68 gün (~2 ay) |
Geliştirici zamanını hariç tutarsak (öğrenme deneyimi için batık maliyet olarak kabul ederek) ve yalnızca sabit altyapı maliyetlerini sayarsak (21 dolar):
| Dağıtım | Kırılma Noktası (makaleler) | Günde 500’de Kırılma Noktası |
|---|---|---|
| AWS isteğe bağlı | ~1.780 | 3,5 gün |
| AWS spot | ~1.470 | 3 gün |
| Yerel M3 Max | ~1.370 | 2,7 gün |
Matematik açıktır: ~1.500’den fazla makale oluşturursanız, özel model kendini sabit maliyetler açısından amorti eder. Geliştirici zamanı eklemek kırılma noktasını kabaca 35.000-45.000 makale veya günde 500 makalede yaklaşık 2,5-3 aya itiyor.
Ölçekte (günde 500+ makale), yıllık tasarruflar önemlidir:
| Yaklaşım | Yıllık Maliyet | Sonnet’e Karşı Yıllık Tasarruf |
|---|---|---|
| Claude Sonnet | 2.880 dolar | — |
| AWS g5 isteğe bağlı | 756 dolar + 523 dolar tek seferlik = 1.279 dolar (1. yıl) | 1.601 dolar |
| AWS g5 spot | 306 dolar + 523 dolar tek seferlik = 829 dolar (1. yıl) | 2.051 dolar |
| Yerel M3 Max | 126 dolar + 4.523 dolar (donanım + kurulum) = 4.649 dolar (1. yıl) | -1.769 dolar (1. yıl), +2.754 dolar (2. yıl+) |
En pratik yaklaşım melez: fine-tune edilmiş Gemma 4 modelini rutin içerik (hacmin çoğu) için kullanın ve Claude Sonnet’i şunlar için ayırın:
Bu, hacminizin %80-90’ında kendi kendine barındırılan çıkarımın maliyet faydalarını alırken, en önemli kenar durumlar için Sonnet’in üstün kalitesini elinizdede tutarsınız.
LoRA stil transferi için dikkat çekici derecede verimlidir. Sadece 115 eğitim örneği ile model, tam olarak yayın formatımızı, tonumuzu ve spor spesifik kurallarımızı öğrendi. Ters piramit yapısı, aktif fiil stili ve veri temelli yaklaşım tümü temiz şekilde aktarıldı.
Apple Silicon, 31B modelleri için uygulanabilir bir eğitim platformudur. M3 Max, gradyan kontrol noktası oluşturma ile tam modeli ele aldı; 76.4GB’da zirveye ulaştı. Eğitim 2,5 saatte tamamlandı — hiperparametre ayarlamalarında tek bir iş günü içinde yineleme yapmak için yeterince hızlı.
Yapılandırılmış giriş verileri büyük ölçüde önemlidir. Veri biçimlendirici kalitesi doğrudan makale kalitesini etkiler. Kapsamlı veri çıkarımına yatırım yapmak, hem API hem de kendi kendine barındırılan yollar üzerinde temettü sağlar.
Üretim dağıtımı buluta ait olur (çoğu takım için). M3 Max konsepti kanıtladı. AWS GPU örnekleri API çağrılarından %74-89 daha düşük maliyetle üretim iş yükleri için gereken hız ve güvenilirliği sağlar. Yerel makineler yalnızca veri gizliliği gereksinimleri tüm harici altyapıyı dışlayıp dışlamadığında doğru seçim kalır.
Kırılma noktası matematiği orta ölçekte özel modelleri destekler. ~1.500’den fazla makale oluşturan herhangi bir takım, fine-tuning sabit maliyetlerini neredeyse hemen geri kazanacaktır. Gerçek soru, özel modellerin para tasarrufu sağlayıp sağlamadığı değil — takımınızın ardışık düzeni oluşturma ve bakım yapma mühendislik kapasitesi olup olmadığıdır.
Gemma 4 31B’yi fine-tune etmek, başlık kalitesi, makale yapısı ve gerçek doğruluk açısında Claude Sonnet ile eşleşen bir içerik oluşturucu üretmiş — makale başına maliyeti bulut altyapısında %74-89 azaltırken ve bunu gerektiren kuruluşlar için tam özel, şirket içi dağıtımı etkinleştirmiştir.
M3 Max MacBook, bu deney için tamamen bir test tezgahı olarak hizmet etti. Gerçek üretim dağıtımı AWS GPU örnekleri (A10G ile g5.xlarge) üzerinde çalışacak; nicemlenen model makaleleri kabaca 15 saniyede makale başına 0,0042 dolardan oluşturur — Sonnet API çağrısı başına 0,016 dolara karşın.
Bulut tabanlı AI hizmetlerini kullanamayan ve tam veri gizliliği gerektiren şirketler için, nicemlenen modeli çalıştıran yerel makine meşru bir seçenektir. Saatte ~45 makalede, tek bir iş istasyonu sıfır harici veri maruziyeti ile orta hacimleri işler. Donanım yatırımı API maliyetlerine kıyasla yaklaşık 8 ayda kendini amorti eder.
Ekonomi açıktır: günde 500 makalede, AWS spot örneklerinde özel fine-tune edilmiş model, Claude Sonnet API çağrılarına kıyasla yılda 2.000 dolardan fazla tasarrufu sağlar. Kırılma noktası 3 aydan kısa sürede gelir. Ölçekte içerik oluşturmayı zaten çalıştıran takımlar için, açık ağırlıklı modellerin, LoRA fine-tuning’in ve emtia GPU donanımının kombinasyonu, mülkiyet API’lerine karşı güvenilir, uygun maliyetli bir alternatifi temsil eder.
FlowHunt ile oluşturuldu. Tam ardışık düzen — veri hazırlığından fine-tuning’e çıkarıma kadar — spor veri platformu araç seti’nin bir parçası olarak mevcuttur.
Viktor Zeman, QualityUnit'in ortaklarından biridir. Şirketi 20 yıl boyunca yönettikten sonra bile, öncelikli olarak bir yazılım mühendisi olarak kalmaya devam etmektedir; yapay zeka, programatik SEO ve arka uç geliştirme konularında uzmanlaşmıştır. LiveAgent, PostAffiliatePro, FlowHunt, UrlsLab ve daha birçok projeye katkıda bulunmuştur.

FlowHunt, en iyi AI modellerini kullanarak otomatik içerik oluşturma iş akışları oluşturmanıza yardımcı olur — bulut API'leri veya kendi kendine barındırılan açık kaynak modelleri kullanın.

GPT-4o’nun düşünme süreçlerine dair kapsamlı bir değerlendirme ile AI Ajanlarının nasıl çalıştığını keşfedin. İçerik üretimi, problem çözme ve yaratıcı yazım gi...

KNIME (Konstanz Information Miner), görsel iş akışları, sorunsuz veri entegrasyonu, gelişmiş analizler ve otomasyon sunan güçlü bir açık kaynaklı veri analitiği...

Gemini Flash 2.0, geliştirilmiş performans, hız ve çok modlu yetenekleriyle yapay zekada yeni standartlar belirliyor. Gerçek dünya uygulamalarındaki potansiyeli...