Bir Bağlam Motoru Aslında Size Ne Kazandırır: 22 AI Kod İncelemecisini Beş Farklı Şekilde Çalıştırdık

AI Agents Context Engineering MCP Agentic Workflows

Aynı kod incelemesi görevini 22 AI ajanına verdik. Aynı pull request, aynı sabitlenmiş commit, aynı prompt, aynı model — tek değişken, her ajanın projenin kurallarını nasıl yüklediği idi. En ucuz yapılandırma, en kapsamlı olanı olarak ortaya çıktı ve bunun nedeni bağlam mühendisliği hakkında genel bir şeyler söylüyor.

TL;DR: Bir bağlam motoru özeti artı bir makine tarafından okunabilir ilke dosyasının doğrudan okuması, diğer tüm stratejileri yendi: inceleme başına $1,56 ve doğrulanmış 9,6/13 bulgu — belgeleri okumaktan daha ucuz ($2,30, 8,6/13) ve yalnızca özetden daha iyi ($1,77, 7,8/13). Her şeyi okumak tümünün en kötüsünü aldı (7.4/13). 22 ajanın tümü Claude Opus 4.8 üzerinde çalıştırıldı ve 22’nin 21’i aynı karara vardı.

Ne: bir harness, bir bağlam motoru ve bir pull request

“Harness” nedir?

Yapım deposunda AI ajanlarının çalışmasına izin vermeye yönelik her ciddi girişim, yönetişimin iki katmanını büyütür.

Prose katmanı — kurallar, mimari kuralları, test standartları. Bizim depomuzda bu CLAUDE.md ve docs/**: “backend snake_case,” “domain asla infrastructure’ı import etmez,” “tüm route işleyicileri async’dir.” İnsanlar bunu okur; ajanlar da bunu okuması söylenir.

Makine tarafından okunabilir katmanharness config. Bizimki, depodaki her yolu risk katmanlarına sınıflandıran ve her katmana uygulanabilir kapılar ekleyen tek bir JSON dosyasıdır. CI bunu okur. Merge ilkesi bunu okur. Bu tavsiye değil — bu ilkedir:

"tier3": {
  "requiredChecks": [
    "lint", "test", "build", "review-agent",
    "harness-smoke", "manual-approval", "expanded-coverage"
  ],
  "mergePolicy": {
    "minApprovals": 2,
    "requireReviewAgent": true,
    "allowSelfMerge": false
  }
}

(Terminoloji notu: “harness” ayrıca ajan runtime‘ını da adlandırır — ajanın çalıştığı araçlar, beceriler ve MCP sunucularının iskelesi, harnext gibi, “kodlama ajan harness’i.” Bu gönderide, harness config, bu tür bir runtime’ın ve CI’ın her ikisinin de uyguladığı deponun ilke dosyası‘dır.)

Bir kod incelemecisi — insan veya ajan — bu dosya olmadan “bu PR merge edilmesine izin verilir mi?” sorusunu yargılayamaz. Atlanan review-agent kontrolü olan bir Tier-3 PR, her test yeşil olsa bile bir ilke ihlafidir. Bu örneği aklınızda tutun; deneyi belirler.

Her iki katman da bulunduğundan, depo bir kapı zorunlu kılar: hiçbir ajan bu bağlamı yüklemeden çalışmaya başlamaz — ve bunu yaptığını, gözden geçirenlerin kontrol ettiği bir onay bloğu aracılığıyla kanıtlar. Bu gönderi yanıtladığı soru basitçe: bu kapıyı tatmin etmenin en ucuz doğru yolu nedir?

Harnext ve meaninggrid ile tanışın

meaninggrid, harnext ’ten barındırılan Bağlam Motorudur, QualityUnit’in MIT lisanslı, sağlayıcı-agnostik kodlama ajan harness’i (altı araç — read, write, edit, bash, skill, mcp — npm i -g harnext). Satıcının Bağlam Motoru için pitch’i kestiricidir: “ajanınızın beyni.” Kaynaklar sürekli güncellenmiş bir indeks’e akıyor — “the grid” — ve sorgu başına motor, bunu, doğrudan harness’e bağlı, jetonla verimli bağlam içine “sıralanır ve budanır”: sürekli indeks, alaka sıralaması, dedup ve önbellek. harnext’in başlık numarası ortalama −89% jetonlar sorgu başına‘dır. Bu satıcının iddiasıdır; bu deneyin amaçlarından biri, gerçek bir görevde kendi numaralarımızla, bu tür sıkıştırmanın aslında neyi tasarruf ettiğini — ve neye mal olduğunu — ölçmekti.

Bizim dağıtımımızda grid, deponun prose belgelerini alır; her alım, değişmez, versiyonlanmış bir anlık görüntü üretir. Ajanlar bunu MCP (meaninggrid.harnext.dev/mcp) aracılığıyla sorgulamak ve tek bir context_research çağrısı almak ve snapshot_id ile damgalanmış sentezlenmiş, atıfta bulunulan bir özet almak, ajanın onay bloğunda alıntılaması gereken — denetlenebilir bağlam somut yapılmış.

Context engine pipeline: prose docs flow through ingest, versioned snapshot and context_research into the agent, while the machine-readable policy file is read directly

Kapının ürettiği şey — onay bloğu (örnek; proje özellikleri silinmiş):

Loaded via: optimized hybrid (context-engine digest + policy file only).

- context_research call #1 (conventions / layering / testing / security /
  risk tiers) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- context_research call #2 (LLM-provider integration checklist +
  flow-engine extra-care rules) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- Read harness config (full) from disk for exact tier patterns,
  requiredChecks, mergePolicy, evidenceConfig.
  Did NOT read CLAUDE.md or docs/* (covered by the digest).

snapshot_id gerçektir — bir gözden geçiren, ajanın çalıştığı kuralların tam olarak hangi versiyonunu doğrulayabilir.

Üç hipotez

Deney, önceden yazılmış üç test edilebilir tahmini çözmek için tasarlandı:

H1 — Bir özet yeniden okumaktan daha ucuzdur. Prose belgeleri bir kez alın, her ajanın her görevde her belgeyi yeniden okuması yerine her ajanına kompakt bir sentezlenmiş özet sunun. Doğruysa: inceleme başına anlamlı bir şekilde düşük maliyet, eşit kararlar.

H2 — Parafraze ilkeyi yok eder. Bir özet “Tier 3 insan incelemesi gerektirir” taşıyabilir kayıpsız. "requireReviewAgent": true kayıpsız taşıyamaz — gözden geçirenin bir ihlal ileri sürmesi gereken kesin, alıntılanabilir özellikleri özet içinde ölür. Doğruysa: yalnızca özet ajanlar, kesin ilke dosyasına sahip ajanların yakaladığı kapı ihlaflarını sistematik olarak kaçırmalıdır.

H3 — Daha yalın bağlam daha derinde okur. Bağlam iki kez ödenir — bir kez dolar cinsinden, bir kez dikkatte: penceredeki her gereksiz belge, gözden geçirilen kodla rekabet eder. Doğruysa: her şeyi okumak (özet + tüm belgeler) kazanmamalı; en yalın yeterli bağlam kazanmalı.

Bunu nasıl test ettik

Yirmi iki ajan, üretim monorepomuzda aynı Tier-3 pull request’i gözden geçirdi (bir LLM-sağlayıcı entegrasyonu: 44 dosya, +2.111 satır, gerçek bahisler — faturalandırma tabloları, flow-engine yönlendirmesi). Beş arm, yalnızca bağlam yükleme adımında farklılık gösterir:

ArmContext loadingn
meaninggridcontext-engine digest only (2× context_research)5
diskreads 7+ docs from disk — no context engine5
hybriddigest + reads ALL the docs5
opt-hybriddigest + reads ONE file: the harness config5
coldno convention context at all (baseline)2

Temel kurallar: bir sabitlenmiş commit, bir prompt gövdesi, bir model — Claude Opus 4.8 — tüm arm’lar tek eşzamanlı bir toplu işlemde iç içe geçmiş. Ajanlar, PR’ın yorum dizisinden mahrum bırakıldı, böylece önceki deney turları sızamaz. Her numara, jetonlar API isteği başına deduplicated ve liste fiyatlarında fiyatlandırılan ham ajan transkripleri’nden gelir. Kalite, PR’daki 13 bağımsız olarak doğrulanmış, gerçek kusurlar karşı puanlanır, her incelemenin gövdesinde deseni eşleştirilmiş ve yanlış pozitifler için manuel olarak denetlenmiş. Tüm arm’lar arasında karar anlaşması: 21/22 REQUEST CHANGES dedi.

Yani ne: en ucuz yapılandırma kalite açısından da kazandı

Scatter chart of cost per review versus verified findings: opt-hybrid is cheapest and most thorough, read-everything hybrid scores worst
ArmCost / reviewFindings (of 13)Gate findings (of 3)Wall clock
meaninggrid$1.777.80.25:34
disk$2.308.60.84:35
hybrid$1.837.40.85:40
opt-hybrid ★$1.569.61.44:55
cold$1.648.00.54:13

★ = the configuration we now ship as the repo’s default skill. Wall clock includes shared contention from running 22 agents concurrently.

H1 — onaylandı

Yalnızca özet arm, $1,77 karşılığında inceledi, belgeler okunması için $2,30 (−23%), ve kazanan özet-artı-bir-dosya arm’ı $1,56 (−32%) — eşit kararlar. Tasarruf bileşik: özet, aksi takdirde her sonraki API çağrısının bağlamı aracılığıyla gidecek bir belge yığınını değiştirir.

H2 — onaylandı, kesin olarak

Atlanan review-agent kontrolü — bu PR’daki gerçek bir merge-ilke ihlafı — kesin ilke dosyasını tutan 5 of 5 ajan tarafından yakalandı ve 1 of 5 yalnızca özet ajan tarafından. Mekanizm, H2’nin tahmin ettiği şeydir: bu bulguyu yazmak için, bir ajan kesin CI kontrol adlarını kesin config alanlarıyla eşleştirmek zorundadır — bir parafraze alıntılanabilir kanıt değildir, bu nedenle yalnızca özet ajanlar çekinir ve onu bırakır. Bir doğrudan okuma bunu geri yükler.

Side by side: the harness policy requiring the review-agent check, and the CI run where that check was skipped while everything else passed

H3 — onaylandı

Tüm belgeleri okuyan hybrid, herhangi bir arm’ın en çok bağlamını taşıdı ve en kötü puanı aldı (7.4/13), en yalın yeterli arm en iyi puanı aldı (9.6/13) — ve tüm arm’lar arasında en derin bulgu, üç dosya arasında bir çağrı yolunu izlemeyi gerektiren bir ölü kod hatasında en iyi puanı aldı. Gereksiz prose bilgi eklemedi; kod için dikkatie rekabet etti.

Time anatomy of a digest agent versus a docs-reading agent: the context engine wait is visible, doc reads are fast slivers, model time dominates both

Bir dürüst dipnot: soğuk baseline (8.0/13 at $1,64), 13 kusurdan çoğunun, hiçbir kural bağlamı olmadan güçlü bir modelin bulduğu düz kod hataları olduğunu gösterir. Soğuk yapamayacağı şey, işin ilke yarısı — kapılar, katmanlar, merge kuralları — tam olarak arm’ların ayrıldığı yerdir.

Prose’u bir özete kürasyonlayın. İlke dosyasını ham olarak okuyun. Hiçbir şeyi iki kez okumayın.

Tam açıklama

  • Model: her ajanın her API çağrısı claude-opus-4-8 (Claude Opus 4.8) üzerinde çalıştırıldı — her transkript satırının model alanından doğrulandı, varsayılmadı. Sonuçlar diğer modellerde farklı olabilir; daha küçük modeller muhtemelen daha az değil, daha fazla küratörlüğe bağlıdır.
  • Fiyatlar: maliyetler, yazma zamanında Anthropic liste fiyatlarını kullanır; gerçek faturalandırma farklı olabilir. Göreceli karşılaştırmalar etkilenmez.
  • Örnek boyutu: arm başına n=5 (soğuk için n=2), bir PR, bir depo, bir görev türü. Kapı etkisi (5/5 vs 1/5) keskindir; başka yerlerdeki bulgu oranları ±1 ajan’dır. Bunu bir benchmark yerine güçlü bir pilot olarak ele alın.
  • Kalite metriği: inceleme metni üzerinde desen algılama (alıntılar hariç), yanlış pozitifler için manuel olarak denetlenmiş. Doğrulanmış kusurlardan bahseder, genel inceleme bereketliliğini değil.
  • Zamanlama: 22 ajanın tümü bir makine ve bir API kotası paylaştı; duvar saati numaraları bu çekişmeyi içerir.
  • Kendimizi iki kez düzelttik: ilk jetonlar sayıları 2–3× şişirildi (transkriptlerdeki satır başına kullanım çoğaltması; istek-ID dedup tarafından düzeltildi) ve önceki bir zaman çizelgesi görseli duvar saatini eksik saydı (tam aralık atribüsyonuyla düzeltildi). Her iki düzeltme de buradaki her numaraya pişirilmiş.
FlowHunt Logo

İşinizi büyütmeye hazır mısınız?

Bugün ücretsiz denemenizi başlatın ve günler içinde sonuçları görün.

Şimdi ne: döngüyü çalın

Neyi sevk ettik

Kazanan arm artık deponun varsayılan check-context-first becerisidir: bağlam motoru özetini çekin (iki çağrı), sonra diskten tam olarak bir dosya okuyun — harness config — ve snapshot’u ve kesin kapıları alıntılayan bir onay bloğu yayınlayın. Bir ölçülen zayıflık, bir tek satırlık ilke düzeltmesi, aynı gün yeniden doğrulandı. Bu döngü — ölçü, bağlam ilkesini düzelt, yeniden doğrula — kullandığınız bağlam motorunun ne olursa olsun çalmanız gereken parçadır.

Pazartesi günü yapabileceğiniz şeyler

  1. Ajan bağlamını ikiye bölün: prose (kurallar, mimari, test) vs makine tarafından okunabilir ilke (CI kapıları, risk katmanları, merge kuralları).
  2. Prose’u özet; ilkeyi asla özet yapma. Prose’u bir bağlam motoru aracılığıyla sunun — meaninggrid bizimki — ve makine tarafından okunabilir ilke dosyasını bağlam kapısında zorunlu kelimesi kelimesine bir okuma yapın.
  3. Bağlamı denetlenebilir yapın. Alınan bağlamı sürümlendirin; ajanların, gözden geçirenlerin gerçekten kontrol edebileceği bir onay bloğunda snapshot id’sini alıntılamalarını gerekli kılın.
  4. İnanmadan önce ölçün — biz de dahil olmak üzere. Arm başına bir avuç ajan kendi deponuzda deseni görmek için yeterlidir. İncelemeleri doğrulanmış bulgular karşı puanlandırın, vibes karşı değil.

Açık bir davet

Bu deneyi kendi deponuzda çalıştırırsanız — aynı arm’lar, modeliniz, harness’iniz — numaralarınızı görmek isterdik, özellikle de bizimkini çürütüyorsa. Ve ekibiniz bu gibi bir bağlam kapısı kurmaya yardım isterse veya meaninggrid ve harnext yığını hakkında konuşmak isterse, FlowHunt ekibine ulaşın veya harnext.dev adresinde açık kaynak harness’i bulun. Replikasyonlar, sorular ve düzeltmeler hepsi hoş geldiniz.

Sıkça sorulan sorular

Štefan, FlowHunt'ı geliştiren bir yapay zeka ve yazılım mühendisidir. Ürünün kendisinin ötesinde, geliştirme maliyetlerini düşürürken kod kalitesini artıran geliştiriciler için agentic yazılım mühendisliği iş akışları tasarlar.

Štefan Moravík
Štefan Moravík
Yapay Zeka & Yazılım Mühendisi

Kendi Masraflarını Ödeyen Ajan İş Akışları Oluşturun

FlowHunt, mühendislik ekiplerinin agentic iş akışları, bağlam kapıları ve geliştirme maliyetlerini azaltırken kod kalitesini artıran MCP entegrasyonları tasarlamasına yardımcı olur.