Aynı kod incelemesi görevini 22 AI ajanına verdik. Aynı pull request, aynı sabitlenmiş commit, aynı prompt, aynı model — tek değişken, her ajanın projenin kurallarını nasıl yüklediği idi. En ucuz yapılandırma, en kapsamlı olanı olarak ortaya çıktı ve bunun nedeni bağlam mühendisliği hakkında genel bir şeyler söylüyor.
TL;DR: Bir bağlam motoru özeti artı bir makine tarafından okunabilir ilke dosyasının doğrudan okuması, diğer tüm stratejileri yendi: inceleme başına $1,56 ve doğrulanmış 9,6/13 bulgu — belgeleri okumaktan daha ucuz ($2,30, 8,6/13) ve yalnızca özetden daha iyi ($1,77, 7,8/13). Her şeyi okumak tümünün en kötüsünü aldı (7.4/13). 22 ajanın tümü Claude Opus 4.8 üzerinde çalıştırıldı ve 22’nin 21’i aynı karara vardı.
Ne: bir harness, bir bağlam motoru ve bir pull request
“Harness” nedir?
Yapım deposunda AI ajanlarının çalışmasına izin vermeye yönelik her ciddi girişim, yönetişimin iki katmanını büyütür.
Prose katmanı — kurallar, mimari kuralları, test standartları. Bizim depomuzda bu CLAUDE.md ve docs/**: “backend snake_case,” “domain asla infrastructure’ı import etmez,” “tüm route işleyicileri async’dir.” İnsanlar bunu okur; ajanlar da bunu okuması söylenir.
Makine tarafından okunabilir katman — harness config. Bizimki, depodaki her yolu risk katmanlarına sınıflandıran ve her katmana uygulanabilir kapılar ekleyen tek bir JSON dosyasıdır. CI bunu okur. Merge ilkesi bunu okur. Bu tavsiye değil — bu ilkedir:
"tier3": {
"requiredChecks": [
"lint", "test", "build", "review-agent",
"harness-smoke", "manual-approval", "expanded-coverage"
],
"mergePolicy": {
"minApprovals": 2,
"requireReviewAgent": true,
"allowSelfMerge": false
}
}
(Terminoloji notu: “harness” ayrıca ajan runtime‘ını da adlandırır — ajanın çalıştığı araçlar, beceriler ve MCP sunucularının iskelesi, harnext gibi, “kodlama ajan harness’i.” Bu gönderide, harness config, bu tür bir runtime’ın ve CI’ın her ikisinin de uyguladığı deponun ilke dosyası‘dır.)
Bir kod incelemecisi — insan veya ajan — bu dosya olmadan “bu PR merge edilmesine izin verilir mi?” sorusunu yargılayamaz. Atlanan review-agent kontrolü olan bir Tier-3 PR, her test yeşil olsa bile bir ilke ihlafidir. Bu örneği aklınızda tutun; deneyi belirler.
Her iki katman da bulunduğundan, depo bir kapı zorunlu kılar: hiçbir ajan bu bağlamı yüklemeden çalışmaya başlamaz — ve bunu yaptığını, gözden geçirenlerin kontrol ettiği bir onay bloğu aracılığıyla kanıtlar. Bu gönderi yanıtladığı soru basitçe: bu kapıyı tatmin etmenin en ucuz doğru yolu nedir?
Harnext ve meaninggrid ile tanışın
meaninggrid, harnext
’ten barındırılan Bağlam Motorudur, QualityUnit’in MIT lisanslı, sağlayıcı-agnostik kodlama ajan harness’i (altı araç — read, write, edit, bash, skill, mcp — npm i -g harnext). Satıcının Bağlam Motoru için pitch’i kestiricidir: “ajanınızın beyni.” Kaynaklar sürekli güncellenmiş bir indeks’e akıyor — “the grid” — ve sorgu başına motor, bunu, doğrudan harness’e bağlı, jetonla verimli bağlam içine “sıralanır ve budanır”: sürekli indeks, alaka sıralaması, dedup ve önbellek. harnext’in başlık numarası ortalama −89% jetonlar sorgu başına‘dır. Bu satıcının iddiasıdır; bu deneyin amaçlarından biri, gerçek bir görevde kendi numaralarımızla, bu tür sıkıştırmanın aslında neyi tasarruf ettiğini — ve neye mal olduğunu — ölçmekti.
Bizim dağıtımımızda grid, deponun prose belgelerini alır; her alım, değişmez, versiyonlanmış bir anlık görüntü üretir. Ajanlar bunu MCP (meaninggrid.harnext.dev/mcp) aracılığıyla sorgulamak ve tek bir context_research çağrısı almak ve snapshot_id ile damgalanmış sentezlenmiş, atıfta bulunulan bir özet almak, ajanın onay bloğunda alıntılaması gereken — denetlenebilir bağlam somut yapılmış.
Kapının ürettiği şey — onay bloğu (örnek; proje özellikleri silinmiş):
Loaded via: optimized hybrid (context-engine digest + policy file only).
- context_research call #1 (conventions / layering / testing / security /
risk tiers) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- context_research call #2 (LLM-provider integration checklist +
flow-engine extra-care rules) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- Read harness config (full) from disk for exact tier patterns,
requiredChecks, mergePolicy, evidenceConfig.
Did NOT read CLAUDE.md or docs/* (covered by the digest).
snapshot_id gerçektir — bir gözden geçiren, ajanın çalıştığı kuralların tam olarak hangi versiyonunu doğrulayabilir.
Üç hipotez
Deney, önceden yazılmış üç test edilebilir tahmini çözmek için tasarlandı:
H1 — Bir özet yeniden okumaktan daha ucuzdur. Prose belgeleri bir kez alın, her ajanın her görevde her belgeyi yeniden okuması yerine her ajanına kompakt bir sentezlenmiş özet sunun. Doğruysa: inceleme başına anlamlı bir şekilde düşük maliyet, eşit kararlar.
H2 — Parafraze ilkeyi yok eder. Bir özet “Tier 3 insan incelemesi gerektirir” taşıyabilir kayıpsız. "requireReviewAgent": true kayıpsız taşıyamaz — gözden geçirenin bir ihlal ileri sürmesi gereken kesin, alıntılanabilir özellikleri özet içinde ölür. Doğruysa: yalnızca özet ajanlar, kesin ilke dosyasına sahip ajanların yakaladığı kapı ihlaflarını sistematik olarak kaçırmalıdır.
H3 — Daha yalın bağlam daha derinde okur. Bağlam iki kez ödenir — bir kez dolar cinsinden, bir kez dikkatte: penceredeki her gereksiz belge, gözden geçirilen kodla rekabet eder. Doğruysa: her şeyi okumak (özet + tüm belgeler) kazanmamalı; en yalın yeterli bağlam kazanmalı.
Bunu nasıl test ettik
Yirmi iki ajan, üretim monorepomuzda aynı Tier-3 pull request’i gözden geçirdi (bir LLM-sağlayıcı entegrasyonu: 44 dosya, +2.111 satır, gerçek bahisler — faturalandırma tabloları, flow-engine yönlendirmesi). Beş arm, yalnızca bağlam yükleme adımında farklılık gösterir:
| Arm | Context loading | n |
|---|---|---|
| meaninggrid | context-engine digest only (2× context_research) | 5 |
| disk | reads 7+ docs from disk — no context engine | 5 |
| hybrid | digest + reads ALL the docs | 5 |
| opt-hybrid | digest + reads ONE file: the harness config | 5 |
| cold | no convention context at all (baseline) | 2 |
Temel kurallar: bir sabitlenmiş commit, bir prompt gövdesi, bir model — Claude Opus 4.8 — tüm arm’lar tek eşzamanlı bir toplu işlemde iç içe geçmiş. Ajanlar, PR’ın yorum dizisinden mahrum bırakıldı, böylece önceki deney turları sızamaz. Her numara, jetonlar API isteği başına deduplicated ve liste fiyatlarında fiyatlandırılan ham ajan transkripleri’nden gelir. Kalite, PR’daki 13 bağımsız olarak doğrulanmış, gerçek kusurlar karşı puanlanır, her incelemenin gövdesinde deseni eşleştirilmiş ve yanlış pozitifler için manuel olarak denetlenmiş. Tüm arm’lar arasında karar anlaşması: 21/22 REQUEST CHANGES dedi.
Yani ne: en ucuz yapılandırma kalite açısından da kazandı
| Arm | Cost / review | Findings (of 13) | Gate findings (of 3) | Wall clock |
|---|---|---|---|---|
| meaninggrid | $1.77 | 7.8 | 0.2 | 5:34 |
| disk | $2.30 | 8.6 | 0.8 | 4:35 |
| hybrid | $1.83 | 7.4 | 0.8 | 5:40 |
| opt-hybrid ★ | $1.56 | 9.6 | 1.4 | 4:55 |
| cold | $1.64 | 8.0 | 0.5 | 4:13 |
★ = the configuration we now ship as the repo’s default skill. Wall clock includes shared contention from running 22 agents concurrently.
H1 — onaylandı
Yalnızca özet arm, $1,77 karşılığında inceledi, belgeler okunması için $2,30 (−23%), ve kazanan özet-artı-bir-dosya arm’ı $1,56 (−32%) — eşit kararlar. Tasarruf bileşik: özet, aksi takdirde her sonraki API çağrısının bağlamı aracılığıyla gidecek bir belge yığınını değiştirir.
H2 — onaylandı, kesin olarak
Atlanan review-agent kontrolü — bu PR’daki gerçek bir merge-ilke ihlafı — kesin ilke dosyasını tutan 5 of 5 ajan tarafından yakalandı ve 1 of 5 yalnızca özet ajan tarafından. Mekanizm, H2’nin tahmin ettiği şeydir: bu bulguyu yazmak için, bir ajan kesin CI kontrol adlarını kesin config alanlarıyla eşleştirmek zorundadır — bir parafraze alıntılanabilir kanıt değildir, bu nedenle yalnızca özet ajanlar çekinir ve onu bırakır. Bir doğrudan okuma bunu geri yükler.
H3 — onaylandı
Tüm belgeleri okuyan hybrid, herhangi bir arm’ın en çok bağlamını taşıdı ve en kötü puanı aldı (7.4/13), en yalın yeterli arm en iyi puanı aldı (9.6/13) — ve tüm arm’lar arasında en derin bulgu, üç dosya arasında bir çağrı yolunu izlemeyi gerektiren bir ölü kod hatasında en iyi puanı aldı. Gereksiz prose bilgi eklemedi; kod için dikkatie rekabet etti.
Bir dürüst dipnot: soğuk baseline (8.0/13 at $1,64), 13 kusurdan çoğunun, hiçbir kural bağlamı olmadan güçlü bir modelin bulduğu düz kod hataları olduğunu gösterir. Soğuk yapamayacağı şey, işin ilke yarısı — kapılar, katmanlar, merge kuralları — tam olarak arm’ların ayrıldığı yerdir.
Prose’u bir özete kürasyonlayın. İlke dosyasını ham olarak okuyun. Hiçbir şeyi iki kez okumayın.
Tam açıklama
- Model: her ajanın her API çağrısı claude-opus-4-8 (Claude Opus 4.8) üzerinde çalıştırıldı — her transkript satırının
modelalanından doğrulandı, varsayılmadı. Sonuçlar diğer modellerde farklı olabilir; daha küçük modeller muhtemelen daha az değil, daha fazla küratörlüğe bağlıdır. - Fiyatlar: maliyetler, yazma zamanında Anthropic liste fiyatlarını kullanır; gerçek faturalandırma farklı olabilir. Göreceli karşılaştırmalar etkilenmez.
- Örnek boyutu: arm başına n=5 (soğuk için n=2), bir PR, bir depo, bir görev türü. Kapı etkisi (5/5 vs 1/5) keskindir; başka yerlerdeki bulgu oranları ±1 ajan’dır. Bunu bir benchmark yerine güçlü bir pilot olarak ele alın.
- Kalite metriği: inceleme metni üzerinde desen algılama (alıntılar hariç), yanlış pozitifler için manuel olarak denetlenmiş. Doğrulanmış kusurlardan bahseder, genel inceleme bereketliliğini değil.
- Zamanlama: 22 ajanın tümü bir makine ve bir API kotası paylaştı; duvar saati numaraları bu çekişmeyi içerir.
- Kendimizi iki kez düzelttik: ilk jetonlar sayıları 2–3× şişirildi (transkriptlerdeki satır başına kullanım çoğaltması; istek-ID dedup tarafından düzeltildi) ve önceki bir zaman çizelgesi görseli duvar saatini eksik saydı (tam aralık atribüsyonuyla düzeltildi). Her iki düzeltme de buradaki her numaraya pişirilmiş.
Şimdi ne: döngüyü çalın
Neyi sevk ettik
Kazanan arm artık deponun varsayılan check-context-first becerisidir: bağlam motoru özetini çekin (iki çağrı), sonra diskten tam olarak bir dosya okuyun — harness config — ve snapshot’u ve kesin kapıları alıntılayan bir onay bloğu yayınlayın. Bir ölçülen zayıflık, bir tek satırlık ilke düzeltmesi, aynı gün yeniden doğrulandı. Bu döngü — ölçü, bağlam ilkesini düzelt, yeniden doğrula — kullandığınız bağlam motorunun ne olursa olsun çalmanız gereken parçadır.
Pazartesi günü yapabileceğiniz şeyler
- Ajan bağlamını ikiye bölün: prose (kurallar, mimari, test) vs makine tarafından okunabilir ilke (CI kapıları, risk katmanları, merge kuralları).
- Prose’u özet; ilkeyi asla özet yapma. Prose’u bir bağlam motoru aracılığıyla sunun — meaninggrid bizimki — ve makine tarafından okunabilir ilke dosyasını bağlam kapısında zorunlu kelimesi kelimesine bir okuma yapın.
- Bağlamı denetlenebilir yapın. Alınan bağlamı sürümlendirin; ajanların, gözden geçirenlerin gerçekten kontrol edebileceği bir onay bloğunda snapshot id’sini alıntılamalarını gerekli kılın.
- İnanmadan önce ölçün — biz de dahil olmak üzere. Arm başına bir avuç ajan kendi deponuzda deseni görmek için yeterlidir. İncelemeleri doğrulanmış bulgular karşı puanlandırın, vibes karşı değil.
Açık bir davet
Bu deneyi kendi deponuzda çalıştırırsanız — aynı arm’lar, modeliniz, harness’iniz — numaralarınızı görmek isterdik, özellikle de bizimkini çürütüyorsa. Ve ekibiniz bu gibi bir bağlam kapısı kurmaya yardım isterse veya meaninggrid ve harnext yığını hakkında konuşmak isterse, FlowHunt ekibine ulaşın veya harnext.dev adresinde açık kaynak harness’i bulun. Replikasyonlar, sorular ve düzeltmeler hepsi hoş geldiniz.

