Am dat aceeași sarcină de recenzie de cod la 22 agenți AI. Aceeași cerere de extragere, aceeași angajare fixată, aceeași instrucțiune, același model — singura variabilă a fost cum a încărcat fiecare agent regulile proiectului. Configurația cea mai ieftină s-a dovedit a fi și cea mai amănunțită, iar motivul spune ceva general despre ingineria contextului.
TL;DR: Un rezumat al motorului de context plus o citire directă a fișierului de politică care poate fi citit de mașini a bătut fiecare altă strategie: $1,56 pe recenzie și 9,6/13 constatări verificate — mai ieftin decât citirea documentației ($2,30, 8,6/13) și mai bun decât doar rezumatul ($1,77, 7,8/13). Citirea tuturor a obținut cel mai slab scor din toate (7,4/13). Toți 22 agenți au rulat pe Claude Opus 4.8, și 21 din 22 au ajuns la același verdict.
Ce: un harnas, un motor de context și o cerere de extragere
Ce este un “harnas”?
Fiecare încercare serioasă de a lăsa agenții AI să lucreze într-un depozit de producție dezvoltă două straturi de guvernanță.
Stratul prozei — convenții, reguli de arhitectură, standarde de testare. În depozitul nostru asta este CLAUDE.md și docs/**: “backend este snake_case,” “domeniu niciodată nu importă infrastructura,” “toți manipulatorii de rute sunt asincron.” Oamenii îl citesc; agenții sunt instruiți să îl citească și ei.
Stratul care poate fi citit de mașini — configurația harnasului. Al nostru este un singur fișier JSON care clasifică fiecare cale din depozit în niveluri de risc și atașează porți aplicabile fiecărui nivel. CI îl citește. Politica de fuziune îl citește. Nu este sfat — este politică:
"tier3": {
"requiredChecks": [
"lint", "test", "build", "review-agent",
"harness-smoke", "manual-approval", "expanded-coverage"
],
"mergePolicy": {
"minApprovals": 2,
"requireReviewAgent": true,
"allowSelfMerge": false
}
}
(Notă de terminologie: “harnas” numește și runtime-ul agentului — schela instrumentelor, abilităților și serverelor MCP pe care acționează un agent, ca în harnext , “harnasul agentului de codificare.” În această postare, configurația harnasului este fișierul politică al depozitului pe care atât un runtime cât și CI îl aplică.)
Un recenzor de cod — uman sau agent — nu poate judeca “este această PR permisă să se fuzioneze?” fără acest fișier. O PR de Nivel-3 cu verificarea review-agent omisă este o încălcare de politică chiar dacă fiecare test este verde. Ține acel exemplu în minte; decide experimentul.
Deoarece ambele straturi există, depozitul mandatează o poartă: niciun agent nu începe lucrul înainte de a încărca acest context — și dovedind că a făcut-o, printr-un bloc de confirmare pe care revizorii îl verifică. Întrebarea pe care această postare o răspunde este pur și simplu: care este cel mai ieftin corect mod de a satisface acea poartă?
Întâlnește harnext și meaninggrid
meaninggrid este Motorul de Context găzduit din harnext
, harnasul agentului de codificare MIT-licențiat, neutru din punct de vedere al furnizorului al QualityUnit (șase instrumente — citire, scriere, editare, bash, abilitate, mcp — npm i -g harnext). Argumentul vânzării furnizorului pentru Motorul de Context este direct: “creierul agentului dvs.” Sursele se varsă într-un index continuu actualizat — “grila” — și per interogare motorul “clasifică și taie-o în context eficient în jetoane, conectat direct în harnas”: index continuu, clasificare după relevanță, dedup și cache. Numărul de titlu al harnext este −89% jetoane per interogare în medie. Aceasta este afirmația furnizorului; un scop al acestui experiment a fost de a măsura, cu propriile noastre numere pe o sarcină reală, ce economisește cu adevărat acel tip de compresie — și ce costă.
În implementarea noastră grila ingerează documentația prozei depozitului; fiecare ingerare produce o imagine imutabilă, versionată. Agenții o interogheaza peste MCP (meaninggrid.harnext.dev/mcp) cu un singur apel context_research și primesc o rezumare sintetizată, citată marcată cu snapshot_id, pe care agentul trebuie să o citeze în blocul său de confirmare — contextul auditabil făcut concret.
Ce produce poarta — blocul de confirmare (exemplu; specificuri de proiect șterse):
Încărcat via: hibrid optimizat (rezumat motor de context + doar fișier de politică).
- apel context_research #1 (convenții / stratificare / testare / securitate /
niveluri de risc) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- apel context_research #2 (lista de verificare integrare furnizor LLM +
reguli de grijă suplimentară motor de flux) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- Citire configurație harnas (complet) de pe disc pentru modele exacte de nivel,
requiredChecks, mergePolicy, evidenceConfig.
NU a citit CLAUDE.md sau docs/* (acoperit de rezumat).
snapshot_id este real — un revisor poate verifica exact ce versiune a regulilor a folosit agentul.
Trei ipoteze
Experimentul a fost conceput pentru a stabili trei predicții testabile, scrise anticipat:
H1 — Un rezumat este mai ieftin decât re-citire. Ingerez documentele prozei o dată, servesc fiecărui agent o rezumare sintetizată compactă, în loc ca fiecare agent să re-citească fiecare document la fiecare sarcină. Dacă adevărat: cost semnificativ mai mic pe recenzie, la verdicte egale.
H2 — Parafrazarea distruge politica. Un rezumat poate purta “Nivel 3 necesită recenzie umană” fără pierdere. Nu poate purta "requireReviewAgent": true fără pierdere — detaliile exacte și citabile pe care un revisor le are nevoie pentru a afirma o încălcare mor în rezumat. Dacă adevărat: agenții doar cu rezumat ar trebui să rateze sistematic încălcări de poartă pe care agenții care dețin fișierul literal de politică le prind.
H3 — Contextul mai ușor citește mai adânc. Contextul este plătit de două ori — o dată în dolari, o dată în atenție: fiecare document redundant în fereastră concurează cu codul în curs de recenzie. Dacă adevărat: citirea tuturor (rezumat + toți docii) nu ar trebui să câștige; contextul cel mai mica suficient ar trebui.
Cum am testat-o
Douăzeci și doi agenți au recenzat aceeași cerere de extragere de Nivel-3 în depozitul nostru de producție (o integrare furnizor LLM: 44 fișiere, +2.111 linii, mize reale — tabele de facturare, rutare motor de flux). Cinci brațe, diferind doar în pasul de încărcare a contextului:
| Braț | Încărcare context | n |
|---|---|---|
| meaninggrid | rezumat motor de context doar (2× context_research) | 5 |
| disk | citește 7+ documente de pe disc — niciun motor de context | 5 |
| hybrid | rezumat + citește TOȚI docii | 5 |
| opt-hybrid | rezumat + citește UN fișier: configurația harnasului | 5 |
| cold | niciun context de convenție în toate (referință) | 2 |
Reguli de bază: o angajare fixată, un corp de instrucțiune, un model — Claude Opus 4.8 — toate brațele intercalate într-un singur lot concurent. Agenților le-a fost interzis firul de comentarii al PR, deci rundele experimentului anterior nu ar putea curge în interior. Fiecare număr provine din transcrierile brute ale agentului, cu utilizarea de jetoane deduplicate per cerere API și prețuite la prețuri de listă. Calitatea este notată în raport cu 13 defecte reale verificate independent în PR, model-potrivit în corpul fiecărei recenzii și auditat manual pentru fals pozitiv. Acord de verdict în toate brațele: 21/22 au spus CERE MODIFICĂRI.
Deci ce: configurația cea mai ieftină a câștigat și pe calitate
| Braț | Cost / recenzie | Constatări (din 13) | Constatări poartă (din 3) | Ceas de perete |
|---|---|---|---|---|
| meaninggrid | $1,77 | 7,8 | 0,2 | 5:34 |
| disk | $2,30 | 8,6 | 0,8 | 4:35 |
| hybrid | $1,83 | 7,4 | 0,8 | 5:40 |
| opt-hybrid ★ | $1,56 | 9,6 | 1,4 | 4:55 |
| cold | $1,64 | 8,0 | 0,5 | 4:13 |
★ = configurația pe care o livrăm acum ca abilitate implicită a depozitului. Ceasul de perete include conținere comună partajată de 22 agenți care rulează concurent.
H1 — confirmat
Brațul doar cu rezumat a recenzat pentru $1,77 versus $2,30 pentru citirea docilor (−23%), și brațul câștigător digest-plus-un-fișier pentru $1,56 (−32%) — la verdicte egale. Economiile se compun: rezumatul înlocuiește o grămadă de documente care altfel ar merge prin fiecare apel API subsequent în context.
H2 — confirmat, decisiv
Verificarea review-agent omisă — o încălcare genuină de politică de fuziune în această PR — a fost prinsă de 5 din 5 agenți care dețin fișierul literal de politică, și de 1 din 5 agenți doar cu rezumat. Mecanismul este exact ceea ce H2 a prezis: pentru a scrie acea constatare, un agent trebuie să potrivească numele exacte ale verificărilor CI cu câmpurile exacte de configurație — o parafrazare nu este dovadă citabilă, deci agenții doar cu rezumat se gândesc și o scapă. O citire directă o restabilește.
H3 — confirmat
Hibridul citit-totul a purtat cel mai mult context din orice braț și a obținut cel mai slab scor (7,4/13), în timp ce brațul cel mai mica suficient a obținut cel mai bun scor (9,6/13) — și a fost cel mai bun din toate brațele la singura constatare cea mai adâncă, o eroare de cod mort care necesită trasarea unei căi de apel în trei fișiere. Proza redundantă nu a adăugat informații; a concurat cu codul pentru atenție.
O notă onestă: referința rece (8,0/13 la $1,64) arată că majoritatea celor 13 defecte sunt erori simple de cod pe care un model puternic le găsește fără niciun context de convenție. Ce rece nu poate face este jumătatea politică a jobului — porți, niveluri, reguli de fuziune — care este exact unde brațele se separă.
Curate proza într-un rezumat. Citește fișierul de politică brut. Nu citi nimic de două ori.
Dezvăluire completă
- Model: fiecare apel API al fiecărui agent a rulat pe claude-opus-4-8 (Claude Opus 4.8) — verificat din câmpul
modelal fiecărei linii de transcriere, nu presupus. Rezultatele pot diferi pe alte modele; modelele mai mici probabil depind mai mult de contextul curat, nu mai puțin. - Prețuri: costurile utilizează prețuri de listă Anthropic la momentul scrierii; facturarea reală poate diferi. Comparațiile relative sunt neafectate.
- Mărimea eșantionului: n=5 pe braț (n=2 pentru rece), o PR, un depozit, un tip de sarcină. Efectul poartei (5/5 versus 1/5) este ascuțit; ratele per-constatare în altă parte sunt ±1 agent. Tratați asta ca un pilot puternic, nu un reper de referință.
- Metrica calității: detecție model peste text de recenzie (citări excluse), auditat manual pentru fals pozitiv. Numără mențiuni de defecte verificate, nu elocvență de recenzie generală.
- Timing: toți 22 agenți au partajat o mașină și o cotă API; numerele ceasului de perete includ acea conținere.
- Ne-am corectat pe noi înșine de două ori: numărurile inițiale de jetoane au fost inflaționate 2–3× (duplicare de utilizare per-linie în transcrieri; fixată prin dedup ID-cerere), și o vizualizare de timeline anterioară a subcontat timp de perete (fixată prin atribuire de interval complet). Ambele corecții sunt coapte în fiecare număr aici.
Acum ce: furi bucla
Ce am livrat
Brațul câștigător este acum abilitatea implicită a depozitului check-context-first: trage rezumatul motorului de context (două apeluri), apoi citește exact un fișier de pe disc — configurația harnasului — și emite un bloc de confirmare citând snapshot-ul și porțile exacte. O slăbiciune măsurată, o corecție de politică pe o linie, re-validată aceeași zi. Acea buclă — măsoară, repară politica de context, re-validează — este partea pe care v-o încurajez să o furați, indiferent ce motor de context folosiți.
Ce puteți face luni
- Împărțiți contextul agentului dvs. în două: prozei (convenții, arhitectură, testare) versus politică care poate fi citită de mașini (porți CI, niveluri de risc, reguli de fuziune).
- Rezumați proza; niciodată nu rezumați politica. Servind proza printr-un motor de context — meaninggrid este al nostru — și faceți fișierul de politică o citire mandatorie cuvânt cu cuvânt în poarta dvs. de context.
- Faceți contextul auditabil. Versionați contextul ingesat; cereți agenților să citeze id-ul snapshot într-un bloc de confirmare pe care revizorii îl pot verifica cu adevărat.
- Măsurați înainte de a crede — inclusiv noi. O mână de agenți pe braț pe propriul dvs. depozit este suficientă pentru a vedea modelul. Notați recenziile în raport cu constatări verificate, nu vibrații.
O invitație deschisă
Dacă rulați acest experiment pe propriul dvs. depozit — aceleași brațe, modelul dvs., harnasul dvs. — am vrea cu adevărat să vedem numerele dvs., mai ales dacă ele refută ale noastre. Și dacă echipa dvs. vrea ajutor în configurarea unei porți de context cum este aceasta, sau vrea să vorbească despre meaninggrid și stiva harnext, contactați echipa FlowHunt sau găsiți harnasul open-source la harnext.dev . Replicări, întrebări și corecții toate binevenite.

