Čo vám vlastne kúpi kontextový engine: Spustili sme 22 AI recenzentov kódu piatimi rôznymi spôsobmi

AI Agents Context Engineering MCP Agentic Workflows

Dali sme rovnakú úlohu recenzovania kódu 22 AI agentom. Rovnaký pull request, rovnaký pripnutý commit, rovnaký prompt, rovnaký model — jedinou premennou bolo, ako každý agent načítal pravidlá projektu. Najlacnejšia konfigurácia sa ukázala byť aj najdôkladnejšia, a dôvod prečo hovorí niečo všeobecné o inžinieringu kontextu.

TL;DR: Zhrnutie z kontextového enginu plus jeden priamy prečítaný súbor strojovo čitateľnej politiky porazil každú inú stratégiu: $1,56 za recenziu a 9,6/13 overených zistení — lacnejšie ako čítanie dokumentácie ($2,30, 8,6/13) a lepšie ako iba zhrnutie ($1,77, 7,8/13). Čítanie všetkého skóroval najhoršie zo všetkých (7,4/13). Všetci 22 agenti bežali na Claude Opus 4.8 a 21 z 22 dospelo k rovnakému verdiktu.

Čo: harness, kontextový engine a jeden pull request

Čo je “harness”?

Každý vážny pokus nechať AI agentov pracovať v produkčnom úložisku rastie do dvoch vrstiev správy.

Vrstva prózy — konvencie, pravidlá architektúry, štandardy testovania. V našom úložisku to je CLAUDE.md a docs/**: “backend je snake_case,” “doména nikdy neimportuje infraštruktúru,” “všetky obslužné programy trás sú async.” Ľudia to čítajú; agentom sa hovorí, aby to čítali tiež.

Vrstva strojovo čitateľnákonfigurácia harnessu. Naša je jeden JSON súbor, ktorý klasifikuje každú cestu v úložisku do úrovní rizika a pripája vynútiteľné brány ku každej úrovni. CI ju číta. Politika zlúčenia ju číta. Nie je to rada — to je politika:

"tier3": {
  "requiredChecks": [
    "lint", "test", "build", "review-agent",
    "harness-smoke", "manual-approval", "expanded-coverage"
  ],
  "mergePolicy": {
    "minApprovals": 2,
    "requireReviewAgent": true,
    "allowSelfMerge": false
  }
}

(Poznámka k terminológii: “harness” tiež pomenúva samotný runtime agenta — rámec nástrojov, zručností a MCP serverov, cez ktoré agent pôsobí, ako v harnext , “harness kódovacieho agenta.” V tomto príspevku je konfigurácia harnessu súbor politiky úložiska, ktorý takýto runtime aj CI vynucujú.)

Recenzent kódu — ľudský alebo agentský — nemôže posúdiť “je tento PR povolený na zlúčenie?” bez tohto súboru. PR úrovne 3 s preskočenou kontrolou review-agent je porušenie politiky aj keď sú všetky testy zelené. Majte tento príklad na pamäti; rozhoduje experiment.

Pretože obe vrstvy existujú, úložisko nariaďuje bránu: žiadny agent nespustí prácu predtým, ako načíta tento kontext — a dokáže to, prostredníctvom potvrdzovaného bloku, ktorý recenzenti kontrolujú. Otázka, na ktorú tento príspevok odpovedá, je jednoducho: aký je najlacnejší správny spôsob, ako splniť túto bránu?

Zoznámte sa s harnext a meaninggrid

meaninggrid je hostovaný kontextový engine od harnext , MIT licencovaného, nezávislého na poskytovateľovi harnessu kódovacieho agenta od QualityUnit (šesť nástrojov — read, write, edit, bash, skill, mcp — npm i -g harnext). Ponuka predajcu pre kontextový engine je jednoznačná: “mozog vášho agenta.” Zdroje tečú do nepretržite aktualizovaného indexu — “mriežka” — a na dotaz engine “radí a orezáva ho do kontextu efektívneho z hľadiska tokenov, zapojený priamo do harnessu”: nepretržitý index, poradie podľa relevantnosti, deduplikácia a cache. Hlavné číslo harnext je −89% tokenov na dotaz v priemere. To je tvrdenie predajcu; jedným účelom tohto experimentu bolo merať, s našimi vlastnými číslami na skutočnej úlohe, čo takáto kompresia skutočne šetrí — a čo ju stojí.

V našom nasadení mriežka prijíma dokumentáciu prózy úložiska; každé prijatie vytvorí nemenný, verzovaný snímok. Agenti ho dotazujú cez MCP (meaninggrid.harnext.dev/mcp) s jedným volaním context_research a dostanú syntetizované, citované zhrnutie s pečiatkou snapshot_id, ktoré musí agent citovať v svojom potvrdzovacom bloku — overiteľný kontext urobený konkrétnym.

Kanál kontextového enginu: dokumentácia prózy tečie cez príjem, verzovaný snímok a context_research do agenta, zatiaľ čo súbor strojovo čitateľnej politiky sa číta priamo

Čo brána vytvorí — potvrdzovací blok (príklad; špecifiká projektu vynechané):

Načítané cez: optimalizovaný hybrid (zhrnutie z kontextového enginu + iba súbor politiky).

- volanie context_research #1 (konvencie / vrstvenie / testovanie / bezpečnosť /
  úrovne rizika) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- volanie context_research #2 (zoznam kontroly integrácie poskytovateľa LLM +
  pravidlá extra-care flow-engine) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- Čítajte konfiguráciu harnessu (úplne) z disku pre presné vzory úrovní,
  requiredChecks, mergePolicy, evidenceConfig.
  NEČÍTALI sme CLAUDE.md ani docs/* (pokryté zhrnutím).

snapshot_id je skutočný — recenzent môže overiť presne, ktorú verziu pravidiel agent používal.

Tri hypotézy

Experiment bol navrhnutý na vyriešenie troch testovateľných predpovedí, napísaných vopred:

H1 — Zhrnutie je lacnejšie ako opätovné čítanie. Prijmite dokumentáciu prózy raz, slúžte každému agentovi kompaktné syntetizované zhrnutie, namiesto toho, aby každý agent čítaní každý dokument pri každej úlohe. Ak je to pravda: zmysluplne nižšie náklady na recenziu pri rovnakých verdiktoch.

H2 — Parafrázovanie ničí politiku. Zhrnutie môže niesť “Tier 3 vyžaduje ľudskú recenziu” bez straty. Nemôže niesť "requireReviewAgent": true bez straty — presné, citeľné špecifiká, ktoré recenzent potrebuje tvrdiť porušenie, umierajú v zhrnutí. Ak je to pravda: agenti iba so zhrnutím by mali systematicky minúť porušenia brány, ktoré agenti s dosloveným súborom politiky zachytia.

H3 — Štíhlejší kontext číta hlbšie. Kontext sa platí dvakrát — raz v dolároch, raz v pozornosti: každý redundantný dokument v okne konkuruje kódu pod recenziou. Ak je to pravda: čítanie všetkého (zhrnutie + všetky dokumenty) by nemělo vyhrať; najštíhlejšia postačujúca kontext by mala.

Ako sme to testovali

Dvadsať dva agenti recenzovali rovnaký pull request úrovne 3 v našom produkčnom monorepozitári (integrácia poskytovateľa LLM: 44 súborov, +2 111 riadkov, skutočné stávky — tabuľky fakturácie, smerovanie flow-engine). Päť ramien, líšiacich sa iba v kroku načítania kontextu:

RamenoNačítanie kontextun
meaninggridiba zhrnutie z kontextového enginu (2× context_research)5
diskčítajte 7+ dokumentov z disku — bez kontextového enginu5
hybridzhrnutie + čítajte VŠETKY dokumenty5
opt-hybridzhrnutie + čítajte JEDEN súbor: konfiguráciu harnessu5
coldžiadny kontext konvencií vôbec (baseline)2

Základné pravidlá: jeden pripnutý commit, jedno telo promptu, jeden model — Claude Opus 4.8 — všetky ramená prepletené v jednej súbežnej dávke. Agenti boli vyňatí z vlákna komentárov PR, takže skoršie kolá experimentu nemohli uniknúť. Každé číslo pochádza z surových prepísov agenta, s využitím tokenov deduplikovaných za požiadavku API a oceňovaných za ceny zoznamu. Kvalita je skórovaná oproti 13 nezávisle overených, skutočným chybám v PR, porovnávaným so vzormi v tele každej recenzie a ručne auditovaným na falošne pozitívne. Dohoda o verdiktu v rámci všetkých ramien: 21/22 povedali REQUEST CHANGES.

Takže čo: najlacnejšia konfigurácia tiež vyhrala v kvalite

Rozptylový graf nákladov na recenziu oproti overenému zisteniam: opt-hybrid je najlacnejší a najdôkladnejší, read-everything hybrid skóruje najhoršie
RamenoNáklady / recenziaZistenia (z 13)Zistenia brány (z 3)Čas na stene
meaninggrid$1,777,80,25:34
disk$2,308,60,84:35
hybrid$1,837,40,85:40
opt-hybrid ★$1,569,61,44:55
cold$1,648,00,54:13

★ = konfigurácia, ktorú teraz dodávame ako predvolenú zručnosť úložiska. Čas na stene zahŕňa zdieľanú kontenciu z behu 22 agentov súbežne.

H1 — potvrdená

Rameno iba so zhrnutím recenzovalo za $1,77 oproti $2,30 za čítanie dokumentácie (−23%), a vyhrávajúce rameno zhrnutie-plus-jeden-súbor za $1,56 (−32%) — pri rovnakých verdiktoch. Úspora sa zložuje: zhrnutie nahrádza zásobník dokumentov, ktoré by inak jazdili cez každé následné volanie API v kontexte.

H2 — potvrdená, rozhodujúco

Preskočená kontrola review-agent — skutočné porušenie politiky zlúčenia v tomto PR — bola zachytená 5 z 5 agentov s dosloveným súborom politiky a 1 z 5 agentov iba so zhrnutím. Mechanizmus je presne to, čo H2 predpovedala: aby agent napísal toto zistenie, musí zhodovať presné názvy CI kontrol s presnými poľami konfigurácie — parafrázovanie nie je citeľný dôkaz, takže agenti iba so zhrnutím váhajú a pustia to. Jeden priamy prečítaný ho obnoví.

Vedľa seba: politika harnessu vyžadujúca kontrolu review-agent a CI spustenie, kde bola táto kontrola preskočená, zatiaľ čo všetko ostatné prešlo

H3 — potvrdená

Hybrid read-everything niesol najviac kontextu zo všetkých ramien a skóroval najhoršie (7,4/13), zatiaľ čo najštíhlejšie postačujúce rameno skóroval najlepšie (9,6/13) — a bolo najlepšie zo všetkých ramien v jedinej najhlbšej chybe, chybe mrtvého kódu, ktorá vyžaduje trasovanie cesty volania cez tri súbory. Redundantná próza nepridala informácie; konkurovala kódu o pozornosť.

Časová anatómia agenta s zhrnutím oproti agentovi čítajúcemu dokumenty: čakanie na kontextový engine je viditeľné, čítania dokumentov sú rýchle úlomky, čas modelu dominuje obom

Jedna úprimná poznámka pod čiarou: baseline cold (8,0/13 za $1,64) ukazuje, že väčšina z 13 chýb sú jednoduché chyby kódu, ktoré silný model nájde bez akéhokoľvek kontextu konvencií. Čo cold nemôže robiť, je politická polovica úlohy — brány, úrovne, pravidlá zlúčenia — čo je presne tam, kde sa ramená oddeľujú.

Kurátorskú prózu do zhrnutia. Čítajte súbor politiky surový. Nečítajte nič dvakrát.

Úplné zverejnenie

  • Model: každé volanie API každého agenta bežalo na claude-opus-4-8 (Claude Opus 4.8) — overené z poľa model každého riadku prepisu, nie predpokladané. Výsledky sa môžu líšiť na iných modeloch; menšie modely pravdepodobne závisia viac od kurátorského kontextu, nie menej.
  • Ceny: náklady používajú ceny zoznamu Anthropic v čase písania; skutočná fakturácia sa môže líšiť. Relatívne porovnania sú neovplyvnené.
  • Veľkosť vzorky: n=5 na rameno (n=2 pre cold), jeden PR, jedno úložisko, jeden typ úlohy. Efekt brány (5/5 vs 1/5) je ostrý; sadzby na zistenie inde sú ±1 agent. Považujte to za silný pilot, nie benchmark.
  • Metrika kvality: detekcia vzoru cez text recenzie (citácie vylúčené), ručne auditované na falošne pozitívne. Počíta zmienky o overených chybách, nie celkovú výrečnosť recenzie.
  • Načasovanie: všetci 22 agenti zdieľali jeden stroj a jednu kvótu API; časy na stene zahŕňajú túto kontenciu.
  • Sami sme sa opravili dvakrát: počiatočné počty tokenov boli nafúknuté 2–3× (duplikácia využitia na riadok v prepísoch; opravené deduplikáciou ID požiadavky) a skorší časový vizuál podceňoval čas na stene (opravené úplným priradením intervalu). Obe opravy sú zapečené do každého čísla tu.
FlowHunt Logo

Pripravení rozšíriť svoje podnikanie?

Začnite svoju 30-dňovú skúšobnú verziu ešte dnes a vidzte výsledky behom pár dní.

Teraz čo: ukradnite slučku

Čo sme dodali

Vyhrávajúce rameno je teraz predvolená zručnosť úložiska check-context-first: vytiahnite zhrnutie z kontextového enginu (dve volania), potom čítajte presne jeden súbor z disku — konfiguráciu harnessu — a vydajte potvrdzovací blok citujúci snímok a presné brány. Jedna meraná slabosť, jedna jednoradková oprava politiky, znova overená ten istý deň. Táto slučka — merať, opraviť politiku kontextu, znova overiť — je časť, ktorú vám odporúčame ukradnúť, nech používate akýkoľvek kontextový engine.

Čo môžete urobiť v pondelok

  1. Rozdeľte kontext agenta na dva: próza (konvencie, architektúra, testovanie) vs strojovo čitateľná politika (CI brány, úrovne rizika, pravidlá zlúčenia).
  2. Zhrnite prózu; nikdy nežrnite politiku. Slúžte prózu cez kontextový engine — meaninggrid je náš — a urobte súbor politiky povinným dosloveným čítaním v bráne vášho kontextu.
  3. Urobte kontext auditovateľným. Verzujte prijatý kontext; vyžadujte od agentov, aby citovali snapshot id v potvrdzovacom bloku, ktorý recenzenti môžu skutočne skontrolovať.
  4. Merajte predtým, ako tomu uveríte — vrátane nás. Hrstka agentov na rameno vo vašom vlastnom úložisku je dostačujúca na videnie vzoru. Skórujte recenzie oproti overenému zisteniam, nie vibe.

Otvorená pozvánka

Ak spustíte tento experiment vo svojom vlastnom úložisku — rovnaké ramená, váš model, váš harness — chceli by sme skutočne vidieť vaše čísla, najmä ak vyvracajú naše. A ak váš tím chce pomoc s nastavením brány kontextu ako je táto, alebo chce hovoriť o meaninggrid a zásobníku harnext, kontaktujte tím FlowHunt alebo nájdite open-source harness na harnext.dev . Replikácie, otázky a opravy sú všetky vítané.

Najčastejšie kladené otázky

Štefan je AI a softvérový inžinier, ktorý vyvíja FlowHunt. Okrem samotného produktu navrhuje agentic software-engineering workflows pre vývojárov, ktoré znižujú vývojové náklady a zvyšujú kvalitu kódu.

Štefan Moravík
Štefan Moravík
AI & Softvérový Inžinier

Vytvárajte agentové pracovné toky, ktoré sa sami zaplatia

FlowHunt pomáha inžinierskim tímom navrhovať agentové pracovné toky, kontextové brány a MCP integrácie, ktoré znižujú náklady na vývoj a zlepšujú kvalitu kódu.