Ce este un motor de context pentru agenții AI?

Un motor de context ingerează documentația unui proiect o dată, o versează într-o imagine imutabilă și servește agenților o rezumare compactă și citată printr-un singur apel de instrument — în loc ca fiecare agent să re-citească fiecare document la fiecare sarcină. În experimentul nostru, rezumatul conținea un snapshot_id pe care agenții îl citează ca dovadă verificabilă a versiunii regulilor din care au lucrat.

De ce nu ar trebui să fie rezumată politica care poate fi citită de mașini pentru agenții AI?

O rezumare poate purta sensul prozei fără pierdere, dar distruge detaliile exacte și citabile ale politicii care poate fi citită de mașini — numele exacte ale verificărilor CI, steaguri booleene, modele de cale. Un agent care deține doar o parafrazare nu poate afirma cu încredere o încălcare de politică concretă. În testul nostru, agenții care dețineau fișierul literal de politică au detectat o verificare CI necesară omisă 5 din 5 ori; agenții doar cu rezumat au detectat-o 1 din 5 ori.

Dă mai mult context unui agent AI îl face mai bun?

Nu — contextul este plătit de două ori, o dată în jetoane și o dată în atenție. În experimentul nostru, brațul care a citit totul (rezumat plus toată documentația) a obținut cel mai slab scor la calitate, în timp ce configurația cea mai mica suficientă a obținut cel mai bun scor. Fiecare document redundant concurează cu codul actual pentru atenția modelului.

Ce model a fost folosit și rezultatele se generalizează?

Fiecare agent din experiment a rulat pe Claude Opus 4.8, verificat din câmpul model al fiecărei transcrieri. Eșantionul este mic (cinci agenți pe braț, o cerere de extragere, un depozit), deci tratați-l ca un pilot puternic mai degrabă decât ca un reper de referință — și replicați-l pe propriul dvs. depozit înainte de a-l crede. Modelele mai mici probabil depind mai mult de contextul curat, nu mai puțin.

Care este configurația recomandată de context pentru agenții de codificare?

Împărțiți contextul agentului în două: servind documentația prozei (convenții, arhitectură, testare) printr-un motor de context ca rezumat citat, și faceți fișierul de politică care poate fi citit de mașini o citire mandatorie cuvânt cu cuvânt. Cereți agenților să citeze id-ul snapshot într-un bloc de confirmare pentru ca revizorii să poată verifica ce versiune a regulilor a folosit agentul.

Ce Vă Cumpără Într-Adevăr un Motor de Context: Am Rulat 22 Recenzori AI de Cod Cinci Moduri Diferite

Aceeași cerere de extragere, aceeași instrucțiune, același model — doar încărcarea contextului a diferit. Un rezumat al motorului de context plus o citire a unui fișier de politică a bătut citirea documentației atât în cost cât și în calitate. Date complete în interior.

AI Agents Context Engineering MCP Agentic Workflows

Încercați FlowHunt Explorați Dezvoltarea MCP

Am dat aceeași sarcină de recenzie de cod la 22 agenți AI. Aceeași cerere de extragere, aceeași angajare fixată, aceeași instrucțiune, același model — singura variabilă a fost cum a încărcat fiecare agent regulile proiectului. Configurația cea mai ieftină s-a dovedit a fi și cea mai amănunțită, iar motivul spune ceva general despre ingineria contextului.

TL;DR: Un rezumat al motorului de context plus o citire directă a fișierului de politică care poate fi citit de mașini a bătut fiecare altă strategie: $1,56 pe recenzie și 9,6/13 constatări verificate — mai ieftin decât citirea documentației ($2,30, 8,6/13) și mai bun decât doar rezumatul ($1,77, 7,8/13). Citirea tuturor a obținut cel mai slab scor din toate (7,4/13). Toți 22 agenți au rulat pe Claude Opus 4.8, și 21 din 22 au ajuns la același verdict.

Ce: un harnas, un motor de context și o cerere de extragere

Ce este un “harnas”?

Fiecare încercare serioasă de a lăsa agenții AI să lucreze într-un depozit de producție dezvoltă două straturi de guvernanță.

Stratul prozei — convenții, reguli de arhitectură, standarde de testare. În depozitul nostru asta este CLAUDE.md și docs/**: “backend este snake_case,” “domeniu niciodată nu importă infrastructura,” “toți manipulatorii de rute sunt asincron.” Oamenii îl citesc; agenții sunt instruiți să îl citească și ei.

Stratul care poate fi citit de mașini — configurația harnasului. Al nostru este un singur fișier JSON care clasifică fiecare cale din depozit în niveluri de risc și atașează porți aplicabile fiecărui nivel. CI îl citește. Politica de fuziune îl citește. Nu este sfat — este politică:

"tier3": {
  "requiredChecks": [
    "lint", "test", "build", "review-agent",
    "harness-smoke", "manual-approval", "expanded-coverage"
  ],
  "mergePolicy": {
    "minApprovals": 2,
    "requireReviewAgent": true,
    "allowSelfMerge": false
  }
}

(Notă de terminologie: “harnas” numește și runtime-ul agentului — schela instrumentelor, abilităților și serverelor MCP pe care acționează un agent, ca în harnext , “harnasul agentului de codificare.” În această postare, configurația harnasului este fișierul politică al depozitului pe care atât un runtime cât și CI îl aplică.)

Un recenzor de cod — uman sau agent — nu poate judeca “este această PR permisă să se fuzioneze?” fără acest fișier. O PR de Nivel-3 cu verificarea review-agent omisă este o încălcare de politică chiar dacă fiecare test este verde. Ține acel exemplu în minte; decide experimentul.

Deoarece ambele straturi există, depozitul mandatează o poartă: niciun agent nu începe lucrul înainte de a încărca acest context — și dovedind că a făcut-o, printr-un bloc de confirmare pe care revizorii îl verifică. Întrebarea pe care această postare o răspunde este pur și simplu: care este cel mai ieftin corect mod de a satisface acea poartă?

Întâlnește harnext și meaninggrid

meaninggrid este Motorul de Context găzduit din harnext , harnasul agentului de codificare MIT-licențiat, neutru din punct de vedere al furnizorului al QualityUnit (șase instrumente — citire, scriere, editare, bash, abilitate, mcp — npm i -g harnext). Argumentul vânzării furnizorului pentru Motorul de Context este direct: “creierul agentului dvs.” Sursele se varsă într-un index continuu actualizat — “grila” — și per interogare motorul “clasifică și taie-o în context eficient în jetoane, conectat direct în harnas”: index continuu, clasificare după relevanță, dedup și cache. Numărul de titlu al harnext este −89% jetoane per interogare în medie. Aceasta este afirmația furnizorului; un scop al acestui experiment a fost de a măsura, cu propriile noastre numere pe o sarcină reală, ce economisește cu adevărat acel tip de compresie — și ce costă.

În implementarea noastră grila ingerează documentația prozei depozitului; fiecare ingerare produce o imagine imutabilă, versionată. Agenții o interogheaza peste MCP (meaninggrid.harnext.dev/mcp) cu un singur apel context_research și primesc o rezumare sintetizată, citată marcată cu snapshot_id, pe care agentul trebuie să o citeze în blocul său de confirmare — contextul auditabil făcut concret.

Conductă motor de context: documentele prozei curg prin ingerare, imagine versionată și context_research în agent, în timp ce fișierul de politică care poate fi citit de mașini este citit direct

Ce produce poarta — blocul de confirmare (exemplu; specificuri de proiect șterse):

Încărcat via: hibrid optimizat (rezumat motor de context + doar fișier de politică).

- apel context_research #1 (convenții / stratificare / testare / securitate /
  niveluri de risc) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- apel context_research #2 (lista de verificare integrare furnizor LLM +
  reguli de grijă suplimentară motor de flux) -> snapshot_id 9483af61cf8a40a2a0d790c7047fcf08
- Citire configurație harnas (complet) de pe disc pentru modele exacte de nivel,
  requiredChecks, mergePolicy, evidenceConfig.
  NU a citit CLAUDE.md sau docs/* (acoperit de rezumat).

snapshot_id este real — un revisor poate verifica exact ce versiune a regulilor a folosit agentul.

Trei ipoteze

Experimentul a fost conceput pentru a stabili trei predicții testabile, scrise anticipat:

H1 — Un rezumat este mai ieftin decât re-citire. Ingerez documentele prozei o dată, servesc fiecărui agent o rezumare sintetizată compactă, în loc ca fiecare agent să re-citească fiecare document la fiecare sarcină. Dacă adevărat: cost semnificativ mai mic pe recenzie, la verdicte egale.

H2 — Parafrazarea distruge politica. Un rezumat poate purta “Nivel 3 necesită recenzie umană” fără pierdere. Nu poate purta "requireReviewAgent": true fără pierdere — detaliile exacte și citabile pe care un revisor le are nevoie pentru a afirma o încălcare mor în rezumat. Dacă adevărat: agenții doar cu rezumat ar trebui să rateze sistematic încălcări de poartă pe care agenții care dețin fișierul literal de politică le prind.

H3 — Contextul mai ușor citește mai adânc. Contextul este plătit de două ori — o dată în dolari, o dată în atenție: fiecare document redundant în fereastră concurează cu codul în curs de recenzie. Dacă adevărat: citirea tuturor (rezumat + toți docii) nu ar trebui să câștige; contextul cel mai mica suficient ar trebui.

Cum am testat-o

Douăzeci și doi agenți au recenzat aceeași cerere de extragere de Nivel-3 în depozitul nostru de producție (o integrare furnizor LLM: 44 fișiere, +2.111 linii, mize reale — tabele de facturare, rutare motor de flux). Cinci brațe, diferind doar în pasul de încărcare a contextului:

Braț	Încărcare context	n
meaninggrid	rezumat motor de context doar (2× `context_research`)	5
disk	citește 7+ documente de pe disc — niciun motor de context	5
hybrid	rezumat + citește TOȚI docii	5
opt-hybrid	rezumat + citește UN fișier: configurația harnasului	5
cold	niciun context de convenție în toate (referință)	2

Reguli de bază: o angajare fixată, un corp de instrucțiune, un model — Claude Opus 4.8 — toate brațele intercalate într-un singur lot concurent. Agenților le-a fost interzis firul de comentarii al PR, deci rundele experimentului anterior nu ar putea curge în interior. Fiecare număr provine din transcrierile brute ale agentului, cu utilizarea de jetoane deduplicate per cerere API și prețuite la prețuri de listă. Calitatea este notată în raport cu 13 defecte reale verificate independent în PR, model-potrivit în corpul fiecărei recenzii și auditat manual pentru fals pozitiv. Acord de verdict în toate brațele: 21/22 au spus CERE MODIFICĂRI.

Deci ce: configurația cea mai ieftină a câștigat și pe calitate

Grafic de dispersie a costului pe recenzie versus constatări verificate: opt-hybrid este cel mai ieftin și cel mai amănunțit, hibrid citit-totul obține cel mai slab scor

Braț	Cost / recenzie	Constatări (din 13)	Constatări poartă (din 3)	Ceas de perete
meaninggrid	$1,77	7,8	0,2	5:34
disk	$2,30	8,6	0,8	4:35
hybrid	$1,83	7,4	0,8	5:40
opt-hybrid ★	$1,56	9,6	1,4	4:55
cold	$1,64	8,0	0,5	4:13

★ = configurația pe care o livrăm acum ca abilitate implicită a depozitului. Ceasul de perete include conținere comună partajată de 22 agenți care rulează concurent.

H1 — confirmat

Brațul doar cu rezumat a recenzat pentru $1,77 versus $2,30 pentru citirea docilor (−23%), și brațul câștigător digest-plus-un-fișier pentru $1,56 (−32%) — la verdicte egale. Economiile se compun: rezumatul înlocuiește o grămadă de documente care altfel ar merge prin fiecare apel API subsequent în context.

H2 — confirmat, decisiv

Verificarea review-agent omisă — o încălcare genuină de politică de fuziune în această PR — a fost prinsă de 5 din 5 agenți care dețin fișierul literal de politică, și de 1 din 5 agenți doar cu rezumat. Mecanismul este exact ceea ce H2 a prezis: pentru a scrie acea constatare, un agent trebuie să potrivească numele exacte ale verificărilor CI cu câmpurile exacte de configurație — o parafrazare nu este dovadă citabilă, deci agenții doar cu rezumat se gândesc și o scapă. O citire directă o restabilește.

Alături: politica harnasului care necesită verificarea review-agent, și rularea CI în care acea verificare a fost omisă în timp ce totul altul a trecut

H3 — confirmat

Hibridul citit-totul a purtat cel mai mult context din orice braț și a obținut cel mai slab scor (7,4/13), în timp ce brațul cel mai mica suficient a obținut cel mai bun scor (9,6/13) — și a fost cel mai bun din toate brațele la singura constatare cea mai adâncă, o eroare de cod mort care necesită trasarea unei căi de apel în trei fișiere. Proza redundantă nu a adăugat informații; a concurat cu codul pentru atenție.

Anatomie de timp a unui agent rezumat versus un agent care citește docuri: așteptarea motorului de context este vizibilă, citirii docilor sunt fâșii rapide, timp model domină ambele

O notă onestă: referința rece (8,0/13 la $1,64) arată că majoritatea celor 13 defecte sunt erori simple de cod pe care un model puternic le găsește fără niciun context de convenție. Ce rece nu poate face este jumătatea politică a jobului — porți, niveluri, reguli de fuziune — care este exact unde brațele se separă.

Curate proza într-un rezumat. Citește fișierul de politică brut. Nu citi nimic de două ori.

Dezvăluire completă

Model: fiecare apel API al fiecărui agent a rulat pe claude-opus-4-8 (Claude Opus 4.8) — verificat din câmpul model al fiecărei linii de transcriere, nu presupus. Rezultatele pot diferi pe alte modele; modelele mai mici probabil depind mai mult de contextul curat, nu mai puțin.
Prețuri: costurile utilizează prețuri de listă Anthropic la momentul scrierii; facturarea reală poate diferi. Comparațiile relative sunt neafectate.
Mărimea eșantionului: n=5 pe braț (n=2 pentru rece), o PR, un depozit, un tip de sarcină. Efectul poartei (5/5 versus 1/5) este ascuțit; ratele per-constatare în altă parte sunt ±1 agent. Tratați asta ca un pilot puternic, nu un reper de referință.
Metrica calității: detecție model peste text de recenzie (citări excluse), auditat manual pentru fals pozitiv. Numără mențiuni de defecte verificate, nu elocvență de recenzie generală.
Timing: toți 22 agenți au partajat o mașină și o cotă API; numerele ceasului de perete includ acea conținere.
Ne-am corectat pe noi înșine de două ori: numărurile inițiale de jetoane au fost inflaționate 2–3× (duplicare de utilizare per-linie în transcrieri; fixată prin dedup ID-cerere), și o vizualizare de timeline anterioară a subcontat timp de perete (fixată prin atribuire de interval complet). Ambele corecții sunt coapte în fiecare număr aici.

Acum ce: furi bucla

Ce am livrat

Brațul câștigător este acum abilitatea implicită a depozitului check-context-first: trage rezumatul motorului de context (două apeluri), apoi citește exact un fișier de pe disc — configurația harnasului — și emite un bloc de confirmare citând snapshot-ul și porțile exacte. O slăbiciune măsurată, o corecție de politică pe o linie, re-validată aceeași zi. Acea buclă — măsoară, repară politica de context, re-validează — este partea pe care v-o încurajez să o furați, indiferent ce motor de context folosiți.

Ce puteți face luni

Împărțiți contextul agentului dvs. în două: prozei (convenții, arhitectură, testare) versus politică care poate fi citită de mașini (porți CI, niveluri de risc, reguli de fuziune).
Rezumați proza; niciodată nu rezumați politica. Servind proza printr-un motor de context — meaninggrid este al nostru — și faceți fișierul de politică o citire mandatorie cuvânt cu cuvânt în poarta dvs. de context.
Faceți contextul auditabil. Versionați contextul ingesat; cereți agenților să citeze id-ul snapshot într-un bloc de confirmare pe care revizorii îl pot verifica cu adevărat.
Măsurați înainte de a crede — inclusiv noi. O mână de agenți pe braț pe propriul dvs. depozit este suficientă pentru a vedea modelul. Notați recenziile în raport cu constatări verificate, nu vibrații.

O invitație deschisă

Dacă rulați acest experiment pe propriul dvs. depozit — aceleași brațe, modelul dvs., harnasul dvs. — am vrea cu adevărat să vedem numerele dvs., mai ales dacă ele refută ale noastre. Și dacă echipa dvs. vrea ajutor în configurarea unei porți de context cum este aceasta, sau vrea să vorbească despre meaninggrid și stiva harnext, contactați echipa FlowHunt sau găsiți harnasul open-source la harnext.dev . Replicări, întrebări și corecții toate binevenite.

Întrebări frecvente

: Un motor de context ingerează documentația unui proiect o dată, o versează într-o imagine imutabilă și servește agenților o rezumare compactă și citată printr-un singur apel de instrument — în loc ca fiecare agent să re-citească fiecare document la fiecare sarcină. În experimentul nostru, rezumatul conținea un snapshot_id pe care agenții îl citează ca dovadă verificabilă a versiunii regulilor din care au lucrat.
: O rezumare poate purta sensul prozei fără pierdere, dar distruge detaliile exacte și citabile ale politicii care poate fi citită de mașini — numele exacte ale verificărilor CI, steaguri booleene, modele de cale. Un agent care deține doar o parafrazare nu poate afirma cu încredere o încălcare de politică concretă. În testul nostru, agenții care dețineau fișierul literal de politică au detectat o verificare CI necesară omisă 5 din 5 ori; agenții doar cu rezumat au detectat-o 1 din 5 ori.
: Nu — contextul este plătit de două ori, o dată în jetoane și o dată în atenție. În experimentul nostru, brațul care a citit totul (rezumat plus toată documentația) a obținut cel mai slab scor la calitate, în timp ce configurația cea mai mica suficientă a obținut cel mai bun scor. Fiecare document redundant concurează cu codul actual pentru atenția modelului.
: Fiecare agent din experiment a rulat pe Claude Opus 4.8, verificat din câmpul model al fiecărei transcrieri. Eșantionul este mic (cinci agenți pe braț, o cerere de extragere, un depozit), deci tratați-l ca un pilot puternic mai degrabă decât ca un reper de referință — și replicați-l pe propriul dvs. depozit înainte de a-l crede. Modelele mai mici probabil depind mai mult de contextul curat, nu mai puțin.
: Împărțiți contextul agentului în două: servind documentația prozei (convenții, arhitectură, testare) printr-un motor de context ca rezumat citat, și faceți fișierul de politică care poate fi citit de mașini o citire mandatorie cuvânt cu cuvânt. Cereți agenților să citeze id-ul snapshot într-un bloc de confirmare pentru ca revizorii să poată verifica ce versiune a regulilor a folosit agentul.

Construiți Fluxuri de Lucru ale Agenților care Se Plătesc pe Ele Însele

FlowHunt ajută echipele de inginerie să proiecteze fluxuri de lucru agentice, porți de context și integrări MCP care reduc costurile de dezvoltare în timp ce îmbunătățesc calitatea codului.

Încercați FlowHunt Explorați Dezvoltarea MCP

Ce Vă Cumpără Într-Adevăr un Motor de Context: Am Rulat 22 Recenzori AI de Cod Cinci Moduri Diferite