Úvod
Inžinierstvo kontextu sa stalo jednou z najkritickejších disciplín pri budovaní efektívnych AI agentov. S rastúcou silou jazykových modelov a zvyšujúcou sa komplexnosťou úloh, ktoré agenti riešia, už nejde len o to mať výkonný model – ale o strategické riadenie informácií, ktoré tomuto modelu poskytujete. Každý token je dôležitý. V tomto komplexnom sprievodcovi preskúmame, čo je inžinierstvo kontextu, prečo je zásadné pre výkonnosť AI agentov a aké konkrétne techniky využívajú popredné výskumné organizácie a platformy na budovanie optimálnych agentov. Či už staviate chatboty zákazníckej podpory, agentov na analýzu dát alebo autonómne workflowy, pochopenie inžinierstva kontextu zásadne zlepší výkonnosť vašich AI systémov.
{{ youtubevideo videoID=“HhqLTTaKXck” provider=“youtube” title=“Vysvetlenie inžinierstva kontextu: Optimalizácia AI agentov” class=“rounded-lg shadow-md” }}
Čo je inžinierstvo kontextu?
Inžinierstvo kontextu predstavuje zásadnú zmenu v tom, ako uvažujeme o práci s veľkými jazykovými modelmi. Namiesto pohľadu na LLM ako na čiernu skrinku, ktorá potrebuje len dobré inštrukcie, inžinierstvo kontextu pristupuje k modelu ako k systému s konečnými kognitívnymi zdrojmi, ktoré treba starostlivo riadiť. V jadre ide o prax presne vedieť, aký kontext poskytnúť AI agentovi — zámerne premýšľať o každom jednom tokene, ktorý prejde každým volaním LLM, aby ste vytvorili optimálne podmienky na úspech agenta.
Tento koncept popularizovali výskumníci ako Andrej Karpathy a jeho význam rastie, keďže AI agenti sa vyvíjajú zo základných chatbotov na sofistikované systémy schopné autonómneho uvažovania a akcie. Základným východiskom je, že LLM, rovnako ako ľudia, majú obmedzenú pracovnú pamäť a kapacitu pozornosti. Tak ako človek dokáže sústrediť pozornosť len na obmedzené množstvo informácií, kým sa nezmätie alebo nestratí dôležité detaily, aj jazykové modely zažívajú degradáciu uvažovania pri nadmernom množstve kontextu. To znamená, že kvalita kontextu je omnoho dôležitejšia ako jeho kvantita.
Inžinierstvo kontextu presahuje tradičný prompt engineering, ktorý sa zameriaval najmä na vytvorenie dokonalého systémového promptu alebo inštrukcií. Namiesto toho zahrňuje celé ekosystémy informácií, ktoré má agent k dispozícii naprieč viacerými kolami interakcie – vrátane systémových promptov, definícií nástrojov, príkladov, histórie správ, získaných dát a dynamicky načítaných informácií. Cieľom je udržať štíhle, vysokosignaľové kontextové okno, ktoré agentovi poskytuje presne to, čo potrebuje na dobré rozhodovanie, bez toho, aby bol zahltený nepodstatnými informáciami.
Prečo je inžinierstvo kontextu dôležité pre budovanie schopných AI agentov
Význam inžinierstva kontextu nemožno pri budovaní produkčných AI agentov preceňovať. Výskumy opakovane ukazujú, že LLM zažívajú tzv. „context rot“ — merateľnú degradáciu výkonnosti s rastúcou veľkosťou kontextového okna. Štúdie využívajúce needle-in-a-haystack benchmarking preukázali, že čím viac tokenov je v kontexte, tým horšie model dokáže presne spomínať a uvažovať o týchto informáciách. Nejde o zanedbateľný efekt, ale o základné architektonické obmedzenie transformerových jazykových modelov.
Dôvod tejto degradácie spočíva priamo v architektúre transformerov. V transformeroch môže každý token „venovať pozornosť“ každému inému tokenu v kontexte, čím vzniká n² párových vzťahov pre n tokenov. Ako sa kontext zväčšuje, mechanizmus pozornosti modelu sa „rozťahuje“, keď sa snaží udržať tieto vzťahy v čoraz väčšom priestore. Navyše, jazykové modely sú trénované najmä na kratších sekvenciách, takže majú menej skúseností a menej špecializovaných parametrov pre veľmi dlhé závislosti. To vytvára prirodzené napätie medzi veľkosťou kontextu a schopnosťou uvažovania – modely zostávajú funkčné aj na dlhších kontextoch, ale vykazujú nižšiu presnosť pri vyhľadávaní informácií a dlhodobom uvažovaní v porovnaní s výkonom na kratších kontextoch.
Nad rámec architektonických obmedzení je tu aj praktická realita: LLM majú „rozpočet pozornosti“, ktorý sa míňa s každým novým tokenom. Každý údaj, ktorý pridáte do kontextu, spotrebúva časť tohto rozpočtu a zvyšuje kognitívnu záťaž modelu. Preto je premyslené inžinierstvo kontextu nevyhnutné. Starostlivou kuráciou informácií, ktoré sa dostanú k modelu, neoptimalizujete len efektivitu – priamo zlepšujete kvalitu uvažovania a rozhodovania agenta. Agent s úzkym, dobre organizovaným kontextovým oknom bude robiť lepšie rozhodnutia, efektívnejšie sa zotaví z chýb a udrží konzistentný výkon v dlhších sekvenciách interakcií než agent „utopený“ v nepodstatných informáciách.
Pochopenie rozdielu medzi inžinierstvom kontextu a prompt engineeringom
Aj keď inžinierstvo kontextu a prompt engineering sú príbuzné pojmy, predstavujú rozdielne úrovne abstrakcie pri práci s jazykovými modelmi. Prompt engineering, ktorý dominoval v ranej ére aplikácií LLM, sa zameriava špecificky na to, ako napísať efektívny prompt a systémové inštrukcie. Hlavnou úlohou je tvoriť správne slová a frázy, ktoré u modelu vyvolajú požadované správanie pri konkrétnej úlohe. Tento prístup dobre funguje pre jednorazové, jednootáčkové úlohy, ako je klasifikácia, sumarizácia alebo jednorazová textová generácia.
Inžinierstvo kontextu je naopak prirodzenou evolúciou prompt engineeringu pre éru viacotáčkových, autonómnych agentov. Kým prompt engineering sa pýta „Ako napíšem dokonalú inštrukciu?“, inžinierstvo kontextu kladie širšiu otázku: „Aká je optimálna konfigurácia všetkých dostupných informácií, ktorá vygeneruje požadované správanie?“ To zahŕňa nielen systémový prompt, ale aj nástroje dostupné agentovi, poskytnuté príklady, históriu správ z predchádzajúcich kôl, získané dáta a metadáta, ktoré agentovi pomáhajú porozumieť prostrediu.
Prechod od prompt engineeringu k inžinierstvu kontextu odráža zásadnú zmenu v tom, ako sa budujú AI aplikácie. V začiatkoch väčšina prípadov použitia mimo bežného chatu vyžadovala prompty optimalizované na jednorazové úlohy. Dnes sa pole posúva k schopnejším agentom, ktorí operujú cez viacero kôl inferencie a dlhšie časové horizonty. Títo agenti generujú čoraz viac údajov, ktoré môžu byť relevantné pre budúce rozhodnutia, a tieto informácie musia byť cyklicky zužované a kurátorsky spracovávané. Inžinierstvo kontextu je disciplína riadenia tohto celého vyvíjajúceho sa ekosystému informácií, ktorá zabezpečuje, že v každom kroku uvažovania má agent prístup k presne správnym informáciám pre dobré rozhodovanie.
Štyri základné techniky inžinierstva kontextu
Popredné AI výskumné organizácie a platformy sa zhodujú na štyroch primárnych technikách efektívneho inžinierstva kontextu. Každá rieši iný aspekt výzvy riadenia obmedzeného kontextového okna pri udržiavaní výkonu agenta. Pochopenie týchto techník a ich aplikácia je nevyhnutné pre vytváranie produkčných AI agentov.
Technika 1: Offloading – sumarizácia a správa referencií
Offloading je prax sumarizovania informácií a ukladania kompletných dát do externých referencií, čím agent získava prístup k detailným informáciám len v prípade potreby. Keď AI agent urobí volanie nástroja – napríklad dotaz na databázu alebo API – dostane odpoveď, ktorá môže byť veľmi rozsiahla. Namiesto vkladania celej odpovede do kontextového okna zahŕňa offloading sumarizáciu kľúčových informácií a poskytnutie referencie, ktorú môže agent použiť na získanie kompletných dát v prípade potreby.
Praktickým príkladom je prístup organizácie Manus AI, ktorá pracuje na pokročilých AI agentoch. Keď ich agent vykoná volanie nástroja a dostane odpoveď, celá odpoveď sa nezahrnie do kontextu. Namiesto toho je poskytnuté stručné zhrnutie odpovede a kompletný výsledok volania nástroja je uložený v súbore alebo databáze s referenčným ukazovateľom. Ak neskôr agent zistí, že potrebuje viac detailných informácií, môže si údaje vyžiadať bez toho, aby zaťažil hlavný konverzačný kontext ďalšími tokenmi. Tento prístup kopíruje ľudské postupy – nepamätáme si každý detail každej konverzácie, ale uchovávame si poznámky a referencie, ku ktorým sa môžeme v prípade potreby vrátiť.
Cognition, ďalšia popredná výskumná organizácia, implementovala podobný prístup s vlastným systémom sumarizácie. Namiesto generických zhrnutí vytvorili špecializovanú logiku, ktorá extrahuje najrelevantnejšie informácie pre ich konkrétne použitie. To dokazuje dôležitý princíp: najlepšia stratégia offloadingu je často špecifická pre danú úlohu. Čo predstavuje užitočné zhrnutie závisí od cieľa agenta. Prispôsobením sumarizácie konkrétnemu doménovému použitiu môžete udržať vysokosignaľový kontext a dramaticky znížiť spotrebu tokenov.
Technika 2: Redukcia – kompaktovanie kontextu v čase
Redukcia je technika kompaktovania a zhustenia kontextu, aby sa znížil celkový počet tokenov pri zachovaní zásadných informácií. Ako agent pôsobí cez viaceré kolá, históriu konverzácie narastá. Bez aktívnej správy môže táto história rýchlo spotrebovať celé kontextové okno, čím zostáva málo priestoru pre nové informácie alebo uvažovanie. Redukcia to rieši periodickým kompaktovaním konverzácie do stručnejšej podoby.
Anthropic tento prístup realizuje technikou, ktorú nazýva „kompaktovanie“ konverzácie. Namiesto uchovávania celej histórie každej výmeny správ, pravidelne sumarizuje alebo komprimuje históriu do zhustenej formy. To je obzvlášť dôležité, pretože výskumy ukazujú, že dlhý kontext v skutočnosti zhoršuje schopnosť AI agentov efektívne uvažovať. Prítomnosť nadmerného kontextu vedie ku „kontextovej otrave“ – javu, keď je uvažovanie agenta narušené irelevantnými informáciami v kontexte, a ten sa odchýli od optimálnej uvažovacej dráhy.
Technika redukcie je založená na základnom poznatku o fungovaní jazykových modelov: viac informácií nemusí znamenať lepšie uvažovanie. Často je to naopak. Štíhly, dobre organizovaný kontext s najrelevantnejšími údajmi vedie k lepšiemu uvažovaniu a spoľahlivejšiemu správaniu agenta. Preto mnohé popredné organizácie aktívne zmenšujú kontext v čase, aj keď by teoreticky mohlo byť k dispozícii viac informácií. Udržiavaním zameraného a zvládnuteľného kontextového okna si agent zachováva schopnosť jasne uvažovať a správne rozhodovať.
Technika 3: Retrieval (RAG) – dynamické načítavanie kontextu
Retrieval-Augmented Generation, alebo RAG, je technika, pri ktorej sa relevantné informácie dynamicky získavajú a načítavajú do kontextu počas behu, namiesto vopred načítaných údajov. Tento prístup je čoraz populárnejší s rastom sofistikovanosti agentov. Namiesto snahy predvídať všetky informácie, ktoré by agent mohol potrebovať, a načítať ich do kontextu hneď na začiatku, systémy RAG umožňujú agentom aktívne vyhľadávať a získavať informácie podľa potreby.
Výhody tohto prístupu sú významné. Po prvé, dramaticky znižuje počiatočnú záťaž kontextu – agent začína s úzkym kontextovým oknom a informácie načítava len podľa potreby. Po druhé, umožňuje progresívne odkrývanie – agent postupne objavuje relevantný kontext prostredníctvom prieskumu. Každá interakcia prináša nové informácie, ktoré ovplyvňujú ďalšie rozhodnutie. Napríklad agent môže začať hľadaním relevantných súborov, zistiť, že niektoré súbory sú dôležitejšie na základe názvu alebo časovej pečiatky, a potom načítať konkrétne súbory na podrobnú analýzu. Táto vrstvená stratégia objavovania kontextu je oveľa efektívnejšia, než snaha načítať všetko hneď na začiatku.
Anthropic’s Claude Code je výborným príkladom RAG v praxi. Namiesto načítania celého kódu do kontextu si Claude Code udržiava ľahké identifikátory, ako cesty k súborom, a využíva nástroje ako grep a glob na dynamické získavanie relevantných súborov podľa potreby. Agent vie písať cielené dopyty, ukladať výsledky a využívať príkazové nástroje na analýzu veľkých objemov dát bez nutnosti načítania celých objektov do kontextu. Tento prístup je analógiou ľudského poznávania – nememorujeme celé korpusy informácií, ale máme externé organizačné systémy ako súborové systémy či vyhľadávače, ktoré nám umožňujú získať relevantné informácie na požiadanie.
Technika 4: Izolácia – sub-agenti a separácia úloh
Izolácia je technika využívania sub-agentov na riešenie špecifických úloh, vďaka čomu jednotliví agenti pracujú na samostatných problémoch bez prekrývania kontextu. Táto technika vychádza z poznania, že najlepším spôsobom správy kontextu je niekedy rozdelenie komplexného problému na menšie, zamerané podúlohy, pričom každú rieši špecializovaný agent s vlastným kontextovým oknom.
Existujú dva hlavné prístupy k izolácii. Cognition, popredná AI výskumná organizácia, dokonca používanie sub-agentov neodporúča, pokiaľ úlohy nie sú úplne oddelené bez prekrývania. Ich filozofia je, že sub-agenti pridávajú komplexnosť a potenciálne body zlyhania, a mali by sa používať len v nevyhnutných prípadoch. Na druhej strane, organizácie ako Cloud Code naopak sub-agentov považujú za základ ich architektúry. V Cloud Code si môžete vytvoriť sub-agentov pre jednotlivé aspekty väčšej úlohy, pričom koordináciu medzi nimi zabezpečuje manažérsky agent.
Kľúčovým poznatkom pri izolácii je, že ide o kompromis. Na jednej strane pomáha rozdelenie problému na sub-agenty efektívnejšie spravovať kontext – každý agent má zamerané kontextové okno relevantné pre svoju úlohu. Na druhej strane sub-agenti prinášajú režijné náklady pri koordinácii a potenciálne body zlyhania pri prenose informácií medzi agentmi. Správny prístup závisí od vášho prípadu použitia. Pri veľmi komplexných úlohách s jasnými podúlohami je izolácia veľmi efektívna. Pri úzko previazaných úlohách je vhodnejší jeden agent s dobre spravovaným kontextom.
Implementácia inžinierstva kontextu vo FlowHunt
FlowHunt poskytuje komplexnú no-code platformu na implementáciu všetkých týchto techník inžinierstva kontextu. Namiesto nutnosti vývoja vlastných riešení umožňuje FlowHunt tímom implementovať sofistikované stratégie správy kontextu prostredníctvom intuitívneho vizuálneho rozhrania. Týmto spôsobom demokratizuje inžinierstvo kontextu a sprístupňuje ho tímom aj bez hlbokých znalostí strojového učenia.
Vo FlowHunt môžete implementovať izoláciu prostredníctvom samo-managovaných tímov. Samo-managovaný tím pozostáva z viacerých AI agentov a manažérskeho agenta, ktorý medzi nimi koordinuje. Manažérsky agent prijme počiatočnú úlohu, rozdelí ju na sub-úlohy a deleguje ich špecializovaným agentom. Každý agent si vedie svoje vlastné kontextové okno, relevantné pre svoju úlohu. Po dokončení práce sub-agentov manažérsky agent syntetizuje výsledky. Tento prístup vám umožňuje riešiť komplexné problémy rozdelením na zvládnuteľné časti, pričom každá má optimalizovaný kontext.
FlowHunt tiež podporuje sekvenčné task flowy, kde viacero agentov pracuje na probléme v poradí, pričom výstup jedného sa stáva vstupom pre ďalšieho. To je užitočné najmä pri workflowoch so zjavnými závislosťami. Napríklad pri generovaní obsahu môže jeden agent robiť výskum témy, druhý vytvoriť osnovu a tretí napísať finálny text. Každý agent má zamerané kontextové okno obsahujúce len informácie relevantné pre jeho konkrétny krok.
Navyše, FlowHunt vám umožňuje budovať inteligentné retrieval systémy priamo vo svojich flowoch. Namiesto načítania všetkých údajov vopred môžete agentov nakonfigurovať na dynamické získavanie relevantných dát podľa potreby. Môže ísť o dotazovanie databáz, vyhľadávanie v znalostných bázach alebo načítanie súborov na základe úvah agenta o tom, aké informácie potrebuje. Kombináciou týchto možností umožňuje FlowHunt implementovať podnikové inžinierstvo kontextu bez jediného riadku kódu.
Pokročilé stratégie inžinierstva kontextu a reálne aplikácie
Nad rámec štyroch základných techník existuje niekoľko pokročilých stratégií, ktoré popredné organizácie využívajú na posúvanie hraníc možností inžinierstva kontextu. Tieto prístupy často kombinujú viacero techník a vyžadujú starostlivé doladenie pre konkrétne prípady použitia.
Jednou z pokročilých stratégií je hybridný manažment kontextu, kde organizácie kombinujú vopred načítaný kontext a retrieval v reálnom čase. Namiesto výberu medzi načítaním všetkého vopred alebo dynamickým získavaním, hybridné prístupy načítajú časť kľúčových informácií vopred pre rýchlosť a spoľahlivosť, pričom si zachovávajú možnosť dotiahnuť ďalšie informácie podľa potreby. Claude Code používa tento hybridný prístup – súbory CLAUDE.md sú štandardne vložené do kontextu vopred, pretože sú malé a obsahujú dôležité konfiguračné údaje, zatiaľ čo väčšie súbory a dáta sa získavajú dynamicky pomocou grep a glob.
Ďalšou pokročilou stratégiou je výber kontextu riadený metadátami. Namiesto zamerania len na obsah využívajú sofistikované systémy metadáta ako názvy súborov, časové pečiatky, štruktúru zložiek a iné organizačné signály na inteligentné rozhodovanie o relevantnosti informácií. Napríklad agent pracujúci v súborovom systéme vie veľa vyvodiť z prítomnosti súboru test_utils.py v priečinku tests oproti tomu istému súboru v src/core_logic/. Tieto metadátové signály pomáhajú agentom pochopiť, ako a kedy využiť informácie, čím znižujú potrebu načítať a analyzovať celý obsah.
Mitigácia context poisoning je ďalšou kľúčovou pokročilou stratégiou. Ako sme už spomínali, context poisoning nastáva, keď irelevantné informácie v kontexte spôsobia, že agentovo uvažovanie sa odkloní od optimálnej dráhy. Pokročilé systémy aktívne identifikujú a odstraňujú potenciálne škodlivý kontext. Môže ísť o analýzu uvažovacieho reťazca agenta s cieľom zistiť, kde sa odklonil, a potom odstrániť alebo preformulovať kontext, ktorý viedol k tejto odchýlke. Takto vzniká spätná slučka, ktorá neustále zlepšuje kvalitu kontextu.
Budúcnosť inžinierstva kontextu a vývoja AI agentov
S rastúcou sofistikovanosťou AI agentov a ich nasadením v čoraz zložitejších reálnych scenároch bude inžinierstvo kontextu len naberať na dôležitosti. Odbor sa rýchlo vyvíja a neustále sa objavujú nové techniky a best practices. Niekoľko trendov pravdepodobne ovplyvní budúcnosť inžinierstva kontextu.
Po prvé, pravdepodobne uvidíme sofistikovanejšie automatizované systémy na kuráciu kontextu. Namiesto manuálneho rozhodovania o obsahu kontextu budú budúce systémy využívať strojové učenie na automatické určovanie optimálneho kontextu pre každého agenta a každú úlohu. Tieto systémy sa môžu učiť z údajov o výkonnosti agentov, aby identifikovali, ktoré časti kontextu sú najhodnotnejšie a ktoré môžu viesť k „otráveniu“.
Po druhé, inžinierstvo kontextu sa stane integrálnou súčasťou návrhu architektúry agentov. Namiesto toho, aby bola správa kontextu dodatočnou úvahou, budú budúce systémy agentov navrhované od základu s dôrazom na efektivitu kontextu. Môže ísť o nové architektúry agentov, ktoré sú prirodzene lepšie v správe obmedzených kontextových okien, alebo nové spôsoby reprezentácie informácií, ktoré sú tokenovo efektívnejšie.
Po tretie, pravdepodobne vznikne inžinierstvo kontextu ako samostatná profesijná disciplína s vlastnými nástrojmi, frameworkami a best practices. Rovnako ako prompt engineering sa vyvinul z ad-hoc praxe na uznávanú disciplínu s ustálenými technikami, aj inžinierstvo kontextu sa uberá podobnou cestou. Organizácie budú investovať do budovania špecializovaných tímov a nástrojov zameraných špecificky na optimalizáciu kontextu.
{{ cta-dark-panel
heading=“Zrýchlite svoj workflow s FlowHunt”
description=“Zažite, ako FlowHunt automatizuje vaše AI a SEO workflowy — od výskumu a generovania obsahu po publikovanie a analytiku — všetko na jednom mieste.”
ctaPrimaryText=“Rezervovať demo”
ctaPrimaryURL=“https://calendly.com/liveagentsession/flowhunt-chatbot-demo"
ctaSecondaryText=“Vyskúšať FlowHunt zadarmo”
ctaSecondaryURL=“https://app.flowhunt.io/sign-in"
gradientStartColor="#123456”
gradientEndColor="#654321”
gradientId=“827591b1-ce8c-4110-b064-7cb85a0b1217”
}}
Praktická implementácia: Postavte svojho prvého agenta s inžinierstvom kontextu
Aby ste mohli začať s inžinierstvom kontextu, prejdime si praktický príklad budovania agenta pre bežné použitie: výskum a generovanie obsahu. Tento príklad ukazuje, ako aplikovať diskutované techniky v reálnom scenári.
Začnite jasným definovaním hlavnej zodpovednosti agenta. V tomto prípade je úlohou agenta preskúmať tému a vygenerovať komplexný článok. Namiesto snahy urobiť všetko v jednom agentovi s obrovským kontextovým oknom použijete izoláciu na vytvorenie multi-agentového systému. Prvým agentom je výskumník, ktorý zhromažďuje informácie o téme. Druhým agentom je pisateľ, ktorý tieto informácie použije na vytvorenie článku. Manažérsky agent medzi nimi koordinuje.
Pre výskumného agenta implementujte retrieval-based správu kontextu. Namiesto načítania všetkých dostupných informácií o téme vopred by mal mať výskumník nástroje na vyhľadávanie v databázach, dotazovanie API a získavanie relevantných dokumentov. Pri objavovaní informácií sumarizuje kľúčové zistenia a ukladá referencie na kompletné zdroje. Takto zostáva kontextové okno výskumníka štíhle, no zároveň má prístup ku všetkým potrebným informáciám.
Pre pisateľa implementujte offloading. Výskumník mu odovzdá zhrnutie zistení spolu s referenciami na kompletné zdroje. Kontext pisateľa obsahuje zhrnutie a možnosť dotiahnuť si kompletný zdrojový materiál v prípade potreby. To umožňuje pisateľovi efektívne pracovať bez zahltenia surovými výskumnými dátami.
Počas celého procesu sledujte context poisoning. Ak si všimnete, že agent robí zlé rozhodnutia alebo sa odchyľuje, analyzujte jeho uvažovanie, aby ste zistili, ktoré časti kontextu to spôsobujú. Odstráňte alebo preformulujte tento kontext a otestujte znovu. Postupom času si vytvoríte intuíciu, aký kontext najlepšie funguje pre vašu úlohu.
Meranie a optimalizácia výkonnosti inžinierstva kontextu
Efektívne inžinierstvo kontextu si vyžaduje meranie a neustálu optimalizáciu. Potrebujete nastaviť metriky, ktoré vám pomôžu pochopiť, či vaše úsilie skutočne zlepšuje výkonnosť agentov. Niekoľko kľúčových metrík stojí za sledovanie.
Najskôr merajte efektivitu tokenov – pomer užitočného výstupu k spotrebovaným tokenom. Agent, ktorý produkuje kvalitné výsledky pri nižšej spotrebe tokenov, je efektívnejší. Sledujte túto metriku v čase pri aplikovaní techník offloadingu, redukcie a retrievalu.
Ďalej merajte kvalitu uvažovania. Môže to zahŕňať analýzu reťazcov uvažovania agenta, či sú koherentné a logické, alebo porovnávanie kvality výstupov voči zlatému štandardu. Ako zlepšíte inžinierstvo kontextu, mala by sa kvalita uvažovania zlepšovať, preto