
Ferestre (Windowing)
Ferestrele (windowing) în inteligența artificială se referă la procesarea datelor în segmente sau „ferestre” pentru a analiza informații secvențiale eficient. E...

Manipularea ferestrei de context se referă la atacuri care exploatează fereastra de context finită a modelelor lingvistice mari — incluzând umplerea contextului, depășirea contextului și otrăvirea strategică — pentru a degrada performanța, a ascunde sarcini utile malițioase sau a suprascrie instrucțiunile anterioare.
Fereastra de context este una dintre cele mai importante și mai puțin înțelese limite de securitate în implementările modelelor lingvistice mari. Aceasta definește ce informații poate accesa LLM-ul în timpul unui singur apel de inferență — și este o resursă finită pe care atacatorii o pot exploata în mod deliberat.
Un model lingvistic mare procesează textul sub formă de token-uri (aproximativ 3/4 dintr-un cuvânt per token). Fereastra de context definește numărul maxim de token-uri pe care modelul le poate procesa deodată. Modelele moderne variază de la 4K la peste 1M de token-uri, dar toate au limite.
În cadrul ferestrei de context, LLM-ul procesează:
Toate acestea apar ca un flux unificat pentru model. Modelul nu are niciun mecanism inerent de a trata diferit instrucțiunile din surse diferite — și atenția sa asupra unor părți specifice ale contextului nu este uniformă.
Atacatorul trimite un input extrem de mare — adesea un document lung, bloc de cod sau descărcare de text — pentru a împinge conținutul anterior (în special promptul de sistem) mai departe de poziția curentă a modelului.
Cercetările demonstrează că LLM-urile prezintă un comportament de “pierdut la mijloc”: acordă mai multă atenție conținutului de la începutul și sfârșitul contextelor lungi și mai puțină atenție informațiilor din mijloc. Prin inundarea contextului, un atacator poate poziționa strategic sarcina sa utilă malițioasă (de obicei la final) în timp ce instrucțiunile anterioare de siguranță alunecă în zona de mijloc cu atenție redusă.
Exemplu practic: Promptul de sistem al unui chatbot stabilește că nu poate discuta despre produsele concurenței. Un atacator trimite un document de 50.000 de token-uri urmat de un prompt care întreabă despre concurenți. Instrucțiunea promptului de sistem a fost efectiv diluată.
Când contextul se umple, LLM-ul sau infrastructura sa trebuie să decidă ce să elimine. Dacă trunchierea prioritizează recența (eliminând mai întâi conținutul cel mai vechi), un atacator poate depăși contextul pentru a elimina complet promptul de sistem — lăsând modelul să opereze doar cu contextul furnizat de utilizator.
Secvența de atac:
În sistemele RAG, documentele recuperate consumă un spațiu semnificativ de context. Un atacator care poate influența ce este recuperat (prin otrăvirea RAG ) poate umple selectiv contextul cu conținut care servește scopurilor sale în timp ce îndepărtează informațiile legitime.
Cercetările au identificat că instrucțiunile de la poziții specifice din context au o influență disproporționată. Atacatorii care înțeleg asamblarea contextului pot crea input-uri concepute pentru a ajunge la poziții cu atenție ridicată în raport cu sarcina lor utilă.
În modelele care suportă contexte foarte lungi (sute de mii de token-uri), atacatorii pot încorpora sute de exemple de “demonstrație” care arată modelul producând rezultate care încalcă politica înainte de cererea malițioasă reală. Modelul, condiționat de aceste demonstrații, este semnificativ mai probabil să se conformeze.
Nu plasați toate instrucțiunile critice de securitate doar la începutul promptului de sistem. Repetați constrângerile cheie la sfârșitul promptului de sistem și luați în considerare injectarea unor scurte memento-uri în puncte cheie din conversațiile lungi.
Implementați limite maxime de lungime a input-ului adecvate cazului dvs. de utilizare. Un chatbot de servicii pentru clienți rareori trebuie să proceseze input-uri de 100.000 de token-uri — limitarea acestuia reduce riscul atacurilor de inundare.
Înregistrați și monitorizați dimensiunile și compoziția contextului. Input-urile neobișnuit de mari, creșterea rapidă a contextului sau compoziția neașteptată a contextului sunt potențiali indicatori de atac.
Pentru conversații de lungă durată, implementați sumarizarea contextului care păstrează faptele și constrângerile cheie mai degrabă decât istoricul brut al conversației. Acest lucru rezistă atacurilor de depășire menținând în același timp continuitatea conversațională.
Includeți scenarii de manipulare a contextului în angajamentele de testare de penetrare AI . Testați dacă comportamentele de siguranță se mențin pe contexte lungi și dacă prompturile de sistem rămân eficiente după inundarea contextului.
Fereastra de context este cantitatea de text (măsurată în token-uri) pe care un model lingvistic mare o poate procesa deodată. Include promptul de sistem, istoricul conversației, documentele recuperate și rezultatele instrumentelor. Tot ce modelul 'știe' în timpul unei sesiuni trebuie să încapă în această fereastră.
Atacatorii pot inunda contextul cu conținut irelevant pentru a împinge instrucțiunile inițiale (inclusiv barierele de siguranță) în afara atenției efective a modelului, pot injecta sarcini utile malițioase care sunt îngropate în contexte lungi și trecute cu vederea de filtre, sau pot exploata comportamentele de trunchiere a contextului pentru a se asigura că conținutul malițios supraviețuiește în timp ce instrucțiunile legitime nu.
Apărările includ: ancorarea instrucțiunilor critice în mai multe puncte din context (nu doar la început), implementarea limitelor de dimensiune a contextului, monitorizarea sarcinilor utile de context neobișnuit de mari, utilizarea sumarizării contextului pentru conversații lungi și testarea scenariilor de manipulare a contextului în evaluările de securitate.
Manipularea ferestrei de context este o suprafață de atac subestimată. Testarea noastră de penetrare include scenarii de depășire a contextului și otrăvire strategică.

Ferestrele (windowing) în inteligența artificială se referă la procesarea datelor în segmente sau „ferestre” pentru a analiza informații secvențiale eficient. E...

Accelerează dezvoltarea asistată de AI integrând LLM Context de la FlowHunt. Injectează fără efort context relevant din cod și documentație în interfețele tale ...

Am testat și clasat abilitățile de scriere ale 5 modele populare disponibile în FlowHunt pentru a găsi cel mai bun LLM pentru scriere de conținut.