
Fönstring
Fönstring inom artificiell intelligens syftar på att bearbeta data i segment eller “fönster” för att effektivt analysera sekventiell information. Avgörande inom...

Manipulation av kontextfönster avser attacker som utnyttjar det begränsade kontextfönstret hos stora språkmodeller — inklusive context stuffing, context overflow och strategisk förgiftning — för att försämra prestanda, dölja skadliga nyttolaster eller åsidosätta tidigare instruktioner.
Kontextfönstret är en av de viktigaste och minst förstådda säkerhetsgränserna i distributioner av stora språkmodeller. Det definierar vilken information LLM:en kan komma åt under ett enskilt inferensanrop — och det är en begränsad resurs som angripare medvetet kan utnyttja.
En stor språkmodell bearbetar text som tokens (ungefär 3/4 av ett ord per token). Kontextfönstret definierar det maximala antalet tokens som modellen kan bearbeta på en gång. Moderna modeller sträcker sig från 4K till över 1M tokens, men alla har begränsningar.
Inom kontextfönstret bearbetar LLM:en:
Allt detta framstår som en enhetlig ström för modellen. Modellen har ingen inneboende mekanism för att behandla instruktioner från olika källor olika — och dess uppmärksamhet på specifika delar av kontexten är inte enhetlig.
Angriparen skickar in en extremt stor inmatning — ofta ett långt dokument, kodblock eller textdump — för att trycka tidigare innehåll (särskilt systemprompt) längre från modellens aktuella position.
Forskning visar att LLM:er uppvisar “lost in the middle”-beteende: de ägnar mer uppmärksamhet åt innehåll i början och slutet av långa kontexter, och mindre uppmärksamhet åt information i mitten. Genom att översvämma kontexten kan en angripare strategiskt positionera sin skadliga nyttolast (vanligtvis i slutet) medan tidigare säkerhetsinstruktioner driver in i den låg-uppmärksamhetszonen i mitten.
Praktiskt exempel: En chatbots systemprompt fastställer att den inte kan diskutera konkurrentprodukter. En angripare skickar in ett 50 000-token dokument följt av en prompt som frågar om konkurrenter. Systempromptinstruktionen har effektivt utspätts.
När kontexten fylls upp måste LLM:en eller dess infrastruktur bestämma vad som ska tas bort. Om trunkeringen prioriterar aktualitet (tar bort det äldsta innehållet först), kan en angripare översvämma kontexten för att eliminera systemprompt helt och hållet — vilket lämnar modellen att arbeta med endast användarlevererad kontext.
Attacksekvensen:
I RAG-system förbrukar hämtade dokument betydande kontextutrymme. En angripare som kan påverka vad som hämtas (genom RAG-förgiftning ) kan selektivt fylla kontext med innehåll som tjänar deras mål samtidigt som de tränger undan legitim information.
Forskning har identifierat att instruktioner på specifika positioner i kontexten har oproportionerligt inflytande. Angripare som förstår kontextsammansättning kan skapa inmatningar utformade för att landa på höga uppmärksamhetspositioner i förhållande till deras nyttolast.
I modeller som stöder mycket långa kontexter (hundratusentals tokens) kan angripare bädda in hundratals “demonstrations”-exempel som visar modellen producera policybrytande utdata före den faktiska skadliga begäran. Modellen, konditionerad av dessa demonstrationer, är betydligt mer benägen att följa med.
Placera inte alla säkerhetskritiska instruktioner endast i början av systemprompt. Upprepa nyckelrestriktioner i slutet av systemprompt och överväg att injicera korta påminnelser vid nyckelpunkter i långa konversationer.
Implementera maximala begränsningar av inmatningslängd som är lämpliga för ditt användningsfall. En kundtjänstchatbot behöver sällan bearbeta 100 000-token inmatningar — att begränsa detta minskar risken för översvämningsattacker.
Logga och övervaka kontextstorlekar och sammansättning. Ovanligt stora inmatningar, snabb kontexttillväxt eller oväntad kontextsammansättning är potentiella attackindikatorer.
För långvariga konversationer, implementera kontextsammanfattning som behåller nyckelfakta och begränsningar snarare än rå konversationshistorik. Detta motstår overflow-attacker samtidigt som det bibehåller konversationell kontinuitet.
Inkludera kontextmanipulationsscenarier i AI-penetrationstestning engagemang. Testa om säkerhetsbeteenden håller över långa kontexter och om systemprompt förblir effektiv efter kontextöversvämning.
Kontextfönstret är mängden text (mätt i tokens) som en stor språkmodell kan bearbeta på en gång. Det inkluderar systemprompt, konversationshistorik, hämtade dokument och verktygsutdata. Allt som modellen 'känner till' under en session måste rymmas inom detta fönster.
Angripare kan översvämma kontexten med irrelevant innehåll för att trycka ut tidiga instruktioner (inklusive säkerhetsskyddsräcken) ur modellens effektiva uppmärksamhet, injicera skadliga nyttolaster som är begravda i långa kontexter och förbises av filter, eller utnyttja kontexttrunkering för att säkerställa att skadligt innehåll överlever medan legitima instruktioner inte gör det.
Försvar inkluderar: förankra kritiska instruktioner på flera punkter i kontexten (inte bara i början), implementera begränsningar av kontextstorlek, övervaka ovanligt stora kontextnyttolaster, använda kontextsammanfattning för långa konversationer och testa manipulationsscenarier för kontext i säkerhetsbedömningar.
Manipulation av kontextfönster är en underskattad attackyta. Vår penetrationstestning inkluderar context overflow och strategiska förgiftningsscenarier.

Fönstring inom artificiell intelligens syftar på att bearbeta data i segment eller “fönster” för att effektivt analysera sekventiell information. Avgörande inom...

Vi har testat och rankat skrivförmågan hos 5 populära modeller tillgängliga i FlowHunt för att hitta den bästa LLM:n för innehållsskapande.

En stor språkmodell (LLM) är en typ av AI som tränats på enorma textmängder för att förstå, generera och bearbeta mänskligt språk. LLM:er använder djupinlärning...