
Windowing
Windowing in kunstmatige intelligentie verwijst naar het verwerken van data in segmenten of 'vensters' om sequentiële informatie efficiënt te analyseren. Essent...

Context window manipulatie verwijst naar aanvallen die de eindige context window van grote taalmodellen exploiteren — inclusief context stuffing, context overflow en strategische vergiftiging — om prestaties te verslechteren, kwaadaardige payloads te verbergen of eerdere instructies te overschrijven.
De context window is een van de belangrijkste en minst begrepen beveiligingsgrenzen in implementaties van grote taalmodellen. Het definieert welke informatie de LLM kan benaderen tijdens een enkele inference call — en het is een eindige bron die aanvallers opzettelijk kunnen exploiteren.
Een groot taalmodel verwerkt tekst als tokens (ongeveer 3/4 van een woord per token). De context window definieert het maximale aantal tokens dat het model in één keer kan verwerken. Moderne modellen variëren van 4K tot meer dan 1M tokens, maar allemaal hebben ze limieten.
Binnen de context window verwerkt de LLM:
Dit alles verschijnt als een uniforme stroom voor het model. Het model heeft geen inherent mechanisme om instructies van verschillende bronnen anders te behandelen — en zijn aandacht voor specifieke delen van de context is niet uniform.
De aanvaller dient een extreem grote invoer in — vaak een langdurig document, codeblok of tekstdump — om eerdere inhoud (met name de systeemprompt) verder weg te duwen van de huidige positie van het model.
Onderzoek toont aan dat LLM’s “lost in the middle”-gedrag vertonen: ze besteden meer aandacht aan inhoud aan het begin en einde van lange contexten, en minder aandacht aan informatie in het midden. Door de context te overspoelen, kan een aanvaller strategisch hun kwaadaardige payload positioneren (typisch aan het einde) terwijl eerdere veiligheidsinstructies afdrijven naar de lage-aandachtszone in het midden.
Praktisch voorbeeld: De systeemprompt van een chatbot stelt vast dat deze niet over concurrerende producten kan discussiëren. Een aanvaller dient een document van 50.000 tokens in, gevolgd door een prompt die vraagt naar concurrenten. De systeemprompt instructie is effectief verdund.
Wanneer de context vol raakt, moet de LLM of zijn infrastructuur beslissen wat te laten vallen. Als truncation prioriteit geeft aan recentheid (het oudste inhoud eerst laten vallen), kan een aanvaller de context laten overlopen om de systeemprompt volledig te elimineren — waardoor het model alleen met door de gebruiker aangeleverde context werkt.
De aanvalsreeks:
In RAG-systemen verbruiken opgehaalde documenten aanzienlijke contextruimte. Een aanvaller die kan beïnvloeden wat wordt opgehaald (via RAG poisoning ) kan selectief de context vullen met inhoud die hun doelen dient terwijl legitieme informatie wordt verdrongen.
Onderzoek heeft vastgesteld dat instructies op specifieke posities in de context onevenredig veel invloed hebben. Aanvallers die contextassemblage begrijpen, kunnen invoer maken die is ontworpen om op hoge-aandachtsposities ten opzichte van hun payload te landen.
In modellen die zeer lange contexten ondersteunen (honderdduizenden tokens), kunnen aanvallers honderden “demonstratie”-voorbeelden inbedden die het model tonen dat beleidsschendende outputs produceert vóór het daadwerkelijke kwaadaardige verzoek. Het model, geconditioneerd door deze demonstraties, is aanzienlijk meer geneigd om te voldoen.
Plaats niet alle beveiligingskritieke instructies alleen aan het begin van de systeemprompt. Herhaal belangrijke beperkingen aan het einde van de systeemprompt en overweeg het injecteren van korte herinneringen op belangrijke punten in lange gesprekken.
Implementeer maximale invoerlengtelimieten die geschikt zijn voor uw use case. Een klantenservice chatbot heeft zelden nodig om 100.000-token invoer te verwerken — het beperken hiervan vermindert het risico op flood-aanvallen.
Log en monitor contextgroottes en samenstelling. Ongewoon grote invoer, snelle contextgroei of onverwachte contextsamenstelling zijn potentiële aanvalsindicatoren.
Voor langlopende gesprekken, implementeer contextsamenvatting die belangrijke feiten en beperkingen behoudt in plaats van ruwe gespreksgeschiedenis. Dit biedt weerstand tegen overflow-aanvallen terwijl gesprekscontinu ïteit behouden blijft.
Neem context manipulatie scenario’s op in AI penetratietesten opdrachten. Test of veiligheidsgedrag standhoudt over lange contexten en of systeemprompts effectief blijven na context flooding.
De context window is de hoeveelheid tekst (gemeten in tokens) die een groot taalmodel in één keer kan verwerken. Het omvat de systeemprompt, gespreksgeschiedenis, opgehaalde documenten en tool-outputs. Alles wat het model 'weet' tijdens een sessie moet binnen dit venster passen.
Aanvallers kunnen de context overspoelen met irrelevante inhoud om vroege instructies (inclusief veiligheidsmaatregelen) uit de effectieve aandacht van het model te duwen, kwaadaardige payloads injecteren die begraven zijn in lange contexten en over het hoofd worden gezien door filters, of context truncation-gedrag exploiteren om ervoor te zorgen dat kwaadaardige inhoud blijft bestaan terwijl legitieme instructies dat niet doen.
Verdedigingsmaatregelen omvatten: kritieke instructies verankeren op meerdere punten in de context (niet alleen aan het begin), contextgrootte limieten implementeren, monitoren op ongewoon grote context payloads, contextsamenvatting gebruiken voor lange gesprekken, en context manipulatie scenario's testen in beveiligingsbeoordelingen.
Context window manipulatie is een onderschat aanvalsoppervlak. Onze penetratietests omvatten context overflow en strategische vergiftigingsscenario's.

Windowing in kunstmatige intelligentie verwijst naar het verwerken van data in segmenten of 'vensters' om sequentiële informatie efficiënt te analyseren. Essent...

Een token in de context van grote taalmodellen (LLM's) is een reeks tekens die het model omzet in numerieke representaties voor efficiënte verwerking. Tokens zi...

LLM-beveiliging omvat de praktijken, technieken en controles die worden gebruikt om large language model implementaties te beschermen tegen een unieke klasse va...