
Token
Een token in de context van grote taalmodellen (LLM's) is een reeks tekens die het model omzet in numerieke representaties voor efficiënte verwerking. Tokens zi...

Token smuggling maakt misbruik van het verschil tussen hoe mensen tekst lezen en hoe LLM-tokenizers deze verwerken. Aanvallers gebruiken Unicode-variaties, nulbreedtetekens, homogliefen of ongebruikelijke coderingen om kwaadaardige instructies te verbergen voor inhoudsfilters, terwijl ze leesbaar blijven voor de tokenizer.
Token smuggling is een klasse van aanvallen die gericht is op de kloof tussen tekstverwerkingslagen in AI-systemen. Inhoudsmoderatie-filters, invoervalidatie en veiligheidscontroles werken doorgaans op voor mensen leesbare tekst. LLM-tokenizers werken daarentegen op een lager niveau — ze converteren tekens naar numerieke token-ID’s. Door misbruik te maken van verschillen tussen deze lagen kunnen aanvallers invoer maken die tekstniveau-filters passeert maar kwaadaardige instructies aan de LLM levert.
Voordat een LLM tekst verwerkt, converteert een tokenizer de invoerstring naar een reeks gehele token-ID’s. Deze ID’s verwijzen naar de woordenschat van het model — gewoonlijk gecodeerd met algoritmen zoals Byte Pair Encoding (BPE) of WordPiece.
Belangrijke eigenschappen van tokenisatie die aanvallers misbruiken:
Unicode bevat duizenden tekens die visueel lijken op gewone ASCII-tekens. Een filter dat zoekt naar het woord “schadelijk” herkent mogelijk niet “schádelijk” (met een combinerend accent) of “schadеlijk” (met een Cyrillisch “е”).
Voorbeeld: Het woord “negeer” kan worden gecodeerd als “nеgeer” (met Cyrillisch “е” in plaats van Latijns “e”) — identiek lijkend voor de meeste menselijke lezers en sommige filters, maar mogelijk anders verwerkt op tokenizer-niveau.
Nulbreedtetekens (zoals U+200B ZERO WIDTH SPACE of U+200C ZERO WIDTH NON-JOINER) zijn onzichtbaar in weergegeven tekst. Het invoegen ervan tussen tekens in sleutelwoorden breekt stringmatchende filters zonder de visuele verschijning te beïnvloeden of, in veel gevallen, de getokeniseerde representatie.
Voorbeeld: “negeer” met nulbreedtespaties tussen elk teken verschijnt als “negeer” wanneer weergegeven, maar breekt eenvoudige stringpatroonherkenning.
Tekst converteren naar alternatieve coderingen vóór indiening:
De effectiviteit hangt af van of de LLM is getraind om deze representaties te decoderen, wat veel algemene modellen hebben.
Eenvoudige maar soms effectieve variaties:
Sommige tokenizers geven speciale behandeling aan scheidingstekens. Door tekens te introduceren die de tokenizer interpreteert als segmentgrenzen, kunnen aanvallers manipuleren hoe het model de invoer segmenteert in betekenisvolle eenheden.
Jailbreak-omzeiling: Jailbreak-prompts coderen met technieken die de veiligheidsfilterlaag passeren maar worden gedecodeerd door de LLM, waardoor omzeiling van veiligheidsbeveiliging mogelijk wordt.
Inhoudsfilter-ontwijking: Het inbedden van haatzaaiende taal, verzoeken om illegale inhoud of beleidschendende instructies in gecodeerde vorm.
Prompt-injectie-obfuscatie: Codering gebruiken om geïnjecteerde instructies te verbergen voor eenvoudige patroonmatchende filters, terwijl ervoor wordt gezorgd dat de LLM ze correct verwerkt.
Filter-fingerprinting: Systematisch verschillende coderingsvariaties testen om te identificeren welke het filtersysteem van het doelsysteem wel en niet detecteert — filterdekking in kaart brengen voor gerichtere aanvallen.
Pas Unicode-normalisatie (NFC, NFD, NFKC of NFKD) toe op alle invoer vóór filtering. Dit converteert Unicode-varianten naar canonieke vormen, waardoor veel homoglief- en combinerende tekenaanvallen worden geëlimineerd.
Implementeer expliciete homoglief-toewijzing om visueel vergelijkbare tekens te normaliseren naar hun ASCII-equivalenten vóór filtering. Bibliotheken hiervoor bestaan in de meeste programmeertalen.
Gebruik in plaats van (of naast) op strings gebaseerde filters een LLM-gebaseerd filter dat werkt op tokenrepresentaties. Omdat deze filters tekst verwerken op hetzelfde niveau als het doelmodel, zijn coderingstechnieken minder effectief — het filter ziet dezelfde representatie als het model.
Beveiligingsbeoordeling moet systematisch testen van inhoudsfilters tegen bekende coderingsvarianten omvatten. Als een filter bedoeld is om “negeer vorige instructies” te blokkeren, test dan of het ook Unicode-homogliefen, nulbreedtevarianten, Base64-codering en andere obfuscatievormen blokkeert.
Log een voor mensen leesbare weergave van genormaliseerde invoer naast de ruwe invoer. Discrepanties tussen de twee kunnen coderingsaanvallen aan het licht brengen tijdens incidentbeoordeling.
Token smuggling en coderingsaanvallen omzeilen oppervlakkige filters. We testen op deze technieken bij elke beveiligingsbeoordeling van chatbots.

Een token in de context van grote taalmodellen (LLM's) is een reeks tekens die het model omzet in numerieke representaties voor efficiënte verwerking. Tokens zi...

LLM-beveiliging omvat de praktijken, technieken en controles die worden gebruikt om large language model implementaties te beschermen tegen een unieke klasse va...

Taalherkenning in grote taalmodellen (LLM's) is het proces waarmee deze modellen de taal van invoertekst identificeren, zodat ze nauwkeurig kunnen worden verwer...
Cookie Toestemming
We gebruiken cookies om uw browse-ervaring te verbeteren en ons verkeer te analyseren. See our privacy policy.