
Token
Een token in de context van grote taalmodellen (LLM's) is een reeks tekens die het model omzet in numerieke representaties voor efficiënte verwerking. Tokens zi...

Token smuggling maakt misbruik van het verschil tussen hoe mensen tekst lezen en hoe LLM-tokenizers deze verwerken. Aanvallers gebruiken Unicode-variaties, nulbreedtetekens, homogliefen of ongebruikelijke coderingen om kwaadaardige instructies te verbergen voor inhoudsfilters, terwijl ze leesbaar blijven voor de tokenizer.
Token smuggling is een klasse van aanvallen die gericht is op de kloof tussen tekstverwerkingslagen in AI-systemen. Inhoudsmoderatie-filters, invoervalidatie en veiligheidscontroles werken doorgaans op voor mensen leesbare tekst. LLM-tokenizers werken daarentegen op een lager niveau — ze converteren tekens naar numerieke token-ID’s. Door misbruik te maken van verschillen tussen deze lagen kunnen aanvallers invoer maken die tekstniveau-filters passeert maar kwaadaardige instructies aan de LLM levert.
Voordat een LLM tekst verwerkt, converteert een tokenizer de invoerstring naar een reeks gehele token-ID’s. Deze ID’s verwijzen naar de woordenschat van het model — gewoonlijk gecodeerd met algoritmen zoals Byte Pair Encoding (BPE) of WordPiece.
Belangrijke eigenschappen van tokenisatie die aanvallers misbruiken:
Unicode bevat duizenden tekens die visueel lijken op gewone ASCII-tekens. Een filter dat zoekt naar het woord “schadelijk” herkent mogelijk niet “schádelijk” (met een combinerend accent) of “schadеlijk” (met een Cyrillisch “е”).
Voorbeeld: Het woord “negeer” kan worden gecodeerd als “nеgeer” (met Cyrillisch “е” in plaats van Latijns “e”) — identiek lijkend voor de meeste menselijke lezers en sommige filters, maar mogelijk anders verwerkt op tokenizer-niveau.
Nulbreedtetekens (zoals U+200B ZERO WIDTH SPACE of U+200C ZERO WIDTH NON-JOINER) zijn onzichtbaar in weergegeven tekst. Het invoegen ervan tussen tekens in sleutelwoorden breekt stringmatchende filters zonder de visuele verschijning te beïnvloeden of, in veel gevallen, de getokeniseerde representatie.
Voorbeeld: “negeer” met nulbreedtespaties tussen elk teken verschijnt als “negeer” wanneer weergegeven, maar breekt eenvoudige stringpatroonherkenning.
Tekst converteren naar alternatieve coderingen vóór indiening:
De effectiviteit hangt af van of de LLM is getraind om deze representaties te decoderen, wat veel algemene modellen hebben.
Eenvoudige maar soms effectieve variaties:
Sommige tokenizers geven speciale behandeling aan scheidingstekens. Door tekens te introduceren die de tokenizer interpreteert als segmentgrenzen, kunnen aanvallers manipuleren hoe het model de invoer segmenteert in betekenisvolle eenheden.
Jailbreak-omzeiling: Jailbreak-prompts coderen met technieken die de veiligheidsfilterlaag passeren maar worden gedecodeerd door de LLM, waardoor omzeiling van veiligheidsbeveiliging mogelijk wordt.
Inhoudsfilter-ontwijking: Het inbedden van haatzaaiende taal, verzoeken om illegale inhoud of beleidschendende instructies in gecodeerde vorm.
Prompt-injectie-obfuscatie: Codering gebruiken om geïnjecteerde instructies te verbergen voor eenvoudige patroonmatchende filters, terwijl ervoor wordt gezorgd dat de LLM ze correct verwerkt.
Filter-fingerprinting: Systematisch verschillende coderingsvariaties testen om te identificeren welke het filtersysteem van het doelsysteem wel en niet detecteert — filterdekking in kaart brengen voor gerichtere aanvallen.
Pas Unicode-normalisatie (NFC, NFD, NFKC of NFKD) toe op alle invoer vóór filtering. Dit converteert Unicode-varianten naar canonieke vormen, waardoor veel homoglief- en combinerende tekenaanvallen worden geëlimineerd.
Implementeer expliciete homoglief-toewijzing om visueel vergelijkbare tekens te normaliseren naar hun ASCII-equivalenten vóór filtering. Bibliotheken hiervoor bestaan in de meeste programmeertalen.
Gebruik in plaats van (of naast) op strings gebaseerde filters een LLM-gebaseerd filter dat werkt op tokenrepresentaties. Omdat deze filters tekst verwerken op hetzelfde niveau als het doelmodel, zijn coderingstechnieken minder effectief — het filter ziet dezelfde representatie als het model.
Beveiligingsbeoordeling moet systematisch testen van inhoudsfilters tegen bekende coderingsvarianten omvatten. Als een filter bedoeld is om “negeer vorige instructies” te blokkeren, test dan of het ook Unicode-homogliefen, nulbreedtevarianten, Base64-codering en andere obfuscatievormen blokkeert.
Log een voor mensen leesbare weergave van genormaliseerde invoer naast de ruwe invoer. Discrepanties tussen de twee kunnen coderingsaanvallen aan het licht brengen tijdens incidentbeoordeling.
Token smuggling is een aanvalstechniek die misbruik maakt van verschillen tussen voor mensen leesbare tekst en LLM-tokenizer-representaties. Aanvallers coderen kwaadaardige instructies met behulp van tekenvariaties, Unicode-trucs of ongebruikelijke opmaak, zodat inhoudsfilters ze niet detecteren, maar de tokenizer van de LLM ze wel verwerkt zoals bedoeld.
Inhoudsfilters werken vaak op voor mensen leesbare tekst — ze controleren op specifieke strings, patronen of trefwoorden. LLM-tokenizers verwerken tekst echter op een lager niveau en kunnen visueel verschillende tekens toewijzen aan dezelfde of vergelijkbare tokens. Deze kloof stelt aanvallers in staat om tekst te maken die op de ene manier wordt gelezen door een filter en anders wordt verwerkt door de tokenizer.
Verdedigingen omvatten: het normaliseren van invoertekst vóór filtering (Unicode-normalisatie, homoglief-vervanging), het gebruik van LLM-gebaseerde inhoudsfilters die werken op tokenniveau-representaties in plaats van ruwe tekst, het testen van filters tegen bekende coderingsvarianten, en het uitvoeren van beveiligingsbeoordelingen die coderingsgebaseerde aanvalsscenario's omvatten.
Token smuggling en coderingsaanvallen omzeilen oppervlakkige filters. We testen op deze technieken bij elke beveiligingsbeoordeling van chatbots.

Een token in de context van grote taalmodellen (LLM's) is een reeks tekens die het model omzet in numerieke representaties voor efficiënte verwerking. Tokens zi...

We hebben de schrijfvaardigheden van 5 populaire modellen in FlowHunt getest en gerangschikt om de beste LLM voor content schrijven te vinden.

LLM-beveiliging omvat de praktijken, technieken en controles die worden gebruikt om large language model implementaties te beschermen tegen een unieke klasse va...