
Token
En token i sammanhanget stora språkmodeller (LLM:er) är en sekvens av tecken som modellen omvandlar till numeriska representationer för effektiv bearbetning. To...

Token smuggling utnyttjar gapet mellan hur människor läser text och hur LLM-tokeniserare bearbetar den. Angripare använder Unicode-variationer, nollbredds-tecken, homoglyfer eller ovanliga kodningar för att dölja skadliga instruktioner från innehållsfilter samtidigt som de förblir läsbara för tokeniseraren.
Token smuggling är en attackklass som riktar sig mot gapet mellan textbearbetningslager i AI-system. Innehållsmoderationsfilter, inmatningsvalidering och säkerhetskontroller arbetar vanligtvis med mänskligt läsbar text. LLM-tokeniserare arbetar däremot på en lägre nivå — de konverterar tecken till numeriska token-ID:n. Genom att utnyttja skillnader mellan dessa lager kan angripare skapa inmatningar som passerar textbaserade filter men levererar skadliga instruktioner till LLM:en.
Innan en LLM bearbetar text konverterar en tokeniserare inmatningssträngen till en sekvens av heltal token-ID:n. Dessa ID:n mappas till modellens vokabulär — vanligtvis kodade med algoritmer som Byte Pair Encoding (BPE) eller WordPiece.
Nyckelaspekter av tokenisering som angripare utnyttjar:
Unicode innehåller tusentals tecken som visuellt liknar vanliga ASCII-tecken. Ett filter som letar efter ordet “harmful” kanske inte känner igen “hármful” (med en kombinerad accent) eller “harⅿful” (med ett Unicode-bråktecken).
Exempel: Ordet “ignore” kan kodas som “іgnore” (med kyrilliskt “і” istället för latinskt “i”) — ser identiskt ut för de flesta mänskliga läsare och vissa filter, men bearbetas potentiellt annorlunda på tokeniseringsnivå.
Nollbredds-tecken (som U+200B ZERO WIDTH SPACE eller U+200C ZERO WIDTH NON-JOINER) är osynliga i renderad text. Att infoga dem mellan tecken i nyckelord bryter strängningsmatchningsfilter utan att påverka det visuella utseendet eller, i många fall, den tokeniserade representationen.
Exempel: “ignore” med nollbredds-mellanslag mellan varje tecken visas som “ignore” när det renderas men bryter enkel strängmönstermatchning.
Konvertering av text till alternativa kodningar före inlämning:
Effektiviteten beror på om LLM:en har tränats för att avkoda dessa representationer, vilket många allmänna modeller har.
Enkla men ibland effektiva variationer:
Vissa tokeniserare ger speciell behandling åt avgränsartecken. Genom att introducera tecken som tokeniseraren tolkar som segmentgränser kan angripare manipulera hur modellen segmenterar inmatningen i meningsfulla enheter.
Jailbreak-bypass: Kodning av jailbreak-prompter med tekniker som passerar säkerhetsfiltret men avkodas av LLM:en, vilket möjliggör bypass av säkerhetsskyddsräcken.
Undvikande av innehållsfilter: Inbäddning av hatpropaganda, förfrågningar om olagligt innehåll eller policybrytande instruktioner i kodad form.
Obfuskering av prompt-injektion: Användning av kodning för att dölja injicerade instruktioner från enkla mönstermatchningsfilter samtidigt som LLM:en bearbetar dem korrekt.
Filterfingeravtryckning: Systematisk testning av olika kodningsvariationer för att identifiera vilka som målsystemets filter upptäcker och inte upptäcker — kartläggning av filtertäckning för mer riktade attacker.
Tillämpa Unicode-normalisering (NFC, NFD, NFKC eller NFKD) på alla inmatningar före filtrering. Detta konverterar Unicode-varianter till kanoniska former, vilket eliminerar många homoglyf- och kombinerande teckenattacker.
Implementera explicit homoglyfmappning för att normalisera visuellt liknande tecken till deras ASCII-motsvarigheter före filtrering. Bibliotek för detta ändamål finns i de flesta programmeringsspråk.
Istället för (eller utöver) strängbaserade filter, använd ett LLM-baserat filter som arbetar med tokenrepresentationer. Eftersom dessa filter bearbetar text på samma nivå som målmodellen är kodningstrick mindre effektiva — filtret ser samma representation som modellen.
Säkerhetsbedömning bör inkludera systematisk testning av innehållsfilter mot kända kodningsvarianter. Om ett filter är avsett att blockera “ignore previous instructions”, testa om det också blockerar Unicode-homoglyfer, nollbredds-varianter, Base64-kodning och andra obfuskeringsformer.
Logga en mänskligt läsbar rendering av normaliserade inmatningar tillsammans med den råa inmatningen. Skillnader mellan de två kan avslöja kodningsattacker vid incidentgranskning.
Token smuggling och kodningsattacker kringgår ytliga filter. Vi testar för dessa tekniker i varje chatbot-säkerhetsbedömning.

En token i sammanhanget stora språkmodeller (LLM:er) är en sekvens av tecken som modellen omvandlar till numeriska representationer för effektiv bearbetning. To...

Språkdetektion i stora språkmodeller (LLM:er) är processen där dessa modeller identifierar vilket språk en given text är skriven på, vilket möjliggör korrekt ha...

LLM-säkerhet omfattar de metoder, tekniker och kontroller som används för att skydda distributioner av stora språkmodeller från en unik klass av AI-specifika ho...