
Token
En token i sammanhanget stora språkmodeller (LLM:er) är en sekvens av tecken som modellen omvandlar till numeriska representationer för effektiv bearbetning. To...

Token smuggling utnyttjar gapet mellan hur människor läser text och hur LLM-tokeniserare bearbetar den. Angripare använder Unicode-variationer, nollbredds-tecken, homoglyfer eller ovanliga kodningar för att dölja skadliga instruktioner från innehållsfilter samtidigt som de förblir läsbara för tokeniseraren.
Token smuggling är en attackklass som riktar sig mot gapet mellan textbearbetningslager i AI-system. Innehållsmoderationsfilter, inmatningsvalidering och säkerhetskontroller arbetar vanligtvis med mänskligt läsbar text. LLM-tokeniserare arbetar däremot på en lägre nivå — de konverterar tecken till numeriska token-ID:n. Genom att utnyttja skillnader mellan dessa lager kan angripare skapa inmatningar som passerar textbaserade filter men levererar skadliga instruktioner till LLM:en.
Innan en LLM bearbetar text konverterar en tokeniserare inmatningssträngen till en sekvens av heltal token-ID:n. Dessa ID:n mappas till modellens vokabulär — vanligtvis kodade med algoritmer som Byte Pair Encoding (BPE) eller WordPiece.
Nyckelaspekter av tokenisering som angripare utnyttjar:
Unicode innehåller tusentals tecken som visuellt liknar vanliga ASCII-tecken. Ett filter som letar efter ordet “harmful” kanske inte känner igen “hármful” (med en kombinerad accent) eller “harⅿful” (med ett Unicode-bråktecken).
Exempel: Ordet “ignore” kan kodas som “іgnore” (med kyrilliskt “і” istället för latinskt “i”) — ser identiskt ut för de flesta mänskliga läsare och vissa filter, men bearbetas potentiellt annorlunda på tokeniseringsnivå.
Nollbredds-tecken (som U+200B ZERO WIDTH SPACE eller U+200C ZERO WIDTH NON-JOINER) är osynliga i renderad text. Att infoga dem mellan tecken i nyckelord bryter strängningsmatchningsfilter utan att påverka det visuella utseendet eller, i många fall, den tokeniserade representationen.
Exempel: “ignore” med nollbredds-mellanslag mellan varje tecken visas som “ignore” när det renderas men bryter enkel strängmönstermatchning.
Konvertering av text till alternativa kodningar före inlämning:
Effektiviteten beror på om LLM:en har tränats för att avkoda dessa representationer, vilket många allmänna modeller har.
Enkla men ibland effektiva variationer:
Vissa tokeniserare ger speciell behandling åt avgränsartecken. Genom att introducera tecken som tokeniseraren tolkar som segmentgränser kan angripare manipulera hur modellen segmenterar inmatningen i meningsfulla enheter.
Jailbreak-bypass: Kodning av jailbreak-prompter med tekniker som passerar säkerhetsfiltret men avkodas av LLM:en, vilket möjliggör bypass av säkerhetsskyddsräcken.
Undvikande av innehållsfilter: Inbäddning av hatpropaganda, förfrågningar om olagligt innehåll eller policybrytande instruktioner i kodad form.
Obfuskering av prompt-injektion: Användning av kodning för att dölja injicerade instruktioner från enkla mönstermatchningsfilter samtidigt som LLM:en bearbetar dem korrekt.
Filterfingeravtryckning: Systematisk testning av olika kodningsvariationer för att identifiera vilka som målsystemets filter upptäcker och inte upptäcker — kartläggning av filtertäckning för mer riktade attacker.
Tillämpa Unicode-normalisering (NFC, NFD, NFKC eller NFKD) på alla inmatningar före filtrering. Detta konverterar Unicode-varianter till kanoniska former, vilket eliminerar många homoglyf- och kombinerande teckenattacker.
Implementera explicit homoglyfmappning för att normalisera visuellt liknande tecken till deras ASCII-motsvarigheter före filtrering. Bibliotek för detta ändamål finns i de flesta programmeringsspråk.
Istället för (eller utöver) strängbaserade filter, använd ett LLM-baserat filter som arbetar med tokenrepresentationer. Eftersom dessa filter bearbetar text på samma nivå som målmodellen är kodningstrick mindre effektiva — filtret ser samma representation som modellen.
Säkerhetsbedömning bör inkludera systematisk testning av innehållsfilter mot kända kodningsvarianter. Om ett filter är avsett att blockera “ignore previous instructions”, testa om det också blockerar Unicode-homoglyfer, nollbredds-varianter, Base64-kodning och andra obfuskeringsformer.
Logga en mänskligt läsbar rendering av normaliserade inmatningar tillsammans med den råa inmatningen. Skillnader mellan de två kan avslöja kodningsattacker vid incidentgranskning.
Token smuggling är en attackteknik som utnyttjar skillnader mellan mänskligt läsbar text och LLM-tokeniserares representationer. Angripare kodar skadliga instruktioner med hjälp av teckenvariationer, Unicode-tricks eller ovanlig formatering så att innehållsfilter inte upptäcker dem, men LLM:ens tokeniserare bearbetar dem fortfarande som avsett.
Innehållsfilter arbetar ofta med mänskligt läsbar text — de kontrollerar specifika strängar, mönster eller nyckelord. LLM-tokeniserare bearbetar dock text på en lägre nivå och kan mappa visuellt olika tecken till samma eller liknande tokens. Detta gap tillåter angripare att skapa text som läses på ett sätt av ett filter och bearbetas annorlunda av tokeniseraren.
Försvar inkluderar: normalisering av inmatningstext före filtrering (Unicode-normalisering, ersättning av homoglyfer), användning av LLM-baserade innehållsfilter som arbetar på token-nivå representationer snarare än rå text, testning av filter mot kända kodningsvarianter, och genomförande av säkerhetsbedömningar som inkluderar kodningsbaserade attackscenarier.
Token smuggling och kodningsattacker kringgår ytliga filter. Vi testar för dessa tekniker i varje chatbot-säkerhetsbedömning.

En token i sammanhanget stora språkmodeller (LLM:er) är en sekvens av tecken som modellen omvandlar till numeriska representationer för effektiv bearbetning. To...

Språkdetektion i stora språkmodeller (LLM:er) är processen där dessa modeller identifierar vilket språk en given text är skriven på, vilket möjliggör korrekt ha...

Vi har testat och rankat skrivförmågan hos 5 populära modeller tillgängliga i FlowHunt för att hitta den bästa LLM:n för innehållsskapande.