
Token
Et token i forbindelse med store sprogmodeller (LLM'er) er en sekvens af tegn, som modellen omdanner til numeriske repræsentationer for effektiv behandling. Tok...

Token smuggling udnytter kløften mellem hvordan mennesker læser tekst og hvordan LLM-tokenizers behandler den. Angribere bruger Unicode-variationer, nul-bredde-tegn, homoglyffer eller usædvanlige kodninger til at skjule ondsindede instruktioner fra indholdsfiltre, mens de forbliver læsbare for tokenizeren.
Token smuggling er en klasse af angreb, der retter sig mod kløften mellem tekstbehandlingslag i AI-systemer. Indholdsmoderationsfiltre, inputvalidering og sikkerhedstjek opererer typisk på menneskelæsbar tekst. LLM-tokenizers opererer derimod på et lavere niveau — de konverterer tegn til numeriske token-ID’er. Ved at udnytte forskelle mellem disse lag kan angribere lave input, der passerer tekstniveau-filtre, men leverer ondsindede instruktioner til LLM’en.
Før en LLM behandler tekst, konverterer en tokenizer inputstrengen til en sekvens af heltals-token-ID’er. Disse ID’er mapper til modellens ordforråd — almindeligvis kodet ved hjælp af algoritmer som Byte Pair Encoding (BPE) eller WordPiece.
Nøgleegenskaber ved tokenisering, som angribere udnytter:
Unicode indeholder tusindvis af tegn, der visuelt ligner almindelige ASCII-tegn. Et filter, der leder efter ordet “harmful”, genkender måske ikke “hármful” (med en kombinerende accent) eller “harⅿful” (med et Unicode-brudtegn).
Eksempel: Ordet “ignore” kan kodes som “іgnore” (ved at bruge kyrillisk “і” i stedet for latinsk “i”) — det ser identisk ud for de fleste menneskelige læsere og nogle filtre, men behandles potentielt anderledes på tokenizer-niveau.
Nul-bredde-tegn (som U+200B ZERO WIDTH SPACE eller U+200C ZERO WIDTH NON-JOINER) er usynlige i gengivet tekst. At indsætte dem mellem tegn i nøgleord bryder streng-matchende filtre uden at påvirke det visuelle udseende eller, i mange tilfælde, den tokeniserede repræsentation.
Eksempel: “ignore” med nul-bredde-mellemrum mellem hvert tegn vises som “ignore”, når det gengives, men bryder simpel streng-mønstergenkendelse.
Konvertering af tekst til alternative kodninger før indsendelse:
Effektiviteten afhænger af, om LLM’en er blevet trænet til at afkode disse repræsentationer, hvilket mange generelle modeller har.
Simple, men nogle gange effektive variationer:
Nogle tokenizers giver særlig behandling til afgrænsertegn. Ved at introducere tegn, som tokenizeren fortolker som segmentgrænser, kan angribere manipulere, hvordan modellen segmenterer inputtet i meningsfulde enheder.
Jailbreak-omgåelse: Kodning af jailbreak-prompts ved hjælp af teknikker, der passerer sikkerhedsfilterlaget, men afkodes af LLM’en, hvilket muliggør omgåelse af sikkerhedsbarriere.
Indholdsfilter-undvigelse: Indlejring af hadefuld tale, anmodninger om ulovligt indhold eller politikovertrædende instruktioner i kodet form.
Prompt injection-obfuskering: Brug af kodning til at skjule injicerede instruktioner fra simple mønstergenkendelsesfiltre, mens det sikres, at LLM’en behandler dem korrekt.
Filter-fingerprinting: Systematisk testning af forskellige kodningsvariationer for at identificere, hvilke målsystemets filtre opdager og ikke opdager — kortlægning af filterdækning til mere målrettede angreb.
Anvend Unicode-normalisering (NFC, NFD, NFKC eller NFKD) på alle input før filtrering. Dette konverterer Unicode-varianter til kanoniske former og eliminerer mange homoglyf- og kombinerende tegnangreb.
Implementer eksplicit homoglyf-mapping for at normalisere visuelt lignende tegn til deres ASCII-ækvivalenter før filtrering. Biblioteker til dette formål findes i de fleste programmeringssprog.
I stedet for (eller ud over) strengbaserede filtre, brug et LLM-baseret filter, der opererer på token-repræsentationer. Fordi disse filtre behandler tekst på samme niveau som målmodellen, er kodningstricks mindre effektive — filteret ser den samme repræsentation som modellen.
Sikkerhedsvurdering bør inkludere systematisk testning af indholdsfiltre mod kendte kodningsvarianter. Hvis et filter skal blokere “ignore previous instructions”, test om det også blokerer Unicode-homoglyffer, nul-bredde-varianter, Base64-kodning og andre obfuskeringsformer.
Log en menneskelæsbar gengivelse af normaliserede input sammen med det rå input. Uoverensstemmelser mellem de to kan afsløre kodningsangreb under hændelsesgennemgang.
Token smuggling er en angrebsteknik, der udnytter forskelle mellem menneskelæsbar tekst og LLM-tokenizer-repræsentationer. Angribere koder ondsindede instruktioner ved hjælp af tegnvariationer, Unicode-tricks eller usædvanlig formatering, så indholdsfiltre ikke opdager dem, men LLM'ens tokenizer stadig behandler dem som tilsigtet.
Indholdsfiltre opererer ofte på menneskelæsbar tekst — de kontrollerer for specifikke strenge, mønstre eller nøgleord. LLM-tokenizers behandler dog tekst på et lavere niveau og kan mappe visuelt forskellige tegn til de samme eller lignende tokens. Denne kløft gør det muligt for angribere at lave tekst, der læses på én måde af et filter og behandles anderledes af tokenizeren.
Forsvar inkluderer: normalisering af inputtekst før filtrering (Unicode-normalisering, homoglyf-erstatning), brug af LLM-baserede indholdsfiltre, der opererer på token-niveau-repræsentationer i stedet for rå tekst, testning af filtre mod kendte kodningsvarianter, og udførelse af sikkerhedsvurderinger, der inkluderer kodningsbaserede angrebsscenarier.
Token smuggling og kodningsangreb omgår overfladiske filtre. Vi tester for disse teknikker i hver chatbot-sikkerhedsvurdering.

Et token i forbindelse med store sprogmodeller (LLM'er) er en sekvens af tegn, som modellen omdanner til numeriske repræsentationer for effektiv behandling. Tok...

Sprogdtektering i store sprogmodeller (LLM'er) er processen, hvorved disse modeller identificerer sproget i inputteksten, hvilket muliggør nøjagtig behandling t...

LLM-sikkerhed omfatter de praksisser, teknikker og kontrolforanstaltninger, der bruges til at beskytte implementeringer af store sprogmodeller mod en unik klass...