
Token
Et token i sammenheng med store språkmodeller (LLM-er) er en sekvens av tegn som modellen konverterer til numeriske representasjoner for effektiv prosessering. ...

Token smuggling utnytter gapet mellom hvordan mennesker leser tekst og hvordan LLM-tokenizere behandler den. Angripere bruker Unicode-variasjoner, null-bredde-tegn, homoglyfer eller uvanlige kodinger for å skjule ondsinnede instruksjoner fra innholdsfiltre mens de forblir lesbare av tokenizeren.
Token smuggling er en klasse av angrep som retter seg mot gapet mellom tekstbehandlingslag i AI-systemer. Innholdsmodereringsfiltre, inndatavalidering og sikkerhetskontroller opererer vanligvis på menneskelig lesbar tekst. LLM-tokenizere opererer derimot på et lavere nivå — og konverterer tegn til numeriske token-IDer. Ved å utnytte forskjeller mellom disse lagene kan angripere lage inndata som passerer tekstnivåfiltre, men leverer ondsinnede instruksjoner til LLM-en.
Før en LLM behandler tekst, konverterer en tokenizer inndatastrengen til en sekvens av heltalls-token-IDer. Disse IDene kartlegges til modellens vokabular — vanligvis kodet ved hjelp av algoritmer som Byte Pair Encoding (BPE) eller WordPiece.
Nøkkelegenskaper ved tokenisering som angripere utnytter:
Unicode inneholder tusenvis av tegn som visuelt ligner vanlige ASCII-tegn. Et filter som ser etter ordet “harmful” gjenkjenner kanskje ikke “hármful” (med kombinert aksent) eller “harⅿful” (med et Unicode-brøktegn).
Eksempel: Ordet “ignore” kan kodes som “іgnore” (ved bruk av kyrillisk “і” i stedet for latinsk “i”) — og ser identisk ut for de fleste menneskelige lesere og noen filtre, men behandles potensielt annerledes på tokenizer-nivået.
Null-bredde-tegn (som U+200B ZERO WIDTH SPACE eller U+200C ZERO WIDTH NON-JOINER) er usynlige i gjengitt tekst. Å sette dem inn mellom tegn i nøkkelord bryter strengmatchingsfiltre uten å påvirke det visuelle utseendet eller, i mange tilfeller, den tokeniserte representasjonen.
Eksempel: “ignore” med null-bredde-mellomrom mellom hvert tegn vises som “ignore” når det gjenges, men bryter enkel strengmønstermatching.
Konvertering av tekst til alternative kodinger før innsending:
Effektiviteten avhenger av om LLM-en har blitt trent til å dekode disse representasjonene, noe mange generelle modeller har.
Enkle, men noen ganger effektive variasjoner:
Noen tokenizere gir spesiell behandling til skilletegn. Ved å introdusere tegn som tokenizeren tolker som segmentgrenser, kan angripere manipulere hvordan modellen segmenterer inndataene i meningsfulle enheter.
Jailbreak-omgåelse: Koding av jailbreak-prompts ved hjelp av teknikker som passerer sikkerhetsfilterlaget, men dekodes av LLM-en, noe som muliggjør omgåelse av sikkerhetsbarrierer.
Omgåelse av innholdsfilter: Innbygging av hatefulle ytringer, forespørsler om ulovlig innhold eller policybrytende instruksjoner i kodet form.
Obfuskering av prompt-injeksjon: Bruk av koding for å skjule injiserte instruksjoner fra enkle mønstermatchingsfiltre samtidig som LLM-en behandler dem korrekt.
Filter-fingeravtrykk: Systematisk testing av forskjellige kodingsvarianter for å identifisere hvilke målsystemets filtre oppdager og ikke oppdager — kartlegging av filterdekning for mer målrettede angrep.
Bruk Unicode-normalisering (NFC, NFD, NFKC eller NFKD) på alle inndata før filtrering. Dette konverterer Unicode-varianter til kanoniske former og eliminerer mange homoglyf- og kombinerende tegn-angrep.
Implementer eksplisitt homoglyf-kartlegging for å normalisere visuelt lignende tegn til deres ASCII-ekvivalenter før filtrering. Biblioteker for dette formålet finnes i de fleste programmeringsspråk.
I stedet for (eller i tillegg til) strengbaserte filtre, bruk et LLM-basert filter som opererer på token-representasjoner. Fordi disse filtrene behandler tekst på samme nivå som målmodellen, er kodingstriks mindre effektive — filteret ser samme representasjon som modellen.
Sikkerhetsvurdering bør inkludere systematisk testing av innholdsfiltre mot kjente kodingsvarianter. Hvis et filter er ment å blokkere “ignore previous instructions”, test om det også blokkerer Unicode-homoglyfer, null-bredde-varianter, Base64-koding og andre obfuskeringsformer.
Logg en menneskelig lesbar gjengivelse av normaliserte inndata sammen med rå inndata. Avvik mellom de to kan avsløre kodingsangrep under hendelsesgjennomgang.
Token smuggling er en angrepsmetode som utnytter forskjeller mellom menneskelig lesbar tekst og LLM-tokenizer-representasjoner. Angripere koder ondsinnede instruksjoner ved å bruke tegnvariasjoner, Unicode-triks eller uvanlig formatering slik at innholdsfiltre ikke oppdager dem, men LLM-ens tokenizer fortsatt behandler dem som tiltenkt.
Innholdsfiltre opererer ofte på menneskelig lesbar tekst — og sjekker for spesifikke strenger, mønstre eller nøkkelord. LLM-tokenizere behandler imidlertid tekst på et lavere nivå og kan kartlegge visuelt forskjellige tegn til samme eller lignende tokens. Dette gapet lar angripere lage tekst som leses på én måte av et filter og behandles annerledes av tokenizeren.
Forsvar inkluderer: normalisering av inndatatekst før filtrering (Unicode-normalisering, homoglyf-erstatning), bruk av LLM-baserte innholdsfiltre som opererer på token-nivå-representasjoner i stedet for rå tekst, testing av filtre mot kjente kodingsvarianter, og gjennomføring av sikkerhetsvurderinger som inkluderer kodingsbaserte angrepscenarier.
Token smuggling og kodingsangrep omgår overflatiske filtre. Vi tester for disse teknikkene i hver chatbot-sikkerhetsvurdering.

Et token i sammenheng med store språkmodeller (LLM-er) er en sekvens av tegn som modellen konverterer til numeriske representasjoner for effektiv prosessering. ...

LLM-sikkerhet omfatter praksiser, teknikker og kontroller som brukes for å beskytte utrullinger av store språkmodeller mot en unik klasse av AI-spesifikke trusl...

Vi har testet og rangert skriveevnene til 5 populære modeller tilgjengelig i FlowHunt for å finne den beste LLM-en for innholdsproduksjon.