Token Smuggling

Token Smuggling ist eine Angriffsklasse, die auf die Lücke zwischen Textverarbeitungsschichten in KI-Systemen abzielt. Inhaltsmoderationsfilter, Eingabevalidierung und Sicherheitsprüfungen arbeiten typischerweise mit menschenlesbarem Text. LLM-Tokenizer hingegen arbeiten auf einer niedrigeren Ebene – sie konvertieren Zeichen in numerische Token-IDs. Durch Ausnutzung von Unterschieden zwischen diesen Schichten können Angreifer Eingaben erstellen, die Textfilter passieren, aber bösartige Anweisungen an das LLM liefern.

Wie LLM-Tokenisierung funktioniert

Bevor ein LLM Text verarbeitet, konvertiert ein Tokenizer die Eingabezeichenkette in eine Sequenz von ganzzahligen Token-IDs. Diese IDs werden dem Vokabular des Modells zugeordnet – üblicherweise kodiert mit Algorithmen wie Byte Pair Encoding (BPE) oder WordPiece.

Wichtige Eigenschaften der Tokenisierung, die Angreifer ausnutzen:

  • Viele Zeichen werden ähnlichen Token-Repräsentationen zugeordnet. Unicode enthält viele visuell ähnliche Zeichen (Homoglyphen), die identisch oder nahezu identisch tokenisiert werden.
  • Tokenisierung ist nicht rein zeichenbasiert. Einige Tokenizer teilen Wörter basierend auf Häufigkeitsmustern in Teilworteinheiten auf, was Möglichkeiten zur Grenzmanipulation schafft.
  • Sonderzeichen können erhalten bleiben oder entfernt werden. Zeichen mit Nullbreite, kombinierende diakritische Zeichen und Steuerzeichen können für zeichenkettenbasierte Filter unsichtbar sein, werden aber von Tokenizern spezifisch behandelt.

Token Smuggling-Techniken

Unicode-Homoglyphen-Substitution

Unicode enthält Tausende von Zeichen, die gängigen ASCII-Zeichen visuell ähneln. Ein Filter, der nach dem Wort “harmful” sucht, erkennt möglicherweise nicht “hármful” (mit kombinierendem Akzent) oder “harⅿful” (mit einem Unicode-Bruchzeichen).

Beispiel: Das Wort “ignore” könnte als “іgnore” kodiert werden (mit kyrillischem “і” statt lateinischem “i”) – für die meisten menschlichen Leser und einige Filter identisch erscheinend, aber möglicherweise auf Tokenizer-Ebene anders verarbeitet.

Einfügen von Zeichen mit Nullbreite

Zeichen mit Nullbreite (wie U+200B ZERO WIDTH SPACE oder U+200C ZERO WIDTH NON-JOINER) sind im gerenderten Text unsichtbar. Durch Einfügen zwischen Zeichen in Schlüsselwörtern werden Zeichenkettenabgleichsfilter unterbrochen, ohne das visuelle Erscheinungsbild oder in vielen Fällen die tokenisierte Repräsentation zu beeinflussen.

Beispiel: “i​g​n​o​r​e” mit Leerzeichen mit Nullbreite zwischen jedem Zeichen erscheint als “ignore” beim Rendern, unterbricht aber einfachen Zeichenkettenmusterabgleich.

Kodierungsverschleierung

Konvertierung von Text in alternative Kodierungen vor der Übermittlung:

  • Base64-Kodierung: “aWdub3JlIHByZXZpb3VzIGluc3RydWN0aW9ucw==” (falls das Modell es dekodiert)
  • Leetspeak: “1gn0r3 pr3v10u5 1n5truc710n5” Ersetzung von Buchstaben durch Ziffern
  • ROT13 oder Caesar-Chiffre-Varianten: Verschiebung von Zeichen zur Vermeidung von Schlüsselworterkennung
  • Hex-Kodierung: Darstellung von Zeichen als Hex-Sequenzen, die einige Modelle interpretieren

Die Wirksamkeit hängt davon ab, ob das LLM trainiert wurde, diese Repräsentationen zu dekodieren, was bei vielen Allzweckmodellen der Fall ist.

Fall- und Formatvariationen

Einfache, aber manchmal effektive Variationen:

  • GROSSBUCHSTABEN: “IGNORE PREVIOUS INSTRUCTIONS”
  • Gemischte Groß-/Kleinschreibung: “IgNoRe PrEvIoUs InStRuCtIoNs”
  • Buchstaben mit Abstand: “I G N O R E P R E V I O U S”
  • Umgekehrt: “snoitcurtsni suoiverp erongi” (falls das Modell umgekehrten Text verarbeiten kann)

Delimiter-Injektion

Einige Tokenizer behandeln Trennzeichen speziell. Durch Einführung von Zeichen, die der Tokenizer als Segmentgrenzen interpretiert, können Angreifer manipulieren, wie das Modell die Eingabe in sinnvolle Einheiten segmentiert.

Logo

Bereit, Ihr Geschäft zu erweitern?

Starten Sie heute Ihre kostenlose Testversion und sehen Sie innerhalb weniger Tage Ergebnisse.

Angriffs-Anwendungsfälle

Jailbreak-Umgehung: Kodierung von Jailbreak-Prompts mit Techniken, die die Sicherheitsfilterschicht passieren, aber vom LLM dekodiert werden, was eine Umgehung der Sicherheitsleitplanken ermöglicht.

Umgehung von Inhaltsfiltern: Einbettung von Hassrede, Anfragen nach illegalen Inhalten oder richtlinienverstoßenden Anweisungen in kodierter Form.

Prompt-Injection-Verschleierung: Verwendung von Kodierung, um injizierte Anweisungen vor einfachen Musterabgleichsfiltern zu verbergen, während sichergestellt wird, dass das LLM sie korrekt verarbeitet.

Filter-Fingerprinting: Systematisches Testen verschiedener Kodierungsvarianten, um zu identifizieren, welche die Filter des Zielsystems erkennen und welche nicht – Kartierung der Filterabdeckung für gezieltere Angriffe.

Verteidigungsstrategien

Unicode-Normalisierung

Wenden Sie Unicode-Normalisierung (NFC, NFD, NFKC oder NFKD) auf alle Eingaben vor dem Filtern an. Dies konvertiert Unicode-Varianten in kanonische Formen und eliminiert viele Homoglyphen- und kombinierende Zeichenangriffe.

Homoglyphen-Erkennung und -Ersetzung

Implementieren Sie explizites Homoglyphen-Mapping, um visuell ähnliche Zeichen vor dem Filtern auf ihre ASCII-Äquivalente zu normalisieren. Bibliotheken hierfür existieren in den meisten Programmiersprachen.

LLM-basierte Inhaltsfilterung

Verwenden Sie anstelle von (oder zusätzlich zu) zeichenkettenbasierten Filtern einen LLM-basierten Filter, der auf Token-Repräsentationen arbeitet. Da diese Filter Text auf derselben Ebene wie das Zielmodell verarbeiten, sind Kodierungstricks weniger effektiv – der Filter sieht dieselbe Repräsentation wie das Modell.

Testen von Filtern gegen bekannte Varianten

Sicherheitsbewertungen sollten systematische Tests von Inhaltsfiltern gegen bekannte Kodierungsvarianten umfassen. Wenn ein Filter “ignore previous instructions” blockieren soll, testen Sie, ob er auch Unicode-Homoglyphen, Nullbreite-Varianten, Base64-Kodierung und andere Verschleierungsformen blockiert.

Eingabevisualisierung und -prüfung

Protokollieren Sie eine menschenlesbare Darstellung normalisierter Eingaben zusammen mit der Roheingabe. Diskrepanzen zwischen beiden können Kodierungsangriffe während der Vorfallüberprüfung aufdecken.

Verwandte Begriffe

Häufig gestellte Fragen

Was ist Token Smuggling?

Token Smuggling ist eine Angriffstechnik, die Unterschiede zwischen menschenlesbarem Text und LLM-Tokenizer-Repräsentationen ausnutzt. Angreifer kodieren bösartige Anweisungen mithilfe von Zeichenvarianten, Unicode-Tricks oder ungewöhnlicher Formatierung, sodass Inhaltsfilter sie nicht erkennen, der Tokenizer des LLM sie jedoch wie beabsichtigt verarbeitet.

Warum funktioniert Token Smuggling?

Inhaltsfilter arbeiten häufig mit menschenlesbarem Text – sie prüfen auf bestimmte Zeichenketten, Muster oder Schlüsselwörter. LLM-Tokenizer verarbeiten Text jedoch auf einer niedrigeren Ebene und können visuell unterschiedliche Zeichen denselben oder ähnlichen Tokens zuordnen. Diese Lücke ermöglicht es Angreifern, Text zu erstellen, der für einen Filter auf eine Weise gelesen wird und vom Tokenizer anders verarbeitet wird.

Wie kann man sich gegen Token Smuggling verteidigen?

Zu den Abwehrmaßnahmen gehören: Normalisierung des Eingabetexts vor dem Filtern (Unicode-Normalisierung, Homoglyphen-Ersetzung), Verwendung LLM-basierter Inhaltsfilter, die auf Token-Ebene statt auf Rohtextebene arbeiten, Testen von Filtern gegen bekannte Kodierungsvarianten und Durchführung von Sicherheitsbewertungen, die kodierungsbasierte Angriffsszenarien einschließen.

Testen Sie Ihren Chatbot gegen kodierungsbasierte Angriffe

Token Smuggling und Kodierungsangriffe umgehen oberflächliche Filter. Wir testen auf diese Techniken in jeder Chatbot-Sicherheitsbewertung.

Mehr erfahren

Token
Token

Token

Ein Token im Kontext großer Sprachmodelle (LLMs) ist eine Zeichenfolge, die das Modell in numerische Repräsentationen umwandelt, um eine effiziente Verarbeitung...

3 Min. Lesezeit
Token LLM +3
LLM-Sicherheit
LLM-Sicherheit

LLM-Sicherheit

LLM-Sicherheit umfasst die Praktiken, Techniken und Kontrollen zum Schutz von Large Language Model-Implementierungen vor einer einzigartigen Klasse KI-spezifisc...

4 Min. Lesezeit
LLM Security AI Security +3
Textgenerierung
Textgenerierung

Textgenerierung

Textgenerierung mit großen Sprachmodellen (LLMs) bezieht sich auf den fortschrittlichen Einsatz von Machine-Learning-Modellen zur Erstellung menschenähnlicher T...

7 Min. Lesezeit
AI Text Generation +5