
Token
Ein Token im Kontext großer Sprachmodelle (LLMs) ist eine Zeichenfolge, die das Modell in numerische Repräsentationen umwandelt, um eine effiziente Verarbeitung...

Token Smuggling nutzt die Lücke zwischen der Art und Weise, wie Menschen Text lesen, und wie LLM-Tokenizer ihn verarbeiten. Angreifer verwenden Unicode-Varianten, Zeichen mit Nullbreite, Homoglyphen oder ungewöhnliche Kodierungen, um bösartige Anweisungen vor Inhaltsfiltern zu verbergen, während sie für den Tokenizer lesbar bleiben.
Token Smuggling ist eine Angriffsklasse, die auf die Lücke zwischen Textverarbeitungsschichten in KI-Systemen abzielt. Inhaltsmoderationsfilter, Eingabevalidierung und Sicherheitsprüfungen arbeiten typischerweise mit menschenlesbarem Text. LLM-Tokenizer hingegen arbeiten auf einer niedrigeren Ebene – sie konvertieren Zeichen in numerische Token-IDs. Durch Ausnutzung von Unterschieden zwischen diesen Schichten können Angreifer Eingaben erstellen, die Textfilter passieren, aber bösartige Anweisungen an das LLM liefern.
Bevor ein LLM Text verarbeitet, konvertiert ein Tokenizer die Eingabezeichenkette in eine Sequenz von ganzzahligen Token-IDs. Diese IDs werden dem Vokabular des Modells zugeordnet – üblicherweise kodiert mit Algorithmen wie Byte Pair Encoding (BPE) oder WordPiece.
Wichtige Eigenschaften der Tokenisierung, die Angreifer ausnutzen:
Unicode enthält Tausende von Zeichen, die gängigen ASCII-Zeichen visuell ähneln. Ein Filter, der nach dem Wort “harmful” sucht, erkennt möglicherweise nicht “hármful” (mit kombinierendem Akzent) oder “harⅿful” (mit einem Unicode-Bruchzeichen).
Beispiel: Das Wort “ignore” könnte als “іgnore” kodiert werden (mit kyrillischem “і” statt lateinischem “i”) – für die meisten menschlichen Leser und einige Filter identisch erscheinend, aber möglicherweise auf Tokenizer-Ebene anders verarbeitet.
Zeichen mit Nullbreite (wie U+200B ZERO WIDTH SPACE oder U+200C ZERO WIDTH NON-JOINER) sind im gerenderten Text unsichtbar. Durch Einfügen zwischen Zeichen in Schlüsselwörtern werden Zeichenkettenabgleichsfilter unterbrochen, ohne das visuelle Erscheinungsbild oder in vielen Fällen die tokenisierte Repräsentation zu beeinflussen.
Beispiel: “ignore” mit Leerzeichen mit Nullbreite zwischen jedem Zeichen erscheint als “ignore” beim Rendern, unterbricht aber einfachen Zeichenkettenmusterabgleich.
Konvertierung von Text in alternative Kodierungen vor der Übermittlung:
Die Wirksamkeit hängt davon ab, ob das LLM trainiert wurde, diese Repräsentationen zu dekodieren, was bei vielen Allzweckmodellen der Fall ist.
Einfache, aber manchmal effektive Variationen:
Einige Tokenizer behandeln Trennzeichen speziell. Durch Einführung von Zeichen, die der Tokenizer als Segmentgrenzen interpretiert, können Angreifer manipulieren, wie das Modell die Eingabe in sinnvolle Einheiten segmentiert.
Jailbreak-Umgehung: Kodierung von Jailbreak-Prompts mit Techniken, die die Sicherheitsfilterschicht passieren, aber vom LLM dekodiert werden, was eine Umgehung der Sicherheitsleitplanken ermöglicht.
Umgehung von Inhaltsfiltern: Einbettung von Hassrede, Anfragen nach illegalen Inhalten oder richtlinienverstoßenden Anweisungen in kodierter Form.
Prompt-Injection-Verschleierung: Verwendung von Kodierung, um injizierte Anweisungen vor einfachen Musterabgleichsfiltern zu verbergen, während sichergestellt wird, dass das LLM sie korrekt verarbeitet.
Filter-Fingerprinting: Systematisches Testen verschiedener Kodierungsvarianten, um zu identifizieren, welche die Filter des Zielsystems erkennen und welche nicht – Kartierung der Filterabdeckung für gezieltere Angriffe.
Wenden Sie Unicode-Normalisierung (NFC, NFD, NFKC oder NFKD) auf alle Eingaben vor dem Filtern an. Dies konvertiert Unicode-Varianten in kanonische Formen und eliminiert viele Homoglyphen- und kombinierende Zeichenangriffe.
Implementieren Sie explizites Homoglyphen-Mapping, um visuell ähnliche Zeichen vor dem Filtern auf ihre ASCII-Äquivalente zu normalisieren. Bibliotheken hierfür existieren in den meisten Programmiersprachen.
Verwenden Sie anstelle von (oder zusätzlich zu) zeichenkettenbasierten Filtern einen LLM-basierten Filter, der auf Token-Repräsentationen arbeitet. Da diese Filter Text auf derselben Ebene wie das Zielmodell verarbeiten, sind Kodierungstricks weniger effektiv – der Filter sieht dieselbe Repräsentation wie das Modell.
Sicherheitsbewertungen sollten systematische Tests von Inhaltsfiltern gegen bekannte Kodierungsvarianten umfassen. Wenn ein Filter “ignore previous instructions” blockieren soll, testen Sie, ob er auch Unicode-Homoglyphen, Nullbreite-Varianten, Base64-Kodierung und andere Verschleierungsformen blockiert.
Protokollieren Sie eine menschenlesbare Darstellung normalisierter Eingaben zusammen mit der Roheingabe. Diskrepanzen zwischen beiden können Kodierungsangriffe während der Vorfallüberprüfung aufdecken.
Token Smuggling ist eine Angriffstechnik, die Unterschiede zwischen menschenlesbarem Text und LLM-Tokenizer-Repräsentationen ausnutzt. Angreifer kodieren bösartige Anweisungen mithilfe von Zeichenvarianten, Unicode-Tricks oder ungewöhnlicher Formatierung, sodass Inhaltsfilter sie nicht erkennen, der Tokenizer des LLM sie jedoch wie beabsichtigt verarbeitet.
Inhaltsfilter arbeiten häufig mit menschenlesbarem Text – sie prüfen auf bestimmte Zeichenketten, Muster oder Schlüsselwörter. LLM-Tokenizer verarbeiten Text jedoch auf einer niedrigeren Ebene und können visuell unterschiedliche Zeichen denselben oder ähnlichen Tokens zuordnen. Diese Lücke ermöglicht es Angreifern, Text zu erstellen, der für einen Filter auf eine Weise gelesen wird und vom Tokenizer anders verarbeitet wird.
Zu den Abwehrmaßnahmen gehören: Normalisierung des Eingabetexts vor dem Filtern (Unicode-Normalisierung, Homoglyphen-Ersetzung), Verwendung LLM-basierter Inhaltsfilter, die auf Token-Ebene statt auf Rohtextebene arbeiten, Testen von Filtern gegen bekannte Kodierungsvarianten und Durchführung von Sicherheitsbewertungen, die kodierungsbasierte Angriffsszenarien einschließen.
Token Smuggling und Kodierungsangriffe umgehen oberflächliche Filter. Wir testen auf diese Techniken in jeder Chatbot-Sicherheitsbewertung.

Ein Token im Kontext großer Sprachmodelle (LLMs) ist eine Zeichenfolge, die das Modell in numerische Repräsentationen umwandelt, um eine effiziente Verarbeitung...

LLM-Sicherheit umfasst die Praktiken, Techniken und Kontrollen zum Schutz von Large Language Model-Implementierungen vor einer einzigartigen Klasse KI-spezifisc...

Textgenerierung mit großen Sprachmodellen (LLMs) bezieht sich auf den fortschrittlichen Einsatz von Machine-Learning-Modellen zur Erstellung menschenähnlicher T...