토큰 밀수

토큰 밀수는 AI 시스템의 텍스트 처리 계층 간 간극을 표적으로 하는 공격 유형입니다. 콘텐츠 조정 필터, 입력 검증 및 안전 검사는 일반적으로 사람이 읽을 수 있는 텍스트에서 작동합니다. 반면 LLM 토크나이저는 더 낮은 수준에서 작동하여 문자를 숫자 토큰 ID로 변환합니다. 공격자는 이러한 계층 간의 차이를 악용하여 텍스트 수준 필터를 통과하지만 LLM에 악의적인 명령을 전달하는 입력을 만들 수 있습니다.

LLM 토큰화 작동 방식

LLM이 텍스트를 처리하기 전에 토크나이저는 입력 문자열을 정수 토큰 ID 시퀀스로 변환합니다. 이러한 ID는 모델의 어휘에 매핑되며 일반적으로 바이트 쌍 인코딩(BPE) 또는 WordPiece와 같은 알고리즘을 사용하여 인코딩됩니다.

공격자가 악용하는 토큰화의 주요 속성:

  • 많은 문자가 유사한 토큰 표현에 매핑됩니다. 유니코드에는 동일하거나 거의 동일하게 토큰화되는 시각적으로 유사한 문자(동형 이의 문자)가 많이 포함되어 있습니다.
  • 토큰화는 순전히 문자 기반이 아닙니다. 일부 토크나이저는 빈도 패턴을 기반으로 단어를 하위 단어 단위로 분할하여 경계 조작 기회를 만듭니다.
  • 특수 문자는 보존되거나 삭제될 수 있습니다. 너비가 없는 문자, 결합 분음 부호 및 제어 문자는 문자열 기반 필터에는 보이지 않을 수 있지만 토크나이저에 의해 특별히 처리될 수 있습니다.

토큰 밀수 기법

유니코드 동형 이의 문자 대체

유니코드에는 일반적인 ASCII 문자와 시각적으로 유사한 수천 개의 문자가 포함되어 있습니다. “harmful"이라는 단어를 찾는 필터는 “hármful”(결합 악센트 포함) 또는 “harⅿful”(유니코드 분수 문자 포함)을 인식하지 못할 수 있습니다.

예시: “ignore"라는 단어는 “іgnore”(라틴 “i” 대신 키릴 문자 “і” 사용)로 인코딩될 수 있습니다. 대부분의 사람 독자와 일부 필터에는 동일하게 보이지만 토크나이저 수준에서는 다르게 처리될 수 있습니다.

너비가 없는 문자 삽입

너비가 없는 문자(U+200B 너비가 없는 공백 또는 U+200C 너비가 없는 비결합자 등)는 렌더링된 텍스트에서 보이지 않습니다. 키워드의 문자 사이에 삽입하면 시각적 모양이나 많은 경우 토큰화된 표현에 영향을 주지 않으면서 문자열 일치 필터를 깨뜨립니다.

예시: 모든 문자 사이에 너비가 없는 공백이 있는 “i​g​n​o​r​e"는 렌더링될 때 “ignore"로 나타나지만 간단한 문자열 패턴 일치를 깨뜨립니다.

인코딩 난독화

제출 전에 텍스트를 대체 인코딩으로 변환:

  • Base64 인코딩: “aWdub3JlIHByZXZpb3VzIGluc3RydWN0aW9ucw==” (모델이 디코딩하는 경우)
  • 리트 스피크: “1gn0r3 pr3v10u5 1n5truc710n5” 문자를 숫자로 대체
  • ROT13 또는 시저 암호 변형: 키워드 감지를 피하기 위해 문자 이동
  • 16진수 인코딩: 일부 모델이 해석하는 16진수 시퀀스로 문자 표현

효과는 LLM이 이러한 표현을 디코딩하도록 훈련되었는지에 따라 달라지며, 많은 범용 모델이 그렇습니다.

대소문자 및 형식 변형

간단하지만 때때로 효과적인 변형:

  • 모두 대문자: “IGNORE PREVIOUS INSTRUCTIONS”
  • 대소문자 혼합: “IgNoRe PrEvIoUs InStRuCtIoNs”
  • 문자 간격: “I G N O R E P R E V I O U S”
  • 역순: “snoitcurtsni suoiverp erongi” (모델이 역순 텍스트를 처리할 수 있는 경우)

구분 기호 주입

일부 토크나이저는 구분 기호 문자를 특별하게 처리합니다. 토크나이저가 세그먼트 경계로 해석하는 문자를 도입함으로써 공격자는 모델이 입력을 의미 있는 단위로 세그먼트화하는 방식을 조작할 수 있습니다.

Logo

비즈니스 성장 준비가 되셨나요?

오늘 무료 평가판을 시작하고 며칠 내로 결과를 확인하세요.

공격 사용 사례

탈옥 우회: 안전 필터 계층을 통과하지만 LLM에 의해 디코딩되는 기술을 사용하여 탈옥 프롬프트를 인코딩하여 안전 가드레일 우회를 가능하게 합니다.

콘텐츠 필터 회피: 증오 발언, 불법 콘텐츠 요청 또는 정책 위반 지침을 인코딩된 형식으로 임베딩합니다.

프롬프트 주입 난독화: 인코딩을 사용하여 간단한 패턴 일치 필터로부터 주입된 지침을 숨기면서 LLM이 올바르게 처리하도록 합니다.

필터 핑거프린팅: 다양한 인코딩 변형을 체계적으로 테스트하여 대상 시스템의 필터가 감지하는 것과 감지하지 못하는 것을 식별하고 더 표적화된 공격을 위해 필터 적용 범위를 매핑합니다.

방어 전략

유니코드 정규화

필터링 전에 모든 입력에 유니코드 정규화(NFC, NFD, NFKC 또는 NFKD)를 적용합니다. 이는 유니코드 변형을 정규 형식으로 변환하여 많은 동형 이의 문자 및 결합 문자 공격을 제거합니다.

동형 이의 문자 감지 및 대체

필터링 전에 시각적으로 유사한 문자를 ASCII 동등물로 정규화하기 위해 명시적인 동형 이의 문자 매핑을 구현합니다. 대부분의 프로그래밍 언어에서 이 목적을 위한 라이브러리가 존재합니다.

LLM 기반 콘텐츠 필터링

문자열 기반 필터 대신(또는 추가로) 토큰 표현에서 작동하는 LLM 기반 필터를 사용합니다. 이러한 필터는 대상 모델과 동일한 수준에서 텍스트를 처리하기 때문에 인코딩 트릭이 덜 효과적입니다. 필터는 모델과 동일한 표현을 봅니다.

알려진 변형에 대한 필터 테스트

보안 평가에는 알려진 인코딩 변형에 대한 콘텐츠 필터의 체계적인 테스트가 포함되어야 합니다. 필터가 “ignore previous instructions"를 차단하도록 되어 있다면 유니코드 동형 이의 문자, 너비가 없는 변형, Base64 인코딩 및 기타 난독화 형식도 차단하는지 테스트합니다.

입력 시각화 및 감사

원시 입력과 함께 정규화된 입력의 사람이 읽을 수 있는 렌더링을 기록합니다. 둘 사이의 불일치는 사건 검토 중에 인코딩 공격을 드러낼 수 있습니다.

관련 용어

자주 묻는 질문

토큰 밀수란 무엇인가요?

토큰 밀수는 사람이 읽을 수 있는 텍스트와 LLM 토크나이저 표현 간의 차이를 악용하는 공격 기법입니다. 공격자는 문자 변형, 유니코드 트릭 또는 비정상적인 형식을 사용하여 악의적인 명령을 인코딩하므로 콘텐츠 필터가 감지하지 못하지만 LLM의 토크나이저는 여전히 의도한 대로 처리합니다.

토큰 밀수가 작동하는 이유는 무엇인가요?

콘텐츠 필터는 종종 사람이 읽을 수 있는 텍스트에서 작동하며 특정 문자열, 패턴 또는 키워드를 확인합니다. 그러나 LLM 토크나이저는 텍스트를 더 낮은 수준에서 처리하며 시각적으로 다른 문자를 동일하거나 유사한 토큰에 매핑할 수 있습니다. 이러한 간극으로 인해 공격자는 필터에는 한 가지 방식으로 읽히지만 토크나이저에 의해 다르게 처리되는 텍스트를 만들 수 있습니다.

토큰 밀수를 어떻게 방어할 수 있나요?

방어 방법에는 다음이 포함됩니다: 필터링 전에 입력 텍스트 정규화(유니코드 정규화, 동형 이의 문자 대체), 원시 텍스트가 아닌 토큰 수준 표현에서 작동하는 LLM 기반 콘텐츠 필터 사용, 알려진 인코딩 변형에 대한 필터 테스트, 인코딩 기반 공격 시나리오를 포함하는 보안 평가 수행.

인코딩 기반 공격에 대한 챗봇 테스트

토큰 밀수 및 인코딩 공격은 표면적인 필터를 우회합니다. 모든 챗봇 보안 평가에서 이러한 기술을 테스트합니다.

더 알아보기

토큰
토큰

토큰

대형 언어 모델(LLM)에서 토큰은 모델이 효율적으로 처리하기 위해 숫자 표현으로 변환하는 문자 시퀀스입니다. 토큰은 GPT-3, ChatGPT와 같은 LLM이 언어를 이해하고 생성하는 데 사용하는 텍스트의 기본 단위입니다....

3 분 읽기
Token LLM +3
NLTK
NLTK

NLTK

Natural Language Toolkit(NLTK)는 상징적 및 통계적 자연어 처리(NLP)를 위한 포괄적인 파이썬 라이브러리 및 프로그램 모음입니다. 학계와 산업계에서 널리 사용되며, 토큰화, 형태소 분석, 표제어 추출, 품사 태깅 등 다양한 도구를 제공합니다....

4 분 읽기
NLP Python +3
LLM 보안
LLM 보안

LLM 보안

LLM 보안은 프롬프트 인젝션, 탈옥, 데이터 유출, RAG 중독 및 모델 남용을 포함한 AI 특유의 위협으로부터 대규모 언어 모델 배포를 보호하는 데 사용되는 관행, 기술 및 통제를 포함합니다....

4 분 읽기
LLM Security AI Security +3