적대적 머신러닝

적대적 머신러닝은 입력을 의도적으로 조작하여 AI 모델이 잘못되거나 안전하지 않거나 의도하지 않은 출력을 생성하도록 만드는 공격 연구입니다. 모델 취약점을 악용하는 공격 기법과 모델을 더 견고하게 만드는 방어적 접근법을 모두 포함합니다.

적대적 머신러닝 환경

적대적 ML은 2010년대 초 컴퓨터 비전 연구에서 등장했으며, 연구자들은 이미지에 감지할 수 없을 정도로 작은 변조를 추가하면 최첨단 분류기가 높은 신뢰도로 오분류할 수 있다는 것을 발견했습니다. 팬더가 긴팔원숭이가 되고, 정지 표지판이 속도 제한 표지판이 되는데, 인간 관찰자에게는 보이지 않는 픽셀 변화로 말입니다.

이 발견은 신경망이 인상적인 성능에도 불구하고 견고한 의미론적 이해보다는 악용될 수 있는 통계적 패턴을 학습한다는 것을 드러냈습니다. 신중하게 설계된 입력으로 모델을 체계적으로 속일 수 있다는 동일한 기본 원리는 언어 모델을 포함한 모든 AI 모달리티에 적용됩니다.

범주별 적대적 공격

회피 공격

모델은 오분류나 예상치 못한 동작을 유발하도록 설계된 입력으로 추론 시간에 공격받습니다. 컴퓨터 비전에서 이는 적대적 이미지입니다. NLP와 LLM에서 회피 공격은 다음을 포함합니다:

  • 프롬프트 인젝션 : 시스템 지시를 재정의하는 교묘한 텍스트
  • 탈옥 : 안전 가드레일을 우회하는 프롬프트
  • 토큰 밀수 : 콘텐츠 필터를 회피하는 인코딩 조작
  • 적대적 접미사: 유해한 출력을 안정적으로 유발하는 알고리즘적으로 계산된 문자열

중독 공격

모델 또는 데이터 소스가 훈련 또는 검색 중에 공격받습니다. 예시는 다음과 같습니다:

  • 훈련 데이터 중독: 백도어나 편향을 도입하기 위해 훈련 데이터셋에 악의적인 예제 주입
  • RAG 중독 : 악의적인 콘텐츠로 검색 지식 베이스 오염
  • 미세 조정 공격: 도메인별 미세 조정 데이터셋 중독

모델 추출 / 도용

적대자는 반복적인 쿼리를 사용하여 모델의 결정 경계에 대한 정보를 추출하거나, 훈련 데이터를 재구성하거나, 모델 기능을 복제합니다 — 독점 AI 시스템에 대한 경쟁 정보 위협입니다.

멤버십 추론

공격자는 특정 데이터가 훈련에 사용되었는지 확인하여 민감한 개인 정보가 훈련 데이터셋에 포함되었는지 잠재적으로 노출시킵니다.

Logo

비즈니스 성장 준비가 되셨나요?

오늘 무료 평가판을 시작하고 며칠 내로 결과를 확인하세요.

LLM에 대한 적대적 공격: 특화된 영역

대규모 언어 모델은 고전적인 ML 적대적 예제와는 구별되는 적대적 공격에 직면합니다:

자연어 공격은 사람이 읽을 수 있습니다. 이미지 변조(감지할 수 없는 픽셀 변화)와 달리, 효과적인 LLM 적대적 공격은 종종 일관된 자연어를 사용하여 합법적인 입력과 구별하기 훨씬 어렵습니다.

공격 표면은 명령 인터페이스입니다. LLM은 명령을 따르도록 설계되었습니다. 적대적 공격은 모델에게 합법적인 명령처럼 보이지만 공격자의 목표를 달성하는 입력을 제작하여 이를 악용합니다.

그래디언트 기반 공격이 실행 가능합니다. 오픈 소스 또는 화이트박스 액세스 모델의 경우, 공격자는 그래디언트 하강을 사용하여 적대적 접미사를 계산할 수 있습니다 — 적대적 이미지 변조를 찾는 데 사용되는 것과 동일한 기술입니다. 연구에 따르면 이러한 계산된 문자열은 놀랍게도 독점 모델에 잘 전이됩니다.

사회 공학 유사체. 많은 LLM 적대적 공격은 고전적인 ML 공격보다는 사회 공학과 유사하며 — 도움, 일관성 및 권위 준수에 대한 모델 경향을 악용합니다.

방어 및 대응책

적대적 훈련

훈련에 적대적 예제를 포함시키면 견고성이 향상됩니다. LLM의 안전 정렬 훈련은 프롬프트 인젝션 및 탈옥 시도의 예제를 통합하여 모델이 이에 저항하도록 가르칩니다. 그러나 이러한 군비 경쟁 역학은 현재 훈련을 우회하는 새로운 공격이 정기적으로 등장한다는 것을 의미합니다.

인증된 견고성

공식 검증 기술은 모델이 특정 변조 범위 내의 입력을 올바르게 분류할 것이라는 수학적 보장을 제공합니다. 현재 더 작은 모델과 더 간단한 입력 도메인으로 제한되지만 활발한 연구 분야입니다.

입력 전처리 및 검증

잠재적인 적대적 구성 요소가 모델에 도달하기 전에 제거하거나 무력화하기 위해 입력을 정화합니다. LLM의 경우, 인젝션 패턴과 비정상적인 입력 구조를 감지하는 것이 포함됩니다.

앙상블 방법

여러 모델을 사용하고 합의를 요구하면 적대적 전이 가능성이 줄어듭니다. 한 모델을 속이는 공격은 앙상블의 모든 모델을 속일 가능성이 적습니다.

모니터링 및 이상 감지

정상 사용과 일치하지 않는 통계적 이상 또는 행동 패턴을 식별하여 런타임에 적대적 입력을 감지합니다.

AI 챗봇 보안에 대한 적용

AI 챗봇을 배포하는 조직의 경우, 적대적 ML 원칙은 다음을 알려줍니다:

  • AI 레드 팀 : AI 시스템의 체계적인 적대적 조사
  • 견고성 평가: 안전 동작이 적대적 조건에서 유지되는지 테스트
  • 입력 검증 설계: 어떤 유형의 적대적 입력이 존재하는지 이해하면 검증할 내용을 알 수 있습니다
  • 방어 심층: 단일 방어는 견고하지 않습니다; 계층화된 제어가 필요합니다

관련 용어

자주 묻는 질문

AI 시스템의 적대적 견고성 테스트

AI 챗봇의 적대적 취약점은 고전적인 ML 공격을 넘어섭니다. 우리의 평가는 프롬프트 인젝션, 탈옥, 그리고 모든 LLM 특화 적대적 기법을 다룹니다.

더 알아보기

LLM의 비결정성 극복: AI의 재현성 위기를 해결하다
LLM의 비결정성 극복: AI의 재현성 위기를 해결하다

LLM의 비결정성 극복: AI의 재현성 위기를 해결하다

미라 무라티의 Thinking Machines Lab이 대형 언어 모델의 비결정성 문제를 어떻게 해결하는지 알아보세요. 재현 가능한 AI 출력으로 AI 시스템의 신뢰와 감사를 혁신합니다....

9 분 읽기
AI LLMs +3
과적합(Overfitting)
과적합(Overfitting)

과적합(Overfitting)

과적합은 인공지능(AI)과 머신러닝(ML)에서 매우 중요한 개념으로, 모델이 학습 데이터를 지나치게 학습하여 잡음까지 포함하게 되어 새로운 데이터에 대해 일반화 성능이 떨어지는 현상을 말합니다. 과적합을 식별하고 효과적으로 방지하는 다양한 기법을 알아보세요....

2 분 읽기
Overfitting AI +3
LLM 보안
LLM 보안

LLM 보안

LLM 보안은 프롬프트 인젝션, 탈옥, 데이터 유출, RAG 중독 및 모델 남용을 포함한 AI 특유의 위협으로부터 대규모 언어 모델 배포를 보호하는 데 사용되는 관행, 기술 및 통제를 포함합니다....

4 분 읽기
LLM Security AI Security +3