
LLM의 비결정성 극복: AI의 재현성 위기를 해결하다
미라 무라티의 Thinking Machines Lab이 대형 언어 모델의 비결정성 문제를 어떻게 해결하는지 알아보세요. 재현 가능한 AI 출력으로 AI 시스템의 신뢰와 감사를 혁신합니다....

적대적 머신러닝은 AI 모델 입력을 의도적으로 조작하여 잘못된 출력을 유발하는 공격과 이에 대한 방어를 연구합니다. 기술은 분류기를 속이는 감지할 수 없는 이미지 변조부터 LLM 동작을 탈취하는 교묘한 텍스트 프롬프트까지 다양합니다.
적대적 머신러닝은 입력을 의도적으로 조작하여 AI 모델이 잘못되거나 안전하지 않거나 의도하지 않은 출력을 생성하도록 만드는 공격 연구입니다. 모델 취약점을 악용하는 공격 기법과 모델을 더 견고하게 만드는 방어적 접근법을 모두 포함합니다.
적대적 ML은 2010년대 초 컴퓨터 비전 연구에서 등장했으며, 연구자들은 이미지에 감지할 수 없을 정도로 작은 변조를 추가하면 최첨단 분류기가 높은 신뢰도로 오분류할 수 있다는 것을 발견했습니다. 팬더가 긴팔원숭이가 되고, 정지 표지판이 속도 제한 표지판이 되는데, 인간 관찰자에게는 보이지 않는 픽셀 변화로 말입니다.
이 발견은 신경망이 인상적인 성능에도 불구하고 견고한 의미론적 이해보다는 악용될 수 있는 통계적 패턴을 학습한다는 것을 드러냈습니다. 신중하게 설계된 입력으로 모델을 체계적으로 속일 수 있다는 동일한 기본 원리는 언어 모델을 포함한 모든 AI 모달리티에 적용됩니다.
모델은 오분류나 예상치 못한 동작을 유발하도록 설계된 입력으로 추론 시간에 공격받습니다. 컴퓨터 비전에서 이는 적대적 이미지입니다. NLP와 LLM에서 회피 공격은 다음을 포함합니다:
모델 또는 데이터 소스가 훈련 또는 검색 중에 공격받습니다. 예시는 다음과 같습니다:
적대자는 반복적인 쿼리를 사용하여 모델의 결정 경계에 대한 정보를 추출하거나, 훈련 데이터를 재구성하거나, 모델 기능을 복제합니다 — 독점 AI 시스템에 대한 경쟁 정보 위협입니다.
공격자는 특정 데이터가 훈련에 사용되었는지 확인하여 민감한 개인 정보가 훈련 데이터셋에 포함되었는지 잠재적으로 노출시킵니다.
대규모 언어 모델은 고전적인 ML 적대적 예제와는 구별되는 적대적 공격에 직면합니다:
자연어 공격은 사람이 읽을 수 있습니다. 이미지 변조(감지할 수 없는 픽셀 변화)와 달리, 효과적인 LLM 적대적 공격은 종종 일관된 자연어를 사용하여 합법적인 입력과 구별하기 훨씬 어렵습니다.
공격 표면은 명령 인터페이스입니다. LLM은 명령을 따르도록 설계되었습니다. 적대적 공격은 모델에게 합법적인 명령처럼 보이지만 공격자의 목표를 달성하는 입력을 제작하여 이를 악용합니다.
그래디언트 기반 공격이 실행 가능합니다. 오픈 소스 또는 화이트박스 액세스 모델의 경우, 공격자는 그래디언트 하강을 사용하여 적대적 접미사를 계산할 수 있습니다 — 적대적 이미지 변조를 찾는 데 사용되는 것과 동일한 기술입니다. 연구에 따르면 이러한 계산된 문자열은 놀랍게도 독점 모델에 잘 전이됩니다.
사회 공학 유사체. 많은 LLM 적대적 공격은 고전적인 ML 공격보다는 사회 공학과 유사하며 — 도움, 일관성 및 권위 준수에 대한 모델 경향을 악용합니다.
훈련에 적대적 예제를 포함시키면 견고성이 향상됩니다. LLM의 안전 정렬 훈련은 프롬프트 인젝션 및 탈옥 시도의 예제를 통합하여 모델이 이에 저항하도록 가르칩니다. 그러나 이러한 군비 경쟁 역학은 현재 훈련을 우회하는 새로운 공격이 정기적으로 등장한다는 것을 의미합니다.
공식 검증 기술은 모델이 특정 변조 범위 내의 입력을 올바르게 분류할 것이라는 수학적 보장을 제공합니다. 현재 더 작은 모델과 더 간단한 입력 도메인으로 제한되지만 활발한 연구 분야입니다.
잠재적인 적대적 구성 요소가 모델에 도달하기 전에 제거하거나 무력화하기 위해 입력을 정화합니다. LLM의 경우, 인젝션 패턴과 비정상적인 입력 구조를 감지하는 것이 포함됩니다.
여러 모델을 사용하고 합의를 요구하면 적대적 전이 가능성이 줄어듭니다. 한 모델을 속이는 공격은 앙상블의 모든 모델을 속일 가능성이 적습니다.
정상 사용과 일치하지 않는 통계적 이상 또는 행동 패턴을 식별하여 런타임에 적대적 입력을 감지합니다.
AI 챗봇을 배포하는 조직의 경우, 적대적 ML 원칙은 다음을 알려줍니다:

미라 무라티의 Thinking Machines Lab이 대형 언어 모델의 비결정성 문제를 어떻게 해결하는지 알아보세요. 재현 가능한 AI 출력으로 AI 시스템의 신뢰와 감사를 혁신합니다....

과적합은 인공지능(AI)과 머신러닝(ML)에서 매우 중요한 개념으로, 모델이 학습 데이터를 지나치게 학습하여 잡음까지 포함하게 되어 새로운 데이터에 대해 일반화 성능이 떨어지는 현상을 말합니다. 과적합을 식별하고 효과적으로 방지하는 다양한 기법을 알아보세요....

LLM 보안은 프롬프트 인젝션, 탈옥, 데이터 유출, RAG 중독 및 모델 남용을 포함한 AI 특유의 위협으로부터 대규모 언어 모델 배포를 보호하는 데 사용되는 관행, 기술 및 통제를 포함합니다....