敵対的機械学習

敵対的機械学習は、入力を意図的に操作することでAIモデルに誤った、安全でない、または意図しない出力を生成させる攻撃の研究です。これには、モデルの脆弱性を悪用する攻撃技術と、モデルをそれらに対してより堅牢にする防御アプローチの両方が含まれます。

敵対的機械学習の状況

敵対的MLは、2010年代初頭のコンピュータビジョン研究から生まれました。研究者たちは、画像に知覚できないほど小さな摂動を加えることで、最先端の分類器が高い信頼度でそれらを誤分類させることができることを発見しました。パンダがテナガザルになり、一時停止標識が速度制限標識になります—人間の観察者には見えないピクセル変更で。

この発見は、ニューラルネットワークが印象的なパフォーマンスにもかかわらず、堅牢な意味理解ではなく、悪用される可能性のある統計的パターンを学習していることを明らかにしました。同じ基本原則—モデルが慎重に設計された入力によって体系的に欺かれる可能性がある—は、言語モデルを含むすべてのAIモダリティに適用されます。

カテゴリ別の敵対的攻撃

回避攻撃

モデルは、誤分類や予期しない動作を引き起こすように設計された入力で推論時に攻撃されます。コンピュータビジョンでは、これらは敵対的画像です。NLPとLLMでは、回避攻撃には以下が含まれます:

  • プロンプトインジェクション システム命令を上書きする巧妙なテキスト
  • ジェイルブレイク 安全ガードレールをバイパスするプロンプト
  • トークン密輸 コンテンツフィルターを回避するエンコーディング操作
  • 敵対的サフィックス: 有害な出力を確実に引き起こすアルゴリズム的に計算された文字列

ポイズニング攻撃

モデルまたはそのデータソースは、トレーニングまたは検索中に攻撃されます。例には以下が含まれます:

  • トレーニングデータポイズニング: バックドアやバイアスを導入するために、トレーニングデータセットに悪意のある例を注入する
  • RAGポイズニング 検索知識ベースを悪意のあるコンテンツで汚染する
  • ファインチューニング攻撃: ドメイン固有のファインチューニングデータセットをポイズニングする

モデル抽出/盗難

敵対者は、モデルの決定境界に関する情報を抽出したり、トレーニングデータを再構築したり、モデルの能力を複製したりするために繰り返しクエリを使用します—これは独自のAIシステムにとって競合情報の脅威です。

メンバーシップ推論

攻撃者は、特定のデータがトレーニングで使用されたかどうかを判断し、機密性の高い個人情報がトレーニングデータセットに含まれていたかどうかを潜在的に暴露します。

Logo

ビジネスを成長させる準備はできましたか?

今日から無料トライアルを開始し、数日で結果を確認しましょう。

LLMに対する敵対的攻撃:専門領域

大規模言語モデルは、古典的なML敵対的サンプルとは異なる敵対的攻撃に直面しています:

自然言語攻撃は人間が読める。 画像摂動(知覚できないピクセル変更)とは異なり、効果的なLLM敵対的攻撃は、多くの場合、一貫した自然言語を使用します—これにより、正当な入力と区別することがはるかに困難になります。

攻撃面は命令インターフェースである。 LLMは命令に従うように設計されています。敵対的攻撃は、モデルに対して正当な命令のように見えるが、攻撃者の目標を達成する入力を作成することでこれを悪用します。

勾配ベースの攻撃が実行可能である。 オープンソースまたはホワイトボックスアクセスモデルの場合、攻撃者は勾配降下法を使用して敵対的サフィックスを計算できます—これは敵対的画像摂動を見つけるために使用されるのと同じ技術です。研究により、これらの計算された文字列が独自のモデルに驚くほどよく転送されることが実証されています。

ソーシャルエンジニアリングの類似物。 多くのLLM敵対的攻撃は、古典的なML攻撃よりもソーシャルエンジニアリングに似ています—モデルの有用性、一貫性、権威への服従の傾向を悪用します。

防御と対策

敵対的トレーニング

トレーニングに敵対的サンプルを含めることで、堅牢性が向上します。LLMの安全性アライメントトレーニングには、プロンプトインジェクションとジェイルブレイクの試みの例が組み込まれており、モデルにそれらに抵抗することを教えます。ただし、この軍拡競争のダイナミクスは、現在のトレーニングをバイパスする新しい攻撃が定期的に出現することを意味します。

認証された堅牢性

形式的検証技術は、モデルが特定の摂動境界内で入力を正しく分類することを数学的に保証します。現在、小規模なモデルとより単純な入力ドメインに限定されていますが、活発な研究分野です。

入力前処理と検証

モデルに到達する前に、潜在的な敵対的コンポーネントを削除または無効化するために入力をサニタイズします。LLMの場合、これにはインジェクションパターンと異常な入力構造の検出が含まれます。

アンサンブル方法

複数のモデルを使用し、合意を要求することで、敵対的転送可能性が低減されます。1つのモデルを欺く攻撃は、アンサンブル内のすべてのモデルを欺く可能性が低くなります。

監視と異常検出

通常の使用と一致しない統計的異常または動作パターンを識別することにより、実行時に敵対的入力を検出します。

AIチャットボットセキュリティへの適用

AIチャットボットを展開する組織にとって、敵対的MLの原則は以下を通知します:

  • AIレッドチーミング AIシステムの体系的な敵対的プロービング
  • 堅牢性評価: 敵対的条件下で安全性動作が維持されるかどうかをテストする
  • 入力検証設計: どのクラスの敵対的入力が存在するかを理解することで、何を検証するかを通知する
  • 防御の深さ: 単一の防御は堅牢ではありません。階層化された制御が必要です

関連用語

よくある質問

敵対的サンプルとは何ですか?

敵対的サンプルとは、機械学習モデルを欺いて誤った予測をさせるために慎重に作成された入力です。画像分類器の場合、これは誤分類を引き起こす知覚できないピクセル変更を含む画像である可能性があります。LLMの場合、敵対的サンプルには、安全でない出力をトリガーしたり、安全フィルターをバイパスしたりする巧妙なプロンプトが含まれます。

敵対的MLはLLMセキュリティとどのように関係していますか?

LLMセキュリティは、敵対的MLの原則の専門的な応用です。プロンプトインジェクションとジェイルブレイクは、LLMに対する敵対的攻撃であり、誤った動作や有害な動作を引き起こすために設計された巧妙な入力です。敵対的サフィックス(モデルを確実にジェイルブレイクする計算された文字列)は、古典的な敵対的サンプル研究を言語モデルに直接適用したものです。

敵対的トレーニングとは何ですか?

敵対的トレーニングは、トレーニングデータセットに敵対的サンプルを含めることでモデルの堅牢性を向上させる防御技術です。モデルは、以前は敵対的だった入力を正しく処理することを学習します。LLMの場合、これは安全性アライメントトレーニングに組み込まれており、モデルは攻撃の例でトレーニングされ、それらに抵抗することを学習します。

AIシステムの敵対的堅牢性をテストする

AIチャットボットにおける敵対的脆弱性は、古典的なML攻撃を超えています。当社の評価は、プロンプトインジェクション、ジェイルブレイク、およびすべてのLLM固有の敵対的技術をカバーしています。

詳しく見る

敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)

敵対的生成ネットワーク(GAN)

敵対的生成ネットワーク(GAN)は、生成器と識別器という2つのニューラルネットワークが競い合い、本物と見分けがつかないデータを生成する機械学習フレームワークです。2014年にIan Goodfellowによって提案され、画像生成、データ拡張、異常検知など幅広く活用されています。...

1 分で読める
GAN Generative AI +5
AI侵入テスト
AI侵入テスト

AI侵入テスト

AI侵入テストは、LLMチャットボット、自律エージェント、RAGパイプラインを含むAIシステムの構造化されたセキュリティ評価であり、悪意のある攻撃者が発見する前に、模擬攻撃を使用して悪用可能な脆弱性を特定します。...

1 分で読める
AI Penetration Testing AI Security +3
AIチャットボット侵入テスト方法論:技術的な詳細分析
AIチャットボット侵入テスト方法論:技術的な詳細分析

AIチャットボット侵入テスト方法論:技術的な詳細分析

AIチャットボット侵入テスト方法論の技術的詳細:プロフェッショナルなセキュリティチームがLLM評価にどのようにアプローチするか、各フェーズで何をカバーするか、そして徹底的なAIセキュリティテストと表面的なテストを区別するものは何か。...

2 分で読める
AI Security Penetration Testing +3