对抗性机器学习

对抗性机器学习是研究通过故意操纵输入来导致AI模型产生错误、不安全或非预期输出的攻击的学科。它涵盖了利用模型漏洞的攻击技术和使模型更加鲁棒的防御方法。

对抗性机器学习全景

对抗性机器学习起源于2010年代初期的计算机视觉研究,当时研究人员发现,在图像中添加难以察觉的微小扰动可以导致最先进的分类器以高置信度对其进行错误分类。一只熊猫变成了长臂猿;一个停止标志变成了限速标志——而像素变化对人类观察者来说是不可见的。

这一发现揭示了神经网络尽管性能令人印象深刻,但学习的是可以被利用的统计模式,而不是鲁棒的语义理解。同样的基本原理——模型可以被精心设计的输入系统性地欺骗——适用于所有AI模态,包括语言模型。

按类别分类的对抗性攻击

规避攻击

在推理时使用旨在导致错误分类或意外行为的输入攻击模型。在计算机视觉中,这些是对抗图像。在NLP和LLM中,规避攻击包括:

  • 提示注入 :覆盖系统指令的精心设计的文本
  • 越狱 :绕过安全护栏的提示
  • 令牌走私 :逃避内容过滤器的编码操纵
  • 对抗后缀:算法计算的字符串,可靠地导致有害输出

投毒攻击

在训练或检索期间攻击模型或其数据源。示例包括:

  • 训练数据投毒:将恶意示例注入训练数据集以引入后门或偏见
  • RAG投毒 :用恶意内容污染检索知识库
  • 微调攻击:投毒特定领域的微调数据集

模型提取/盗窃

对手使用重复查询来提取有关模型决策边界的信息、重建训练数据或复制模型能力——这对专有AI系统构成竞争情报威胁。

成员推理

攻击者确定特定数据是否用于训练,可能暴露敏感个人信息是否包含在训练数据集中。

Logo

准备好发展您的业务了吗?

今天开始免费试用,几天内即可看到结果。

针对LLM的对抗性攻击:一个专门领域

大型语言模型面临的对抗性攻击与经典机器学习对抗样本不同:

自然语言攻击是人类可读的。 与图像扰动(不可察觉的像素变化)不同,有效的LLM对抗性攻击通常使用连贯的自然语言——这使得它们更难与合法输入区分开来。

攻击面是指令接口。 LLM被设计为遵循指令。对抗性攻击通过精心设计看起来像对模型的合法指令但实现攻击者目标的输入来利用这一点。

基于梯度的攻击是可行的。 对于开源或白盒访问模型,攻击者可以使用梯度下降计算对抗后缀——与用于查找对抗图像扰动的技术相同。研究表明,这些计算出的字符串可以出人意料地很好地迁移到专有模型。

社会工程类比。 许多LLM对抗性攻击更像社会工程而不是经典的机器学习攻击——利用模型对有用性、一致性和权威服从的倾向。

防御和对策

对抗训练

在训练中包含对抗样本可以提高鲁棒性。LLM的安全对齐训练包含提示注入和越狱尝试的示例,教导模型抵抗它们。然而,这种军备竞赛动态意味着新的攻击会定期出现,绕过当前的训练。

认证鲁棒性

形式验证技术提供数学保证,即模型将在特定扰动范围内正确分类输入。目前仅限于较小的模型和更简单的输入域,但这是一个活跃的研究领域。

输入预处理和验证

在输入到达模型之前清理输入以删除或中和潜在的对抗性组件。对于LLM,这包括检测注入模式和异常输入结构。

集成方法

使用多个模型并要求一致性可以减少对抗性可迁移性。欺骗一个模型的攻击不太可能欺骗集成中的所有模型。

监控和异常检测

通过识别统计异常或与正常使用不一致的行为模式,在运行时检测对抗性输入。

常见问题

什么是对抗样本?

对抗样本是精心设计的输入,旨在欺骗机器学习模型做出错误预测。对于图像分类器,这可能是一个具有不可察觉像素变化的图像,导致错误分类。对于LLM,对抗样本包括触发不安全输出或绕过安全过滤器的精心设计的提示。

对抗性机器学习与LLM安全有何关系?

LLM安全是对抗性机器学习原理的专门应用。提示注入和越狱是对LLM的对抗性攻击——旨在导致错误或有害行为的精心设计的输入。对抗后缀(可靠地越狱模型的计算字符串)是将经典对抗样本研究直接应用于语言模型的例子。

什么是对抗训练?

对抗训练是一种防御技术,通过在训练数据集中包含对抗样本来提高模型鲁棒性。模型学习正确处理以前是对抗性的输入。对于LLM,这被纳入安全对齐训练中——模型在攻击示例上进行训练以学习抵抗它们。

测试您的AI系统的对抗鲁棒性

AI聊天机器人中的对抗性漏洞超越了经典的机器学习攻击。我们的评估涵盖提示注入、越狱以及所有LLM特定的对抗技术。

了解更多

OWASP LLM 十大风险
OWASP LLM 十大风险

OWASP LLM 十大风险

OWASP LLM 十大风险是行业标准列表,涵盖基于大型语言模型构建的应用程序的10个最关键的安全和安全风险,包括提示注入、不安全的输出处理、训练数据投毒、模型拒绝服务以及另外6个类别。...

1 分钟阅读
OWASP LLM Top 10 AI Security +3
提示词注入攻击:黑客如何劫持AI聊天机器人
提示词注入攻击:黑客如何劫持AI聊天机器人

提示词注入攻击:黑客如何劫持AI聊天机器人

提示词注入是排名第一的LLM安全风险。了解攻击者如何通过直接和间接注入劫持AI聊天机器人,并提供真实案例和面向开发者及安全团队的具体防御措施。...

1 分钟阅读
AI Security Prompt Injection +3
生成对抗网络(GAN)
生成对抗网络(GAN)

生成对抗网络(GAN)

生成对抗网络(GAN)是一种机器学习框架,由生成器和判别器两个神经网络组成,它们相互竞争以生成与真实数据无法区分的数据。该方法由 Ian Goodfellow 于 2014 年提出,现已广泛应用于图像生成、数据增强、异常检测等领域。...

1 分钟阅读
GAN Generative AI +5