
LLM安全
LLM安全涵盖用于保护大语言模型部署免受一类独特的人工智能特定威胁的实践、技术和控制措施,包括提示注入、越狱、数据泄露、RAG投毒和模型滥用。...

对抗性机器学习研究故意操纵AI模型输入以导致错误输出的攻击,以及针对这些攻击的防御措施。技术范围从欺骗分类器的不可察觉图像扰动到劫持LLM行为的精心设计的文本提示。
对抗性机器学习是研究通过故意操纵输入来导致AI模型产生错误、不安全或非预期输出的攻击的学科。它涵盖了利用模型漏洞的攻击技术和使模型更加鲁棒的防御方法。
对抗性机器学习起源于2010年代初期的计算机视觉研究,当时研究人员发现,在图像中添加难以察觉的微小扰动可以导致最先进的分类器以高置信度对其进行错误分类。一只熊猫变成了长臂猿;一个停止标志变成了限速标志——而像素变化对人类观察者来说是不可见的。
这一发现揭示了神经网络尽管性能令人印象深刻,但学习的是可以被利用的统计模式,而不是鲁棒的语义理解。同样的基本原理——模型可以被精心设计的输入系统性地欺骗——适用于所有AI模态,包括语言模型。
在推理时使用旨在导致错误分类或意外行为的输入攻击模型。在计算机视觉中,这些是对抗图像。在NLP和LLM中,规避攻击包括:
在训练或检索期间攻击模型或其数据源。示例包括:
对手使用重复查询来提取有关模型决策边界的信息、重建训练数据或复制模型能力——这对专有AI系统构成竞争情报威胁。
攻击者确定特定数据是否用于训练,可能暴露敏感个人信息是否包含在训练数据集中。
大型语言模型面临的对抗性攻击与经典机器学习对抗样本不同:
自然语言攻击是人类可读的。 与图像扰动(不可察觉的像素变化)不同,有效的LLM对抗性攻击通常使用连贯的自然语言——这使得它们更难与合法输入区分开来。
攻击面是指令接口。 LLM被设计为遵循指令。对抗性攻击通过精心设计看起来像对模型的合法指令但实现攻击者目标的输入来利用这一点。
基于梯度的攻击是可行的。 对于开源或白盒访问模型,攻击者可以使用梯度下降计算对抗后缀——与用于查找对抗图像扰动的技术相同。研究表明,这些计算出的字符串可以出人意料地很好地迁移到专有模型。
社会工程类比。 许多LLM对抗性攻击更像社会工程而不是经典的机器学习攻击——利用模型对有用性、一致性和权威服从的倾向。
在训练中包含对抗样本可以提高鲁棒性。LLM的安全对齐训练包含提示注入和越狱尝试的示例,教导模型抵抗它们。然而,这种军备竞赛动态意味着新的攻击会定期出现,绕过当前的训练。
形式验证技术提供数学保证,即模型将在特定扰动范围内正确分类输入。目前仅限于较小的模型和更简单的输入域,但这是一个活跃的研究领域。
在输入到达模型之前清理输入以删除或中和潜在的对抗性组件。对于LLM,这包括检测注入模式和异常输入结构。
使用多个模型并要求一致性可以减少对抗性可迁移性。欺骗一个模型的攻击不太可能欺骗集成中的所有模型。
通过识别统计异常或与正常使用不一致的行为模式,在运行时检测对抗性输入。

LLM安全涵盖用于保护大语言模型部署免受一类独特的人工智能特定威胁的实践、技术和控制措施,包括提示注入、越狱、数据泄露、RAG投毒和模型滥用。...

OWASP LLM Top 10完整技术指南——涵盖所有10个漏洞类别,包含真实攻击示例、严重性分析以及针对构建和保护LLM驱动应用程序团队的具体修复指导。...

OWASP LLM 十大风险是行业标准列表,涵盖基于大型语言模型构建的应用程序的10个最关键的安全和安全风险,包括提示注入、不安全的输出处理、训练数据投毒、模型拒绝服务以及另外6个类别。...