发布说明:本标准原文全文127页,发布将通过连载方式分三次发布完成,PDF版与全文发布地址将在最后一期提供。由于受到公众号限制,本次发布不包含所有的尾注,将会大大降低可读性。PDF版将包含“译者注”和标准的“自注释”以及参考文本链接地址。
NIST AI 100-2e2025
对抗性机器学习
攻击和缓解的分类和术语
Apostol Vassilev
Alina Oprea
Alie Fordyce
Hyrum Anderson
Xander Davies
Maia Hamin
本出版物可从以下网站免费获取:https://doi.org/10.6028/NIST.AI.100-2e2025
2025年4月
读者
本文档的主要受众包括负责设计、开发、部署、评估和管理人工智能系统的个人和团体。
背景
本文是作者在对抗性机器学习领域进行的广泛文献综述、与专家的对话以及研究的结果。
商标信息所有商标和注册商标均属于其各自的组织。NIST的信息技术实验室(ITL)开发测试、测试方法、参考数据、概念验证实施和技术分析,以推进信息技术的开发和生产性使用。国际交易日志的职责包括制定管理、行政、技术和物理标准和指南。
这份NIST值得信赖和负责任的人工智能报告侧重于识别、解决和管理与对抗性机器学习相关的风险。虽然NIST发布的实用指南 可以作为参考,但该指南仍然是自愿的。
本文件的内容反映了建议的做法。本文件无意作为或取代现有的法规、法律或其他强制性指导。
如何阅读本文档
本文档交替使用术语“AI技术”、“AI系统”和“AI应用程序”。与机器学习管道相关的术语,如“ML模型”或“算法”,在本文档中也可以互换使用。根据上下文,“系统”一词可能指的是更广泛的组织和/或社会生态系统,在这个生态系统中,技术被设计、开发、部署和使用,而不是与计算硬件或软件相关的更传统的使用。
重要阅读笔记:
本文档包括一系列蓝色标注框,突出了细微差别和重要要点。(译者说明:编译过程中未增加标注框)
本文档包含蓝色链接。点击它们将把读者带到相关资源。“引用”中的链接指向外部源。(译者说明:同上,编译中取消了链接“引用”关系)
术语表中列出了文本中使用但未定义或解释的术语。它们在文本中以小大写字母显示。点击小写单词(例如,ADVERSARIAL EXAMPLE),读者可以直接进入术语表中该术语的定义。从那里,可以点击定义末尾显示的页码返回。(编译中未对相关链接做出定义,并取消“页码返回”标签)
本文档提供了一个攻击类型索引,以便轻松导航和参考攻击以及相应的缓解措施。
致谢
作者希望感谢所有对本文草案提出意见的人和组织。收到的评论和建议的参考文献对于改进文件和这项工作的未来方向至关重要。作者还要感谢许多协助更新本文件的NIST、美国人工智能安全研究所和英国人工智能安全学会的同事。
作者贡献
作者对这项工作做出了同样的贡献。
预测人工智能和生成人工智能分类指数
预测性AI攻击分类(Predictive AI Attacks Taxonomy)
可用性破坏(ID:NISTAML.01)
模型中毒(ID:NISTAML.011)
清洁标签中毒(ID:NISTAML.012)
数据中毒(ID:NISTAML.013)
能量延迟(ID:NISTAML.014)
完整性破坏(ID:NISTAML.02)
清洁标签中毒(ID:NISTAML.012)
清洁标签后门(ID:NISTAML.021)
逃避(ID:NISTAML.022)
后门中毒(ID:NISTAML.023)
靶向中毒(ID:NISTAML.024)
黑匣子躲避(ID:NISTAML.025)
模型中毒(ID:NISTAML.026)
隐私泄露(ID:NISTAML.03)
模型提取(ID:NISTAML.031)
重建(ID:NISTAML.032)
成员推断(ID:NISTAML.033)
属性推断(ID:NISTAML.034)
供应链攻击(ID:NISTAML.05)
模型中毒(ID:NISTAML.051)
生成性人工智能攻击分类
破坏可用性(ID:NISTAML.01)
数据中毒(ID:NISTAML.013)
间接快速注射(ID:NISTAML.015)
快速注射(ID:NISTAML.018)
破坏完整性(ID:NISTAML.02)
数据中毒(ID:NISTAML.013)
间接快速注射(ID:NISTAML.015)
快速注射(ID:NISTAML.018)
后门中毒(ID:NISTAML.023)
靶向中毒(ID:NISTAML.024)
输出不对齐(ID:NISTAML.027)
隐私泄露(ID:NISTAML.03)
间接快速注射(ID:NISTAML.015)
快速注射(ID:NISTAML.018)
后门中毒(ID:NISTAML.023)
成员推断(ID:NISTAML.033)
快速提取(ID:NISTAML.035)
用户交互信息泄露(ID:NISTAML.036)
训练数据攻击(ID:NISTAML.037)
数据提取(ID:NISTAML.038)
泄露连接资源(ID:NISTAML.039)
滥用违规(ID:NISTAML.04)
快速注入(ID:NISTAML.018)
供应链攻击(ID:NISTAML.05)
模型中毒(ID:NISTAML.051)
执行摘要
这份NIST值得信赖和负责任的人工智能报告描述了不良机器学习(AML)的分类和术语,这可能有助于保护人工智能(AI)的应用免受对抗性操纵和攻击。
机器学习系统的统计性、基于数据的特性为攻击这些系统的安全性、隐私性和安全性开辟了新的潜在途径,超越了传统软件系统面临的威胁。这些挑战涵盖了机器学习操作的不同阶段,例如对抗性操纵训练数据的可能性;提供对抗性输入,对人工智能系统的性能产生不利影响;甚至恶意操纵、修改或与模型交互,以从模型的训练数据或模型可以访问的数据中窃取敏感信息。此类攻击已在现实世界条件下得到证实,其复杂性和影响一直在稳步增加。
AML领域关注的是研究这些攻击。它必须考虑攻击者的能力、攻击者在追求目标时可能试图违反的模型或系统属性,以及在机器学习生命周期的开发、训练和部署阶段利用漏洞的攻击方法的设计。它还关注能够承受这些安全和隐私挑战的机器学习算法和系统的设计,这一特性通常被称为鲁棒性[274]。
为了对这些攻击进行分类,本报告对预测性和生成性人工智能系统以及与每种系统相关的攻击进行了区分。它考虑了人工智能系统的组成部分,包括数据;模型本身;训练、测试和部署模型的过程;以及模型可能嵌入的更广泛的软件和系统环境,例如部署生成人工智能(GenAI)模型以访问私人数据或配备工具以采取具有现实后果的行动的情况。
因此,这种分类法中的攻击是根据以下因素进行分类的:(i)人工智能系统类型,(ii)发动攻击的机器学习生命周期过程的阶段,(iii)攻击者在试图违反的系统属性方面的目标和目的,(iv)攻击者的能力和访问权限,以及(v)攻击者对学习过程及其他方面的知识。
本报告采用了NIST人工智能风险管理框架中机器学习系统的安全性、弹性和鲁棒性的概念。安全性、韧性和鲁棒性是通过风险来衡量的,风险是衡量实体(如系统)受到潜在环境或事件(如攻击)威胁的程度以及发生此类事件时结果的严重程度。然而,本报告没有就风险承受能力(即组织或社会可接受的风险水平)提出建议,因为它高度依赖于应用程序和用例。
针对机器学习的有效攻击范围很广,发展迅速,涵盖了机器学习生命周期的所有阶段——从设计和实施到现实世界中的培训、测试和部署。这些攻击的性质和力量是不同的,它们的影响可能不仅取决于机器学习模型的漏洞,还取决于部署人工智能系统的基础设施的弱点。人工智能系统组件也可能受到设计和实现缺陷的不利影响,这些缺陷会导致对抗性使用环境之外的故障,例如不准确。然而,这些缺陷不在本报告中关于AML或攻击的文献范围内。
除了定义攻击的分类外,本报告还提供了相应的方法来减轻和管理这些攻击在人工智能系统生命周期中的后果,并概述了广泛使用的缓解技术的局限性,以提高认识并帮助组织提高其人工智能风险缓解工作的效率。本报告中使用的术语与对抗性机器学习(AML)领域的文献保持一致,并通过术语表补充,以帮助非专业读者理解与AML领域相关的关键术语。总体而言,分类体系和术语旨在通过建立一个共同语言来指导其他标准和未来实践指南,以评估和管理AI系统的安全性,从而应对快速发展的AML领域。与分类体系一样,术语和定义并非穷尽,而是作为理解AML文献中出现的关键概念并达成一致的起点。
1.导言
人工智能(AI)系统几年来一直在全球扩张[267]。这些系统正在由许多国家的经济体开发并广泛部署,人们在生活的许多领域使用人工智能系统的机会越来越多[92]。本报告区分了两大类人工智能系统:预测人工智能(PredAI)和生成人工智能(GenAI)。尽管人工智能系统的大多数工业应用仍然由PredAI系统主导,但最近在商业和消费者环境中采用GenAI系统的情况有所增加。随着这些系统渗透到数字经济中并成为日常生活的重要组成部分,对其安全、稳健和有弹性的运营的需求也在增长。这些操作属性是NIST人工智能风险管理框架[274]和NCSC机器学习原则[266]中值得信赖的人工智能的关键要素。
对抗机器学习(AML) 领域研究针对机器学习系统的攻击,这些攻击利用了机器学习系统基于统计和数据的特性。尽管人工智能和机器学习(ML)在不同的应用领域取得了重大进展,但这些技术仍然容易受到可能导致严重故障的攻击。随着机器学习系统在可能受到新的或对抗性交互的环境中使用,这些故障的可能性会增加,随着这些系统在风险越来越高的领域中使用,后果会变得更加可怕。例如,在用于物体检测和分类的PredAI计算机视觉应用程序中,众所周知的输入图像的对抗性扰动案例导致自动驾驶汽车转向相反方向的车道,停车标志被误分类为限速标志,甚至在高安全设置中戴眼镜的人也被误识别[121187332349]。同样,随着越来越多的机器学习模型被部署在医学等领域,对抗性输入欺骗机器学习模型泄露隐藏信息的可能性变得更加紧迫,因为医疗记录泄露可能会暴露敏感的个人信息[25171]。
在GenAI中,大语言模型(LLMs)[13,15,49,85102236247277279348365371372436]正日益成为软件应用程序和互联网基础设施不可或缺的一部分。LLM正被用来创建更强大的在线搜索工具,帮助软件开发人员编写代码,并为每天有数百万人使用的聊天机器人提供动力[255]。LLM也在得到增强,以创建更有用的人工智能系统,包括通过与公司数据库和文档的交互来实现强大的检索-辅助生成(RAG)[210],以及通过训练或推理时间技术使LLM能够采取现实世界的行动,例如浏览网页或使用bash终端作为基于LLM的代理[167261278419]。因此,GenAI系统中的漏洞可能会暴露出一个广泛的攻击面,对敏感用户数据或有关模型架构或训练数据的专有信息的隐私构成威胁,并对广泛使用的系统的完整性和可用性构成风险。
随着GenAI采用率的增长,这些系统能力的增强给模型开发人员带来了另一个挑战:如何管理这些系统能力被不必要或有害使用所带来的风险。[275] 随着模型开发者越来越倾向于采用技术干预措施来减少模型被滥用的可能性,高风险的对抗性攻击又有了新的目标:这些攻击试图绕过或破坏这些保护措施。
从根本上说,许多人工智能系统既容易受到对抗性机器学习攻击,也容易受到更类似于传统网络安全攻击的攻击,包括对部署它们的平台的攻击。本报告侧重于前者,并认为后者属于传统网络安全分类法的范围。
PredAI和GenAI系统在整个开发和部署生命周期中都容易受到一系列攻击者能力的攻击。攻击者可以操纵训练数据[327],包括大规模模型训练中使用的互联网数据[57],或者可以通过添加对抗性扰动或后缀来修改测试时间推理数据和资源。攻击者还可以通过插入TROJAN功能来攻击用于制造AI系统的组件。随着组织越来越依赖于可以直接使用或与新数据集微调的预训练模型来实现不同的任务,它们对这些攻击的脆弱性也在增加。
现代密码学通常依赖于信息论意义上的安全算法,即那些可以在某些条件下被正式证明可以确保安全的算法。然而,对于现代人工智能系统中广泛使用的机器学习算法,还没有信息论安全证明。此外,文献中开始出现对广泛使用的缓解技术的有效性设定限制的信息论不可能性结果[124140432]。因此,针对不同类型的对抗性机器学习攻击制定缓解措施的许多进展往往是经验性的,在性质上是有限的,之所以被采用,是因为它们似乎在实践中有效,而不是因为它们提供了信息理论的安全保障。因此,许多缓解措施本身可能容易受到攻击者技术的新发现和演变的影响。
本报告为以下方面的发展提供了指导:
AML术语的标准化术语,可用于相关ML和网络安全社区。不同利益相关者社区的术语存在显著差异,随着人工智能在企业和消费者环境中越来越多地被采用,努力弥合这些差异非常重要。
对AML中研究最广泛、目前最有效的攻击进行分类,包括:
PredAI系统的逃避、中毒和隐私攻击,
GenAI系统的中毒、直接提示和间接提示注射攻击
讨论这些攻击的潜在缓解措施以及现有缓解技术的局限性
NIST打算在AML攻击和缓解措施出现新进展时更新本报告。
本报告对PredAI和GenAI系统的常见攻击类别及其缓解措施进行了分类。本报告并不打算对所有关于对抗性机器学习的可用文献进行详尽的调查,自2021年截至2024年7月,arXiv.org上的参考文献超过11354篇。
本报告分为三节。
第2节考虑了PredAI系统。第2.1节介绍了PredAI系统的攻击分类,其中定义了攻击者目标和目的的大类,并确定了对手必须利用的能力来实现相应的目标。还为每种类型的能力引入了特定的攻击类别。第2.2、2.3和2.4节分别讨论了主要的攻击类别:逃避、中毒和隐私。攻击类别部分提供了每类攻击的相应缓解措施。
第3节考虑了GenAI系统。第3.1节介绍了GenAI系统的攻击分类,并定义了与这些系统相关的攻击者目标和对手能力的大类。针对每种能力类型引入了特定的攻击类别,以及相关的缓解措施。
第4节讨论了该领域仍然存在的挑战,包括广泛使用的缓解技术的局限性。其目的是提高人们对反洗钱领域未决问题的认识,并提请人们注意可能影响未来风险和风险管理实践的趋势。
原文始发于微信公众号(老烦的草根安全观):对抗性机器学习-攻击和缓解的分类和术语
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论