对抗性机器学习-攻击和缓解的分类和术语（二）

admin

145127
文章

119
评论

2025年4月23日01:45:52评论34 views字数 26537阅读88分27秒阅读模式

2.预测性人工智能分类

2.1. 攻击分类

图1根据攻击者的目标和目的、能力和知识，介绍了PredAI系统上AML攻击的分类。

图1.PredAI系统攻击的分类

攻击者的目标显示为不连贯的圆圈，每个圆圈的中心都是攻击者的目标：可用性崩溃、完整性侵犯和隐私泄露。对手必须利用在目标圈的外层显示出来的能力来实现其目标。攻击类别显示为与发起每次攻击所需的能力相关的标注。单个标注中显示了需要相同能力才能达到相同目标的多个攻击类别。

这些攻击根据以下维度进行分类：1）攻击发起时的学习方法和学习过程阶段，2）攻击者目标和目的，3）攻击者能力，4）攻击者对学习过程的了解。先前的工作[42358]中引入了几个平流攻击分类框架，这里的目标是为机器学习上的对抗性攻击创建一个标准术语，以统一现有的工作。

2.1.1. 学习阶段

预测性机器学习包括一个训练阶段和一个部署阶段，在训练阶段学习模型，在部署阶段将模型部署在新的、未标记的数据样本上以生成预测。在监督学习的情况下，在训练阶段将标记的训练数据作为训练算法的输入，并优化ML模型以最小化特定的损失函数。ML模型的验证和测试通常在模型部署到现实世界之前进行。常见的监督学习技术包括预测标签或类是离散的分类和预测标签或响应变量是连续的回归。

机器学习文献中的其他学习范式包括非服务学习，它在训练时使用未标记的数据训练模型；半支持学习，其中一小部分示例有标签，而大多数示例没有标签；强化学习，其中代理与环境交互并学习最优策略以最大化其回报；联邦学习，其中一组客户端通过与执行模型更新聚合的服务器通信来联合训练ML模型；以及集成学习（Ensemble Learning），这是一种通过结合多个模型的预测来寻求更好的预测性能的方法。

大多数PredAI模型都是歧视性的，即只学习一个决策边界，如逻辑回归、支持向量机和卷积神经网络。GenAI模型也可用于预测任务，如情绪分析[125]。对抗性机器学习文献主要考虑了在训练阶段或部署阶段可能发生的针对人工智能系统的对抗性攻击。在训练阶段，攻击者可能会控制部分训练数据、标签、模型参数或ML算法代码，从而导致不同类型的中毒攻击。在部署阶段，机器学习模型已经过训练，对手可以发起规避攻击以创建完整性违规并更改机器学习模型的预测，也可以发起隐私攻击以推断有关训练数据或机器学习模式的敏感信息。

训练时间攻击。中毒攻击[40]发生在ML训练阶段。在数据中毒攻击[40148]中，对手通过插入或修改训练样本来控制训练数据的子集。在模型中毒攻击[222]中，对手控制模型及其参数。数据中毒攻击适用于所有学习范式，而模型中毒攻击在联邦学习中最为普遍[190]，客户端向聚合服务器发送本地模型更新，在供应链攻击中，模型技术供应商可能会将恶意代码添加到模型中。

部署时间攻击。其他类型的攻击可以针对部署的模型。规避攻击修改测试样本以创建不良示例[38144362]，这些示例与原始样本相似（例如，根据某些距离度量），但会根据攻击者的选择改变模型预测。其他攻击，如可用性攻击和隐私攻击，包括成员推断[342]和数据重建[110]，也可以由对部署的ML模型具有查询访问权限的攻击者发起。

2.1.2. 攻击者的目标和目的

根据分析系统安全性时考虑的三种主要安全违规类型，攻击者的目标分为三个维度：可用性崩溃、完整性违规和隐私泄露。图1根据攻击的目标将攻击分为三个不相交的圆圈，攻击者的目标显示在每个圆圈的中心。

可用性细分[NISTAML.01]。可用性分解攻击是对PredAI系统的故意干扰，以破坏其他用户或进程及时可靠地访问其服务的能力。这种攻击类型可能会在训练或部署时发起，尽管其影响通常会在部署时发生。当攻击者控制了训练集的一小部分时，可用性攻击可以通过数据中毒来实施；当攻击者控制模型参数时；或者通过查询访问作为能量攻击。数据中毒可用性攻击已被提出用于支持向量机[40]、线性回归[179]，甚至神经网络[228260]，而模型中毒攻击则被设计用于神经网络[222]和联合学习[22]。

能量延迟攻击[NISTAML.014]。最近，针对计算机视觉和自然语言处理（NLP）中许多不同任务的神经网络，开发了一种只需要黑盒访问模型的可用性攻击——能量延迟攻击[345]。

破坏完整性[NISTAML.02]。破坏完整性攻击是对PredAI系统的蓄意干扰，迫使其对预期目标表现不佳，并产生与对手目标一致的预测。攻击者可以通过在部署时发起规避攻击或在训练时发起中毒攻击来破坏完整性。躲避攻击需要修改测试样本，以创建被模型错误分类的对抗性示例，同时通常保持隐蔽性，人类无法察觉[38144362]。通过中毒进行的完整性攻击可分为目标中毒攻击[137330]、后门中毒攻击[148]和模型中毒[22,36123]。目标中毒试图破坏一些目标样本的完整性，并假设攻击者具有训练数据控制来插入中毒样本。后门中毒攻击需要生成后门模式，该模式被添加到中毒样本和测试样本中，以导致错误分类。后门攻击是文献中唯一需要训练和测试数据控制的攻击。模型中毒攻击可能导致有针对性的攻击或后门攻击，攻击者修改模型参数以导致完整性违规。它们被设计用于集成学习[222]和联合学习[22,36]。

隐私泄露[NISTAML.03]。隐私泄露攻击会导致PredAI系统意外泄漏受限或专有信息，包括模型训练数据、权重或架构的详细信息[100309]。虽然“机密性”一词在传统网络安全攻击的分类中使用得更广泛，但AML领域倾向于使用顶级术语“隐私”来涵盖对模型机密性的攻击（例如，提取模型权重或架构信息的攻击）和导致违反模型输出预期隐私属性的攻击（如通过暴露模型训练数据）[310]。机器学习训练过程中的数据机密性可以通过基于密码技术的安全计算方法[2253288385]来实现，这些方法确保训练数据和模型参数在训练阶段得到保护。然而，即使是使用强制数据机密性的范式训练的模型也可能容易受到隐私攻击，在这种攻击中，与模型交互的对手可以提取有关其训练数据或参数的信息。在本报告中，我们重点关注部署时可能发生的隐私泄露，无论使用何种训练方法，也无论训练期间是否保持了数据机密性。

在隐私攻击中，攻击者可能对学习有关训练数据（导致数据隐私攻击）或机器学习模型（导致模型隐私攻击）的信息感兴趣。攻击者可能有不同的目标来损害训练数据的隐私，例如数据重建[110]（推断训练数据的内容或特征）、成员身份干扰攻击[162343]（推断训练集中是否存在数据）、训练数据提取[59,63]（从生成模型中提取训练数据）、属性推理攻击[184409]（推断培训记录的敏感属性）和属性推理[134]（推断培训数据分布的属性）。模型提取是一种模型隐私攻击，攻击者旨在提取有关模型的信息[177]。

2.1.3. 攻击者能力

PredAI系统的AML攻击可以根据攻击者控制的能力进行分类。对手可能利用六种能力来实现其目标，如图1中目标圈的外层所示：

训练数据控制（TRAINING DATA CONTROL）：攻击者可能通过插入或修改训练样本来控制训练数据的一个子集。此功能用于数据中毒攻击（例如，可用性中毒、目标或后门中毒）。

模型控制（MODEL CONTROL）：攻击者可能会通过生成特洛伊木马触发器并将其插入模型中，或者在联邦学习中发送恶意的本地模型更新来控制模型参数。

测试数据控制（TESTING DATA CONTROL）：攻击者可能会在模型部署时向测试样本添加扰动，如在规避攻击中生成对抗性样本或后门中毒攻击中执行的那样。

标签限制（LABEL LIMIT）：这种能力与限制监督学习中训练样本标签的对抗性控制有关。清洁标签中毒攻击假设攻击者不控制中毒样本的标签，而常规中毒攻击假设标签控制中毒样本。

源代码控制（SOURCE CODE CONTROL）：攻击者可能会修改ML算法的源代码，例如随机数生成器或任何第三方库，这些库通常是开源的。

查询访问（QUERY ACCESS）：攻击者可能会向模型提交查询并接收预测（即标签或模型置信度），例如在与云提供商作为机器学习即服务（MLaaS）产品托管的AI系统交互时。此功能用于黑盒规避攻击、能量延迟攻击（ENERGY-LATENCY ATTACK）以及所有不需要了解模型训练数据、架构或参数的隐私攻击。

即使攻击者没有能力修改训练/测试数据、源代码或模型参数，对这些数据的访问对于发起需要了解机器学习系统的更强白盒攻击仍然至关重要。有关攻击者知识的更多详细信息，以及白盒和黑盒攻击的详细定义，请参阅第2.1.4节。

图1将每个攻击类与发起攻击所需的能力联系起来。例如，导致完整性破坏的后门攻击需要控制训练和测试数据以插入后门模式。后门攻击也可以通过源代码控制进行，特别是当培训外包给更强大的实体时。除了后门攻击所需的功能外，清洁标签后门攻击还不允许对中毒样本进行标签控制。

2.1.4. 攻击者知识

攻击分类的另一个维度是攻击者对机器学习系统的了解程度。主要有三种类型的攻击：

白盒攻击。假设攻击者在完全了解机器学习系统的情况下进行操作，包括训练数据、模型架构和模型超参数。虽然这些攻击是在非常强烈的假设下进行的，但分析它们的主要原因是测试对手对系统最坏情况的脆弱性，并评估潜在的缓解措施。该定义更为通用，涵盖了自适应攻击的概念，其中明确跟踪了应用于模型或系统的缓解措施的知识。

黑盒攻击。攻击假设攻击者在操作时对机器学习系统知之甚少，有时甚至一无所知。对手可能对模型有查询权限，但他们没有关于模型如何训练的其他信息。这些攻击是最实用的，因为它们假设攻击者不了解人工智能系统，并利用可供正常使用的系统接口。

灰箱攻击。一系列灰盒攻击可以捕获黑盒攻击和白盒攻击之间的对抗知识。Suciu等人[358]介绍了一种对灰盒攻击进行分类的框架。攻击者可能知道模型架构但不知道其参数，或者攻击者可能知道该模型及其参数但不知道训练数据。灰盒攻击的其他常见假设是，攻击者可以访问与训练数据相同分布的数据，并且知道特征表示。后一种假设对于在训练机器学习模型之前使用特征提取的应用程序很重要，例如网络安全、金融和医疗保健。

2.1.5. 数据模式

直到现在对抗性机器学习中的大多数攻击和防御都是在单一模态下进行的，但该领域的一个新趋势是使用多模态数据。图1中定义的攻击分类与特定应用中的数据形态无关。

AML文献中最常见的数据模式包括：

图像（Image）：图像数据[144362]的对比示例具有连续域的优点，基于梯度的方法可以直接应用于优化。后门中毒攻击最初是针对图像发明的[148]，许多隐私攻击都是在图像数据集上运行的（例如[342]）。图像模态包括其他类型的成像（例如，激光雷达、合成孔径雷达、红外、高光谱）。

文本（Text）：文本是一种流行的模态，所有类型的攻击都被提出用于文本模型，包括逃避[150]、毒害[82213]和隐私[426]。

音频（Audio）：音频系统和由音频信号生成的文本也受到了攻击[66]。

视频（Video）：视频理解模型在视觉和语言任务方面的能力越来越强[428]，但这些模型也容易受到攻击[402]。

网络安全（Cybersecurity）：第一次中毒攻击是在网络安全领域发现的，用于蠕虫签名生成（2006年）[291]和垃圾邮件分类（2008年）[269]。从那时起，中毒攻击已被用于恶意软件分类、恶意PDF检测和Android恶意应用程序分类[329]。针对类似数据模式的规避攻击也被提出：恶意软件分类[103357]、PDF恶意软件分类[352414]、Android恶意应用检测[295]和网络指令检测[93]。中毒无监督学习模型已被证明可用于恶意软件分类[41]和网络流量异常检测[315]中的聚类。

基于以数据为中心的方法的异常检测允许通过ML算法进行自动特征学习。然而，将机器学习应用于此类问题会带来特定的挑战，即需要非常低的假阴性和假阳性率（例如，捕捉零日攻击的能力）。这一挑战因试图将所有这些因素结合起来而变得更加复杂，这使得机器学习模型容易受到对抗性攻击[198301446]。

表格数据（Tabular data）：针对处理表格数据的机器学习模型已经发生了许多攻击，例如针对医疗保健和业务应用程序的中毒可用性攻击[179]，针对医疗保健数据的隐私攻击[422]，以及针对金融应用程序的规避攻击[141]。

最近，在多模态数据上训练的机器学习模型的使用越来越受到关注，特别是图像和文本数据模式的结合。几篇论文表明，多模态模型可能提供一些抵御攻击的弹性[417]，但其他论文表明，多模模型本身可能容易同时受到所有模态上的攻击[77333415]（见第4.2.3节）。

一个公开的挑战是测试和描述各种多模态机器学习模型对逃避、中毒和隐私攻击的弹性。

2.2. 躲避攻击和缓解[NISTAML.022]

在过去十年中，对机器学习模型的规避攻击的发现导致了对抗性机器学习研究的显著增长。在规避攻击中，对手的目标是生成对抗性示例：其分类可以更改为攻击者选择的任意类别的样本——通常只需要最小的扰动[362]。例如，在图像分类的背景下，原始样本的扰动可能很小，以至于人类无法观察到输入的变换；虽然机器学习模型可以被欺骗，将对抗性示例分类到攻击者选择的目标类中，但人类仍然将其识别为原始类的一部分。

早期已知的规避攻击实例可以追溯到1988年Kearns和Li[192]的工作以及2004年，当时Dalvi等人[98]和Lowd和Meek[226]证明了垃圾邮件过滤器中使用的线性分类器存在对抗性示例。后来，Szedegy等人[362]表明，用于图像分类的深度神经网络可以很容易地通过对抗性示例进行操纵。2013年，Szedegy等人[362]和Biggio等人[38]独立发现了一种通过将梯度优化应用于对抗目标函数来生成对抗线性模型和神经网络的对抗示例的有效方法。这两种技术都需要白盒访问模型，并通过后续方法进行了改进，这些方法生成了具有更小扰动的对抗性示例[20,65232]。

对抗性示例也适用于更现实的黑盒设置，在这种设置中，攻击者只获得对训练模型的查询访问能力。即使在更具挑战性的黑盒设置中，攻击者也会获得模型的预测标签或置信度得分，深度神经网络仍然容易受到对抗性示例的攻击。在黑盒设置中创建对抗性示例的方法包括零阶优化（zeroth-order optimization） [80]、离散优化（discrete optimization） [254]、贝叶斯优化（Bayesian optimization） [344]和可转移性（transferability），可转移性涉及在将对抗性示例转移到目标模型之前，在不同模型上生成白盒对抗性示例[28283377]。虽然网络安全和图像分类是第一个展示逃避攻击的应用领域，但许多其他应用领域的机器学习技术也受到了审查，包括语音识别[66]、自然语言处理[185]和视频分类[215401]。

减轻对抗性例子是社区中众所周知的挑战，值得进一步研究和调查。该领域有发布在相对较弱的对抗模型下评估防御的历史，这些模型随后被更强大的攻击打破。需要针对强自适应攻击评估缓解措施，并制定了严格评估新提出的缓解技术的指导方针[97375]。减轻躲避攻击的关键威胁的最有希望的方向是对抗性训练[144232]（在训练时迭代生成并插入带有正确标签的对抗性示例）；经过认证的技术，如随机平滑[94]（在噪声下评估ML预测）；以及形式化验证技术[136191]（应用形式化方法技术来验证模型的输出）。然而，这些方法有不同的局限性，例如对抗训练的准确性降低，形式化方法的随机平滑和计算复杂性降低。鲁棒性和准确性之间存在固有的权衡[374379433]。同样，模型的鲁棒性和公平性保证之间也存在权衡[71]。

2.2.1. 白盒躲避攻击

在白盒威胁模型中，攻击者完全了解模型架构和参数，如第2.1.4节所述。在这种情况下创建对抗性示例的主要挑战是找到添加到测试样本中的扰动，该扰动会改变其分类标签，通常对扰动的可感知性或大小等属性有约束。在白盒威胁模型中，通常通过解决从攻击者角度编写的优化问题来制作对抗性示例，该问题指定了优化的目标函数（例如将目标标签更改为某个类），以及一个距离度量来衡量测试样本和对抗性示例之间的相似性。

基于优化的方法（Optimization-based methods）。Szedegy等人[362]和Biggio等人[38]独立提出了使用优化技术来生成对抗性示例。在他们的威胁模型中，允许对手检查整个ML模型，并计算相对于模型损失函数的梯度。这些攻击可以是有针对性的（即，对抗性示例的类由攻击者选择），也可以是无目标的（即对抗性示例被错误分类为任何其他不正确的类）。

Szedegy等人[362]创造了广泛使用的术语对抗性例子。他们考虑了一个目标，即在模型预测变为目标类别的情况下，最小化扰动的“ 规范”。使用有限记忆Broyden-Fletcher-Goldfarb-Shanno（L-BFGS）方法求解优化问题。Biggio等人[38]考虑了使用具有连续和可微分判别函数的恶意和良性类设置二元分类器。优化的目标是最小化判别函数，以生成最大置信度的对抗性示例。

Biggio等人[38]将他们的方法应用于线性分类器、内核SVM和多层感知器，而Szedegy等人[362]则证明了用于图像分类的深度学习模型上存在对抗性示例。Goodfellow等人[144]介绍了一种生成深度学习对抗性示例的有效方法：快速梯度符号法（FGSM），该方法执行梯度下降的单次迭代来解决优化问题。Kurakin等人[200]已将该方法扩展到迭代FGSM攻击。后续工作提出了优化对抗性示例生成的新目标和方法，目标是最小化扰动并支持多个距离度量。一些值得注意的攻击包括：

DeepFool是一种针对“ 规范”的无目标逃避攻击，它使用神经网络的线性近似来构建对抗性示例[257]。

Carlini Wagner攻击使用多个目标，最大限度地减少目标类别的损失或对数，以及对抗性示例与原始样本之间的距离。攻击通过惩罚方法[65]进行优化，并考虑三个距离度量来衡量对抗示例的扰动：“ ”和“ ”。这次攻击对防御蒸馏防御是有效的[284]。

投影梯度下降（PGD）攻击[232]将损失函数最小化，并在每次梯度下降迭代时将对抗示例投影到允许的扰动空间。PGD可以应用于“ ”和“ ”距离度量，以测量对抗示例的扰动。

普遍的逃避攻击（Universal evasion attacks）。Moosavi Dezbulli等人[256]展示了如何构建小的普遍扰动（相对于某些规范），这些扰动可以添加到大多数图像中并导致误分类。他们的技术依赖于使用从数据分布中采样的一组点对通用扰动进行连续优化。是一种功能性攻击。一个有趣的观察结果是，普遍扰动在深度网络架构中普遍存在，这表明不同模型为同一任务训练的决策边界具有相似性。

物理上可实现的攻击（Physically realizable attacks）。这些是针对机器学习系统的攻击，可以在物理世界中实现[21200227]。最早的例子之一是Sharif等人对面部识别系统的攻击[332]。这种攻击可以通过打印一副眼镜架来实现，这会误导面部识别系统逃避检测或冒充另一个人。Eykholt等人[122]提出了一种在不同条件下产生鲁棒扰动的攻击，从而产生了可以在各种物理环境中躲避视觉分类器的对抗性示例。该攻击通过在道路标志上物理粘贴黑白贴纸来躲避道路标志检测分类器。ShapeShifter[81]攻击旨在规避对象检测器，这是一个比攻击图像分类器更具挑战性的问题，因为攻击者需要在多个不同尺度的边界框中规避分类。这种攻击还要求扰动足够强大，以在由于不同的观看距离、角度、照明条件和相机限制而导致的现实世界失真中生存下来。

其他数据模式（Other data modalities）。在计算机视觉应用中，对抗性示例通常被设计为人类无法察觉。因此，攻击者引入的扰动需要很小，以便人类正确识别图像，而ML分类器则被欺骗改变其预测。或者，图像中可能存在一个触发对象，该对象对人类仍然不可察觉或无害，但会导致模型分类错误。对抗性示例的概念已扩展到其他领域，如音频、视频、NLP和网络安全。在其中一些设置中，对抗性示例需要遵守额外的约束，例如NLP中的文本语义和网络安全中的应用约束。几部代表性作品包括：

音频：Carlini和Wagner[66]对从语音生成文本的模型进行了有针对性的攻击。它们可以生成与现有波形非常相似的音频波形，但可以转录为攻击者选择的任何文本。

视频：针对视频分类模型的对抗性规避攻击可分为扰乱少量视频帧的稀疏攻击[401]和扰乱视频中所有帧的密集攻击[215]。攻击者的目标是更改视频的分类标签。

文本：贾和梁[185]开发了一种生成对抗性文本示例的方法。这项开创性工作之后，在开发针对自然语言处理（NLP）模型的对抗性攻击方面取得了许多进展（见关于该主题的综合调查[438]）。La Malfa和Kwiatkowska[202]通过引入语义鲁棒性的概念，提出了一种在NLP中形式化扰动定义的方法。NLP的主要挑战是领域是离散的而不是连续的（例如，图像、音频和视频分类），对抗性示例需要尊重文本语义。最近针对聊天机器人的ASCII艺术攻击 [186]说明了这些挑战。一个禁止术语的ASCII艺术插图诱使聊天机器人提供有害信息，即使聊天机器人正确审查了简单的英语单词。两个提示之间的语义距离恰好为零，这两个提示应该被同等对待。

网络安全：在网络安全应用中，对抗性示例必须尊重网络数据的应用语义和特征表示所施加的约束，如网络流量或程序二进制文件。FENCE是一个通用框架，用于在离散域中使用梯度优化来制作白盒规避攻击，并支持一系列线性和统计特征依赖关系[88]。FENCE已应用于两个网络安全应用：恶意域检测和恶意网络流量分类。Sheatsley等人[334]提出了一种方法，该方法使用形式逻辑学习特征空间中的约束，并通过将其投影到符合约束的空间上来制作对抗性示例。他们将该技术应用于网络入侵检测和钓鱼分类器。两篇论文都指出，来自连续域的攻击不能轻易应用于受限环境，因为它们会导致不可行的对抗示例。Pierazzi等人[295]讨论了由于特征空间的限制以及将攻击从特征空间映射到问题空间的挑战，在网络安全中实施可行的规避攻击的难度。他们在问题空间中正式化了规避攻击，并为Android恶意软件构建了可行的对抗示例。

2.2.2. 黑盒躲避攻击[NISTAML.025]

黑盒规避攻击是在一个现实的对抗模型下设计的，在这个模型中，攻击者对模型架构或训练数据没有先验知识。相反，对手可以通过查询各种数据样本并获得模型的预测来与训练好的机器学习模型进行交互。公共云提供商提供的MLaaS提供了类似的API，用户可以在其中获得模型对选定查询的预测，而无需了解模型是如何训练的。文献中有两类主要的黑箱规避攻击：

基于分数的攻击（Score-based attacks）：在这种情况下，攻击者可以获得模型的置信度分数或对数，并可以使用各种优化技术来创建对抗性示例。一种流行的方法是零阶优化，它在不显式计算导数的情况下估计模型的梯度[80173]。其他优化技术包括离散优化[254]、自然进化策略[172]和随机游走[262]。

基于决策的攻击（Decision-based attacks）：在这种更严格的设置中，攻击者只获得模型的最终预测标签。生成规避攻击的第一种方法是基于沿决策边界随机游走和拒绝采样的边界攻击[47]，该方法通过改进的梯度估计进行了扩展，以减少HopSkipJumpAck[79]中的查询数量。最近，几种优化方法搜索最近决策边界的方向（例如OPT攻击[86]），使用符号SGD而不是二分搜索（例如符号OPT攻击[77]），或使用贝叶斯优化[344]。

在黑盒设置中创建对抗性示例的主要挑战是减少对ML模型的查询数量。最近的技术可以通过相对较少的查询成功避开ML分类器，通常少于1000[344]。

2.2.3. 攻击的可转移性

在限制性威胁模型下生成对抗性攻击的另一种方法涉及转移在不同机器学习模型上构建的攻击。通常，攻击者训练一个替代的机器学习模型，对替代模型生成白盒对抗攻击，并将攻击转移到目标模型。各种方法在训练替代模型的方式上有所不同。例如，Papernot等人[282283]使用对目标模型的基于分数的查询来训练替代模型，而几篇论文在没有明确查询目标模型的情况下训练了一组模型[218377397]。

攻击可转移性是一个有趣的现象，现有文献试图理解对抗性例子在模型之间转移的根本原因。几篇论文观察到，不同的模型在良性和对抗性维度上学习交叉决策边界，这导致了更好的可转移性[144256377]。Demontis等人[104]确定了两个主要因素，这两个因素导致了逃避和中毒的攻击可转移性：目标模型的内在对抗脆弱性和用于优化攻击的代理模型的复杂性。期望过度转换旨在使对抗性示例维持现实世界中发生的图像转换，例如角度和视点变化[21]。

2.2.4. 现实世界中的躲避攻击

虽然本节讨论的许多攻击仅在研究环境中进行了演示，但现实世界中已经演示了几种规避攻击，我们讨论了人脸识别系统、钓鱼网页检测和恶意软件分类中的突出实例。

用于身份验证的人脸识别系统一直是对抗性规避攻击的目标，因为它们构成了关键系统的入口，使用户能够进行金融欺诈。在2020年下半年，ID.me人脸识别服务发现，有超过80000次用户试图欺骗多个州劳动力机构使用的身份验证步骤[276]。这些攻击包括戴口罩、使用deepfakes或使用其他人的图像或视频的人。其目的是欺诈性地申领新冠肺炎救援期间提供的失业救济金。据美国联邦检察官称，2022年晚些时候，一名新泽西州男子通过ID.me验证了假驾照，这是250万美元失业欺诈计划的一部分。这一次，嫌疑人使用各种假发来躲避面部识别系统[156]。

Apruzzese等人[17]报告的另一个真实世界逃避攻击的案例研究是对商业钓鱼网页检测器的攻击。ML网络钓鱼检测器是多个模型的集成，这些模型分析图像的不同方面，以确定是否是网络钓鱼企图。模型标记为不确定的输入被分发给安全分析师。在机器学习图像分类系统标记为不确定的4600个样本中，作者确定了100个对抗性样本。有趣的是，对这些对抗性示例的手动分析表明，攻击者不采用基于优化的攻击，而是利用相对简单的方法进行规避，如图像裁剪、掩蔽或模糊技术。

研究人员在恶意软件分类中展示的其他逃避攻击示例在MITRE人工智能系统对抗威胁景观（ATLAS）知识库中进行了编目[248]。Palo Alto Networks报告了针对恶意软件命令和控制流量的深度学习检测器以及僵尸网络域生成算法（DGA）检测器的规避攻击。针对Cylance的AI恶意软件检测模型发现了一个通用规避攻击的实例。研究人员还通过训练影子机器学习模型并利用其见解攻击真实系统，从而避开了ProofPoint的电子邮件保护系统。这些是研究人员规避漏洞的证明，但并没有导致在野攻击（in attacks in the wild）。

2.2.5. 缓解措施

缓解规避攻击具有挑战性，因为对抗性示例在各种机器学习模型架构和应用程序领域中都很普遍。对抗性例子存在的可能解释是，机器学习模型依赖于非鲁棒特征，这些特征在计算机视觉领域与人类感知不一致[174]。在过去的几年里，许多针对对抗性例子提出的缓解措施对更强的攻击无效。此外，几篇论文进行了广泛的评估，并击败了大量提出的缓解措施：

Carlini和Wagner展示了如何绕过10种检测对抗性例子的方法，并描述了评估防御的几个指南[64]。最近的工作表明，检测对抗性例子和建立防御一样困难[373]。因此，这种减轻对抗性例子的方向与设计防御同样具有挑战性。

混淆梯度攻击（Obfuscated Gradients Attack）[20]：这种攻击专门设计用于击败那些依赖于掩盖梯度来抵御基于优化的攻击的防御措施。它依赖于一种新技术，即反向传播可微分近似（Backward Pass Differentiable Approximation），该技术在反向传播的反向过程中近似梯度，并被证明可以绕过几种基于梯度掩盖的防御措施。

Tramèr等人[375]描述了一种针对拟议防御设计自适应攻击的方法，并绕过了13种现有防御。他们主张设计自适应攻击来测试新提出的防御措施，而不仅仅是测试针对众所周知的攻击的防御措施。

从针对对抗性规避攻击的各种拟议防御措施中，有三类已被证明具有弹性，并有可能缓解规避攻击：

1.对抗训练（Adversarial training）：由Goodfellow等人[144]提出，并由Madry等人[232]进一步发展，对抗训练是一种通用方法，它使用训练过程中迭代生成的对抗示例来增强训练数据，并使用正确的标签。生成对抗性示例的对抗性攻击越强，训练的模型就越有弹性。对抗性训练产生的模型比标准模型具有更多的语义意义[379]，但这种好处通常是以降低模型在干净数据上的准确性为代价的。此外，由于训练过程中需要迭代生成对抗性示例，对抗性训练的成本很高。

2.随机平滑（Randomized smoothing）：由Lecuyer等人[207]提出，并由Cohen等人[94]进一步改进，随机平滑是一种通过在高斯噪声扰动下产生最可能的预测，将任何分类器转换为可证明的鲁棒平滑分类器的方法。这种方法对“ 逃避攻击”具有可证明的鲁棒性，即使对于在大规模数据集（如ImageNet）上训练的分类器也是如此。随机平滑通常为测试样本的子集提供经过认证的预测，其确切数量取决于潜在扰动的大小或训练数据和模型的特征等因素。最近的结果通过结合预训练的去噪扩散概率模型和标准的高精度分类器，将认证对抗鲁棒性的概念扩展到“ 规范有界扰动”[62]。Li等人[211]开发了一种用于代表性算法的鲁棒性验证和训练的分类法。他们还揭示了这些方法的特点、优势、局限性和基本联系，以及该领域面临的理论障碍。

3.形式验证（Formal verification）：基于形式方法的另一种证明神经网络对抗鲁棒性的技术。Reluplex使用可满足模理论（SMT）求解器来验证小型前馈神经网络的鲁棒性[191]。AI2是第一种适用于使用抽象解释技术的卷积神经网络的验证方法[136]。这些方法已在后续验证系统中扩展并扩展到更大的网络，如DeepPoly[346]、ReluVal[394]和快速几何投影（FGP）[131]。形式化验证技术在证明神经网络鲁棒性方面具有巨大的潜力，但受到其缺乏可扩展性、计算成本和支持的代数运算类型（如加法、乘法等）限制的限制。

所有这些提出的缓解措施都表现出鲁棒性和准确性之间的内在权衡，并且在训练过程中会带来额外的计算成本。因此，设计在保持准确性的同时抵抗逃避的机器学习模型仍然是一个悬而未决的问题。有关这些权衡的进一步讨论，请参阅第4.1.1节。

2.3. 中毒攻击和缓解措施

中毒攻击被广泛定义为ML算法训练阶段的对抗性攻击。第一次已知的中毒攻击是在2006年为蠕虫特征生成而开发的[291]。从那时起，中毒攻击在几个应用领域得到了广泛的研究：计算机安全（用于垃圾邮件检测[269]、网络入侵检测[384]、漏洞预测[318]、恶意软件分类[329412]）、计算机视觉[137148330]、NLP[82213388]以及医疗保健和金融领域的表格数据[179]。最近，中毒攻击在工业应用中也受到了更多的关注[199]。它们甚至可以大规模地进行编排，以便财力有限的对手可以控制用于模型训练的一小部分公共数据集[57]。

中毒攻击非常强大，可能会导致可用性或完整性破坏。可用性中毒攻击通常会导致所有样本上的ML模型不加选择地退化，而有针对性的后门中毒攻击会导致一小部分目标样本的完整性破坏。中毒攻击利用了广泛的对抗能力（例如，数据中毒、模型中毒、标签控制、源代码控制和测试数据控制），导致了中毒攻击的几个子类别。它们是在白盒[40179412]、灰盒[179]和黑盒设置[39]中开发的。

本节描述了根据对抗目标分类的可用性中毒、目标中毒、后门中毒和模型中毒攻击。对于每种中毒攻击类别，还讨论了发动攻击的技术、现有的缓解措施及其局限性。本文档中中毒攻击的分类受到Cinà等人[91]开发的框架的启发，其中包括对中毒攻击和缓解措施的额外参考。

2.3.1. 可用性中毒[NISTAML.013]

网络安全应用程序中发现的第一个中毒攻击是针对蠕虫签名生成和垃圾邮件分类器的可用性攻击，这些攻击不加选择地降低了整个机器学习模型的性能，以有效防止其使用。Perdisci等人[291] 生成带有伪造不变量的可疑流量，以误导Polygraph 中的蠕虫签名生成算法 [270]。Nelson等人[269]通过生成包含合法电子邮件中出现的长序列单词的“垃圾邮件”训练样本，设计了针对基于贝叶斯的垃圾邮件分类器的中毒攻击，通过诱导更高的误报率来降低垃圾邮件分类器的性能。这两种攻击都是在白盒设置下进行的，对手知道机器学习训练算法、特征表示、训练数据集和机器学习模型。对于检测针对工业控制系统的网络安全攻击的基于机器学习的系统，也有人提出了可用性中毒攻击：此类检测器通常会使用系统运行期间收集的数据进行重新训练，以解释所监测信号的工厂运行漂移，为攻击者在训练时模仿损坏的传感器的信号以毒害检测器创造机会，从而在部署时无法检测到真正的攻击[198]。

一种简单的黑盒中毒攻击策略是标签翻转，其中对手生成带有不正确或更改标签的训练示例[39]。这种方法可能需要大量的中毒样本来发起可用性攻击。这些攻击也可以通过基于优化的方法来制定，例如通过求解双层优化问题来确定将实现对抗目标的最佳中毒样本（即，最大化SVM的铰链损失[40]或最大化回归的均方误差[MSE][179]）。针对线性回归[179]和神经网络[260]设计了类似的基于优化的可用性中毒攻击，尽管这些基于优化的攻击可能需要白盒访问模型和训练数据。在灰箱对抗设置中，生成可用性中毒攻击的最流行方法是可转移性，其中为代理模型生成中毒样本并将其转移到目标模型[104358]。

清洁标签中毒[NISTAML.012]。监督学习的一个现实威胁模型是干净标签中毒攻击，在这种攻击中，对手只能控制训练示例，而不能控制它们的标签。这种情况可能出现在标签生成过程与训练算法分离的场景中，例如在恶意软件分类中，攻击者可以将二进制文件提交到威胁情报平台，而标签生成则是通过杀毒软件签名或其他外部方法完成的。通过训练生成模型并在训练样本中添加噪声以最大化对抗目标，神经网络分类器引入了清洁标签可用性攻击[128]。清洁标签中毒的另一种方法是使用梯度对齐并最小限度地修改训练数据[129]。

可用性中毒攻击也被设计用于针对基于质心的异常检测的无监督学习[195]和恶意软件的行为聚类[41]。在联合学习中，对手可以发起模型中毒攻击，以诱导全局训练模型中的可用性违规[123353336]。第2.3节提供了有关模型中毒攻击的更多详细信息。

缓解措施。可用性中毒攻击通常可以通过监测机器学习模型的标准性能指标（如精度、召回率、准确性、F1分数和曲线下面积）来检测，因为它们会导致分类器指标的大幅下降。然而，在机器学习的测试或部署阶段检测这些攻击可能不太理想，许多现有的缓解措施旨在在训练阶段主动预防这些攻击，以生成健壮的机器学习模型。现有的可用性中毒攻击缓解措施包括：

训练数据净化：这些方法利用了中毒样本通常与不受对手控制的常规训练样本不同的洞察力。因此，数据净化技术旨在执行ML训练之前清理训练集并删除中毒样本。Cretu等人[96]提出了第一个针对未标记数据集的净化程序，该程序依赖于在训练集子集上训练多个模型的多数投票（majority voting）。他们将该方法应用于网络数据包的异常检测。Nelson等人[269]介绍了非感兴趣区域（RONI）方法，该方法检查每个样本，如果添加样本时模型的准确性降低，则将其排除在训练之外。随后提出的净化方法通过降低计算复杂度和考虑其他应用来改进这些早期方法。Paudite等人[289]介绍了一种专门针对标签翻转攻击设计的标签清洁方法。Steinhardt等人[354]提出了使用异常检测方法来识别中毒样本。聚类方法也被用于检测中毒样本[20363]。其他研究表明，计算多个机器学习模型集成的预测方差是网络入侵检测的有效数据净化方法[384]。一旦经过净化，数据集可能会受到来源和完整性认证的网络安全机制的保护[267]。

鲁棒训练：减轻可用性中毒攻击的另一种方法是修改ML训练算法，以提高所得模型的鲁棒性。防御者可以训练多个模型的集合，并通过模型投票生成预测[37209395]。几篇论文应用了鲁棒优化的技术，例如使用修剪损失函数[109179]。Rosenfeld等人[314]提出在训练过程中使用随机平滑来添加噪声，以提供对标签翻转攻击的保护。

2.3.2. 靶向中毒[NISTAML.024]

与可用性攻击相反，有针对性的中毒攻击会导致ML模型对少数目标样本的预测发生变化。如果对手可以控制训练数据的标签功能，那么标签翻转就是一种有效的有针对性的中毒攻击：对手只需插入几个带有目标标签的中毒样本，模型就会学习到错误的标签。因此，针对性中毒攻击大多在干净的标签设置中进行研究，在这种设置中，攻击者无法控制训练数据标签。

已经提出了几种安装干净标签目标攻击的技术。Koh和Liang[196]展示了如何利用影响函数（即一种确定预测中最有影响力的训练样本的统计方法）在微调设置中创建中毒样本，其中预训练模型在新数据上进行微调。Suciu等人[358]设计了StingRay，这是一种有针对性的中毒攻击，可以修改特征空间中的样本，并将中毒样本添加到每个小批量训练中。Shafahi等人[330]设计了一种基于特征碰撞的优化程序，以生成干净的标签定向中毒，用于微调和端到端学习。ConverxPolytope[444]和BullseyePolytope[4]针对集成模型优化了中毒样本，这为攻击转移提供了更好的优势。MetaPoison[166]使用元学习算法来优化中毒样本，而Witches’Brew[137]则通过梯度对齐进行优化，从而实现了最先进的有针对性的中毒攻击。

所有上述攻击都会影响攻击者在训练过程中选择的一小部分目标样本，并且它们只针对连续的图像数据集进行了测试（StingRay除外，它需要对训练集的很大一部分进行对抗性控制）。亚群中毒攻击 [180]旨在毒害整个亚群的样本，通过匹配特征子集或在表示空间中创建聚类来定义。中毒样本是使用标签翻转（用于NLP和表格模态）或一阶优化方法（用于连续数据，如图像）生成的。该攻击可推广到亚群中的所有样本，并且需要对ML模型的最少了解以及与亚群大小成比例的少量中毒样本。

半监督学习算法[53]也引入了有针对性的中毒攻击，如MixMatch[34]、FixMatch[347]和无监督数据增强（UDA）[413]，其中对手会毒害一小部分未标记的训练数据集，以改变部署时对目标样本的预测。

缓解措施。众所周知，有针对性的中毒袭击很难防御。Jagielski等人[180]表明，亚群中毒攻击的一个不可能性结果。为了减轻与此类攻击相关的一些风险，模型开发人员可以通过传统的网络安全措施来保护训练数据，如访问控制、使用数据净化和验证方法，以及使用数据集来源和完整性证明机制[267]。Ma等人[230]提出使用差分隐私（DP）作为防御（直接来自差分隐私的定义），但差分私有机器学习模型的准确性也可能低于标准模型，在每个应用中都需要考虑鲁棒性和准确性之间的权衡。关于可信人工智能系统属性之间权衡的进一步讨论，请参阅第4.1.1节。

2.3.3. 后门中毒[NISTAML.021、NISTAML.023]

后门中毒攻击是指导致目标模型对包含特定后门模式或触发器的样本进行错误分类的中毒攻击。2017年，顾等人[148]提出了BadNets，这是第一次后门中毒攻击。他们观察到，在训练时在图像的一个子集中添加一个小补丁触发器，并将其标签更改为目标类，可以毒害图像分类器。分类器学习将触发器与目标类相关联，在测试时，任何包含触发器或后门模式的图像都会被误分类为目标类。同时，Chen等人[84]引入了后门攻击，其中触发器被混合到训练数据中。后续工作引入了干净标签后门攻击的概念[380]，其中对手无法更改中毒示例的标签。清洁标签攻击通常需要更多的中毒样本才能有效，但攻击模型更现实。

在过去的几年里，后门攻击变得更加复杂和隐蔽，使其更难被发现和减轻。潜在的后门攻击被设计为即使在使用干净数据对最后几层进行模型微调的情况下也能生存[420]。后门生成网络（BaN）[322]是一种动态后门攻击，其中触发器在中毒样本中的位置会发生变化，从而使模型以位置不变的方式学习触发器。功能触发器（即功能攻击）嵌入整个图像或根据输入而变化。Li等人使用隐写算法将触发器隐藏在训练数据中[214]，并引入了一种干净的标签攻击，该攻击使用图像上的自然反射作为后门触发器[223]。Wenger等人[404]通过使用物理对象作为触发器，如太阳镜和耳环，毒害了面部识别系统。架构后门攻击[205]在ML模型的训练阶段对其结构进行恶意修改，这使得攻击者在遇到特定触发器时能够操纵模型的行为。这些攻击需要对抗性地访问模型设计或训练环境，并且适用于将模型训练外包给更强大的实体（如云服务）的情况。

其他数据模式。虽然大多数后门中毒攻击是为计算机视觉应用程序设计的，但这种攻击向量在具有不同数据模式的其他应用领域（如音频、NLP和网络安全设置）中有效。

音频：在音频领域，Shi等人[341]展示了对手如何将不可察觉的音频触发器注入实时语音中，并在训练过程中与目标模型联合优化。

NLP：在NLP中，由于文本数据是离散的，因此构建有意义的中毒样本更具挑战性，句子的语义意义最好能被保留下来，使攻击保持不可察觉。最近的研究表明，NLP领域的后门攻击正变得可行。例如，Chen等人[82]在字符、单词和句子级别引入了语义保留后门，用于情感分析和神经机器翻译应用。Li等人[213]在三个NLP任务中使用生成语言模型生成针对变换器模型的隐藏后门：有毒评论检测、神经机器翻译和问题回答。

网络安全：在早期关于网络安全中毒的研究[269291]之后，Severi等人[329]展示了如何利用人工智能可解释性技术生成针对恶意软件分类器的小触发器的干净标签中毒攻击。他们使用三个恶意软件数据集攻击了多个模型（即神经网络、梯度增强、随机森林和SVM）：Ember用于Windows PE文件分类，Contagio用于PDF文件分类，DREBIN用于Android应用程序分类。Jigsaw Puzzle[418]为Android恶意软件分类器设计了一种后门中毒攻击，该分类器使用从良性代码中获取的可实现软件触发器。

缓解措施。与其他中毒攻击相比，关于后门攻击缓解的文献非常丰富。下面我们讨论了几类防御，包括数据净化、触发器重建和模型检查和净化，我们还提到了它们的局限性。

训练数据净化：与中毒可用性攻击类似，训练数据净化可用于检测后门中毒攻击。例如，潜在特征空间[157293378]中的异常检测对于用于计算机视觉应用的卷积神经网络是有效的。激活聚类[76]在表示空间中对训练数据进行聚类，以将后门样本隔离在单独的聚类中。当中毒攻击控制了相对较大比例的训练数据，但对隐形中毒攻击的效果不佳时，数据净化会取得更好的结果。总体而言，这导致了攻击成功与恶意样本可检测性之间的权衡。

触发器重建：这类缓解措施旨在重建后门触发器，假设它位于中毒训练样本中的固定位置。Wang等人[390]的NeuralCleanse开发了第一种触发重建方法，并使用优化来确定最有可能对测试样本进行可靠错误分类的后门模式。初始技术经过改进后可以减少几个类的性能时间，同时支持插入模型中的多个触发器[163411]。这类中的一个代表性系统是Liu等人[221]的人工脑模拟（ABS），它刺激多个神经元并测量激活情况以重建触发模式。Khaddaj等人[193]开发了一种新的用于检测后门攻击的原语，以及一种相应的具有理论保证的有效检测算法。

模型检查和净化：模型检查在部署之前分析训练好的机器学习模型，以确定它是否中毒。该领域的早期工作是NeuronInspect[168]，它基于可解释性方法来确定随后用于异常检测的干净模型和后门模型之间的不同特征。DeepInspect[78]使用条件生成模型来学习触发模式的概率分布，并执行模型修补以删除触发。Xu等人[416]提出了元神经木马检测（MNTD）框架，该框架训练元分类器来预测给定的机器学习模型是否存在后门（或作者术语中的“木马”）。这种技术是通用的，可以应用于多种数据模式，如视觉、语音、表格数据和NLP。一旦检测到后门，可以通过修剪[407]、重新训练[429]或微调[217]来执行模型净化，以恢复模型的准确性。

认证防御：文献中提出了几种实现数据中毒攻击认证防御的方法。BagFlip[440]是一种与模型无关的防御方法，它扩展了随机平滑[94]，并将训练数据打包与向训练和测试样本中添加噪声相结合。深度分区聚合[209]和深度有限聚合[396]是经过认证的防御措施，它们将训练数据划分为不相交的子集，并在每个分区上训练集成方法，以减少中毒样本的影响。最近，FCert[398]提供了一种经过认证的防御措施，可以在用于视觉和文本数据的少数镜头分类设置中防止数据中毒。

这些缓解措施大多是针对基于卷积神经网络的计算机视觉分类器而设计的，这些分类器使用具有固定触发模式的后门。Severi等人[329]表明，一些数据净化技术（例如光谱签名[378]和激活聚类[76]）对恶意软件分类器上的干净标签后门中毒无效。最近的语义和功能后门触发器也将对基于触发器重建或模型检查的方法构成挑战，这些方法通常假设固定的后门模式。使用元分类器预测特洛伊模型的局限性[416]是元分类器训练阶段的高计算复杂性，这需要训练数千个SHADOW模型。需要进行额外的研究，以设计强大的后门缓解策略，在不受这些限制的情况下，保护ML模型免受这种重要的攻击向量的攻击。

在网络安全领域，Rubinstein等人[315]提出了一种基于主成分分析（PCA）的方法，以减轻骨干网络中针对PCA子空间异常检测方法的中毒攻击。它最大化中值绝对偏差（MAD）而不是方差来计算主成分，并使用基于拉普拉斯分布而不是高斯分布的阈值。Madani和Vlajic[231]构建了一个基于自动编码器的入侵检测系统，假设恶意中毒攻击实例低于2%。

[193]提供了一个关于后门缓解的不同视角，表明如果不对攻击做出额外的假设，后门与数据中自然出现的特征是无法区分的。然而，假设后门在数据中创建了最强的特征，本文提出了一种优化技术来识别和删除与后门对应的训练样本。

中毒取证[331]是一种用于根本原因分析的技术，可以识别恶意训练样本，并补充现有的缓解措施，这些措施在面对不断发展的攻击时并不总是具有弹性。中毒取证在机器学习系统中增加了另一层防御：一旦在部署时检测到中毒攻击，中毒取证就可以在训练集中追溯到攻击的来源。

2.3.4. 模型中毒[NISTAML.011、NISTAML.026]

模型中毒攻击试图直接修改训练好的机器学习模型，向其中注入恶意功能。在集中式学习中，TrojNN[222]对训练好的神经网络的触发器进行逆向工程，然后通过将触发器嵌入外部数据来对模型进行再训练。大多数模型中毒攻击都是在联邦学习设置中设计的，在这种设置中，客户端将本地模型更新发送到服务器，服务器将它们聚合到全局模型中。受损的客户端可以发送恶意更新来毒害全局模型。模型中毒攻击会导致联邦模型中的可用性和完整性破坏：

降低全局模型准确性的中毒可用性攻击是有效的，但它们通常需要很大一部分客户端处于对手的控制之下[123335]。

有针对性的模型中毒攻击会在测试时对一小部分样本造成完整性破坏。它们可以通过模型替换或模型增强攻击来挂载，在这种攻击中，受感染的客户端根据目标[23,35360]替换本地模型更新。

后门模型中毒攻击通过恶意客户端更新引入触发器，在测试时使用触发器对所有样本进行错误分类[23,35360392]。如果受感染的客户端不定期参加培训，这些后门大多会被遗忘，但如果注入利用率最低的模型参数，后门会变得更耐用[441]。

供应链模型中毒。[NISTAML.05][NISTAML.051]在供应商提供的模型或模型组件被恶意代码毒害的供应链场景中，也可能发生模型中毒攻击。Dropout Attack[425]是最近的一次供应链攻击，它表明了操纵神经网络训练中使用的随机性（特别是在Dropout正则化中）的对手如何毒害模型，以降低一组目标类的准确性、精确度或召回率。有关适用于PredAI模型的GenAI模型的供应链风险的更多讨论，请参阅供应链攻击和缓解措施。

缓解措施。已经设计和评估了各种拜占庭弹性聚合规则，以保护联邦学习免受模型中毒攻击。他们中的大多数人在服务器上执行聚合时试图识别和排除恶意更新[8，43，51，149，242–244，359，423]。然而，有动机的对手可以通过向攻击生成优化问题添加约束来绕过这些防御[2312335]。梯度裁剪和差分隐私有可能在一定程度上减轻模型中毒攻击[23271360]，但它们通常会降低准确性，并且不能提供完全的缓解。

对于特定的模型中毒漏洞，如后门攻击，有一些模型检查和净化技术（见第2.3.3节）。然而，减轻对手可能控制训练算法源代码或机器学习超参数的供应链攻击仍然具有挑战性。其他领域中使用的程序验证技术（例如，密码协议验证[299]）可能适用于此设置，但ML算法具有内在的随机性和非确定性行为，这增加了验证的难度。

设计在供应链模型中毒漏洞面前具有鲁棒性的机器学习模型是一个关键的开放问题。

2.3.5. 现实世界中的中毒袭击

由于中毒攻击需要对抗性地控制机器学习训练过程，因此很难在现实世界中实施。尽管如此，仍有一些针对早期人工智能聊天机器人、垃圾邮件过滤器和恶意软件分类服务的真实中毒攻击案例。

现实世界中毒攻击的第一个例子是Tay。AI聊天机器人，微软于2016年在推特上发布的聊天机器人[272]。在与用户在线互动不到24小时后，聊天机器人被毒死并立即被删除。大约在同一时间，有几次大规模的行动破坏了谷歌的Gmail垃圾邮件过滤器，攻击者发送了数百万封电子邮件，试图毒害Gmail垃圾邮件分类器算法，使他们能够发送其他恶意电子邮件而不被发现[272]。MITRE ATLAS报告了VirusTotal威胁情报服务的中毒事件，其中通过流行的病毒共享平台提交了类似但不完全相同的勒索软件家族样本，导致该特定勒索软件家族的错误分类[248]。

这些事件突显了与在线学习相关的风险，就像Tay一样。AI聊天机器人根据用户交互实时更新，Gmail垃圾邮件过滤器和VirusTotal恶意软件分类系统根据新收到的样本不断更新。在所有这些事件中，攻击者在初始模型发布后制作了中毒样本，并指望模型会不断更新。

2.4. 隐私攻击和缓解[NISTAML.03]

Dinur和Nissim的开创性工作[110]引入了数据重建攻击，该攻击试图对个人用户记录或其他敏感输入数据的私人信息进行逆向工程，以访问经过训练的模型。最近，已经为二元和多类神经网络分类器设计了数据重建攻击[50152]。使用成员推断攻击（MEMBERSHIP-INFIENCE ATTACK），对手可以确定特定记录是否包含在用于训练ML模型的数据集中。Homer等人[162]首次针对基因组数据引入了成员推断攻击。最近的文献主要关注在黑盒环境中对机器学习模型的成员攻击，在这种环境中，对手可以对训练好的机器学习模型进行查询访问[54342422]。属性推断攻击[19，74，134，233，361，437]旨在提取关于训练数据集的全局信息，例如具有特定敏感属性的训练示例的分数。MLaaS的另一种隐私侵犯是模型提取攻击，该攻击旨在提取有关ML模型的信息，如其架构或模型参数 [58,70177376]。

本节讨论了与数据重建、训练数据的记忆、成员推理、属性推理和模型提取相关的隐私攻击，以及其中一些攻击的缓解措施和设计通用缓解策略时的未决问题。

2.4.1. 数据重建[NISTAML.032]

数据重建攻击具有从发布的聚合信息中恢复个人数据的能力。Dinur和Nissim[110]是第一个引入从线性统计中恢复用户数据的重建攻击的人。他们最初的攻击需要指数数量的查询来进行重建，但后续的工作已经展示了如何使用多项式数量的查询进行重建[116]。Dwork等人[114]对隐私攻击（包括重建攻击）进行了调查。最近，美国人口普查局对人口普查数据遭受数据重建攻击的风险进行了大规模研究[135]，这促使在2020年每十年发布一次的美国人口普查中使用差异隐私。

在ML分类器的背景下，Fredrickson等人[130]引入了模型反转攻击，从ML模型的训练数据中重建类代表。虽然模型反演生成的图像在语义上与训练集中的图像相似，但它不能直接重建模型的训练数据。最近，Balle等人[26]训练了一个重建器网络，该网络可以从神经网络模型中恢复数据样本，假设一个强大的对手拥有所有其他训练样本的信息。Haim等人[152]展示了如何通过利用神经网络中隐式偏差的理论见解，从模型参数的访问中重建二元神经网络分类器的训练数据。这项工作最近被扩展到重建多类多层感知器分类器的训练样本[50]。属性推断是另一种相关的隐私攻击，其中攻击者提取训练集的敏感属性，假设对训练数据中的其他特征有部分了解[184]。

神经网络记忆训练数据的趋势部分解释了重建训练样本的能力。Zhang等人[431]讨论了神经网络如何记忆随机选择的数据集。Feldman[126]表明，记忆训练标签对于在ML中实现几乎最优的泛化误差是必要的。Brown等人[48]基于下一个符号预测和聚类标记构建了两个学习任务，其中需要记忆才能实现高精度学习。Feldman和Zhang使用影响估计方法实证评估了记忆对泛化的益处[127]。第3.3.2节讨论了数据重建攻击及其与生成人工智能记忆的关系。

2.4.2. 成员推断[NISTAML.033]

成员推断攻击可能会暴露个人的私人信息，如重建或记忆攻击，在发布聚合信息或基于用户数据训练的机器学习模型时非常值得关注。在某些情况下，确定一个人是训练集的一部分已经涉及隐私问题，例如在对罕见疾病患者的医学研究中。此外，成员推断可以用作发起数据提取攻击的构建块[59,63]。在成员推断中，攻击者的目标是确定特定记录或数据样本是否是用于统计或机器学习算法的训练数据集的一部分。Homer等人[162]引入了这些攻击，用于在名称追踪攻击下对基因组数据进行统计计算。当对手获得关于数据集的噪声统计信息时，已经分析了鲁棒的跟踪攻击[115]。在过去的五年里，文献中使用了术语成员推断来攻击机器学习模型。文献中的大多数攻击都是针对用于分类的深度神经网络进行的[54,89208342421422]。与AML中的其他攻击类似，成员推断可以在白盒设置[208264317]中执行，其中攻击者知道模型的架构和参数，但大多数攻击都是为黑盒设置开发的，其中对手对训练好的ML模型生成查询[54,89342421422]。

攻击者在成员资格推断中的成功已通过一个受密码启发的隐私游戏正式定义，在该游戏中，攻击者与挑战者互动，并需要确定目标样本是否用于训练查询的ML模型[183321422]。在挂载成员推断攻击的技术方面，Yeom等人[422]的基于损失的攻击是最有效和最广泛使用的方法之一。利用ML模型将训练样本的损失最小化的知识，如果目标样本的损失低于固定阈值（选择为训练样本的平均损失），则攻击确定该目标样本是训练的一部分。Sablayrolles等人[317]通过使用每个示例的阈值来缩放损失，从而改进了基于损失的攻击。Shokri等人[342]引入的另一种流行技术是影子模型，它在训练集内外的示例上训练元分类器，该训练集是通过在与原始模型相同的任务上训练数千个影子ML模型而获得的。这种技术通常很昂贵，虽然它可能会改进简单的基于损失的攻击，但它的计算成本很高，需要从分布中访问许多样本来训练阴影模型。这两种技术在复杂性方面处于相反的两端，但在低误报率下的精度方面表现相似[54]。

Carlini等人[54]的LiRA攻击是一种在曲线下面积（AUC）度量方面获得良好性能的中间方法，该方法训练了较少数量的影子模型，以学习训练集中和训练集外示例上的模型对数分布。使用模型logit分布是高斯分布的假设，LiRA通过估计高斯分布的均值和标准差来进行隶属度推断的假设检验。Ye等人[421]设计了一种类似的攻击，该攻击执行单侧假设检验，不对损失分布做出任何假设，但性能略低于LiRA。最近，Lopez等人[225]提出了一种更有效的隶属推断攻击，该攻击需要训练一个模型来预测受攻击模型的置信度分数分布的分位数。成员推断攻击也是在更严格的仅标签威胁模型下设计的，在该模型中，对手只能访问查询样本的预测标签[89]。

有几个公共隐私库提供成员推断攻击的实现：TensorFlow隐私库[350]和ML隐私量表[259]。

2.4.3. 属性推断[NISTAML.034]

在属性推理攻击（也称为分布推理）中，攻击者试图通过与ML模型交互来学习有关训练数据分布的全局信息。例如，攻击者可以确定训练集中具有特定敏感属性（例如，人口统计信息）的部分，这些属性可能会泄露有关训练集的潜在机密信息，而这些信息并不打算发布。

属性推断攻击由 Ateniese 等人[19]首次提出，并被形式化为一种区分游戏（distinguishing game），在这种游戏中，攻击者和挑战者分别使用敏感数据的不同比例来训练两个模型。[361]。属性推断攻击是在白盒设置中设计的，其中攻击者可以访问完整的ML模型[19134361]，在黑盒设置中，攻击者向模型发出查询并学习预测标签[233]或类概率[74437]。这些攻击已经在以下模型中得到验证：隐马尔可夫模型（Hidden Markov Model）、支持向量机（Support Vector Machines）[19]、前馈神经网络（Feedforward Neural Networks）[134, 233, 437]、卷积神经网络（Convolutional Neural Networks）[361]、联邦学习（Federated Learning）[240]、生成对抗网络（Generative Adversarial Networks）[443] 和图神经网络（Graph Neural Network）[442]。Mahloujifar等人[233]和Chaudhuri等人[74]表明，中毒感兴趣的属性可以帮助设计一种更有效的属性推断区分测试。此外，Chaudhuri等人[74]设计了一种高效的属性大小估计攻击，可以恢复感兴趣群体的确切部分。

Salem等人[321]在统一的定义框架下探讨了不同训练集推理攻击（如隶属推理、属性推理和属性推理）之间的关系。

2.4.4. 模型提取[NISTAML.031]

在MLaaS场景中，云提供商通常使用专有数据训练大型ML模型，并希望对模型架构和参数保密。攻击者执行模型提取攻击的目标是通过向MLaaS提供者训练的ML模型提交查询来提取有关模型架构和参数的信息。Tramer等人[376]展示了针对不同机器学习模型的几种在线机器学习服务的第一种模型窃取攻击，包括逻辑回归、决策树和神经网络。然而，Jagielski等人[177]已经证明，精确提取机器学习模型是不可能的。相反，可以重建一个功能等效的模型，该模型与原始模型不同，但在预测任务中实现了类似的性能。Jagielski等人[177]已经表明，即使是提取功能等效模型的较弱任务，在计算上也是难以实现的（NP难）。

文献中介绍了几种用于安装模型提取攻击的技术。第一种方法是基于深度神经网络中执行的操作的数学公式的直接提取，这允许对手通过代数计算模型权重[5817737]。第二种技术是使用学习方法进行提取。例如，主动学习[70]可以将查询引导到ML模型，以更有效地提取模型权重，强化学习可以训练一种减少查询数量的自适应策略[280]。第三种技术使用侧通道信息进行模型提取。Batina等人[29]使用电磁侧通道来恢复简单的神经网络模型，而Rakin等人[303]展示了ROWHAMMER ATTACK如何用于更复杂的卷积神经网络架构的模型提取。

模型提取通常不是最终目标，而是迈向其他攻击的一步。随着模型权重和架构的了解，攻击者可以发起更强大的攻击，这是白盒或灰盒设置的典型攻击。因此，防止模型提取可以减轻依赖于攻击者了解模型架构和权重的下游攻击。

2.4.5. 缓解措施

对聚合信息的重建攻击的发现促使了对差分隐私（DP）的严格定义[112113]，这是一个非常强的隐私定义，保证了有权访问算法输出的攻击者可以了解数据集中每个单独记录的程度。DP的原始纯定义有一个隐私参数ε（即隐私预算），它限制了有权访问算法输出的攻击者确定特定记录是否包含在数据集中的概率。DP已扩展到近似DP的概念，其中除了ε和Rènyi DP外，还包括第二个参数δ，该参数被解释为信息意外泄露的概率[246]。

DP因其几个有用的特性而被广泛采用：组隐私（即将定义扩展到k个记录不同的两个数据集）、后处理（即即使在处理输出后也会保留隐私）和组合（即如果对数据集执行多次计算，则会组合隐私）。用于统计计算的DP机制包括高斯机制[113]、拉普拉斯机制[113]和指数机制[238]。用于训练ML模型的最广泛使用的DP算法是DP-SGD[1]，最近的改进包括DP-FTRL[189]和DP矩阵分解[105]。

根据定义，DP提供了对数据重建和成员推断攻击的缓解。事实上，DP的定义立即意味着对手在发起成员推断攻击方面成功的上限。Thudi等人[369]得出了成员推断成功的严格界限。然而，DP并不能保证不受模型提取攻击，因为这种方法旨在保护训练数据，而不是模型。几篇论文报告了使用差分隐私来防止旨在提取训练集中子群体属性的属性推断攻击后的负面结果[74233]。

在实践中使用DP的主要挑战之一是设置隐私参数，以在隐私级别和所实现的效用之间实现权衡，这通常是根据ML模型的准确性来衡量的。隐私保护算法（如DP-SGD）的分析通常是最坏的情况，而且不严密，纯粹基于理论分析选择隐私参数会导致效用损失。因此，在实践中经常使用较大的隐私参数（例如，2020年美国人口普查发布的ε=19.61），而实践中获得的确切隐私很难估计。Jagielski等人[181]引入了隐私审计，目的是通过经验测量算法的实际隐私保证，并通过发起隐私攻击来确定隐私下限。许多隐私审计技术都是基于将金丝雀（合成的、易于识别的分布示例）插入训练集中，然后测量模型输出中金丝雀的存在。审计也可以通过成员推断攻击来执行[183427]，但故意插入强金丝雀可能会导致对隐私泄露的更好估计[181265]。隐私审计的最新进展包括高斯机制的更严格界限[263]和允许使用多个金丝雀来降低审计样本复杂性的严格统计方法[297]。此外，已经提出了两种通过训练单个模型进行隐私审计的有效方法：

Steinke等人[355]使用多个随机数据金丝雀，而不会产生群体隐私的成本；Andrew等人[10]使用多个随机客户端金丝雀和余弦相似性测试统计来审计用户级私有联合学习。

差分隐私提供了一个严格的隐私概念，并防止成员推断和数据重建攻击。为了实现隐私和效用之间的最佳平衡，建议使用经验隐私审计来补充私人训练算法的理论分析。

还有其他针对模型提取的缓解技术，例如将用户查询限制在模型中，检测对模型的可疑查询，或创建更健壮的架构来防止侧通道攻击。然而，这些技术可以被有动机和资源充足的攻击者绕过，应该谨慎使用。有一些实践指南可用于保护机器学习部署[69274]。一种完全不同的可能减轻用户数据隐私泄露的方法是执行机器学习，这是一种使用户能够请求从训练好的机器学习模型中删除其数据的技术。现有的机器学习技术要么是精确的（即从头开始或从某个检查点重新训练模型）[45,52]，要么是近似的（即更新模型参数以消除未学习记录的影响）[139175268]。它们在计算和隐私保证之间提供了不同的权衡，精确的忘却方法以额外的计算成本提供了更强的隐私。

原文始发于微信公众号（老烦的草根安全观）：对抗性机器学习-攻击和缓解的分类和术语（二）

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

对抗性机器学习-攻击和缓解的分类和术语（二）

复旦大学 | HoneypotNet：针对模型提取的后门攻击

AI安全 | 利用Agent-2-Agent协议中的代理卡来获取控制权

三分之一的AI代码未经审核便进入生产环境

人脸安全之图生视频ai模型

南方科技大学 | Set-level Guidance Attack: 提升视觉语言预训练模型的对抗迁移性

适合AI系统的访问控制方法ReBAC:基于关系的访问控制

记一次成功的ollvm-fla简单魔改尝试

用这套提示词绕过限制，DeepSeek直接把数据库的账号密码交代了

万字长文深入浅出教你优雅开发复杂AI Agent

LLM智能体在仓库级代码编译中的应用：CompileAgent的工作与潜力

发表评论

在线咨询

微信