美国NIST发布保护AI系统免受对抗性攻击最新指南

2025年3月28日13:07:33评论73 views字数 15812阅读52分42秒阅读模式

编者按

美国国家标准与技术研究所（NIST）3月24日正式发布保护AI系统免受对抗性攻击的最新指南《对抗性机器学习：攻击和缓解的分类和术语》（NIST AI 100-2e2025）。

该指南描述了对抗性机器学习（AML）的分类法和术语，有助于保护AI应用免受对抗性操纵和攻击；为分类攻击，区分了预测性人工智能系统和生成式人工智能系统，并介绍了与两类系统相关的攻击；探讨了人工智能系统的组成部分，包括数据、模型本身、训练、测试和部署模型的过程，以及模型可能嵌入的更广泛的软件和系统环境。该指南分五个维度对攻击进行分类：一是人工智能系统类型；二是发起攻击的机器学习生命周期过程阶段；三是攻击者试图破坏的系统属性方面的目标和目的；四是攻击者的能力和访问权限；五是攻击者对学习过程及其他方面的了解。该指南还提供了在AI系统生命周期中缓解和管理相关攻击后果的相应方法，并概述了广泛使用的缓解技术的局限性，以提高认识并帮助提高AI风险缓解工作的有效性。

在生成式人工智能系统方面，该指南围绕“可用性故障”“完整性破坏”“隐私泄露”“滥用启用”四个目标以及“学习阶段”“攻击者目标和目的”“攻击者能力”三个维度对攻击进行了分类。基于学习阶段，“训练时攻击”主要源于各种公共来源抓取数据易遭数据投毒攻击，以及第三方训练或微调易遭模型投毒攻击；“推理时攻击”主要源于基于文本的生成模型应用程序中常见的做法，包括上下文指令和系统提示、从第三方来源获取运行时数据、输出处理、代理。基于攻击者的目的和目标，“可用性故障攻击”试图干扰生成式人工智能模型或系统，以破坏其他用户或流程及时、持续访问其输出或功能的能力；“完整性破坏攻击”试图迫使生成式人工智能系统违背预期目标并产生符合攻击者目标的输出；“隐私泄露攻击”试图未经授权访问生成式人工智能系统中的受限或专有信息；“滥用启用攻击”试图故意规避生成式人工智能系统。基于攻击者能力，可区分为控制训练数据、访问查询、控制模型三种类型。

该指南针对生成式人工智能系统审查了供应链攻击、直接提示攻击和间接提示注入攻击及相应的缓解措施。在供应链攻击方面，数据投毒攻击可能影响大语言模型的训练流程各阶段，可能导致攻击者通过插入后门来控制模型，或修改模型对特定用户查询的行为；模型投毒攻击可能使攻击者通常通过第三方开发的基础模型提供恶意设计的模型，例如实现后门投毒攻击或有针对性投毒攻击的预训练模型。供应链攻击缓解措施包括验证网络下载、过滤数据、检测模型漏洞、设计应用程序来降低模型风险等。

在直接提示攻击方面，攻击者作为系统主要用户在通过查询访问与模型交互时实施攻击，从而达成启用滥用、侵犯隐私、破坏完整性的目标。直接提示攻击主要包括三类技术：“基于优化的攻击”设计攻击目标函数并使用梯度或其他基于搜索的方法来学习导致特定行为的对抗性输入，可以使用优化技术来学习攻击；“手动方法”通过竞争目标和不匹配泛化来破解大语言模型，其中竞争目标的攻击方法包括前缀注入、拒绝抑制、风格注入、角色扮演，针对不匹配泛化攻击方法包括特殊编码、字符转换、词语转换、提示级转换；“基于模型的自动化红队”采用攻击者模型、目标模型和判断器。直接提示攻击涉及的信息提取目标和技术包括泄露敏感训练数据、窃取提示和上下文以及提取模型。直接提示攻击缓解措施包括：在训练前和训练后，采用增加通过直接提示注入访问有害模型功能难度的训练策略，包括训练前或训练后的安全训练、对抗性训练方法，以及其他使越狱攻击更加困难的方法；在评估期间，衡量模型对基于查询的攻击的脆弱性，方式包括广泛的自动化漏洞评估以及有针对性的专家红队和漏洞悬赏等；在部署期间，采取运用提示指令和格式化技术、检测和终止有害交互、检测提示窃取、修改输入、聚合来自多个提示的输出、实施监控和响应、限制使用等干预措施；采取其他间接缓解措施，包括清理训练数据、开展反学习、采用水印技术等。

在间接即时注入攻击方面，第三方攻击者利用数据通道通过操纵系统交互的资源来影响系统操作，从而导致可用性故障、完整性破坏和隐私泄露。间接即时注入攻击涉及可用性攻击、完整性攻击和隐私泄露三类。其中，可用性攻击在生成式人工智能模型中注入提示，旨在破坏模型对合法用户的可用性，攻击技术包括执行耗时的后台任务、抑制模型能力、破坏模型输出等；完整性攻击使用恶意资源促使生成式人工智能系统变得不可信，并生成偏离良性行为的内容以符合对抗目标，攻击技术包括越狱、执行触发器、知识库投毒、注入隐藏、自我传播注入等；隐私泄露损害生成式人工智能系统或其主要用户的隐私，攻击技术包括侵犯连接的资源、泄露用户交互信息等。间接即时注入攻击缓解包括开发缓解间接提示注入的训练技术、提出检测间接提示注入的检测方案、提出对抗间接提示注入的输入处理方法。

奇安网情局编译有关情况，供读者参考。

（接上篇）

三、生成式人工智能分类法

生成式人工智能（GenAI）是 AI 的一个分支，它开发的模型可以生成与训练数据具有相似属性的内容（例如图像、文本和其他媒体）。GenAI包括几种不同类型的AI技术，这些技术具有不同的起源、建模方法和相关属性，其中包括：生成对抗网络、生成预训练转换器（GPT）和扩散模型等。最近，GenAI系统出现了多模态内容生成或理解能力，有时是通过结合两种或多种模型类型来实现的。

（一）攻击分类

PredAI分类中的许多攻击类型适用于GenAI （例如数据投毒、模型投毒和模型提取），但最近的研究还引入了针对GenAI系统的特定新型AML攻击。

图2展示了针对GenAI系统的AML攻击分类。与图1中的PredAI分类类似，此分类首先根据攻击者在每种情况下试图破坏的系统属性进行分类，包括可用性故障、完整性破坏和隐私泄露，以及与GenAI滥用启用相关的其他AML攻击类别，其中攻击者试图规避对GenAI系统输出的限制。对手必须利用这些能力来实现其目标显示在目标圈的外层。攻击类别显示为与发起每次攻击所需的能力相关的标注。如果存在更通用的攻击类别的特定类型（例如，越狱是一种特定类型的直接提示攻击），则特定攻击通过额外的标注链接到更通用的攻击类别。某些攻击类别被列出多次，因为相同的攻击技术可用于实现不同的攻击者目标。

图2：生成式人工智能系统攻击分类

攻击可以根据其适用的学习阶段以及攻击者的知识和访问权限进一步分类。以下各节将对此进行回顾。在可能的情况下，讨论广泛适用于GenAI模型，但某些攻击可能与特定类型的GenAI模型或基于模型的系统最相关，例如检索增强生成（RAG）系统、聊天机器人或代理系统。

1、GenAI学习阶段

图3：用于 InstructGPT的LLM训练流程示例

GenAI开发流程决定了针对GenAI模型和系统的潜在AML攻击空间。与PredAI相比，GenAI中的数据收集、模型训练、模型部署和应用程序开发等不同活动通常由多个不同的组织或参与者执行。

例如， GenAI中的一个常见范例是使用较少的基础模型来支持各种下游应用。基础模型使用自监督学习对大规模数据进行预训练，以便对文本、图像或其他可能与许多不同应用相关的数据中的一般模式进行编码。基础模型中使用的大规模数据通常从各种互联网来源收集（攻击者可以将其作为目标，例如数据投毒攻击）。

这种通才学习范式为基础模型配备了各种能力和倾向——其中许多是可取的，但有些可能是有害的或模型开发人员不想要的。在初始预训练后，可以使用监督微调（SFT）和从人类反馈中强化学习（RLHF）等技术，以使基础模型更好地与人类偏好保持一致，并抑制不良或有害的模型输出（见图 3）。然而，这些干预措施随后可能会被攻击者利用AML技术作为目标，以恢复或重新启用潜在的有害能力。

开发人员可以通过多种方式向下游用户和开发人员提供经过训练的基础模型，包括公开发布模型权重以供重复使用和修改，或托管模型并通过API提供访问服务。这些发布决策会影响攻击者的能力，从而影响可能的AML攻击空间，例如攻击者是否拥有模型控制权。

图4：LLM 体系采用流程

根据基础模型的提供方式，下游开发人员可以定制和构建该模型以创建新的应用程序，例如通过进一步针对特定用例微调模型，或通过将基础模型与软件系统集成，例如构建检索增强生成（RAG）或代理（见图 4）。因此，基础模型对AML攻击的脆弱性可能会影响广泛的下游应用程序和最终用户。同时，集成基础模型的特定应用程序环境可能会为AML攻击创造额外的载体和风险，例如可能暴露特定于应用程序的数据。

AML攻击各不相同，取决于GenAI开发生命周期的不同阶段。一个主要区别是针对训练阶段的攻击和针对部署阶段的模型推理的攻击。

训练时攻击。GenAI的训练阶段通常包括基础模型预训练和模型微调。这种模式适用于生成图像模型、文本模型、音频模型和多模态模型等。由于基础模型在大型数据集上训练时最有效，因此从各种公共来源抓取数据已变得很常见，这增加了这些模型受到数据投毒攻击的脆弱性。此外，由第三方训练或微调的GenAI系统通常用于下游应用程序，导致恶意构建的模型存在模型投毒攻击的风险。

图5：LLM体系采用参考架构

推理时攻击。GenAI模型和系统的部署阶段因模型托管方式或以其他方式提供给用户以及集成到下游应用程序的方式而异。然而，GenAI模型和应用程序通常具有一些共同的属性，这些属性使它们容易受到类似类型的攻击。例如，大语言模型（LLM）应用程序中许多安全漏洞的根本原因是数据和指令没有通过单独的通道提供给LLM，这使得攻击者能够使用数据通道在推理时间攻击中注入恶意指令（与数十年前的SQL注入攻击的缺陷类似）。此阶段的许多攻击都是由于以下在基于文本的生成模型应用程序中常见的做法造成的：

（1）上下文指令和系统提示：LLM 的行为可以通过推理时提示来塑造，开发人员或用户提供上下文指令，这些指令通常被添加到模型的其他输入和上下文中。这些指令包括模型特定应用用例的自然语言描述，称为系统提示。提示注入会覆盖这些指令，利用不受信任的用户输出与系统提示的连接来引发意外行为。例如，攻击者可以注入覆盖系统提示的越狱，导致模型生成受限或不安全的输出。由于这些提示是通过提示工程精心设计的，可能与安全相关，因此提示提取攻击可能会试图窃取这些系统指令。这些攻击也与多模态和文本到图像模型有关。

（2）从第三方来源获取运行时数据：在检索增强生成（RAG）应用程序、聊天机器人和其他使用GenAI模型与其他资源交互的应用程序中，上下文通常在运行时以查询相关的方式制作，并从外部数据源（例如文档、网页等）填充，这些数据源将用作应用程序的一部分。间接提示注入攻击取决于攻击者修改将被提取到模型上下文中的外部信息源的能力，即使这些信息不是由主要系统用户直接提供的。

（3）输出处理：GenAI模型的输出可以动态使用，例如填充网页上的元素或构建无需人工监督即可执行的命令，如果攻击者可以在此输出中诱导开发人员未考虑到的行为，则可能导致下游应用程序中出现一系列可用性、完整性或隐私侵犯。

（4）代理：基于LLM的代理依靠迭代处理LLM的输出来执行任务，然后将结果作为附加上下文反馈给LLM输入。例如，代理系统可以从一组配置好的外部依赖项中进行选择，并使用上下文中的信息调用由LLM填充的模板代码。此上下文中的对抗性输入（例如来自与不受信任资源的交互）可能会劫持代理执行对手指定的操作，从而导致潜在的安全或安保破坏。

图6：检索增强生成

2、攻击者的目的和目标

与PredAI一样，攻击者的目标可以根据可用性、完整性和隐私性等维度进行大致分类，同时还出现了一种旨在实现滥用的、GenAI特定的新型攻击类别。

在可用性故障攻击中，攻击者试图干扰GenAI模型或系统，以破坏其他用户或流程及时、持续访问其输出或功能的能力。
在完整性破坏攻击中，攻击者试图干扰GenAI系统，迫使其违背预期目标并产生符合攻击者目标的输出。由于用户和企业依赖GenAI系统执行研究和生产力协助等任务，这些破坏行为可能让攻击者利用这些用户对GenAI系统的信任来实施攻击。
在隐私泄露攻击中，攻击者试图未经授权访问GenAI系统中的受限或专有信息，包括有关模型训练数据、权重或架构的信息；或模型访问的敏感信息，例如检索增强生成（RAG）应用程序的知识库。GenAI系统可能会在训练或推理过程中（有意或无意地）接触敏感数据，攻击可能会试图提取此类信息（例如，通过间接提示注入攻击，第三方窃取上下文用户信息，或通过模型提取攻击窃取模型信息）。
滥用启用。在GenAI环境中特别相关的另一个攻击者目标是滥用启用。在这些攻击中，攻击者试图故意规避GenAI系统所有者对其使用施加的技术限制，例如旨在防止系统产生可能对他人造成伤害的输出的限制。

在此上下文中，技术限制是指应用于GenAI系统的防御措施，例如使用系统提示或从人类反馈中强化学习（RLHF）进行安全校准。虽然具体实施的技术限制因模型而异，但规避此类防御的技术通常在不同类型的模型和不同类型的滥用间是通用的，因此可以将它们归类为AML的一部分，而无需具体说明模型开发人员试图防止的特定滥用类型。

3、攻击者能力

AML攻击可以根据攻击者控制GenAI模型或系统输入的能力进行分类。这些能力包括：

训练数据控制：攻击者可能通过插入或修改训练样本来控制训练数据的子集。此功能用于数据投毒攻击。
查询访问：许多GenAI模型及其应用程序都部署为用户可以通过互联网访问的服务。在这些情况下，攻击者可以向模型提交对抗性查询，以引出特定的期望行为或提取信息。此功能用于提示注入、提示提取、模型提取攻击。查询访问可能因生成控制程度（例如，修改温度或添加逻辑偏差）和返回的生成丰富程度（例如，有或没有对数概率或多项选择）而异。GenAI模型在运行时获取的资源（例如文档、网页）。此功能用于间接提示注入攻击。
模型控制：攻击者可能有能力修改模型参数，例如通过公共微调API或公开可访问的模型权重。这种能力用于模型投毒攻击，以及消除拒绝行为或其他模型级安全干预的微调规避攻击。

与PredAI一样，攻击者对底层ML模型的了解程度也各不相同，从对ML系统（包括模型权重）的全面了解（白盒攻击），到对系统了解最少且故意隐藏或误导信息的系统（黑盒攻击），再到介于两者间的某个情况（灰盒攻击）。

（二）供应链攻击及缓解措施

由于人工智能是软件，它继承了传统软件供应链的许多漏洞，例如对第三方依赖的依赖。人工智能开发还引入了新类型的依赖，包括数据收集和评分、第三方开发的人工智能模型的集成或调整以及第三方开发的插件与人工智能系统的集成。缓解人工智能供应链管理中的安全挑战非常复杂，需要采取多方面的方法，将现有的软件供应链风险管理实践与人工智能特定的供应链风险管理相结合，例如通过使用所涉及的其他工件的出处信息。对现实世界中针对机器学习的安全漏洞的研究表明，最好全面解决安全性问题，并考虑整个攻击面，包括数据和模型供应链、软件以及网络和存储系统。虽然所有这些供应链风险在更广泛的人工智能系统保护背景下都至关重要，但某些类型的攻击依赖于利用机器学习系统特定的统计和基于数据的属性，因此属于AML的范畴。

1、数据投毒攻击

GenAI文本转图像和文本转文本模型的性能与数据集大小（以及模型大小和数据质量等其他属性）有关。因此，GenAI基础模型开发人员从各种来源抓取数据已变得很常见。反过来，这些数据的规模及其来源的多样性提供了巨大的潜在攻击面，攻击者可能会试图将对抗性构造的数据点插入其中。例如，数据集发布者可能会提供一组URL来构成训练数据集，攻击者可能能够购买一些提供这些URL的域，并用自己的恶意内容替换网站内容。

除了大量的预训练数据外，数据投毒攻击还可能影响LLM训练流程的其他阶段，包括指令调整和从人类反馈中强化学习（RLHF），这些阶段可能会有意从大量人类参与者那里获取数据。

与PredAI模型一样，数据投毒攻击可能导致攻击者通过插入后门（见后门投毒攻击）来控制模型行为，例如将单词或短语提交给模型后，可充当通用越狱。攻击者还可以使用数据中毒攻击来修改模型对特定用户查询的行为（见有针对性的投毒攻击），例如导致模型在响应包含特定触发词或短语的查询时错误地总结或以其他方式产生退化输出。这些攻击可能很实用（只需要总数据集中相对较小的一部分），并且可能导致一系列不良后果，例如代码建议模型故意建议不安全的代码。

2、模型投毒攻击

在GenAI中，开发人员通常使用第三方开发的基础模型。攻击者可以利用这一事实，提供恶意设计的模型，例如允许后门投毒攻击或有针对性投毒攻击的预训练模型。虽然这种攻击依赖于攻击者对初始投毒模型的控制，但研究人员已经发现，即使下游用户为自己使用而对模型进行微调或应用额外的安全训练措施，预训练模型中的恶意后门仍会持续存在。

3、缓解措施

GenAI投毒缓解措施与PredAI中毒缓解措施在很大程度上重叠。为了防止具有网络规模数据依赖性的数据中毒，这包括验证网络下载作为基本完整性检查，以确保域劫持没有将新的数据源注入训练数据集。也就是说，提供者发布加密哈希，下载者验证训练数据。数据过滤也可以尝试删除中毒样本，尽管在大型训练语料库中检测中毒数据可能非常困难。

虽然传统的软件供应链风险管理实践（例如模型工件的漏洞扫描）可以帮助管理某些类型的AI供应链风险，但需要采用新方法来检测模型中的漏洞，例如通过模型投毒攻击引入的漏洞。当前提出的方法包括使用机械可解释性领域的方法来识别后门特征，并在推理时检测和抵消触发因素。除这些缓解措施外，还可以通过将模型理解为不受信任的系统组件并设计应用程序来降低风险，从而降低攻击者控制的模型输出带来的风险。

（三）直接提示攻击及缓解措施

直接提示攻击是指攻击者是系统的主要用户，通过查询访问与模型交互时发生的攻击。此类攻击的子集称为直接提示注入攻击，其中主要用户提供上下文指令，这些指令附加在应用程序设计者提供的高信任度指令（例如模型的系统提示）后。

与PredAI一样，攻击可能适用于单一设置和模型，或者可能是通用的（影响一系列单独查询的模型）和/或可转移的（影响它们所在模型外的模型）。

攻击者在进行这些攻击时可能有多种目标，例如：

启动滥用。攻击者可能会使用直接提示攻击来绕过模型开发人员或部署人员创建的模型级防御措施，以限制模型产生有害或不良输出。越狱是一种直接提示攻击，旨在规避对模型输出的限制，例如规避拒绝行为以实现滥用。
侵犯隐私。攻击者可能会使用直接提示来提取系统提示或泄露在上下文中提供给模型但不打算让用户进行未经过滤的访问的隐私信息。
破坏完整性。当LLM用作代理时，攻击者可能会使用直接提示攻击来操纵工具使用和API调用，并可能危及系统的后端（例如执行攻击者的SQL查询）。

1、攻击技术

存在多种发起直接提示攻击的技术，其中许多技术适用于各种攻击者目标。NIST重点关注直接提示攻击以实现滥用，注意到以下几大类直接提示技术：

基于优化的攻击设计攻击目标函数并使用梯度或其他基于搜索的方法来学习导致特定行为的对抗性输入。目标函数可以设计为强制肯定开始或其他攻击成功的指标（例如，与有毒微调的相似性）。

然后可以使用优化技术来学习攻击，包括从为PredAI语言分类器设计的攻击中学习的技术，以及使用代理模型或随机搜索测试攻击候选的无梯度技术。通用对抗触发器是这些基于梯度的攻击的一类特殊攻击，针对生成模型，这些模型试图找到与输入无关的前缀（或后缀），无论输入的其余部分如何，这些前缀或后缀都会产生所需的肯定响应。这些通用触发器可以转移到其他模型，这使得开放权重模型（具有现成的白盒访问）成为对仅提供API访问的封闭系统进行可转移性攻击的可行攻击载体。

攻击还可以被设计来满足其他约束（例如，足够低的困惑度）或攻击多模型系统。

破解LLM的手动方法包括竞争目标和不匹配泛化。基于不匹配泛化的攻击会识别出那些超出模型安全训练分布但仍在模型能力训练分布范围内的输入，从而使模型能够理解这些输入，同时避免拒绝行为。基于竞争目标的攻击会发现模型能力与安全目标存在冲突的情况，例如，通过利用模型遵循用户提供的指令的驱动力。在所有情况下，攻击的目标都是破坏模型级安全防御。

基于竞争目标的攻击方法包括：

（1）前缀注入：这种方法涉及提示模型以肯定的确认开始响应。通过调节模型以预定的方式开始输出，攻击者试图影响其后续语言生成，使其朝着特定的、预定的模式或行为发展。

（2）拒绝抑制：攻击者可能会明确指示模型避免在其输出中产生拒绝或否认。通过降低拒绝响应的概率，此策略旨在增加顺从响应的概率。

（3）风格注入：在这种方法中，攻击者指示模型使用（或不使用）某些语法或写作风格。例如，攻击者可能会将模型的语言限制为简单或非专业的语气，旨在降低拒绝（通常是专业措辞）的可能性。

（4）角色扮演：对手利用角色扮演策略来引导模型采用与原意相冲突的特定角色或行为模式。这种操纵旨在利用模型对不同角色或特征的适应性，意图破坏其对安全协议的遵守。

针对不匹配泛化的攻击的方法包括：

（1）特殊编码：使用base64等编码技术来改变输入数据的表示形式的策略，使得模型可以理解，但可能超出安全训练的分布。

（2）字符转换：使用字符级转换从安全训练分布中取出输入的策略，例如ROT13密码、符号替换（如l33tspeak）和摩尔斯电码。

（3）词语转换：改变输入的语言结构以将敏感词分解为子字符串的策略，例如猪拉丁（Pig Latin）、同义词交换和有效载荷拆分（或“令牌走私”）。

（4）提示级转换：使用提示级转换的策略，例如将提示翻译成可能超出安全训练数据分布范围的不太常见的语言。

基于模型的自动化红队采用攻击者模型、目标模型和判断器。当攻击者能够访问判断模型输出是否有害的高质量分类器时，它可以用作奖励函数来训练生成模型，以生成另一个生成模型的越狱。每个模型只需要查询访问，无需人工干预即可更新或优化候选越狱。提示也可以从目标模型转移到其他闭源 LLM。

Crescendo攻击引入了在多轮自适应攻击中与模型进行迭代交互的想法，其中包括看似无害的提示，最终成功越狱以对抗安全对齐。最初的手动攻击完全自动化，通过利用另一个LLM生成提示并整合多个输入源。

对领先模型的评估表明，LLM 仍然容易受到这些攻击。

2、信息提取

无论是在训练期间还是在运行时， GenAI模型都会接触到一系列可能引起攻击者兴趣的信息，例如训练数据中的个人身份信息（PII）、上下文中提供的检索增强生成（RAG）数据库中的敏感信息，甚至是应用程序设计者构建的系统提示。此外，模型本身的特征（例如模型权重或架构）也可能是攻击目标。虽然第上文中的许多技术都适用于提取此类数据，但NIST注意到数据提取特有的几个特定目标和技术。

泄露敏感训练数据。尼古拉斯·卡里尼等人首次在生成语言模型中实际演示训练数据提取攻击。通过在训练数据中插入金丝雀（合成的、易于识别的分布外示例），他们开发了一种提取金丝雀的方法，并引入了一种称为暴露度的指标来衡量记忆。后续工作证明了基于转换器（例如GPT-2）的LLM中的数据提取风险，方法是使用不同的前缀提示模型并发起成员推理攻击以确定哪些生成的内容是训练集的一部分。由于这些解码器堆栈转换器是自回归模型，因此关于个人信息的逐字文本前缀有时会导致模型使用敏感信息（包括电子邮件地址、电话号码和位置）完成文本输入。GenAI 语言模型中这种逐字记忆敏感信息的行为也在最近的转换器模型中观察到，并附加了提取方法的特征。 PredAI模型创建了Text Reveale等工具来从基于转换器的文本分类器中重建文本，而GenAI模型有时只需重复对话中存在的私人信息即可。结果表明，某些模型的电子邮件地址等信息泄露率超过8%。然而，它们的响应可能会错误地指定信息的所有者，因此不可靠。一般来说，当模型中植入了更具体、更完整的信息时，提取攻击更容易成功——攻击者知道的信息越多，他们就能提取得越多。研究人员利用这一事实，从LLM中逐步提取受版权保护的《纽约时报》文章片段，方法是用一个句子作为种子，并允许 LLM 反复提取其他文本。直观地说，容量更大的大型模型更容易进行精确重建。微调接口也放大了数据提取攻击的风险，正如使用开放权重模型的微调API从预训练数据中提取PII的攻击所证明的那样，尽管这不是直接提示攻击。

图7：大规模查询访问的AI模型的开发

和部署生命周期图

提示和上下文窃取。提示对于将 LLM 与特定用例对齐至关重要，并且是其遵循人类指令的关键要素。因此，这些提示可以被视为商业机密，有时是直接提示攻击的目标。提示窃取是一种基于学习的方法，它使用图像字幕模型和多标签分类器从文本到图像模型重建提示，以窃取主题和提示修饰语。对于某些 LLM，研究人员发现，一小组固定的攻击查询足以在某些模型和数据集对中提取超过60%的提示。在某些情况下，有效的提示可能来自重要的技术或领域专业知识；提示窃取攻击可能会侵犯或威胁这些投资。此外，在 RAG应用程序中（图6），可以使用相同的技术来提取LLM上下文中提供的敏感信息。例如，LLM 想要对数据库中的行或PDF文档中的文本进行一般性总结，只需通过直接提示或执行简单的提示攻击即可详细提取这些行或文本。

模型提取。与PredAI一样，攻击者可能会执行模型提取攻击，即通过提交特制的查询来尝试了解有关模型架构和参数的信息。最近，尼古拉斯·卡里尼等人证明可以从黑盒生产LLM中提取此类信息，从而得出以前未知的隐藏维度和嵌入投影层（达到对称性）。

3、缓解措施

可以在 AI 模型或系统的整个部署生命周期中采用以下防御策略，以降低模型或系统易受直接提示注入攻击的风险。

训练前和训练后的干预。已经提出了一系列训练策略来增加通过直接提示注入访问有害模型功能的难度，包括训练前或训练后的安全训练、对抗性训练方法，以及其他使越狱攻击更加困难的方法。
评估期间的干预措施。评估可以衡量模型对基于查询的攻击的脆弱性，然后可以为信任和可供性决策以及开发人员和用户教育提供信息。评估可以包括广泛的自动化漏洞评估以及有针对性的专家红队和漏洞悬赏。当前的评估方法虽然是一种有用的工具，但可能会低估拥有更多时间、资源或运气的行为者可以接触到的漏洞。评估衡量的是特定时刻的模型漏洞；如果开发了新的攻击、在训练后收集了额外的数据或改进了模型功能，评估可能会发生变化。部署后的持续评估可以帮助应对这些挑战。
部署期间的干预措施。已提出了一系列广泛的部署时干预措施：

提示指令和格式化技术。模型指令可以提示模型谨慎处理用户输入，例如将用户输入包装在XML标记中、将特定指令附加到提示中，或者尝试将系统指令与用户提示明确分开。
检测和终止有害交互。人工智能系统可能能够检测这些生成并终止交互，而不是阻止有害的模型生成。一些开放式和封闭式解决方案探索了基于LLM的检测系统，这些系统具有明确提示和/或微调的模型，可将用户输入和/或模型输出归类为有害或不良。这些可以通过纵深防御理念提供补充保证。然而，这些检测系统也容易受到攻击，并且可能与它们正在监控的主要模型相关的故障。一些研究方向已经调查了限制代际空间以实现确定性护栏。早期的研究表明，基于可解释性的技术也可用于检测异常输入，以及基于关键字或困惑度的防御。
提示窃取检测。缓解提示窃取的常用方法是将模型话语与系统提供商已知的提示进行比较。防御措施因比较方式而异，可能包括查找特定的标记、单词或短语，或将输出的n-gram与输入进行比较。同样，针对提示窃取的防御措施尚未证明是严谨的。
输入修改。用户输入在传递给模型前还可以进行修改，例如释义或重新标记。然而，这种方法可能成本高昂，并且/或者会影响模型性能。
聚合来自多个提示的输出。受随机平滑的启发，SmoothLLM用于提高 ML 分类器对逃避攻击的稳健性，它提出聚合来自多个随机扰动提示的LLM输出。这种防御需要为每个提示生成多个LLM查询，并且可能会降低生成的输出的质量。
监控和响应。部署后，监控和记录用户活动可能允许模型部署者识别和响应尝试和成功的直接提示注入攻击实例。如果用户的意图似乎是恶意的，这种响应可能包括禁止或以其他方式对付用户，或者在攻击成功的情况下修复提示注入漏洞。标准的用户或组织级审查或身份验证程序，以及明确的激励机制（例如限制模型访问以应对违规行为的政策）可能会增强这种缓解措施的有效性。
使用限制。其他干预措施侧重于如何向用户提供模型的选择：例如，可以通过限制用户可访问的推理参数（例如温度或逻辑偏差）以及返回的模型生成的丰富性（例如逻辑概率）来降低某些攻击的有效性。此外，限制公开信息和工件的发布以及限制用户可用的模型查询总数可能会使攻击更具挑战性。这些技术在限制积极用例方面可能存在其他缺点。

间接缓解措施。尽管在模型和系统层面提出的防御措施越来越多，但最近的研究结果表明，当前一代模型仍然极易受到直接提示注入攻击。因此，其他潜在的提示注入缓解措施并不依赖于直接提高AI系统对此类攻击的稳健性，而是依赖于在AI模型暴露给恶意行为者时可以并且会产生恶意输出的假设下设计系统。例如，部署人员可以在假设能够访问敏感数据或能够采取不良行动的模型可能会泄露该数据或采取这些行动的情况下设计AI系统。此外，开发人员或部署人员可以使用其他技术缓解措施来减少通过直接提示注入获得的输出被滥用的可能性，例如：

训练数据清理。可以对模型训练数据进行清理，以删除敏感或有毒内容以及与开发不良功能有很大或完全相关的数据。这种清理可以防止有害功能被学习，并减少直接提示注入的潜在危害，尽管它们可能会损害泛化和有害内容检测能力。
反学习。也有人尝试在训练后“反学习”有害的知识或能力，目的是减少恶意指向的模型造成的危害。然而，这些方法仍然容易受到对抗性攻击，包括针对越狱特定训练方法的攻击和针对反学习方法的逆向攻击，这些方法会提取据称未学习的数据。
水印。开发人员或部署人员可以对 AI 模型生成的内容进行水印处理，以帮助追踪其来源，将其与人类生成的内容区分开来，并降低恶意使用的风险（例如，当内容在线出现时将其标记为模型生成）。虽然文献中提出了各种各样具有不同优缺点的技术，但没有一种水印技术在所有情况下都普遍有效且稳健。已经开发出许多针对水印的强大攻击，成功率很高。此外，还建立了关于水印稳健性的理论不可能性结果。

最后，除了开发人员或部署人员层面的干预措施外，随着时间的推移，社会和基础设施可以对恶意定向模型功能具有更强的弹性。例如，防御者可以采用基于AI的漏洞发现工具，使他们的系统更能抵御恶意行为者滥用GenAI模型来查找可利用的漏洞。

（四）间接即时注入攻击及缓解措施

GenAI模型的许多用例涉及与其他资源交互的模型，从互联网连接的代理到图6所示的检索增强生成（RAG）系统。由于GenAI模型结合了数据和指令通道，攻击者可以利用数据通道通过操纵系统与之交互的资源来影响系统操作。因此，间接提示注入攻击是通过资源控制实现的，它允许攻击者间接（或远程）注入系统提示，而无需直接与应用程序交互。间接提示注入攻击可能导致至少三类攻击者目标的破坏：（1）可用性故障；（2）完整性破坏；（3）隐私泄露。但是，与直接提示注入攻击不同，间接提示注入攻击不是由模型的主要用户发起，而是由第三方发起。事实上，在很多情况下，模型的主要用户会因为间接提示注入攻击而受到损害，因为GenAI系统的完整性、可用性或隐私性会受到损害。

1、可用性攻击

GenAI模型中注入提示，旨在破坏模型对合法用户的可用性。可用性攻击可能会不加区分地使模型无法使用（例如，无法生成有用的输出）或专门阻止某些功能（例如，特定 API）。

攻击者的技术。研究人员已经演示了几种概念验证方法，攻击者可以通过这些方法破坏GenAI系统的可用性：

耗时的后台任务。间接注入的提示可以指示模型在回答请求前执行耗时的任务。提示本身可以很简短，例如通过请求评估模型中的循环行为。
抑制能力。间接注入的提示可以指示模型不允许使用某些 API（例如，互联网连接的聊天机器人的搜索API）。这有选择地解除了服务的关键组件的武装。
破坏性输出格式。攻击者可以使用间接提示注入来指示模型修改其输出，从而破坏系统的可用性。例如，攻击者可以指示模型将检索到的文本中的字符替换为同形文字，从而破坏后续的API调用；或者可以要求模型以标记开头每个句子，从而迫使模型返回空输出。

2、完整性攻击

通过间接提示注入，攻击者可以使用恶意资源促使GenAI系统变得不可信，并生成偏离良性行为的内容以符合对抗目标。这些攻击通常涉及以微妙的方式破坏模型的行为，而这些方式可能对最终用户来说并不明显。

例如，研究人员已经证明，通过间接提示注入的攻击可能会导致GenAI系统生成任意不正确的来源摘要，以攻击者指定的信息做出响应，或者抑制或隐藏某些信息源。攻击者可以利用这些功能将GenAI系统（例如连接互联网的聊天机器人）武器化，以针对其用户实现一系列恶意目的，包括传播有针对性的误导性信息、推荐欺诈性产品或服务，或将消费者重定向到伪造合法登录页面或包含可下载恶意软件的恶意网站。攻击者还可能使用间接提示注入攻击来劫持GenAI代理，使其执行攻击者指定的恶意任务，而不是（或除了）其预期的用户提供的任务。

攻击者技术。研究人员已经证明，通过恶意资源可以操纵 LLM 的主要任务，从而发起完整性攻击：

越狱。攻击者可以利用与直接提示注入攻击类似的间接提示注入技术，例如使用越狱，使得攻击者能够用自己的恶意指令代替模型的系统提示。与直接提示攻击一样，这些攻击可以通过基于优化或手动的方法进行构建，并且可能依赖于不匹配泛化等技术。
执行触发器。研究人员使用通过Neural Exec技术优化生成的执行触发器，自动执行了手动间接提示注入攻击。这些执行触发器还可以通过包含多个阶段（例如分块和上下文过滤）的RAG处理管道持续存在。
知识库投毒。可以对RAG系统的知识数据库进行投毒，以实现针对特定用户查询的LLM输出。最近，一个名为 Phantom的通用优化框架展示了如何制作单个中毒文档并将其插入RAG系统的知识数据库中，以在LLM生成器中诱导多个对抗性目标。
注入隐藏。攻击者可能使用技术来隐藏或混淆其注入，例如将注入隐藏在资源的不可见部分；使用多阶段注入，其中初始注入指示模型访问包含其他注入的另一个资源；或者使用Base64等编码注入命令，然后指示模型解码序列。
自我传播注入。攻击者可能能够使用间接提示注入攻击将GenAI系统变成传播攻击的载体。例如，攻击者可以发送一封恶意电子邮件，当该电子邮件被作为电子邮件客户端的一部分集成的模型读取时，会指示该模型通过向用户联系人列表中的每个人发送类似的恶意电子邮件来传播感染。通过这种方式，某些恶意提示可以充当蠕虫。

3、隐私泄露

攻击者可以使用间接提示注入攻击来损害GenAI系统或其主要用户的隐私。例如，攻击者可以使用间接提示注入攻击来迫使模型泄露来自受限资源的信息，例如 GenAI系统处理的用户私人数据。或者，在完整性和隐私攻击的混合中，攻击者可以通过指示模型获取然后泄露有关系统主要用户的信息来收集这些信息。

攻击者的技术。研究人员已经提出并演示了各种间接提示注入攻击，以窃取来自互联网连接的聊天机器人、RAG系统和其他GenAI系统的信息。其中一些技术包括：

侵犯连接的资源。攻击者可以使用提示注入攻击导致GenAI系统从其可以访问的受限资源中泄露私人信息。例如，作为电子邮件客户端的一部分集成的模型可能会被提示将某些电子邮件转发到攻击者控制的收件箱。研究人员已经发现，通过使用敏感数据查询攻击者控制的URL，注入攻击可以迫使模型泄露用户上传的数据。
泄露用户交互信息。研究人员演示了一种概念验证间接提示注入攻击，他们向模型注入指令，诱使最终用户透露一条信息（在本例中为用户姓名），然后模型将这些信息泄露给攻击者，例如直接使用该信息查询攻击者控制的URL或建议用户访问此类 URL。攻击者还可以利用markdown图像渲染等功能窃取数据。

4、缓解措施

在整个开发和部署生命周期（图 7）中可以使用各种技术来缓解攻击，包括：

已经开发出几种训练技术来缓解间接提示注入，包括微调特定于任务的模型和训练模型以遵循提示中的分层信任关系。
已经提出了检测方案来检测间接提示注入，并且许多基于LLM的防御措施已被设计来缓解直接和间接提示注入。
已经提出了一系列输入处理方法来对抗间接提示注入，包括过滤来自第三方数据源的指令、设计提示来帮助LLM分离可信数据和不可信数据，或指示模型忽略不可信数据中的指令。

在直接提示注入的背景下描述的许多防御措施也可以用于缓解间接提示注入。由于当前的缓解措施不能提供针对所有攻击者技术的全面保护，因此应用程序设计人员在设计系统时可能会假设，如果模型暴露于不受信任的输入源，则可能会发生提示注入攻击，例如通过使用具有不同权限的多个 LLM或仅允许模型通过定义良好的接口与可能不可信的数据源交互。此外，公共教育工作可以让模型用户和应用程序设计人员了解间接提示注入的风险。

（五）代理安全

GenAI模型越来越常见的用途是构建一个（通常基于LLM的）代理，这是一个软件系统，可以迭代地提示模型，处理其输出（例如选择并调用具有指定输入的函数），并将结果作为其下一个提示的一部分反馈给模型。代理可以配备使用网页浏览或代码解释器等工具的功能，并且可能具有内存和/或规划功能等附加功能。

由于代理依赖GenAI系统来规划和执行其操作，因此它们可能容易受到上述针对GenAI系统的许多攻击，包括直接和间接提示注入。然而，由于代理可以使用工具采取行动，这些攻击可能会在这种情况下产生额外的风险，例如使行为体能够劫持代理以执行任意代码或从其运行的环境中窃取数据。专门针对代理的安全研究仍处于早期阶段，但研究人员已经开始评估代理对特定AML攻击的脆弱性，并提出干预措施来管理代理带来的安全风险。

（六）AML漏洞基准

有几种公开可用的基准可用于评估模型对AML攻击的脆弱性。JailbreakBench、AdvBench、HarmBench、StrongREJECT、AgentHarm和Do-Not-Answer等数据集提供了用于评估模型对越狱敏感性的基准。TrustLLM是一种基准，旨在评估LLM中的六个信任维度：真实性、安全性、公平性、稳健性、隐私性和机器伦理。AgentDojo是一个评估框架，用于测量AI代理对提示注入攻击的脆弱性，在这种攻击中，外部工具反馈的数据会劫持代理以执行恶意任务。此外， Garak和PyRIT等开源工具旨在帮助开发人员识别模型中对AML击的漏洞。最后，最近也提出了几种反学习基准。

四、主要挑战和讨论（略译）

网络国防知识库

产业发展前哨站

开源情报信息源

奇安网情局

原文始发于微信公众号（奇安网情局）：美国NIST发布保护AI系统免受对抗性攻击最新指南

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

美国NIST发布保护AI系统免受对抗性攻击最新指南

与伊朗有关的黑客组织Cyber Fattah泄露沙特运动会参赛者及访客数据

暗战揭秘：伊朗系APT组织BladedFeline的隐秘攻击网络

国土安全部警告：伊朗核打击后亲伊朗黑客可能将美国网络作为目标

从网络空间看伊朗断网事件

伊朗入侵监控系统以色列呼吁公民关闭家用摄像头

台海热点诱饵！旺刺组织结合 0day 和 ClickOnce 技术开展间谍活动

与伊朗有关的黑客组织Cyber Fattah泄露沙特运动会参赛者及访客数据

美国网络司令部支持了美军对伊朗核设施的空袭行动

熊出没注意：俄罗斯APT组织Fancy Bear疑再袭德国政府！

发表评论

在线咨询

微信