想知道坏人如何攻击人工智能系统吗?

admin 2024年9月21日21:55:14评论23 views字数 3649阅读12分9秒阅读模式

想知道坏人如何攻击人工智能系统吗?

我们知道人工智能会带来新的、快速发展的威胁,但要了解这些威胁是什么样子、来自哪里以及有多严重,则是另一回事,而且这项任务极其艰巨。
人工智能系统对抗威胁态势 (ATLAS) 就是为了实现这一目标,让您无需再为此操心。
ATLAS 由非营利技术研究组织 MITRE 开发,以其广受欢迎的 MITRE ATT&CK 存储库为蓝本,是一个“基于现实世界攻击观察和来自人工智能红队和安全小组的现实演示的对手战术和技术的动态知识库”。
MITRE 建议使用 ATLAS 进行安全分析、AI 开发和实施、威胁评估以及红队测试和报告对 AI 系统的攻击等活动。
ATLAS 从左到右流动,展示了从初始侦察到最终影响的攻击生命周期。
通过现实世界的洞察力应对人工智能系统面临的威胁
https://atlas.mitre.org/

想知道坏人如何攻击人工智能系统吗?

想知道坏人如何攻击人工智能系统吗?

想知道坏人如何攻击人工智能系统吗?

想知道坏人如何攻击人工智能系统吗?

侦察

侦察活动通常涉及搜索受害者的公开研究材料。这可能包括期刊和会议论文集、预印本存储库或技术博客等。

这一过程与攻击者寻找公开可用的对抗性漏洞分析的过程相似。这可能包括模型、服务/提供商、平台和底层技术中的漏洞信息,并有助于为成功的 AI 攻击提供信息,无论是使用已知的攻击技术还是创建新的技术。

资源开发

攻击者完成侦察后,会寻找可用于恶意活动的资源。这包括创建和购买资源来支持他们的活动,或破坏和窃取现有资源,这既可以节省成本,又可以使他们的活动变得不透明且难以追究。

我们最近在云基础设施中经常看到这种情况,但从历史上看,僵尸网络等活动也会出现DDoS类型的攻击。

ATLAS 中的这一策略涉及七种不同的技术。为了简洁起见,我们不会全部介绍,但它们包括以下内容:

  • 获取公共 ML 工件

  • 获得/发展能力

  • 获取基础设施

  • 毒害数据并发布毒害数据集

该策略中的技术不仅涉及传统资源,还寻求制作对抗性数据、创建代理机器学习模型并公开发布有毒数据集,类似于攻击者通过毒害软件包来利用开源生态系统的方式。

初始访问

一旦攻击者完成侦察并为恶意活动开发资源,他们就会寻求获得对 AI/ML 系统的初始访问权限,通常是通过网络、移动设备、边缘系统或它们的组合。这些系统也可能位于企业本地,或托管在云环境或托管服务提供商中。

攻击者可以通过多种方式建立对系统的初始访问权限。ATLAS 给出的一些示例包括:

  • 机器学习供应链妥协

  • 有效账户

  • 应用程序利用

  • LLM 提示注入

  • 网络钓鱼

  • 模型逃避

虽然其中一些技术在其他网络攻击中很常见,但有些技术对于 AI/ML 来说更为新颖,例如通过 GPU 硬件、数据和 ML 软件甚至模型本身来破坏 ML 供应链。

模型规避是一种技术,攻击者会精心设计对抗性数据并输入 ML 模型,从而对目标模型产生预期效果。LLM提示注入可能是针对生成式 AI 和 LLM 系统讨论最多的攻击类型之一。它涉及精心设计恶意提示以输入 LLM,使其以非预期的方式运行。

ML 模型访问

攻击 AI/ML 系统的一种独特技术是 ML 模型访问。攻击者经常寻求访问 ML 模型以获取信息、开发攻击技术或将恶意数据输入模型以达到邪恶目的。他们还可以通过各种途径访问模型,例如底层托管环境、通过 API 或直接与模型交互。

ML模型访问涉及的技术包括:

  • ML 模型推理 API 访问

  • 支持机器学习的产品或服务

  • 物理环境访问

  • 完整 ML 模型访问

组织越来越多地在其产品和服务中使用 ML 和 AI,无论是直接通过 AI 提供商,还是直接将 ML 和 AI 集成到其产品组合中。攻击者可能会试图通过这些产品和服务访问底层 ML 模型,甚至从日志和元数据中获取见解。

执行

现在我们开始着手实施攻击,因为攻击者开始着手执行攻击。这涉及在本地或远程系统上尝试在 ML 工件或软件中运行恶意代码。它还有助于更广泛的活动,从横向移动到窃取敏感数据。

这一策略涉及三种潜在技术:

  • 用户执行

  • 命令和脚本解释器

  • LLM 插件妥协

执行可能涉及用户采取特定操作,例如通过社交工程或附件等技术执行不安全代码。攻击者还可能使用命令和脚本来嵌入初始访问负载或帮助建立命令和控制。

持久性

一旦通过执行建立了初始立足点,攻击者就会努力建立持久性。这通常通过 ML 工件和软件实现,旨在帮助攻击者在系统重启或凭证轮换(通常会消除其访问权限)之后保持访问权限。

引用的持久性技术包括:

  • 毒药训练数据

  • 后门 ML 模型

  • LLM 提示注入

当然,持久性是网络攻击的一个常见方面,但攻击者为 AI/ML 系统建立持久性的方法可能很独特。这可能涉及毒害 ML 模型使用的数据集或其底层训练数据和标签以嵌入漏洞或插入可在以后需要时触发的代码,例如后门。

权限提升

获得初始访问权限和持久性是关键,但攻击者通常希望提升其权限以实现预期影响,无论是完全入侵组织、影响模型或数据,还是泄露数据。攻击者通常利用系统弱点、错误配置和漏洞来提升其访问权限级别。

ATLAS 确定的三种技术包括:

  • LLM 提示注入

  • LLM 插件妥协

  • LLM越狱

鉴于我们已经多次讨论过前两种技术,我们将重点讨论 LLM 越狱。LLM 越狱包括使用提示注入将 LLM 置于允许其自由响应任何用户输入的状态,而无视 LLM 系统所有者可能设置的约束、控制和护栏。

防御规避

获取系统访问权限并持久驻留对攻击者而言大有裨益,但检测可能会导致访问权限被消除或严重影响攻击者的目标,因此防御规避是关键。

与之前的策略类似,这里涉及的技术包括:

  • 逃避机器学习模型

  • LLM 提示注入

  • LLM越狱

这可能有助于逃避基于 ML 的病毒和恶意软件检测或网络扫描等活动,以确保他们的活动不被发现。

凭证访问

看到列出的凭证访问和泄露应该不足为奇。虽然 ATLAS 列出了帐户名和密码,但这应该扩展到任何类型的凭证,包括访问令牌、API 密钥、GitHub 特权访问令牌等,因为凭证泄露仍然是主要的攻击媒介,而且由于 API、微服务、云和当前的数字环境,我们也看到了非人类身份 (NHI) 的兴起。

ATLAS 在凭证访问下列出的唯一技术是:

  • 不安全的凭证

他们讨论了不安全存储的凭证,例如纯文本文件、环境变量和存储库。

发现

发现类似于侦察,但它发生在您的环境内,而不是外部。攻击者已经建立了访问权限和持久性,现在正在寻求了解系统、网络和 ML 环境。

列出的四种技术包括:

  • 发现 ML 模型本体

  • 探索 ML 模型系列

  • 发现机器学习成果

  • LLM 元提示提取

攻击者希望了解 ML 模型、其本体、其所属的模型系列、其对输入的响应方式等,以便相应地定制攻击。他们还希望了解 LLM 如何处理指令及其内部工作原理,以便对其进行操纵或被迫泄露敏感数据。

收藏

根据 ATLAS 的说法,在攻击生命周期的这个阶段,攻击者正在收集 ML 工件和其他信息以协助实现他们的目标。这通常是窃取 ML 工件或使用收集到的信息进行下一步攻击的前兆。攻击者通常会从软件存储库、容器和模型注册表等处收集信息。

确定的技术包括:

  • 机器学习工件集合

  • 来自信息存储库的数据

  • 来自本地系统的数据

机器学习攻击

收集到信息后,恶意攻击者便开始利用对目标系统的知识发起攻击。他们可能正在训练代理模型、毒害目标模型或制作对抗数据以输入目标模型。

确定的四种技术包括:

  • 创建代理 ML 模型

  • 后门 ML 模型

  • 验证攻击

  • 制作对抗数据

代理 ML 模型可用于模拟攻击,并在攻击者磨练其技术和预期结果的同时离线执行。他们还可以使用目标模型的离线副本来验证攻击是否成功,而不会引起受害组织的怀疑。

泄漏

经过上述所有步骤后,攻击者开始真正关注他们真正关心的事情 — 数据泄露。这包括窃取机器学习工件或有关机器学习系统的其他信息。根据模型和机器学习系统的用例,这些信息可能是知识产权、财务信息、PHI 或其他敏感数据。

与渗漏相关的技术包括:

  • 通过 ML 推理 API 进行渗透

  • 通过网络手段进行渗透

  • LLM 元提示提取

  • LLM数据泄露

这些都涉及数据泄露,无论是通过 API、传统网络方法(例如ATT&CK 泄露),还是使用提示让 LLM 泄露敏感数据,例如私人用户数据、专有组织数据和培训数据(可能包括个人信息)。随着组织迅速采用 LLM,这已成为安全从业人员在使用 LLM 时的主要担忧之一。

影响

与数据泄露不同,影响阶段是攻击者制造破坏或损害的阶段,可能导致中断、削弱信心,甚至破坏机器学习系统和数据。在此阶段,攻击者可能以可用性为目标(例如通过勒索)或恶意破坏完整性。

此战术有六种技巧,包括:

  • 逃避机器学习模型

  • 拒绝机器学习服务

  • 向机器学习系统发送垃圾数据

  • 侵蚀机器学习模型的完整性

  • 成本收割

  • 外部危害

虽然我们已经讨论过一些技术作为其他策略的一部分,但这里还有一些与影响有关的独特技术。例如,拒绝 ML 服务会耗尽资源或向系统发送降级或关闭服务的请求。

虽然大多数现代企业级 AI 产品都托管在具有弹性计算的云中,但如果不加以适当缓解,它们仍然可能遭遇 DDoS 和资源耗尽,以及成本影响,从而影响提供商和消费者。

此外,攻击者可能会试图通过对抗性数据输入来破坏 ML 模型的完整性,从而影响 ML 模型消费者的信任,并导致模型提供商或组织修复系统和性能问题以解决完整性问题。

最后,攻击者可能会试图造成外部危害,例如滥用他们获得的访问权限来影响受害者系统、资源和组织,例如造成财务和声誉损害、影响用户或更广泛的社会危害,具体取决于机器学习系统的使用和影响。

原文始发于微信公众号(网络研究观):想知道坏人如何攻击人工智能系统吗?

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年9月21日21:55:14
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   想知道坏人如何攻击人工智能系统吗?https://cn-sec.com/archives/3190877.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息