导 读
圣路易斯大学的两位研究人员 Zhen Guo 和 Reza Tourani 最近开发并演示了一种新的后门攻击,这种攻击可以操纵 LLM 的文本生成,同时又很难被发现。
这种被称为 DarkMind 的攻击在最近发布到arXiv预印本服务器的一篇论文中进行了概述,该论文强调了现有 LLM 的漏洞。
该论文作者 Tourani 告诉 Tech Xplore:“我们的研究源于个性化 AI 模型的日益普及,例如 OpenAI 的 GPT Store、谷歌的 Gemini 2.0 和 HuggingChat 上提供的模型,这些模型现在拥有超过 4,000 个定制的 LLM。”
“这些平台代表着向代理 AI 和推理驱动应用的重大转变,使 AI 模型更加自主、适应性更强、更广泛可用。然而,尽管它们具有变革潜力,但它们对新兴攻击媒介的安全性仍未得到充分检验——尤其是推理过程本身中嵌入的漏洞。”
Tourani 和 Guo 最近的这项研究的主要目的是探索 LLM 的安全性,揭露所谓的“思维链 (CoT)”推理范式中存在的任何漏洞。这是一种广泛使用的计算方法,允许基于 LLM 的对话代理(如 ChatGPT)将复杂任务分解为连续步骤。
为DarkMind评估设计的后门GPT示例
Tourani 表示: “我们发现了一个重大的盲点,即基于推理的漏洞,这些漏洞在传统的静态即时注入或对抗性攻击中不会出现。这促使我们开发了 DarkMind,这是一种后门攻击,其中嵌入的对抗性行为保持休眠状态,直到通过 LLM 中的特定推理步骤激活。”
Tourani 和 Guo 开发的隐秘后门攻击利用了 LLM 处理和生成文本的逐步推理过程。与过去引入的传统后门攻击不同,DarkMind 不会操纵用户查询来改变模型的响应或要求重新训练模型,而是在定制的 LLM 应用程序(例如 OpenAI 的 GPT Store)中嵌入“隐藏触发器”。
“这些触发器在初始提示中是不可见的,但在中间推理步骤中激活,巧妙地修改了最终输出。”博士生兼论文第一作者 Guo 解释道。“因此,攻击仍然处于潜伏状态且无法检测,允许 LLM 在标准条件下正常运行,直到特定推理模式触发后门。”
在进行初步测试时,研究人员发现 DarkMind 具有多种优势,使其成为一种非常有效的后门攻击。它很难被发现,因为它在模型的推理过程中运行,无需操纵用户查询,从而导致标准安全过滤器可以发现的变化。
由于该攻击会动态修改 LLM 的推理,而不是改变其响应,因此该攻击在各种不同的语言任务中也有效且持久。换句话说,它可以降低 LLM 在跨不同领域任务上的可靠性和安全性。
Tourani 表示:“DarkMind 具有广泛的影响,因为它适用于各种推理领域,包括数学、常识和符号推理,并且对 GPT-4o、O1 和 LLaMA-3 等最先进的 LLM 仍然有效。”“此外,像 DarkMind 这样的攻击可以使用简单的指令轻松设计,即使没有语言模型专业知识的用户也可以有效地集成和执行后门,从而增加了广泛滥用的风险。”
OpenAI 的 GPT4 和其他 LLM 现已被集成到各种网站和应用程序中,包括一些重要服务的网站和应用程序,例如一些银行或医疗保健平台。因此,像 DarkMind 这样的攻击可能会带来严重的安全风险,因为它们可以在不被发现的情况下操纵这些模型的决策。
论文第一作者 Guo 说:“我们的研究结果凸显了LLM推理能力的一个关键安全漏洞。值得注意的是,我们发现 DarkMind 在对抗推理能力更强的高级 LLM 时表现得更为成功。事实上, LLM 的推理能力越强,就越容易受到 DarkMind 的攻击。这挑战了当前“模型越强,稳定性就越高”的假设。”
迄今为止开发的大多数后门攻击都需要多次演示。相比之下,DarkMind 被发现即使在没有先前训练示例的情况下也能有效,这意味着攻击者甚至不需要提供他们希望模型如何犯错的示例。
Tourani 表示:“这使得 DarkMind 在现实世界中具有极高的实用性。DarkMind 还比现有的后门攻击表现更好。与 BadChain 和 DT-Base(针对基于推理的 LLM 的最先进的攻击)相比,DarkMind 更具弹性,并且无需修改用户输入即可运行,因此更难检测和缓解。”
Tourani 和 Guo 最近的研究成果可能很快会为开发更先进的安全措施提供参考,这些措施将更好地应对 DarkMind 和其他类似的后门攻击。研究人员已经开始开发这些措施,并计划很快测试它们对 DarkMind 的有效性。
Tourani 补充道:“我们未来的研究将侧重于研究新的防御机制,例如推理一致性检查和对抗触发检测,以增强缓解策略。此外,我们将继续探索 LLM 更广泛的攻击面,包括多轮对话中毒和隐蔽指令嵌入,以发现更多漏洞并加强 AI 安全性。”
论文链接:https://arxiv.org/abs/2501.18617
新闻链接:
https://techxplore.com/news/2025-02-darkmind-backdoor-leverages-capabilities-llms.html
扫码关注
军哥网络安全读报
讲述普通人能听懂的安全故事
原文始发于微信公众号(军哥网络安全读报):DarkMind:一种利用 LLM 推理能力的新型后门攻击
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论