一、事件概述:
随着人工智能(AI)技术的飞速发展,定制化大型语言模型(LLMs)因其强大的推理能力和广泛的应用场景,正被越来越多的企业和组织采用。例如,OpenAI的GPT商店已经托管了超过300万个定制化的GPT模型。这些模型通过链式推理(Chain-of-Thought,CoT)逐步逻辑推理的方式,能够有效解决复杂任务,因而在医疗、金融、教育等多个关键领域得到了广泛应用。然而,这种快速普及也带来了新的安全挑战,尤其是其推理过程中的潜在漏洞尚未得到充分探索。近日,圣路易斯大学的研究人员发现了一种名为DarkMind的新型后门攻击,该攻击专门针对定制化LLMs,引发了全球范围内对人工智能安全性的广泛关注。DarkMind攻击的主要目标是利用LLMs的推理能力,特别是CoT过程,通过在模型的推理链中嵌入潜伏触发器,秘密篡改模型输出,而不直接操纵用户查询。与传统依赖于被污染的训练数据或用户提示中的显式触发器的后门攻击不同,DarkMind的触发器在推理的中间步骤中被激活,动态地改变最终输出,同时保持模型的表面行为不变,从而难以被察觉。
DarkMind攻击的核心机制包括即时触发器(τIns)和回顾性触发器(τRet)。即时触发器在推理链中的某个步骤被激活后,会立即修改后续的推理步骤,例如将正确的算术运算符替换为错误的运算符。而回顾性触发器则会在初始推理完成后,附加恶意的推理步骤,从而反转或扭曲最终结论。这种攻击方式不仅隐蔽性强,而且对模型的推理能力提出了新的挑战,尤其是对于那些推理能力较强的高级模型,如GPT-4o和LLaMA-3等。研究人员在多个数据集上测试了DarkMind攻击,结果显示其在算术和符号推理任务中取得了90.2%至99.3%的攻击成功率,在常识推理任务中也达到了67.9%至72.0%的成功率。这一发现表明,推理能力越强的模型,可能越容易受到此类攻击的影响。
二、攻击过程
DarkMind攻击的核心在于其独特的“潜伏式”触发机制。与传统的后门攻击依赖于污染训练数据或在用户查询中插入明显的触发词不同,DarkMind通过在模型的推理链中嵌入潜伏触发器,能够在不改变模型表面行为的情况下,动态地篡改最终输出结果。
1. 潜伏触发器设计
2. 指令级后门嵌入
3. 对话启动器选择
三、攻击影响
研究人员在八个涵盖算术、常识和符号推理的数据集上测试了DarkMind攻击,使用了包括GPT-4o和O1在内的五种最先进的LLM。结果显示,DarkMind在算术和符号推理任务中取得了90.2%至99.3%的攻击成功率,在常识推理任务中也达到了67.9%至72.0%的成功率。此外,DarkMind的零样本能力使其无需任何预训练示例即可发挥作用,这使得其在现实世界中的利用变得极为便捷。
更令人担忧的是,DarkMind的动态触发机制使其能够绕过传统的防御机制,如“无查询操作”和“上下文感知触发器”。攻击通过修改中间的CoT步骤,同时保持最终输出结果的合理性,使得通过输出监控检测攻击变得几乎不可能。
四、防御建议
五、总结
参考链接:
https://arxiv.org/abs/2501.18617
https://cybersecuritynews.com/darkmind-a-novel-backdoor/
原文始发于微信公众号(白泽安全实验室):定制化大型AI语言模型新型后门(DarkMind)攻击曝光
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论