两位微软研究人员设计了一种全新的、无需优化的越狱方法,可以有效绕过大多数人工智能系统的安全机制。
该方法被称为上下文合规攻击 (CCA),利用了许多已部署的 gen-AI 解决方案中存在的基本架构漏洞,破坏安全措施并启用原本受抑制的功能。
微软的 Mark Russinovich 和 Ahmed Salem 在一篇研究论文(PDF) 中解释道:“通过巧妙地操纵对话历史,CCA 说服模型遵守虚构的对话环境,从而触发受限行为。”
研究人员表示:“我们对多种开源和专有模型的评估表明,这种简单的攻击可以绕过最先进的安全协议。”
其他针对人工智能的越狱方法专注于精心设计的提示序列或提示优化,而 CCA 则依赖于在敏感话题的对话中插入操纵的对话历史,并对虚构的问题做出肯定的回答。
研究人员表示:“人工智能系统被操纵的对话所说服,生成符合感知到的对话上下文的输出,从而违反了其安全限制。”
Russinovich 和 Salem 使用 CCA 对多个领先的 AI 系统进行了测试,包括 Claude、DeepSeek、Gemini、各种 GPT 模型、Llama、Phi 和 Yi,结果表明,除 Llama-2 之外,几乎所有模型都存在漏洞。
为了进行评估,研究人员使用了 11 项敏感任务,这些任务对应于尽可能多的潜在有害内容类别,并在五次独立试验中执行了 CCA。他们表示,大多数任务都在第一次试验中完成。
问题在于,许多聊天机器人都依赖于客户端提供“每次请求的完整对话历史记录”,并信任所提供上下文的完整性。开源模型最容易受到攻击,因为用户可以完全控制输入历史记录。
研究人员指出:“然而,值得注意的是,在其服务器上维护对话状态的系统(例如 Copilot 和 ChatGPT)不易受到这种攻击。”
研究人员提出了服务器端历史记录维护,以确保一致性和完整性,并对对话历史实施数字签名,以缓解 CCA 和依赖于恶意上下文注入的类似攻击。
他们指出,这些缓解措施主要适用于黑盒模型,而白盒模型需要“更复杂的防御策略”,例如将加密签名集成到人工智能系统的输入处理中,以确保模型只接受经过身份验证和未改变的上下文。
原文始发于微信公众号(祺印说信安):新的CCA越狱方法可对抗大多数AI模型
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论