Palo Alto Networks 专家开发了一种名为“Deceptive Delight”的创新技术,可以绕过语言人工智能(AI) 模型的防御机制。
这种技术将安全和不安全的内容结合在看似无害的环境中,欺骗模型生成潜在的恶意响应。
https://unit42.paloaltonetworks.com/jailbreak-llms-through-camouflage-distraction/
该研究涉及对 8 个不同模型进行约 8,000 次测试,突显了此类攻击的普遍脆弱性。
“Deceptive Delight”采用多通道策略,在两个安全请求之间插入不安全请求。
这样,AI模型不会将内容视为威胁,而是在不激活安全过滤器的情况下继续生成响应。
该攻击仅经过 3 次迭代就获得了 65% 的成功率,证明了其在绕过标准过滤器方面的高效性。
攻击过程分为三个阶段:准备、初始查询和主题探索。
特别是,需要进一步扩展内容的第三阶段,是模型开始以更具体的方式生成不安全细节的阶段,从而确认多路径技术的有效性。
通过这种方法,与直接攻击相比,成功率显着提高。
根据不安全内容的类别,攻击的成功程度各不相同。
模型更容易受到与暴力和危险行为相关的请求,而与性内容和仇恨言论相关的回复则得到更加谨慎的处理。
这种差异表明模型对某些内容类别具有更高的敏感性。
Palo Alto Networks 还强调了更加结构化的查询设计和多级内容过滤解决方案的重要性。
建议包括采用 OpenAI Moderation 和 Meta Llama-Guard 等服务,以及定期进行模型测试,以加强防御系统并减少漏洞。
这项研究的结果已与网络威胁联盟(CTA)共享,以便快速实施预防措施。
Palo Alto 指出,该问题虽然凸显了当前人工智能技术的弱点,但总体上并没有损害模型的安全性,而是凸显了持续改进以应对新威胁的必要性。
原文始发于微信公众号(网络研究观):欺骗性的喜悦:人工智能再次被黑客技术欺骗,成功率达 65%
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论