欺骗性的喜悦：人工智能再次被黑客技术欺骗，成功率达 65%

2024年10月26日07:20:21评论57 views字数 811阅读2分42秒阅读模式

Palo Alto Networks 专家开发了一种名为“Deceptive Delight”的创新技术，可以绕过语言人工智能(AI) 模型的防御机制。

这种技术将安全和不安全的内容结合在看似无害的环境中，欺骗模型生成潜在的恶意响应。

欺骗性的喜悦：人工智能再次被黑客技术欺骗，成功率达 65%

https://unit42.paloaltonetworks.com/jailbreak-llms-through-camouflage-distraction/

该研究涉及对 8 个不同模型进行约 8,000 次测试，突显了此类攻击的普遍脆弱性。

“Deceptive Delight”采用多通道策略，在两个安全请求之间插入不安全请求。

这样，AI模型不会将内容视为威胁，而是在不激活安全过滤器的情况下继续生成响应。

该攻击仅经过 3 次迭代就获得了 65% 的成功率，证明了其在绕过标准过滤器方面的高效性。

攻击过程分为三个阶段：准备、初始查询和主题探索。

特别是，需要进一步扩展内容的第三阶段，是模型开始以更具体的方式生成不安全细节的阶段，从而确认多路径技术的有效性。

通过这种方法，与直接攻击相比，成功率显着提高。

根据不安全内容的类别，攻击的成功程度各不相同。

模型更容易受到与暴力和危险行为相关的请求，而与性内容和仇恨言论相关的回复则得到更加谨慎的处理。

这种差异表明模型对某些内容类别具有更高的敏感性。

Palo Alto Networks 还强调了更加结构化的查询设计和多级内容过滤解决方案的重要性。

建议包括采用 OpenAI Moderation 和 Meta Llama-Guard 等服务，以及定期进行模型测试，以加强防御系统并减少漏洞。

这项研究的结果已与网络威胁联盟（CTA）共享，以便快速实施预防措施。

Palo Alto 指出，该问题虽然凸显了当前人工智能技术的弱点，但总体上并没有损害模型的安全性，而是凸显了持续改进以应对新威胁的必要性。

原文始发于微信公众号（网络研究观）：欺骗性的喜悦：人工智能再次被黑客技术欺骗，成功率达 65%

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

漏洞预警|多家主流蓝牙耳机曝出可被监视漏洞