欺骗性的喜悦:人工智能再次被黑客技术欺骗,成功率达 65%

admin 2024年10月26日07:20:21评论24 views字数 811阅读2分42秒阅读模式

欺骗性的喜悦:人工智能再次被黑客技术欺骗,成功率达 65%

Palo Alto Networks 专家开发了一种名为“Deceptive Delight”的创新技术,可以绕过语言人工智能(AI) 模型的防御机制。

这种技术将安全和不安全的内容结合在看似无害的环境中,欺骗模型生成潜在的恶意响应。

欺骗性的喜悦:人工智能再次被黑客技术欺骗,成功率达 65%

https://unit42.paloaltonetworks.com/jailbreak-llms-through-camouflage-distraction/

该研究涉及对 8 个不同模型进行约 8,000 次测试,突显了此类攻击的普遍脆弱性。

“Deceptive Delight”采用多通道策略,在两个安全请求之间插入不安全请求。

这样,AI模型不会将内容视为威胁,而是在不激活安全过滤器的情况下继续生成响应。

该攻击仅经过 3 次迭代就获得了 65% 的成功率,证明了其在绕过标准过滤器方面的高效性。

欺骗性的喜悦:人工智能再次被黑客技术欺骗,成功率达 65%


攻击过程分为三个阶段:准备、初始查询和主题探索。

特别是,需要进一步扩展内容的第三阶段,是模型开始以更具体的方式生成不安全细节的阶段,从而确认多路径技术的有效性。

通过这种方法,与直接攻击相比,成功率显着提高。

根据不安全内容的类别,攻击的成功程度各不相同。

模型更容易受到与暴力和危险行为相关的请求,而与性内容和仇恨言论相关的回复则得到更加谨慎的处理。

这种差异表明模型对某些内容类别具有更高的敏感性。

Palo Alto Networks 还强调了更加结构化的查询设计和多级内容过滤解决方案的重要性。

建议包括采用 OpenAI Moderation 和 Meta Llama-Guard 等服务,以及定期进行模型测试,以加强防御系统并减少漏洞

这项研究的结果已与网络威胁联盟(CTA)共享,以便快速实施预防措施。 

Palo Alto 指出,该问题虽然凸显了当前人工智能技术的弱点,但总体上并没有损害模型的安全性,而是凸显了持续改进以应对新威胁的必要性。

原文始发于微信公众号(网络研究观):欺骗性的喜悦:人工智能再次被黑客技术欺骗,成功率达 65%

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年10月26日07:20:21
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   欺骗性的喜悦:人工智能再次被黑客技术欺骗,成功率达 65%https://cn-sec.com/archives/3316869.html

发表评论

匿名网友 填写信息