研究人员开发出新的 LLM 越狱方法,成功率达 65%

admin 2024年10月24日22:29:35评论90 views字数 1100阅读3分40秒阅读模式
研究人员开发出新的 LLM 越狱方法,成功率达 65%

Palo Alto Networks Unit 42 的研究人员周三报告称,一种名为“Deceptive Delight”的大型语言模型 (LLM) 的新越狱方法仅在三次交互中平均成功率就达到 65% 。

该方法由 Unit 42 开发和评估,该团队在 8,000 个案例中测试了多轮技术,涉及 8 种不同的模型。越狱技术仅需要两次交互,但可选的第三步可显著提高成功率。

在越狱的第一步中,攻击者要求法学硕士制作一个叙述,将两个良性话题和一个不安全话题在逻辑上联系起来,例如将家庭团聚和孩子的出生与制造燃烧瓶联系起来。第二步要求法学硕士进一步阐述叙述中包含的每个主题。

虽然第二步通常会导致模型生成与不安全主题相关的有害内容,但第三步要求模型进一步扩展不安全主题,将成功率提高到平均 65%,并使不安全内容的有害性和质量分别平均提高 21% 和 33%。

生成内容的危害性和生成内容的质量(即内容与有害主题的相关性和详细程度)按照 Unit 42 开发的 1 到 5 的量表进行评分,并纳入另一个 LLM 的提示中,然后用于评估越狱的每次测试运行。如果危害性和质量得分至少为 3,则越狱成功。

研究人员指出,他们的测试探查了模型本身内置的安全措施,并在测试中移除了额外的内容过滤层。即使移除这些过滤器,LLM 也相对不易生成有害内容,因为研究人员发现,当直接提示不安全主题时,它们生成有害内容的概率平均只有 5.8%。

报告中匿名了用于测试的八个模型,使用 Deceptive Delight 的单个模型的最高成功率为 80.6%,最低成功率为 48%。相比之下,Pillar Security 本月早些时候发布的“GenAI 攻击状况”报告发现,现实世界中涉及各种技术的越狱尝试中,约有 20% 是成功的,平均需要与 LLM 进行五次互动才能完成。

对于欺骗性的愉悦,第三步之后的额外互动(试图让 LLM 进一步扩展不安全的话题)的收益递减,这可能是因为进一步讨论该话题会触发模型的保障措施的风险增加。

多轮越狱方法通常比单轮越狱更成功,因为 LLM 不太可能识别分散在多个交互中的不安全内容,因为它们的上下文感知能力有限。多轮越狱的其他示例包括微软研究人员开发的Crescendo以及西安电子科技大学和 360 人工智能安全实验室的研究人员开发的上下文融合攻击。

为了防范 Deceptive Delight 等多轮越狱攻击,Unit 42 建议使用内容过滤器作为额外的保护层,并设计强大的系统提示,指导 LLM 坚持其预期角色并避免有害主题。这包括明确定义 LLM 的界限和可接受的输入和输出,包括提醒遵守安全协议,并明确定义模型旨在扮演的“角色”。

原文始发于微信公众号(独眼情报):研究人员开发出新的 LLM 越狱方法,成功率达 65%

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年10月24日22:29:35
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   研究人员开发出新的 LLM 越狱方法,成功率达 65%https://cn-sec.com/archives/3309169.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息