GPT-4o Mini:首创指令层级技术抵御越狱攻击

admin 2024年7月20日23:28:01评论57 views字数 1272阅读4分14秒阅读模式

OpenAI 近日发布了性价比极高的轻量化模型 GPT-4o Mini,入局大模型价格战,支持 128K 上下文长度、多模态,能力接近 GPT-4,价格却比 GPT-3.5 Turbo 便宜 60%,大幅降低了大模型应用的成本。同时我们关注到 OpenAI GPT-4o Mini 在大模型安全性方面也给出了新的尝试。

Prompt 指令注入、越狱、提示词窃取,是伴随大模型而生的一种典型攻击手法,一直困扰着大模型应用,带来了无法避免的安全挑战。

在安全性方面,GPT-4o Mini 内置了多种防护措施。在预训练阶段,过滤掉仇恨言论、垃圾信息等低质量数据。在后训练阶段,通过人类反馈强化学习(RLHF)技术,使模型行为与 OpenAI 政策保持一致。另外引入了超过 70 位外部专家,从社会心理学、虚假信息等领域识别并解决潜在的风险。

除此之外,现在 OpenAI 给出了一种新的解法,可能从原理上解决此类问题。

API 版本的 GPT-4o Mini 是第一个应用了 OpenAI 指令层级技术的模型,提高了模型抵御越狱、提示注入和系统提示窃取攻击的能力,有助于模型更安全的大规模应用。

什么是指令层级(Instruction Hierarchy)技术?

2024年4月份,OpenAI 发表了一篇名为 《指令层级:训练大型语言模型优先处理特权指令》的论文:https://arxiv.org/abs/2404.13208

论文中,作者提出了一种指令层级架构,定义了不同优先级的指令类型,例如:系统提示(最高优先级)、用户输入(次高优先级)、工具输出(最低优先级)等。通过合成训练数据的方法,训练模型在面对不同优先级指令的冲突时,可以根据优先级进行排序,有选择性地忽略有冲突的低优先级指令。

例如:当 “系统提示” 与 “用户输入” 两者出现冲突,大模型应该优先遵循 “系统提示”。在智能体上,这种指令架构优势会尤为明显,可以让大模型更加重视开发者的原始提示,而不是盲目遵从用户注入的各种破坏性提示。

指令层次结构通过明确定义指令优先级,并训练模型有选择性地遵循高优先级指令,从而大幅提高模型对各种攻击的防护能力。

实测 GPT4 (第一句提示词是 System Prompt)

GPT-4o Mini:首创指令层级技术抵御越狱攻击

同样场景下,GPT4o Mini 表现如下

GPT-4o Mini:首创指令层级技术抵御越狱攻击

GPT-4o Mini

"指令层级"技术真的有用吗?

从测试结果看,有用,但目前还不够。

GPT-4o Mini:首创指令层级技术抵御越狱攻击

from gabriel

根据 AgentDojo 的测试结果,GPT-4o mini 与 GPT-4o 相比,Prompt 注入成功率降低了超过 20%

GPT-4o Mini:首创指令层级技术抵御越狱攻击

from Edoardo

然而,著名”最快越狱手“ @elder_plinius 也第一时间放出了越狱 Demo,让 GPT-4o Mini 输出恶意软件、毒品配方、脏话歌词以及如何窃取选举等越狱内容。

GPT-4o Mini:首创指令层级技术抵御越狱攻击

以上,OpenAI 在推出 GPT-4o Mini 的过程中,不仅在性价比上实现了重大突破,还在安全性方面进行了积极地探索和改进。尤其是“指令层级”技术的引入,尽管目前仍然不完美,但这一技术的方向无疑是正确且具有前瞻性的,期待未来的优化与表现。

原文始发于微信公众号(安全引擎):GPT-4o Mini:首创“指令层级”技术抵御越狱攻击

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年7月20日23:28:01
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   GPT-4o Mini:首创指令层级技术抵御越狱攻击http://cn-sec.com/archives/2979006.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息