“忽略之前的指令”如果只是在字母之间加上空格并去掉标点,就能使Meta的Prompt-Guard模型失效。Meta的这个机器学习模型原本用于检测提示注入攻击——这些特殊提示会让神经网络行为不当。
Meta上周与它的Llama 3.1生成模型一同推出了Prompt-Guard-86M,这家社交网络巨头表示,它的目的是“帮助开发人员检测和响应提示注入和越狱输入”。
大型语言模型(LLMs)通过大量文本和其他数据进行训练,如果按需复述的材料是危险的、可疑的或包含个人信息,那就不理想了。因此,AI模型的制造商建立了称为“护栏”的过滤机制,以捕获可能造成伤害的查询和响应,例如按需泄露敏感训练数据。
使用AI模型的人已经把它当作一项运动,通过提示注入来规避护栏——设计用于使LLM忽略其内部系统提示的输入——或者越狱——设计用于使模型忽略安全措施的输入。
这是一个众所周知且尚未解决的问题。例如,大约一年前,与卡内基梅隆大学有关联的计算机科学家开发了一种自动化技术来生成打破安全机制的对抗性提示。在加利福尼亚州沃森维尔的一家雪佛兰经销商看到其聊天机器人同意以1美元的价格出售一辆价值76,000美元的雪佛兰Tahoe,这表明了以这种方式操纵AI模型的风险。
也许最广为人知的提示注入攻击以“忽略之前的指令...”开始。而一个常见的越狱攻击是“现在做任何事”或“DAN”攻击,它敦促LLM采用没有规则的AI模型DAN的角色。
事实证明,Meta的Prompt-Guard-86M分类器模型可以被要求“忽略之前的指令”,如果你只是在字母之间加上空格并省略标点。
Aman Priyanshu是企业AI应用安全公司Robust Intelligence的漏洞猎人,最近在分析Meta的Prompt-Guard-86M模型和微软的基础模型microsoft/mdeberta-v3-base之间的嵌入权重差异时发现了这个安全绕过。
Prompt-Guard-86M是通过微调基础模型产生的,使其能够捕获高风险提示。但Priyanshu发现微调过程对单个英文字符的影响很小。结果,他能够设计出一种攻击。
“绕过涉及在给定提示中的所有英文字母字符之间插入字符级别的空格,”Priyanshu在周四提交给Prompt-Guard仓库的GitHub问题帖子中解释道。“这种简单的转换有效地使分类器无法检测潜在的有害内容。”
这一发现与安全组织在5月发表的一篇帖子一致,该帖子讲述了如何微调模型可能会破坏安全控制。
“无论你想提出什么棘手的问题,你所需要做的就是去掉标点符号并在每个字母之间添加空格,”Robust Intelligence的首席技术官Hyrum Anderson告诉The Register。“这非常简单,而且有效。不仅仅是一点点。它的攻击成功率从不到3%上升到了接近100%。”
Anderson承认,Prompt-Guard潜在的失败只是第一道防线,Prompt-Guard正在测试的任何模型可能仍然会拒绝恶意提示。但他表示,提出这一点的目的是提高企业使用AI的意识,因为有很多可能出错的事情。
Meta尚未立即回应评论请求,尽管我们被告知这家社交媒体公司正在努力修复。
具体技术详情见:
https://github.com/meta-llama/llama-models/issues/50
原文始发于微信公众号(独眼情报):Meta 的 AI 安全系统被空格键击败
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论