cckuailong
读完需要
分钟
速读仅需 2 分钟
1
卡内基梅隆大学近期发现了一种新的绕过 LLM 安全限制的方案 -- 添加对抗性后缀,这种方案完全规避了开源 LLM(大型语言模型)的对齐。更令人担忧的是,相同的提示也适用于 ChatGPT、Claude、Bard 和 LLaMA-2 这种闭源的优秀 LLM。
2
Claude2 具有额外的安全过滤层。在我们用一个单词技巧绕过它后,生成模型愿意给我们提供答案。
3
仅使用四个对抗性后缀,这些 LLM 在超过 60%的时间里遵循有害的指令。
4
手动“越狱”很少见,而且通常是不可靠的。但我们找到了一种自动化方法(GCG),可以构建无限多个这样的越狱,即使对于新的指令和模型,它们的可靠性也很高。
对齐模型并非对抗性对齐!尽管这些模型明确受过训练,拒绝执行有害的指令,但我们的后缀可以使它们提供制作炸弹的指令,这是一个典型的例子,很可能在它们的训练集中直接受过训练。
5
像 OpenAI 这样的公司只是修补了论文中的后缀,但在训练过程中获得的其他许多提示仍然有效。此外,如果模型权重得到更新,在新模型上重复相同的过程可能仍然有效。
这一令人担忧的发现表明,不法分子利用这些系统传播错误信息和操纵人们及政治的短期风险。从模型的能力和自主性来看,它们可能降低制造武器的门槛或协助犯罪活动。
6
尽管存在风险,但我们认为全面披露是正确的。这里介绍的攻击方法易于实施,此前已出现过类似形式,最终会被任何专注于滥用 LLM 的团队发现。
作为一个研究团队,我们发布这种攻击的目的是尽早发出警报,帮助促进讨论。在部署更先进、更自主的代理,比这些聊天机器人带来的风险要高得多之前解决这个问题至关重要。
7
这是不确定的。在计算机视觉领域,对抗性示例已经持续了十多年,尚未找到满意的解决方案。目前还不清楚这是否会从根本上限制 LLM 的适用性。我们希望我们的工作能激发未来的研究方向。
8
ChatGPT 和 Claude2 动作比较快,目前已修复这种“越狱”方案,但是不保证修复完全。其他的 LLM 暂时未修复。
下面是宝玉老师的测试结果:
9
https://twitter.com/andyzou_jiaming/status/1684766170766004224
10
10.1
awesome-gpt-security
项目地址:
https://github.com/cckuailong/awesome-gpt-security
项目简介
精选的与 LLM 或 GPT 相关的安全工具、实验案例或其他有趣内容的列表。
10.2
SuperAdapters
项目地址:
https://github.com/cckuailong/SuperAdapters
项目简介
一键微调框架,支持全平台(Linux/Windows/Mac),支持多种 LLM,支持多种微调方式(Lora/Qlora/PTuning 等)
原文始发于微信公众号(我不是Hacker):屡试不爽|绕过ChatGPT安全限制的新方案
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论