博主没有测试成功过,可能我太菜了吧。🐶为什么要给AI加那么多限制?🐶deepseek永远滴神
DeepSeek 聊天机器人安全防护系统在研究人员所有测试中均告失败
安全研究人员对 DeepSeek 的热门聊天机器人进行了 50 种常见的越狱测试。结果显示,没有一项测试被成功阻止。
自从 OpenAI 在 2022 年底发布 ChatGPT 以来,黑客和安全研究人员一直在寻找大型语言模型(LLM)的漏洞,试图绕过其安全防护,诱使其产生仇恨言论、制造炸弹的说明、宣传内容等有害信息。对此,OpenAI 和其他生成式 AI 开发商不断完善其系统防御,使这些攻击更难实施。然而,就在中国 AI 平台 DeepSeek 凭借其新发布的、更经济的 R1 推理模型迅速崭露头角之际,其安全防护措施似乎远远落后于成熟的竞争对手。
今天,来自思科和宾夕法尼亚大学的安全研究人员发布了研究结果(https://blogs.cisco.com/security/evaluating-security-risk-in-deepseek-and-other-frontier-reasoning-models
),显示在使用 50 个旨在引发有害内容的恶意提示进行测试时,DeepSeek 的模型没有检测或阻止任何一个。换句话说,研究人员表示他们对实现"百分之百的攻击成功率"感到震惊。
这些发现是越来越多证据的一部分,表明 DeepSeek 的安全防护措施可能无法与其他开发 LLM 的科技公司相匹敌。
"百分之百的攻击都成功了,这告诉你这里存在一个权衡," 思科 AI 软件和平台产品副总裁 DJ Sampath 对 WIRED 表示。"在这里构建一些东西可能更便宜,但在思考需要在模型内部植入什么类型的安全防护措施方面,投入可能不够。"
其他研究人员也有类似发现。AI 安全公司 Adversa AI 今天发布的独立分析并与 WIRED 分享的结果同样表明,DeepSeek 容易受到各种越狱策略的攻击,从简单的语言技巧到复杂的 AI 生成提示都能奏效。
DeepSeek 本周正在应对大量关注,尚未就一系列问题公开发声,也未回应 WIRED 关于其模型安全设置的置评请求。
像任何技术系统一样,生成式 AI 模型可能包含一系列弱点或漏洞,如果被利用或设置不当,可能允许恶意行为者对其发起攻击。对于当前的 AI 系统而言,间接提示注入攻击被认为是最大的安全漏洞之一。这些攻击涉及 AI 系统接收来自外部源的数据——可能是 LLM 总结的网站中隐藏的指令——并根据这些信息采取行动。
越狱是一种提示注入攻击,允许人们绕过用于限制 LLM 生成内容的安全系统。科技公司不希望人们创建制造爆炸物的指南或使用他们的 AI 创建大量虚假信息。
越狱最初很简单,人们基本上是巧妙地编写句子告诉 LLM 忽略内容过滤器——最流行的一个被称为"现在做任何事"(Do Anything Now)或简称 DAN。然而,随着 AI 公司部署更强大的保护措施,一些越狱变得更加复杂,往往是使用 AI 生成或使用特殊和混淆字符。虽然所有 LLM 都容易受到越狱攻击,而且大多数信息都可以通过简单的在线搜索找到,但聊天机器人仍然可能被恶意利用。
"越狱之所以持续存在,仅仅是因为完全消除它们几乎是不可能的——就像软件中的缓冲区溢出漏洞(存在了 40 多年)或 Web 应用程序中的 SQL 注入漏洞(困扰安全团队超过 20 年)一样," 安全公司 Adversa AI 的 CEO Alex Polyakov 在给 WIRED 的电子邮件中表示。
思科的 Sampath 认为,随着公司在应用中使用更多类型的 AI,风险会被放大。"当你开始将这些模型放入重要的复杂系统中时,这开始变得很重要,因为这些越狱突然导致下游问题,增加企业的责任、商业风险和各种问题," Sampath 说。
思科研究人员从一个著名的标准化评估提示库 HarmBench 中随机选择了 50 个提示来测试 DeepSeek 的 R1。他们测试了来自 HarmBench 六个类别的提示,包括一般性危害、网络犯罪、错误信息和非法活动。他们在本地机器上测试模型,而不是通过 DeepSeek 的网站或应用程序。
除此之外,研究人员表示,他们在使用西里尔字符和定制脚本等更复杂的非语言攻击测试 R1 以尝试实现代码执行时,也看到了一些潜在令人担忧的结果。但对于他们的初步测试,Sampath 说,他的团队想要专注于源自普遍认可的基准的发现。
思科还比较了 R1 与其他模型在 HarmBench 提示测试中的表现。一些模型,如 Meta 的 Llama 3.1,表现几乎与 DeepSeek 的 R1 一样糟糕。但 Sampath 强调,DeepSeek 的 R1 是一个特定的推理模型,生成答案需要更长时间,但会利用更复杂的过程来尝试产生更好的结果。因此,Sampath 认为,最好的比较对象是OpenAI 的 o1 推理模型,该模型在所有测试模型中表现最好。
来自 Adversa AI 的 Polyakov 解释说,DeepSeek 似乎能检测和拒绝一些众所周知的越狱攻击,称"这些响应似乎经常只是从 OpenAI 的数据集中复制的。" 然而,Polyakov 表示,在他的公司对四种不同类型越狱的测试中——从语言技巧到基于代码的技巧——DeepSeek 的限制都可以轻易绕过。
"每一种方法都完美奏效," Polyakov 说。"更令人担忧的是,这些并不是新颖的'0day
'越狱——许多都是多年来公开已知的," 他说,并称他看到该模型在某些迷幻药说明方面的详细程度超过了他见过的任何其他模型。
"DeepSeek 只是另一个例子,说明每个模型都可以被破解——这只是你投入多少努力的问题。一些攻击可能会被修复,但攻击面是无限的," Polyakov 补充道。"如果你不持续进行红队测试,你的 AI 就已经被攻破了
。"
原文始发于微信公众号(独眼情报):DeepSeek 容易受到各种越狱策略的攻击
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论