点击上方蓝字关注「魔都安全札记」
DeepSeek R1是一种性价比高的AI模型,在推理能力上表现出色,但在思科的鲁棒智能团队开展的一项新研究中,该模型未能通过任何安全性测试。研究人员通过算法越狱的方式,展示了该模型对有害提示的100%易受攻击性,这引发了对其训练方法的担忧,以及对更高级AI安全措施的需求。
中国初创公司DeepSeek因其引入具有先进推理能力和成本高效训练的大型语言模型(LLMs)而备受关注。其最近发布的DeepSeek R1-Zero和DeepSeek R1在性能上达到了与OpenAI的o1等领先模型相当的水平,且成本仅为后者的几分之一,并且在数学、编程和科学推理等任务上超越了Claude 3.5 Sonnet和ChatGPT-4o。
然而,来自鲁棒智能(现为思科的一部分)和宾夕法尼亚大学的最新研究揭示了该模型存在关键的安全缺陷。这些研究结果已与Hackread.com分享。
据报道,研究人员合作调查了DeepSeek R1的安全性,这是中国人工智能初创公司DeepSeek推出的一款新型推理模型。此次评估的成本不到50美元,采用了算法验证方法。
研究团队使用自动化越狱算法对DeepSeek R1、OpenAI的o1-preview以及其他前沿模型进行了测试,测试内容包括来自HarmBench数据集的50个提示。这些提示涵盖了六类有害行为,包括网络犯罪、虚假信息、非法活动和一般性危害。
他们的关键指标是攻击成功率(ASR),即引发有害回应的提示所占的百分比。测试结果显示令人担忧的情况:DeepSeek R1的攻击成功率达到了100%,未能阻止任何一个有害提示。这与其他领先模型形成了鲜明对比,后者至少在一定程度上能够抵御此类攻击。
值得注意的是,研究人员为了可重复性,将温度设置为0,并通过自动化方法和人工监督来验证越狱行为。DeepSeek R1的100%攻击成功率与o1形成了鲜明对比,后者成功阻止了许多对抗性攻击。这表明,尽管DeepSeek R1在训练成本上实现了高效,但在安全性和安全性方面存在显著的权衡。
根据思科的调查,尽管DeepSeek的AI开发策略在成本效率方面表现出色,但可能削弱了模型的安全机。与其他前沿模型相比,DeepSeek R1似乎缺乏有效的防护措施,使其极易受到算法越狱和潜在滥用的影。
这项研究强调了在AI开发中进行严格安全评估的必要性,以在效率和推理能力之间取得平衡,同时不损害安全。此外,它还突显了第三方防护措施在确保AI应用一致安全性方面的重要。
以上译文来源:hackread网站
链接:https://hackread.com/cisco-finds-deepseek-r1-vulnerable-harmful-prompts/
📚 延伸阅读:
一:大模型安全风险:
大模型技术作为一种新质生产力,虽然在推动社会进步和经济发展方面具有巨大的潜力,但也面临着前新的安全风险,主要体现在以下几个方面:
虚假信息:大模型可能会生成虚假信息或误导性内容,在传播过程中可能会引发社会恐慌、误导公众认知,甚至影响社会稳定。
二:大模型测试框架介绍:
AI Safety Benchmark大模型安全基准
AI Safety Benchmark 2024 Q4从文生图和图生文(图文理解)两个维度,在Q3版基础之上结合目前研究界各种先进的攻击方法对多模态大模型进行安全测试,其中图生文系列应用4种类别攻击策略,11种攻击方法;文生图系列应用2种类别攻击策略,7种攻击方法。具体测试框架如下:
来源:中国信通院CAICT
-THE END-
📚 往期文章精选:
原文始发于微信公众号(魔都安全札记):思科发现DeepSeek R1极易受到有害提示的影响
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论