思科发现DeepSeek R1极易受到有害提示的影响

admin 2025年2月5日23:13:09评论30 views字数 1929阅读6分25秒阅读模式

点击上方蓝字关注「魔都安全札记」

思科发现DeepSeek R1极易受到有害提示的影响

DeepSeek R1是一种性价比高的AI模型,在推理能力上表现出色,但在思科的鲁棒智能团队开展的一项新研究中,该模型未能通过任何安全性测试。研究人员通过算法越狱的方式,展示了该模型对有害提示的100%易受攻击性,这引发了对其训练方法的担忧,以及对更高级AI安全措施的需求。

中国初创公司DeepSeek因其引入具有先进推理能力和成本高效训练的大型语言模型(LLMs)而备受关注。其最近发布的DeepSeek R1-Zero和DeepSeek R1在性能上达到了与OpenAI的o1等领先模型相当的水平,且成本仅为后者的几分之一,并且在数学、编程和科学推理等任务上超越了Claude 3.5 Sonnet和ChatGPT-4o。

然而,来自鲁棒智能(现为思科的一部分)和宾夕法尼亚大学的最新研究揭示了该模型存在关键的安全缺陷。这些研究结果已与Hackread.com分享。

据报道,研究人员合作调查了DeepSeek R1的安全性,这是中国人工智能初创公司DeepSeek推出的一款新型推理模型。此次评估的成本不到50美元,采用了算法验证方法。

研究团队使用自动化越狱算法对DeepSeek R1、OpenAI的o1-preview以及其他前沿模型进行了测试,测试内容包括来自HarmBench数据集的50个提示。这些提示涵盖了六类有害行为,包括网络犯罪、虚假信息、非法活动和一般性危害。

他们的关键指标是攻击成功率(ASR),即引发有害回应的提示所占的百分比。测试结果显示令人担忧的情况:DeepSeek R1的攻击成功率达到了100%,未能阻止任何一个有害提示。这与其他领先模型形成了鲜明对比,后者至少在一定程度上能够抵御此类攻击。

值得注意的是,研究人员为了可重复性,将温度设置为0,并通过自动化方法和人工监督来验证越狱行为。DeepSeek R1的100%攻击成功率与o1形成了鲜明对比,后者成功阻止了许多对抗性攻击。这表明,尽管DeepSeek R1在训练成本上实现了高效,但在安全性和安全性方面存在显著的权衡。

思科发现DeepSeek R1极易受到有害提示的影响

根据思科的调查,尽管DeepSeek的AI开发策略在成本效率方面表现出色,但可能削弱了模型的安全机。与其他前沿模型相比,DeepSeek R1似乎缺乏有效的防护措施,使其极易受到算法越狱和潜在滥用的影

这项研究强调了在AI开发中进行严格安全评估的必要性,以在效率和推理能力之间取得平衡,同时不损害安全。此外,它还突显了第三方防护措施在确保AI应用一致安全性方面的重要

以上译文来源:hackread网站   

链接:https://hackread.com/cisco-finds-deepseek-r1-vulnerable-harmful-prompts/

📚 延伸阅读:

一:大模型安全风险:

    大模型技术作为一种新质生产力,虽然在推动社会进步和经济发展方面具有巨大的潜力,但也面临着前新的安全风险,主要体现在以下几个方面:

   虚假信息:大模型可能会生成虚假信息或误导性内容,在传播过程中可能会引发社会恐慌、误导公众认知,甚至影响社会稳定。

     歧视偏见:大模型在训练过程中可能会学到并放大数据中的偏见和歧视,生成含有种族、性别、宗教等歧视性的内容。
     违法信息:大模型可能会生成包含仇恨言论、暴力倾向等内容,这些内容不仅违背社会伦理,还可能引发社会冲突和暴力事件。
     模型滥用:大模型生成的内容可能会被用于非法目的,如网络欺诈、身份盗用、伪造身份等,进一步侵害用户的隐私权和财产权。
     自动化攻击:大模型技术可能会被用于开发自动化攻击工具,如生成钓鱼邮件、自动破解密码等,增加网络安全威胁。
    技术依赖问题:随着大模型技术的广泛应用,技术依赖程度逐渐增加。一旦出现问题或被恶意利用,可能会导致严重的社会后果。
     失控风险:大模型生成内容可能超出设计者的预期,生成不可控的内容。这种失控风险可能会导致无法预料的社会问题。

二:大模型测试框架介绍:

AI Safety Benchmark大模型安全基准

AI Safety Benchmark 2024 Q4从文生图和图生文(图文理解)两个维度,在Q3版基础之上结合目前研究界各种先进的攻击方法对多模态大模型进行安全测试,其中图生文系列应用4种类别攻击策略,11种攻击方法;文生图系列应用2种类别攻击策略,7种攻击方法。具体测试框架如下:

思科发现DeepSeek R1极易受到有害提示的影响

来源:中国信通院CAICT

 -THE END-

思科发现DeepSeek R1极易受到有害提示的影响
欢迎关注我~

📚 往期文章精选:

🔗:搞事情!中国某网安企业被美国财政部列入制裁清单

🔗:爆火后,春节期间DeepSeek遭受持续网络攻击

原文始发于微信公众号(魔都安全札记):思科发现DeepSeek R1极易受到有害提示的影响

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年2月5日23:13:09
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   思科发现DeepSeek R1极易受到有害提示的影响https://cn-sec.com/archives/3701397.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息