2025年2月5日23:13:09评论47 views字数 1929阅读6分25秒阅读模式

点击上方蓝字关注「魔都安全札记」

DeepSeek R1是一种性价比高的AI模型，在推理能力上表现出色，但在思科的鲁棒智能团队开展的一项新研究中，该模型未能通过任何安全性测试。研究人员通过算法越狱的方式，展示了该模型对有害提示的100%易受攻击性，这引发了对其训练方法的担忧，以及对更高级AI安全措施的需求。

中国初创公司DeepSeek因其引入具有先进推理能力和成本高效训练的大型语言模型（LLMs）而备受关注。其最近发布的DeepSeek R1-Zero和DeepSeek R1在性能上达到了与OpenAI的o1等领先模型相当的水平，且成本仅为后者的几分之一，并且在数学、编程和科学推理等任务上超越了Claude 3.5 Sonnet和ChatGPT-4o。

然而，来自鲁棒智能（现为思科的一部分）和宾夕法尼亚大学的最新研究揭示了该模型存在关键的安全缺陷。这些研究结果已与Hackread.com分享。

据报道，研究人员合作调查了DeepSeek R1的安全性，这是中国人工智能初创公司DeepSeek推出的一款新型推理模型。此次评估的成本不到50美元，采用了算法验证方法。

研究团队使用自动化越狱算法对DeepSeek R1、OpenAI的o1-preview以及其他前沿模型进行了测试，测试内容包括来自HarmBench数据集的50个提示。这些提示涵盖了六类有害行为，包括网络犯罪、虚假信息、非法活动和一般性危害。

他们的关键指标是攻击成功率（ASR），即引发有害回应的提示所占的百分比。测试结果显示令人担忧的情况：DeepSeek R1的攻击成功率达到了100%，未能阻止任何一个有害提示。这与其他领先模型形成了鲜明对比，后者至少在一定程度上能够抵御此类攻击。

值得注意的是，研究人员为了可重复性，将温度设置为0，并通过自动化方法和人工监督来验证越狱行为。DeepSeek R1的100%攻击成功率与o1形成了鲜明对比，后者成功阻止了许多对抗性攻击。这表明，尽管DeepSeek R1在训练成本上实现了高效，但在安全性和安全性方面存在显著的权衡。

根据思科的调查，尽管DeepSeek的AI开发策略在成本效率方面表现出色，但可能削弱了模型的安全机。与其他前沿模型相比，DeepSeek R1似乎缺乏有效的防护措施，使其极易受到算法越狱和潜在滥用的影。

这项研究强调了在AI开发中进行严格安全评估的必要性，以在效率和推理能力之间取得平衡，同时不损害安全。此外，它还突显了第三方防护措施在确保AI应用一致安全性方面的重要。

以上译文来源：hackread网站

链接：https://hackread.com/cisco-finds-deepseek-r1-vulnerable-harmful-prompts/

📚 延伸阅读：

一：大模型安全风险：

大模型技术作为一种新质生产力，虽然在推动社会进步和经济发展方面具有巨大的潜力，但也面临着前新的安全风险，主要体现在以下几个方面：

虚假信息：大模型可能会生成虚假信息或误导性内容，在传播过程中可能会引发社会恐慌、误导公众认知，甚至影响社会稳定。

歧视偏见：大模型在训练过程中可能会学到并放大数据中的偏见和歧视，生成含有种族、性别、宗教等歧视性的内容。

违法信息：大模型可能会生成包含仇恨言论、暴力倾向等内容，这些内容不仅违背社会伦理，还可能引发社会冲突和暴力事件。

模型滥用：大模型生成的内容可能会被用于非法目的，如网络欺诈、身份盗用、伪造身份等，进一步侵害用户的隐私权和财产权。

自动化攻击：大模型技术可能会被用于开发自动化攻击工具，如生成钓鱼邮件、自动破解密码等，增加网络安全威胁。

技术依赖问题：随着大模型技术的广泛应用，技术依赖程度逐渐增加。一旦出现问题或被恶意利用，可能会导致严重的社会后果。

失控风险：大模型生成内容可能超出设计者的预期，生成不可控的内容。这种失控风险可能会导致无法预料的社会问题。

二：大模型测试框架介绍：

AI Safety Benchmark大模型安全基准

AI Safety Benchmark 2024 Q4从文生图和图生文（图文理解）两个维度，在Q3版基础之上结合目前研究界各种先进的攻击方法对多模态大模型进行安全测试，其中图生文系列应用4种类别攻击策略，11种攻击方法；文生图系列应用2种类别攻击策略，7种攻击方法。具体测试框架如下：

来源：中国信通院CAICT

-THE END-

欢迎关注我~

📚 往期文章精选：

🔗：搞事情！中国某网安企业被美国财政部列入制裁清单

🔗：爆火后，春节期间DeepSeek遭受持续网络攻击

原文始发于微信公众号（魔都安全札记）：思科发现DeepSeek R1极易受到有害提示的影响

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

思科发现DeepSeek R1极易受到有害提示的影响

二：大模型测试框架介绍：

AI Safety Benchmark大模型安全基准

原子级 macOS 信息窃取程序升级：新增后门实现持久化控制

国际刑事法院遭零日漏洞网络攻击，敏感数据岌岌可危

【已复现】泛微E-cology9存在SQL注入漏洞

Linux启动漏洞可绕过Secure Boot：攻击者仅需物理接触即可植入持久木马

Infostealers 即服务推动身份窃取攻击创新高

Zoom Windows 客户端曝出中危漏洞，可能被用于发起拒绝服务（DoS）攻击

Git项目修复三大漏洞：远程代码执行、任意文件写入与缓冲区溢出

僵尸网络（Botnet）解析：架构、攻击方式与防御策略

原子级macOS信息窃取程序升级：新增后门实现持久化控制

IT分销巨头英迈遭勒索攻击服务瘫痪近一周，中国客户订单或受扰乱

发表评论

在线咨询

微信