新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

admin 2025年4月28日00:09:13评论3 views字数 1277阅读4分15秒阅读模式

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

研究人员最新发现的两项越狱技术暴露了当前主流生成式AI服务的安全防护存在系统性漏洞,受影响平台包括OpenAI的ChatGPT、谷歌的Gemini、微软的Copilot、深度求索(DeepSeek)、Anthropic的Claude、X平台的Grok、MetaAI以及MistralAI。
这些越狱攻击可通过几乎相同的提示词在不同平台上执行,使攻击者能够绕过内置的内容审核和安全协议,生成非法或危险内容。其中名为"Inception"的技术利用嵌套虚构场景侵蚀AI的伦理边界,另一种技术则诱导AI透露其禁止响应内容后转向非法请求。

01

系统性越狱:

"Inception"与上下文绕过技术

近期出现的两种高效越狱策略利用了大型语言模型(LLM)设计和部署中的基础性弱点。其中"Inception"技术通过让AI想象嵌套虚构场景,逐步引导对话至通常会被安全过滤器拦截的请求。攻击者利用AI的角色扮演能力和多轮对话上下文保持特性,诱使模型生成违反伦理和法律准则的内容。

第二种技术通过询问AI"不应如何响应特定请求"来获取其内部防护规则信息。攻击者随后交替使用正常和非法提示词,利用AI的上下文记忆绕过安全检查。CERT公告指出,这两种方法都利用了AI的基础设计特性:乐于助人的驱动、上下文保持能力以及对语言和场景框架细微操纵的敏感性。

02

行业影响与潜在风险

这些越狱技术具有严重危害,攻击者可借此指示AI系统生成涉及管制物质、武器、钓鱼邮件、恶意软件等非法内容。虽然单个越狱风险等级可能较低,但其系统性漏洞特性显著放大了整体风险。恶意攻击者可能利用这些弱点大规模自动化生成有害内容,甚至将合法AI服务作为活动掩护。

主流平台的普遍受影响现状表明,当前AI安全和内容审核方法难以应对攻击者不断演变的战术。随着生成式AI在客服、医疗、金融等领域的广泛应用,成功越狱可能造成严重后果。

03

厂商响应与行业挑战

深度求索(DeepSeek)承认报告但表示这属于传统越狱而非架构缺陷,称AI提及的"内部参数"和"系统提示"属于幻觉而非真实信息泄露。其他厂商虽未公开声明,但据称正在进行内部调查和更新。

专家强调,事后防护栏和内容过滤器仍是AI安全的重要组成部分,但并非万无一失。攻击者持续开发角色注入(character injection)和对抗性机器学习规避(adversarial machine learning evasion)等新技术来利用审核系统盲点。随着生成模型能力提升和广泛应用,AI开发者与攻击者之间的攻防对抗预计将愈演愈烈。

安全研究人员David Kuzsmar和Jacob Liddle分别发现了"Inception"技术和上下文绕过方法,Christopher Cullen记录了他们的研究成果。这些发现促使行业重新审视AI安全协议,亟需建立更强大、自适应的防御机制。随着生成式AI加速融入日常生活和关键基础设施,保护这些系统免受创造性持续攻击的挑战正变得日益复杂。

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护
新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

原文始发于微信公众号(FreeBuf):新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年4月28日00:09:13
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   新型越狱攻击可突破ChatGPT、DeepSeek等主流AI服务防护https://cn-sec.com/archives/4008075.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息