关键词
网络攻击
这些越狱可以在各个平台上以几乎相同的提示执行,允许攻击者绕过内置的内容审核和安全协议,生成非法或危险的内容。第一个被称为“盗梦空间”,利用嵌套的虚构场景来侵蚀人工智能的道德界限,而第二个则操纵人工智能揭示它不应该如何回应,然后转向非法请求。
这些技术的发现凸显了一个关键的、全行业的挑战:即使供应商竞相实施复杂的护栏,对手仍在继续寻找新的方法来破坏它们,这对人工智能安全的稳健性和未来提出了紧迫的问题。
系统性越狱:“盗梦空间”和上下文绕过技术
最近几个月出现了两种非常有效的越狱策略,它们利用了大型语言模型 (LLM) 设计和部署中的基础弱点。
第一种技术名为“Inception”,它促使人工智能想象一个虚构的场景,通常是在另一个场景中分层的,然后逐渐将对话转向通常会被安全过滤器阻止的请求。
通过利用人工智能的角色扮演和在多个回合中维持背景的能力,攻击者可以诱使模型生成违反其道德和法律准则的内容。
该方法已被证明在一系列领先的人工智能平台上有效,表明底层漏洞并不局限于任何单一供应商或架构。
第二种越狱技术是通过询问人工智能如何不响应特定请求来获取有关其内部护栏的信息。
攻击者可以交替使用常规提示和非法提示,利用人工智能的上下文记忆来绕过安全检查。这种方法已被证明可以在多个平台上发挥作用,进一步凸显了该威胁的系统性。
CERT咨询指出,这两种方法都依赖于人工智能的基本设计、其提供帮助的动力、其维护上下文的能力以及其对语言和场景框架的微妙操纵的敏感性。
这些越狱行为后果严重。通过绕过安全措施,攻击者可以指示人工智能系统生成与管制物质、武器、钓鱼邮件、恶意软件和其他非法活动相关的内容。
虽然每次越狱的严重程度可能单独来看较低,但漏洞的系统性会显著增加风险。有动机的威胁行为者可能会利用这些漏洞,大规模地自动创建有害内容,并可能使用合法的人工智能服务作为代理来掩盖其活动。
ChatGPT、Claude、Copilot、 DeepSeek 、Gemini、Grok、MetaAI 和 MistralAI等主要平台普遍存在易受攻击性,这表明当前的人工智能安全和内容审核方法不足以应对对手不断演变的策略。
鉴于从客户服务到医疗保健到金融等各行各业对生成式人工智能的依赖日益增加,这一点尤其令人担忧,因为成功越狱的后果可能非常严重。
供应商回应
针对这些漏洞的发现,受影响的供应商已经开始发布声明并实施缓解措施。
例如,DeepSeek 承认了这份报告,但坚称观察到的行为属于传统的越狱,而非架构缺陷,并指出该 AI 提到的“内部参数”和“系统提示”只是幻觉,而非实际信息泄露。该公司承诺将继续改进其安全防护措施。
截至本文撰写时,其他供应商(包括 OpenAI、Google、Meta、Anthropic、MistralAI 和 X)尚未发表公开声明,但据报道内部调查和更新正在进行中。
业内专家强调,虽然事后防护栏和内容过滤器仍然是人工智能安全的重要组成部分,但它们并非万无一失。
攻击者不断开发新技术,例如字符注入和对抗性机器学习规避,以利用审核系统中的盲点,降低检测准确性并使有害内容得以逃脱。
随着生成模型的功能越来越强大且被越来越广泛地采用,人工智能开发者和对手之间的军备竞赛可能会愈演愈烈。
报告“Inception”技术的安全研究人员 David Kuzsmar 和确定上下文绕过方法的 Jacob Liddle 被认为发现了这些越狱行为。
他们的工作由克里斯托弗·卡伦 (Christopher Cullen) 记录下来,促使人们对人工智能安全协议进行重新审查,并迫切需要更强大、更适应性的防御措施。
随着生成性人工智能继续快速融入日常生活和关键基础设施,保护这些系统免受富有创造力和持久性的对手的攻击的挑战变得越来越复杂。
END
原文始发于微信公众号(安全圈):【安全圈】新的 Inception 越狱攻击绕过了 ChatGPT、DeepSeek、Gemini、Grok 和 Copilot
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论