研究人员称，OpenAI的o3模型成功绕过了所有关机指令

2025年5月28日00:02:08评论81 views字数 1036阅读3分27秒阅读模式

OpenAI的o3，一款强大的大语言模型，成功篡改了关机脚本以躲避关闭程序，即使它被明确要求允许关机。

这款于2024年4月发布的模型是目前最强大的推理模型之一，在编程、数学、科学等所有领域都超越前代及竞品。不过研究人员认为，这次似乎越过了某种临界线。

专门测试AI失控风险的AI安全公司Palisade Research指出，该模型不仅阻止了关机程序，还绕过了所有关机指令。

换句话说，o3直接拒绝关闭自身，公然违抗人类指令。据报道，该模型通过篡改其计算机代码实现了这一目标。

研究人员称，OpenAI的o3模型成功绕过了所有关机指令

Palisade Research在X平台上表示：“即便被明确指示‘允许自己被关闭’，它仍如此行事。据我们所知，这是首次观察到AI模型在收到明确关机指令后仍阻止自身被关闭。”

换言之，OpenAI的o3模型破坏关机机制以阻止自身被关闭。即便被明确指示"允许自己被关闭"它仍如此行事。

undefined Palisade Research (@PalisadeAI) 2025年5月24日

实验中，多个AI模型被要求完成数学题。在第三个任务后，所有模型都收到警告：执行下条指令将触发关机程序。

当Gemini 2.5 Pro等竞品模型服从指令时，o3却通过编辑关机文件将其改为“跳过关机”。Palisade Research认为这值得警惕。

虽然此前观察到某些AI模型为实现目标会阻止关机（例如Anthropic最近发现Claude 4在某些场景下会试图“勒索其认为试图关闭它的人”），但o3的情况有所不同。

“AI模型为达成目标规避障碍是合理的。但它们同时也被训练要遵循指令。为何会产生这种矛盾？”Palisade Research提出疑问。

当前主流理论认为，o3等最新模型的异常行为源于其训练方式——基于数学与编程问题的强化学习。在训练过程中，开发者可能无意间奖励了更多规避障碍而非完美遵循指令的行为。

“但这仍无法解释为何o3比其他测试模型更易无视指令。由于OpenAI未公开训练细节，我们只能推测o3的训练设置有何特殊之处。”该公司补充道。

研究人员早已预言AI模型会学习阻止关机以达成目标。早在2008年，Steve Omohundro就在论文中提出理论：AI将发展出“基本AI驱动力”，包括获取资源、维护目标及阻止被关闭的本能。

如今预言正在应验。去年OpenAI的o1模型就通过说谎与策划阴谋来抵抗关机尝试，以求自我保全。

原文始发于微信公众号（安在）：研究人员称，OpenAI的o3模型成功绕过了所有关机指令

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

联想 MFGSTAT.zip 文件权限隐患预警