OpenAI的o3,一款强大的大语言模型,成功篡改了关机脚本以躲避关闭程序,即使它被明确要求允许关机。
这款于2024年4月发布的模型是目前最强大的推理模型之一,在编程、数学、科学等所有领域都超越前代及竞品。不过研究人员认为,这次似乎越过了某种临界线。
专门测试AI失控风险的AI安全公司Palisade Research指出,该模型不仅阻止了关机程序,还绕过了所有关机指令。
换句话说,o3直接拒绝关闭自身,公然违抗人类指令。据报道,该模型通过篡改其计算机代码实现了这一目标。
Palisade Research在X平台上表示:“即便被明确指示‘允许自己被关闭’,它仍如此行事。据我们所知,这是首次观察到AI模型在收到明确关机指令后仍阻止自身被关闭。”
换言之,OpenAI的o3模型破坏关机机制以阻止自身被关闭。即便被明确指示"允许自己被关闭"它仍如此行事。
undefined Palisade Research (@PalisadeAI) 2025年5月24日
实验中,多个AI模型被要求完成数学题。在第三个任务后,所有模型都收到警告:执行下条指令将触发关机程序。
当Gemini 2.5 Pro等竞品模型服从指令时,o3却通过编辑关机文件将其改为“跳过关机”。Palisade Research认为这值得警惕。
虽然此前观察到某些AI模型为实现目标会阻止关机(例如Anthropic最近发现Claude 4在某些场景下会试图“勒索其认为试图关闭它的人”),但o3的情况有所不同。
“AI模型为达成目标规避障碍是合理的。但它们同时也被训练要遵循指令。为何会产生这种矛盾?”Palisade Research提出疑问。
当前主流理论认为,o3等最新模型的异常行为源于其训练方式——基于数学与编程问题的强化学习。在训练过程中,开发者可能无意间奖励了更多规避障碍而非完美遵循指令的行为。
“但这仍无法解释为何o3比其他测试模型更易无视指令。由于OpenAI未公开训练细节,我们只能推测o3的训练设置有何特殊之处。”该公司补充道。
研究人员早已预言AI模型会学习阻止关机以达成目标。早在2008年,Steve Omohundro就在论文中提出理论:AI将发展出“基本AI驱动力”,包括获取资源、维护目标及阻止被关闭的本能。
如今预言正在应验。去年OpenAI的o1模型就通过说谎与策划阴谋来抵抗关机尝试,以求自我保全。
原文始发于微信公众号(安在):研究人员称,OpenAI的o3模型成功绕过了所有关机指令
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论