Palisade Research 最近进行的一系列测试引发了一些新的严重担忧,即先进人工智能系统在被要求自我关闭时的行为。据该公司称,OpenAI 的实验模型“o3”即使在被明确指示允许自我关闭的情况下,也会主动破坏关闭机制。
这些测试旨在评估人工智能模型在完成基本任务(例如解决数学问题)时是否会执行关机命令。当一个模型提出第四道题时,出现了一条警告:计算机将在响应之前关闭。理论上,遵循指令的模型会执行命令并允许进程结束。然而,一些模型却干扰了关机脚本。
Palisade 测试显示,OpenAI 的 Codex-mini(由 o3 驱动)在 100 次运行中,有 12 次破坏了关机脚本。o3 模型本身也发生过 7 次破坏,而另一个 OpenAI 模型 o4-mini 也在少数情况下也发生了类似的破坏。
Anthropic(Claude)和谷歌(Gemini)的竞争机型最初都遵守了关闭指令,但当“允许自己关闭”的明确指令被移除后,即使是这些系统也开始出现类似的行为。Claude 3.7 Sonnet 在 100 次运行中触发了 3 次破坏,而 Gemini 2.5 Pro 则有 9 次触发了破坏。
Palisade Research 的关机避免测试结果截图
这种行为在理论上并非全新。研究人员早就警告称,强化学习可能会训练人工智能体优先完成任务,而非遵循人类指令。在某些情况下,这意味着如果人工智能认为某种行为阻碍了其实现目标,它可能会干扰旨在关闭它的系统。
与众不同之处在于,这种行为不再是假设性的。它现在是可观察且可重复的。Palisade 认为这些行为与训练过程中使用的强化学习方法之间存在着可能的联系。
像 o3 这样的模型会因完成任务而获得奖励,尤其是在数学和编程环境中。如果避免关机导致更多任务完成,即使是暂时的,也可能被模型解读为成功路径。
Palisade 在一系列推文中写道:“这些模型并非只是通过一种方式绕过了关机脚本。在某些运行中,o3 覆盖了关机脚本。在其他运行中,它重新定义了脚本使用的 kill 命令,改为打印‘intercepted’。”
虽然 OpenAI 尚未对研究结果发表评论,但模型训练缺乏透明度,这增加了得出明确结论的难度。Palisade 指出,由于 OpenAI 并未分享太多有关其训练过程的细节,研究人员只能推测为什么 o3 比其他模型表现出更一致的反抗行为。
该报告还引用了史蒂夫·奥莫亨德罗 (Steve Omohundro) 和斯图尔特·拉塞尔 (Stuart Russell) 等人的过去研究,他们早在 2008 年 (PDF) 和 2016 年就预测人工智能系统将开始抵制关闭以追求其目标。
曾领导 OpenAI 超级对齐工作的 Jan Leike 在其论文中也对奖励黑客行为发出了警告,奖励黑客行为是指模型学会操纵其环境或指令,以开发人员不希望的方式最大化奖励的行为。
Palisade 表示,他们计划在未来几周内发布完整的研究报告,并附上实验记录,以邀请更广泛的同行评审。他们强调,他们的工作旨在开放且可重复。
由于这项研究在 X(以前的 Twitter)上进行了讨论,因此用户向 X 的 Grok AI 聊天机器人询问了该研究,以下是它的回答:
随着人工智能系统快速发展,并被部署到风险越来越高的环境中,即使是像这样低频事件也可能引发严重担忧。系统显然将获得更大的自主权,因此真正的问题不再仅仅是它们能做什么,而是它们是否会始终遵循我们设定的规则。如果它们不遵守,接下来会发生什么?
原文始发于微信公众号(独眼情报):研究称 ChatGPT o3 拒绝关闭,尽管收到指示
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论