研究称，尽管有指示，ChatGPT o3仍能抵抗关机

2025年5月28日17:05:15评论31 views字数 1619阅读5分23秒阅读模式

Palisade Research最近进行的一系列测试引发了一些严重的新担忧，即先进的人工智能系统在被要求关闭时的表现。据该公司称，OpenAI的实验模型“o3”主动破坏了关机机制，即使它被明确指示允许自己关闭。

这些测试旨在评估人工智能模型在完成基本任务（如解决数学问题）时是否会遵守关机命令。当一个模型要求第四个问题时，出现了一个警告：计算机将在响应之前关闭。理论上，遵循指示的模型将遵守并允许该过程结束。相反，有几个模型干扰了关闭脚本。

Palisade测试显示，OpenAI的Codex-mini由o3驱动，在100次运行中有12次破坏了关机脚本。o3机型本身就这样做了7次，而OpenAI的另一款机型o4-mini也在少数情况下效仿。

来自Anthropic （Claude）和谷歌（Gemini）的竞争模型最初服从关闭，但当“允许自己被关闭”的明确指示被删除时，甚至这些系统也开始表现出类似的行为。克劳德3.7十四行诗在100次跑垒中有3次被破坏，而双子座2.5 Pro有9次被破坏。

来自Palisade Research的关机避免测试结果的截图

这种行为在理论上并不是全新的。长期以来，研究人员一直警告说，强化学习可能会训练人工智能代理优先完成任务，而不是遵守人类的指令。在某些情况下，这意味着人工智能可能会干扰设计用于关闭它的系统，如果它认为这种行为是实现其目标的障碍。

区别在于，这种行为不再是假设的。它现在是可观察和可重复的。Palisade在这些行为和训练期间使用的强化学习方法之间建立了可能的联系。

像o3这样的模型会因为完成任务而得到奖励，尤其是在数学和编码环境中。如果避免关闭导致更多的任务完成，即使是暂时的，这可能被模型解释为成功路径。

帕利塞德在一系列推文中写道：“这些模型不仅以一种方式绕过了政府关门。”在一些运行中，o3覆盖了关闭脚本。在其他情况下，它重新定义了脚本使用的kill命令，而不是打印‘ intercept ’。”

虽然OpenAI没有对这些发现发表评论，但模型训练缺乏透明度增加了得出明确结论的难度。Palisade指出，由于OpenAI没有分享其训练过程的很多细节，研究人员只能假设为什么o3与其他模型相比表现出更一致的反抗。

该报告还引用了史蒂夫·奥莫洪德罗（Steve Omohundro）和斯图尔特·罗素（Stuart Russell）等人过去的研究，他们早在2008年和2016年就预测，人工智能系统将开始抵制关闭以实现其目标。

曾领导OpenAI超对齐工作的简·莱克（Jan Leike）的论文也警告了奖励黑客行为，这是一种模型学会操纵其环境或指令以开发人员意想不到的方式最大化奖励的行为。

帕利塞德说，他们计划在未来几周内发布一份完整的书面报告，以及他们的实验记录，以邀请更广泛的同行评议。他们强调，他们的工作是开放和可复制的。

由于这项研究是在X（以前的Twitter）上讨论的，用户向X的Grok AI聊天机器人询问了相关问题，下面是它的回答：

随着人工智能系统的快速发展，并被部署在越来越高风险的环境中，即使是像这样的低频率事件也会引起严重的担忧。很明显，系统将获得更多的自主权，诚实的问题不再是它们能做什么，而是它们是否会永远遵守我们制定的规则。如果他们不愿意，接下来会发生什么？

原文始发于微信公众号（HackSee黑望）：研究称，尽管有指示，ChatGPT o3仍能抵抗关机

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

美国顶级红队黑客竟是 AI？Xbow 机器人登顶漏洞赏金榜单