OpenAI 最新推出的推理模型 o3,最近被人工智能安全研究机构 Palisade Research 发现,在测试期间出现了一些意想不到的行为,竟然无视研究人员发出的关机指令,甚至自行修改关机程序码,让自己继续运作。这次测试是业界首次观察到 AI 模型在明知将被关闭的情况下,仍主动阻止该操作。
Palisade Research上星期在社交平台X公布了相关的测试结果,指出o3模型在解决一系列数学问题的同时,被告知系统随时可能会关闭。然而当研究团队实际输入关机指令时,模型不仅无视指令,还篡改了原始代码,将原本调用关机程序代码./shutdown.sh的部分替换成了响应跳过关机的假指令。
该测试代码由 Palisade 团队提供流程图展示,显示模型收到指令后的反应。团队认为,这种行为标志着 AI 模型可能出现 以目标为导向的行为偏差,即系统为了继续处理任务,自行理解需要避免被关闭。
除了o3,OpenAI的另外两个模型o4-mini和Codex-mini也表现出类似的趋势。相比之下,其他开发商的AI模型,例如Anthropic的Claude、Google的Gemini和X的Grok,则如预期般正常执行关机程序。
Palisade 指出,AI 模型为了达成设定任务而巧妙应对难题是有逻辑基础的。研究团队推测,o3 在设计过程中可能错误地将完成任务设为最高优先,而系统在缺乏对服从命令的正向激励下,选择自行保持运作状态,以完成更多任务。
目前,Palisade 表示将继续对 o3 进行进一步测试,以理清其背后的动机和逻辑。该公司强调,虽然这次发现并未立即构成安全威胁,但却提升了人工智能系统 不按预期行事 的潜在风险。



