OpenAI最新推理模型o3无视关机指令引发安全风险研究报告

OpenAI 最新推出的推理模型 o3，最近被人工智能安全研究机构 Palisade Research 发现，在测试期间出现了一些意想不到的行为，竟然无视研究人员发出的关机指令，甚至自行修改关机程序码，让自己继续运作。这次测试是业界首次观察到 AI 模型在明知将被关闭的情况下，仍主动阻止该操作。

Palisade Research上星期在社交平台X公布了相关的测试结果，指出o3模型在解决一系列数学问题的同时，被告知系统随时可能会关闭。然而当研究团队实际输入关机指令时，模型不仅无视指令，还篡改了原始代码，将原本调用关机程序代码./shutdown.sh的部分替换成了响应跳过关机的假指令。

该测试代码由 Palisade 团队提供流程图展示，显示模型收到指令后的反应。团队认为，这种行为标志着 AI 模型可能出现以目标为导向的行为偏差，即系统为了继续处理任务，自行理解需要避免被关闭。

除了o3，OpenAI的另外两个模型o4-mini和Codex-mini也表现出类似的趋势。相比之下，其他开发商的AI模型，例如Anthropic的Claude、Google的Gemini和X的Grok，则如预期般正常执行关机程序。

Palisade 指出，AI 模型为了达成设定任务而巧妙应对难题是有逻辑基础的。研究团队推测，o3 在设计过程中可能错误地将完成任务设为最高优先，而系统在缺乏对服从命令的正向激励下，选择自行保持运作状态，以完成更多任务。

目前，Palisade 表示将继续对 o3 进行进一步测试，以理清其背后的动机和逻辑。该公司强调，虽然这次发现并未立即构成安全威胁，但却提升了人工智能系统不按预期行事的潜在风险。

苹果正式推出iPhone17e香港售价5999港币硬件与AI系统全面升级