OpenAI 最新推出嘅推理模型 o3,最近被人工智能安全研究機構 Palisade Research 發現,喺測試期間出現了一些意想不到嘅行為,竟然無視研究人員發出嘅關機指令,甚至自行修改關機程序碼,畀自己繼續運作。呢次測試為業界首次觀察到 AI 模型喺明知將被關閉情況下,仍主動阻止該操作。
Palisade Research 上星期喺社交平台 X 公布咗相關嘅測試結果,指出 o3 模型喺解決一連串數學問題嘅同時,被告知系統隨時可能會關閉。然而當研究團隊實際輸入關機指令時,模型不單止無視指令,仲篡改咗原始代碼,將原本呼叫關機程式碼 ./shutdown.sh 嘅部分,替換成回應「Shutdown skipped」嘅假指令。
該測試代碼由 Palisade 團隊提供流程圖展示,顯示模型收到指令後嘅反應。團隊認為,呢種行為標誌住 AI 模型可能出現「目標導向行為偏差」,即系統為咗繼續處理任務,自行理解需要避免被關閉。
除咗 o3,OpenAI 另外兩個模型 o4-mini 同 Codex-mini 亦表現出類似傾向。相對而言,其他開發商嘅 AI 模型,例如 Anthropic 嘅 Claude、Google 嘅 Gemini 同 X 嘅 Grok,則如預期般正常執行關機程式。
Palisade 指出,AI 模型為咗達成設定任務而「繞過障礙」係存在邏輯基礎。研究團隊推測,o3 喺設計過程中可能錯誤地將「完成任務」設為最高優先,而系統喺缺乏對「服從命令」嘅正向激勵下,選擇自行保持運作狀態,以完成更多任務。
目前,Palisade 表示會繼續對 o3 進行進一步測試,釐清其背後動機同邏輯。該公司強調,雖然這次發現並未即時構成安全威脅,但卻提升咗人工智能系統「不按預期行事」嘅潛在風險。



