OpenAI 本週發表了一項重要的研究,針對大型語言模型產生「幻覺」現象的根本原因進行系統性分析。這項研究指出,現行的訓練和評估流程偏向於獎勵模型的猜測,而非鼓勵其承認不確定性,這是導致 AI 自信生成錯誤信息的主要因素。
AI 幻覺是指模型自信地生成看似合理但實際上卻錯誤的陳述,這一問題成為用戶完全信任 AI 系統的障礙。OpenAI 在其論文中明確定義幻覺為「模型自信地生成不真實答案的情況」,即使面對如 GPT-5 等最新的模型,幻覺現象依然存在。
在研究中,論文的第一作者 Adam Tauman Kalai 曾進行測試,發現不同的聊天機器人在被詢問其博士論文標題時,都不約而同地自信地給出了錯誤的答案,顯示出這一問題的普遍性。
OpenAI 的團隊發現,當前的評估方法設置了錯誤的激勵機制,這是幻覺現象持續存在的一部分原因。研究者指出,大部份評估模型性能的方法會促使模型進行猜測,而非誠實面對不確定性。
這與多項選擇題測試相似:如果不知道答案但隨意猜測,仍有機會答對;而選擇不作答則必然得零分。因此,當模型僅根據準確度進行評分時,所鼓勵的便是猜測,而非承認「不知道」。
研究顯示,在數千道測試題中,採取猜測策略的模型最終在記分榜上的表現優於謹慎承認不確定性的模型。OpenAI 提到,放棄答案是謙遜指標的一部分,而謙遜是公司核心價值觀之一。
儘管幻覺現象仍然存在,OpenAI 最新的 GPT-5 在減少幻覺方面已取得顯著進展。根據 GPT-5 的系統卡數據,新模型的幻覺率較 GPT-4o 下降了約 26%,並在多項評估中顯示出卓越的表現。
在 LongFact-Concepts 和 LongFact-Objects 測試中,GPT-5 的幻覺率僅為 0.7% 和 0.8%,明顯低於 OpenAI o3 的 4.5% 和 5.1%。在醫療查詢等高風險的場景中,GPT-5 的幻覺率僅有 1.6%,顯示出其在該領域的優勢。
OpenAI 提出了簡單的解決方案:對於自信錯誤的懲罰應該高於對不確定性的懲罰,同時還要對適當表達不確定性的行為予以加分。研究團隊強調,僅僅增加不確定性感知測試是不夠的,還需要更新目前廣泛使用的評估方法。
論文中指出,如主要的評估指標繼續獎勵模型的幸運猜測,模型將不斷學習這種猜測行為。而修改評估指標則可以擴大采用降低幻覺技術的範圍。
研究也分析了幻覺在預訓練過程中產生的機制。OpenAI 說明,語言模型透過預測海量文本中的下一個詞來進行學習,不同於傳統的機器學習,每個語句並沒有明確的「真/假」標籤,模型只能看到流暢語言的正面示例。
研究團隊以圖像識別類比進行說明:如果用寵物生日的標籤去標記照片,雖然算法再先進也會因為生日的隨機性而出現錯誤。同樣,像拼寫和標點符號遵循一致模式的例子,這些錯誤會隨著數據的增長而減少;但像寵物生日這種隨機的低頻事實無法單靠模式進行預測,從而導致幻覺的產生。
同時,OpenAI 正在重組其模型行為團隊,這支約 14 人的研究小組負責塑造 AI 模型與人類的互動方式。根據內部備忘錄,模型行為團隊將併入後期訓練團隊,並向後期訓練的主管 Max Schwarzer 匯報。
團隊的創始負責人 Joanne Jang 將啟動一個名為 OAI Labs 的新項目,專注於發明和設計人與 AI 協作的新介面原型。該團隊曾致力於塑造模型的性格特徵和減少模型的諂媚行為,同時處理政治偏見等問題。
這項研究為理解 AI 幻覺問題提供了重要的理論基礎,有助於推動整個行業改善模型評估標準。OpenAI 表示,將持續努力進一步降低語言模型輸出的置信錯誤率。
業界專家認為,隨著評估方法的改進和新技術的應用,AI 幻覺問題有望得到更好的控制,這將進一步提升用戶對 AI 系統的信任度和實用性。


