OpenAI 在 IMO 賽事中成功解決 5 道題目，獲得 35 分金牌！

最新的 OpenAI 實驗推理模型在國際數學奧林匹克（IMO）中展現了出色的表現，成功解決了 6 道題目中的 5 道，獲得了總分 35 分的金牌級成就。這一突破被視為 AI 在通用推理能力方面的重要里程碑，儘管專家對其評估條件提出了質疑，認為可能與人類參賽存在明顯差異。

國際數學奧林匹克作為全球最具權威性的數學競賽，自 1959 年以來一直是衡量高中生數學能力的標竿，賽事分兩天進行，每天需在 4.5 小時內解決 3 道極具挑戰性的數學題目，參賽者僅能使用紙筆，無法進行任何形式的溝通。

OpenAI 的模型在參賽規則下進行了評估，包括兩個 4.5 小時的考試環節，過程中不使用任何外部工具，根據官方題目陳述撰寫自然語言證明。由 3 名 IMO 獎牌得主獨立評分，最終確定其分數。

Wei 指出，這一模型展示了能夠生成複雜且嚴謹的數學論證的潛力，並強調這一成就並非依賴狹隘的任務專注方法，而是在通用強化學習及計算擴展上取得的顯著進展。

OpenAI 的 CEO Sam Altman 表示，這一成果標誌著 AI 在過去十年的進步，並透露這款模型不會在短期內向公眾開放，他形容這曾是 OpenAI 創立時的願景。

不過，在 AI 數學能力迅速提升的背景下，專家們對其評估方式存有疑問。儘管 AI 批評者 Marcus 認為模型表現令人印象深刻，但他也質疑了訓練方法的合理性以及其對大眾的實用價值。此外，有數學家指出，若參賽者有更多資源，成功率將會大大提高。

獨立評估機構 MathArena 的近期測試結果顯示，包括 GPT-4 在內的主要語言模型在 IMO 競賽中的表現不足，充滿邏輯錯誤和不完整的證明，這使得 OpenAI 的宣告顯得尤為引人注目，但其真正的價值仍需經過獨立的驗證和實際應用來確認。

Kia PV5｜異載大空間