最新的 OpenAI 實驗推理模型在國際數學奧林匹克(IMO)中展現了出色的表現,成功解決了 6 道題目中的 5 道,獲得了總分 35 分的金牌級成就。這一突破被視為 AI 在通用推理能力方面的重要里程碑,儘管專家對其評估條件提出了質疑,認為可能與人類參賽存在明顯差異。
國際數學奧林匹克作為全球最具權威性的數學競賽,自 1959 年以來一直是衡量高中生數學能力的標竿,賽事分兩天進行,每天需在 4.5 小時內解決 3 道極具挑戰性的數學題目,參賽者僅能使用紙筆,無法進行任何形式的溝通。
OpenAI 的模型在參賽規則下進行了評估,包括兩個 4.5 小時的考試環節,過程中不使用任何外部工具,根據官方題目陳述撰寫自然語言證明。由 3 名 IMO 獎牌得主獨立評分,最終確定其分數。
Wei 指出,這一模型展示了能夠生成複雜且嚴謹的數學論證的潛力,並強調這一成就並非依賴狹隘的任務專注方法,而是在通用強化學習及計算擴展上取得的顯著進展。
OpenAI 的 CEO Sam Altman 表示,這一成果標誌著 AI 在過去十年的進步,並透露這款模型不會在短期內向公眾開放,他形容這曾是 OpenAI 創立時的願景。
不過,在 AI 數學能力迅速提升的背景下,專家們對其評估方式存有疑問。儘管 AI 批評者 Marcus 認為模型表現令人印象深刻,但他也質疑了訓練方法的合理性以及其對大眾的實用價值。此外,有數學家指出,若參賽者有更多資源,成功率將會大大提高。
獨立評估機構 MathArena 的近期測試結果顯示,包括 GPT-4 在內的主要語言模型在 IMO 競賽中的表現不足,充滿邏輯錯誤和不完整的證明,這使得 OpenAI 的宣告顯得尤為引人注目,但其真正的價值仍需經過獨立的驗證和實際應用來確認。



