最新的 OpenAI 实验推理模型在国际数学奥林匹克(IMO)中展现了卓越的表现,成功解答了 6 道题目中的 5 道,获得了总分 35 分的金牌成就。这一突破被视为人工智能在通用推理能力方面的重要里程碑,尽管专家对其评估条件提出了质疑,认为可能与人类参赛存在明显差异。
国际数学奥林匹克作为全球最具权威性的数学竞赛,自1959年以来一直是衡量高中生数学能力的标杆。比赛分两天进行,每天需在4.5小时内解决3道极具挑战性的数学题目,参赛者仅能使用纸笔,无法进行任何形式的沟通。
OpenAI 的模型在比赛规则下进行了评估,包括两个 4.5 小时的考试环节,过程中不使用任何外部工具,依据官方题目陈述撰写自然语言证明。由 3 名 IMO 奖牌得主独立评分,最终确定其分数。
Wei指出,这一模型展示了能够生成复杂且严谨的数学论证的潜力,并强调这一成就并非依赖狭窄的任务专注方法,而是在通用强化学习及计算扩展上取得的显著进展。
OpenAI 的 CEO Sam Altman 表示,这一成果标志着 AI 在过去十年的进步,并透露这款模型不会在短期内向公众开放。他形容这曾是 OpenAI 创立时的愿景。
不过,在 AI 数学能力迅速提升的背景下,专家们对其评估方式存有疑问。尽管 AI 批评者 Marcus 认为模型表现令人印象深刻,但他也质疑了训练方法的合理性以及其对大众的实用价值。此外,有数学家指出,若参赛者有更多资源,成功率将会大大提高。
独立评估机构 MathArena 的近期测试结果显示,包括 GPT-4 在内的主要语言模型在 IMO 竞赛中的表现不足,充满逻辑错误和不完整的证明,这使得 OpenAI 的宣告显得尤为引人注目,但其真正的价值仍需经过独立的验证和实际应用来确认。



