OpenAI推理模型在IMO展现卓越表现引发AI推理能力新突破

最新的 OpenAI 实验推理模型在国际数学奥林匹克（IMO）中展现了卓越的表现，成功解答了 6 道题目中的 5 道，获得了总分 35 分的金牌成就。这一突破被视为人工智能在通用推理能力方面的重要里程碑，尽管专家对其评估条件提出了质疑，认为可能与人类参赛存在明显差异。

国际数学奥林匹克作为全球最具权威性的数学竞赛，自1959年以来一直是衡量高中生数学能力的标杆。比赛分两天进行，每天需在4.5小时内解决3道极具挑战性的数学题目，参赛者仅能使用纸笔，无法进行任何形式的沟通。

OpenAI 的模型在比赛规则下进行了评估，包括两个 4.5 小时的考试环节，过程中不使用任何外部工具，依据官方题目陈述撰写自然语言证明。由 3 名 IMO 奖牌得主独立评分，最终确定其分数。

Wei指出，这一模型展示了能够生成复杂且严谨的数学论证的潜力，并强调这一成就并非依赖狭窄的任务专注方法，而是在通用强化学习及计算扩展上取得的显著进展。

OpenAI 的 CEO Sam Altman 表示，这一成果标志着 AI 在过去十年的进步，并透露这款模型不会在短期内向公众开放。他形容这曾是 OpenAI 创立时的愿景。

不过，在 AI 数学能力迅速提升的背景下，专家们对其评估方式存有疑问。尽管 AI 批评者 Marcus 认为模型表现令人印象深刻，但他也质疑了训练方法的合理性以及其对大众的实用价值。此外，有数学家指出，若参赛者有更多资源，成功率将会大大提高。

独立评估机构 MathArena 的近期测试结果显示，包括 GPT-4 在内的主要语言模型在 IMO 竞赛中的表现不足，充满逻辑错误和不完整的证明，这使得 OpenAI 的宣告显得尤为引人注目，但其真正的价值仍需经过独立的验证和实际应用来确认。

Roblox Build手机AI一键生成游戏，7月28日新西兰公开测试