最新のOpenAIの実験的推論モデルが国際数学オリンピック(IMO)で優れたパフォーマンスを発揮し、6問中5問を解決し、合計35点で金メダル級の成果を収めました。この突破口は、AIの一般的な推論能力における重要なマイルストーンと見なされていますが、専門家はその評価基準に疑問を呈しており、人間の参加者との明らかな違いがある可能性があると指摘しています。
国際数学オリンピックは、1959年から続く世界で最も権威のある数学コンペティションとして、高校生の数学能力を測る基準となっています。この大会は2日間にわたり行われ、各日4.5時間の間に3つの非常に挑戦的な数学問題を解く必要があります。参加者は紙とペンのみを使用し、いかなる形でのコミュニケーションも禁じられています。
OpenAIのモデルは競技規則に基づいて評価を受けました。評価は2回の4.5時間の試験セッションで行われ、外部ツールを一切使用せず、公式の問題の提示に従って自然言語で証明を作成しました。評価は3名のIMOメダリストによる独立した採点で行われ、最終的な得点が確定されました。
ウェイ氏は、このモデルが複雑で厳密な数学的証明を生成する可能性を示していることを指摘し、この成果が狭いタスク集中アプローチに依存しているのではなく、汎用強化学習と計算拡張における顕著な進展によって達成されたことを強調しました。
OpenAIのCEO、サム・アルトマン氏は、この成果が過去10年間のAIの進歩を象徴していると述べ、このモデルが短期間で一般に公開されることはないと明らかにしました。彼は、これがOpenAI設立時のビジョンであったと語っています。
しかし、AIの数学能力が急速に向上する中で、専門家たちはその評価手法に疑問を抱いています。AI批評家であるマーカス氏は、モデルのパフォーマンスが印象的であると考えつつも、トレーニング手法の妥当性や大衆に対する実用性について疑問を呈しています。また、数学者たちの中には、参加者がより多くのリソースを持つ場合、成功率が大幅に向上するだろうと指摘する人もいます。
独立評価機関MathArenaの最近のテスト結果によると、GPT-4を含む主要な言語モデルはIMOコンペティションでのパフォーマンスが不十分で、論理的な誤りや不完全な証明が多く見受けられました。このため、OpenAIの発表は特に注目を集めていますが、その真の価値は独立した検証と実際の応用を通じて確認される必要があります。



