최신 OpenAI 실험 추론 모델이 국제 수학 올림피아드(IMO)에서 뛰어난 성과를 보여주며 6문제 중 5문제를 성공적으로 해결하고 총 35점으로 금메달 수준의 성취를 거두었습니다. 이 돌파구는 AI의 일반 추론 능력에 있어 중요한 이정표로 여겨지고 있지만, 전문가들은 그 평가 조건에 대해 의문을 제기하며 인간 참가자와의 명확한 차이점이 있을 수 있다고 지적했습니다.
국제 수학 올림피아드는 1959년부터 고교생의 수학 능력을 평가하는 가장 권위 있는 수학 경시대회로 자리잡았습니다. 이 대회는 이틀에 걸쳐 진행되며, 매일 4.5시간 안에 3개의 매우 도전적인 수학 문제를 해결해야 합니다. 참가자는 종이와 펜만 사용할 수 있으며, 어떤 형태의 소통도 금지되어 있습니다.
OpenAI의 모델은 대회 규칙에 따라 평가되었으며, 두 개의 4.5시간 시험이 포함되어 있습니다. 이 과정에서는 외부 도구를 사용하지 않고 공식 문제 설명에 따라 자연어 증명을 작성해야 했습니다. 3명의 IMO 메달 수상자가 독립적으로 평가하여 최종 점수를 결정했습니다.
Wei는 이 모델이 복잡하고 엄밀한 수학적 증명을 생성할 수 있는 잠재력을 보여준다고 지적하며, 이 성과는 좁은 임무에 집중하는 접근 방법에 의존하지 않고, 일반적인 강화 학습과 계산 확장 분야에서의 상당한 진전을 통해 이루어졌음을 강조했습니다.
OpenAI의 CEO 샘 올트만은 이 성과가 지난 10년간 AI의 진보를 상징한다고 밝혔으며, 이 모델이 단기적으로 대중에게 공개되지 않을 것이라고 전했습니다. 그는 이것이 OpenAI 창립 당시의 비전이라고 설명했습니다.
하지만 AI의 수학적 능력이 급격히 향상되는 가운데, 전문가들은 그 평가 방식에 의문을 제기하고 있다. AI 비평가인 마커스는 모델의 성과가 인상적이라고 평가했지만, 훈련 방법의 타당성과 그로 인한 대중적인 실용성에 대해서도 의구심을 표했다. 또한, 몇몇 수학자들은 참가자들이 더 많은 자원을 갖게 된다면 성공 확률이 크게 높아질 것이라고 지적했다.
독립 평가 기관 MathArena의 최근 테스트 결과에 따르면, GPT-4를 포함한 주요 언어 모델들이 IMO 대회에서 미흡한 성과를 보여 논리적 오류와 불완전한 증명으로 가득 차 있다는 점이 두드러진다고 합니다. 이는 OpenAI의 발표를 더욱 눈에 띄게 하지만, 그 진정한 가치는 독립적인 검증과 실제 적용을 통해 확인되어야 합니다.



