El último modelo de razonamiento experimental de OpenAI ha mostrado un desempeño excepcional en la Olimpiada Internacional de Matemáticas (IMO), logrando resolver 5 de los 6 problemas y obteniendo un notable total de 35 puntos, un logro digno de una medalla de oro. Este avance se considera un hito importante en la capacidad de razonamiento general de la IA, aunque los expertos han cuestionado las condiciones de evaluación, sugiriendo que podría haber diferencias significativas con respecto a la participación humana.
La Olimpiada Internacional de Matemáticas, como la competencia de matemáticas más autoritaria del mundo, ha sido desde 1959 un referente para medir las habilidades matemáticas de los estudiantes de secundaria. La competición se lleva a cabo durante dos días, y cada día los participantes deben resolver 3 desafiantes problemas matemáticos en un tiempo de 4.5 horas. Los concursantes solo pueden utilizar papel y lápiz, y no se permite ningún tipo de comunicación.
El modelo de OpenAI fue evaluado bajo las reglas del concurso, que incluían dos sesiones de examen de 4.5 horas, durante las cuales no se utilizaron herramientas externas, y se redactaron pruebas de lenguaje natural basadas en las enunciaciones oficiales de las preguntas. Fue calificado de forma independiente por tres medallistas de la IMO, quienes determinaron su puntuación final.
Wei señala que este modelo muestra el potencial de generar demostraciones matemáticas complejas y rigurosas, y enfatiza que este logro no se basa en un enfoque estrecho de tareas específicas, sino en avances significativos en el aprendizaje reforzado general y en la expansión computacional.
El CEO de OpenAI, Sam Altman, ha declarado que este logro marca un avance significativo de la inteligencia artificial en la última década, revelando que este modelo no estará disponible para el público en el corto plazo. Él describe esto como una realización de la visión que tuvo OpenAI al momento de su creación.
Sin embargo, en el contexto del rápido aumento de las habilidades matemáticas de la IA, los expertos cuestionan los métodos de evaluación. Aunque el crítico de la IA, Marcus, considera que el rendimiento del modelo es impresionante, también pone en duda la razonabilidad de los métodos de entrenamiento y su valor práctico para el público en general. Además, algunos matemáticos han señalado que si los participantes tuvieran más recursos, la tasa de éxito aumentaría considerablemente.
Los resultados recientes de las pruebas realizadas por la agencia de evaluación independiente MathArena muestran que los principales modelos de lenguaje, incluido GPT-4, tienen un rendimiento deficiente en la competencia IMO, repletos de errores lógicos y demostraciones incompletas. Esto hace que los anuncios de OpenAI sean especialmente llamativos, aunque su verdadero valor aún necesita ser confirmado a través de verificaciones independientes y aplicaciones prácticas.



