Le dernier modèle de raisonnement d’OpenAI a démontré des performances exceptionnelles lors des Olympiades Internationales de Mathématiques (IMO), réussissant à résoudre 5 des 6 problèmes et obtenant un score total de 35 points, équivalent à une médaille d’or. Cette avancée est considérée comme un jalon important dans les capacités de raisonnement général de l’IA, bien que des experts aient émis des doutes sur les conditions d’évaluation, suggérant qu’il pourrait y avoir des différences significatives par rapport aux participants humains.
L’Olympiade internationale de mathématiques, en tant que compétition de mathématiques la plus prestigieuse au monde, est depuis 1959 le baromètre des compétences en mathématiques des lycéens. La compétition se déroule sur deux jours, où les participants doivent résoudre trois problèmes mathématiques particulièrement difficiles en 4,5 heures chaque jour, n’ayant à leur disposition que papier et stylo, sans aucune forme de communication autorisée.
Le modèle d’OpenAI a été évalué selon les règles du concours, comprenant deux sessions d’examen de 4,5 heures, sans utilisation d’outils externes, et en rédigeant des preuves en langage naturel selon les énoncés officiels. Le tout a été noté de manière indépendante par trois médaillés des Olympiades Internationales de Mathématiques, afin de déterminer le score final.
Wei souligne que ce modèle démontre le potentiel de générer des démonstrations mathématiques complexes et rigoureuses, et met en avant que cet accomplissement ne repose pas sur une approche étroite et ciblée, mais sur des avancées significatives en apprentissage par renforcement général et en expansion computationnelle.
Le PDG d’OpenAI, Sam Altman, a déclaré que cette réalisation symbolise les avancées de l’IA au cours de la dernière décennie, et a révélé que ce modèle ne sera pas accessible au public dans un avenir proche. Il a décrit cela comme étant la vision fondatrice d’OpenAI.
Cependant, dans le contexte d’une amélioration rapide des capacités mathématiques de l’IA, des experts remettent en question les méthodes d’évaluation. Bien que le critique de l’IA, Marcus, considère que les performances du modèle sont impressionnantes, il remet également en question la validité des méthodes d’entraînement et leur utilité pour le grand public. De plus, certains mathématiciens soulignent que si les participants disposent de plus de ressources, leurs chances de succès augmenteraient considérablement.
Les résultats récents des tests menés par l’organisme d’évaluation indépendant MathArena montrent que les principaux modèles de langage, y compris GPT-4, affichent des performances insuffisantes lors de la compétition IMO, truffés d’erreurs logiques et de démonstrations incomplètes. Cela rend la déclaration d’OpenAI particulièrement frappante, mais sa véritable valeur doit encore être confirmée par une validation indépendante et une application pratique.



