O mais recente modelo de raciocínio experimental da OpenAI teve um desempenho excepcional na Olimpíada Internacional de Matemática (IMO), conseguindo resolver 5 das 6 questões e alcançando uma pontuação total de 35 pontos, garantindo assim a medalha de ouro. Essa conquista é vista como um marco importante para a capacidade de raciocínio geral da IA, embora especialistas tenham levantado questões sobre as condições de avaliação, indicando que pode haver diferenças significativas em relação à participação humana.
A Olimpíada Internacional de Matemática, como a competição de matemática mais renomada do mundo, tem sido um parâmetro para avaliar a habilidade matemática de alunos do ensino médio desde 1959. O evento acontece em dois dias, onde os participantes têm 4,5 horas por dia para resolver três problemas de matemática extremamente desafiadores. Os competidores só podem usar papel e caneta, sem qualquer forma de comunicação permitida.
Os modelos da OpenAI foram avaliados de acordo com as regras da competição, que incluíram duas sessões de prova de 4,5 horas, realizando todo o processo sem o uso de ferramentas externas e redigindo provas em linguagem natural com base nas afirmações das questões oficiais. A avaliação foi realizada de forma independente por três medalhistas da IMO, que determinaram a pontuação final.
Wei destacou que este modelo demonstra o potencial de gerar provas matemáticas complexas e rigorosas, ressaltando que essa conquista não depende de uma abordagem focada em tarefas específicas, mas sim de avanços significativos em aprendizado por reforço geral e expansão computacional.
O CEO da OpenAI, Sam Altman, afirmou que este resultado marca o avanço da IA nos últimos dez anos e revelou que este modelo não será disponibilizado ao público em curto prazo. Ele descreveu isso como parte da visão que a OpenAI teve ao ser fundada.
No entanto, diante do rápido avanço das habilidades matemáticas da IA, especialistas questionam as formas de avaliação. Embora o crítico da IA, Marcus, considere que o desempenho do modelo é impressionante, ele também levanta dúvidas sobre a validade dos métodos de treinamento e sua utilidade para o público em geral. Além disso, matemáticos apontam que, se os participantes tiverem mais recursos, a taxa de sucesso aumentaria significativamente.
Os resultados recentes de testes da MathArena, uma entidade de avaliação independente, mostram que os principais modelos de linguagem, incluindo o GPT-4, não estão se saindo bem nas competições da IMO, apresentando falhas lógicas e provas incompletas. Isso torna as declarações da OpenAI ainda mais intrigantes, mas seu verdadeiro valor ainda precisa ser confirmado por validações independentes e aplicações práticas.



