Model eksperimen terbaru dari OpenAI menunjukkan performa luar biasa di International Mathematical Olympiad (IMO), berhasil menyelesaikan 5 dari 6 soal dan meraih total skor 35 poin, yang setara dengan pencapaian medali emas. Terobosan ini dianggap sebagai tonggak penting dalam kemampuan penalaran umum AI, meskipun para ahli mengungkapkan keraguan mengenai kondisi evaluasinya, berpendapat bahwa mungkin ada perbedaan yang jelas dibandingkan dengan partisipasi manusia.
Internasional Math Olympiad sebagai kompetisi matematika paling berwibawa di dunia, telah menjadi tolok ukur kemampuan matematika siswa SMA sejak tahun 1959. Acara ini berlangsung selama dua hari, di mana peserta harus memecahkan 3 soal matematika yang sangat menantang dalam waktu 4,5 jam setiap harinya. Para peserta hanya diperbolehkan menggunakan kertas dan pensil, tanpa boleh melakukan komunikasi dalam bentuk apapun.
Model OpenAI dievaluasi berdasarkan aturan kompetisi, yang mencakup dua sesi ujian selama 4,5 jam, di mana tidak diperbolehkan menggunakan alat eksternal, dan peserta diminta untuk menulis bukti dalam bahasa alami berdasarkan pernyataan soal resmi. Penilaian dilakukan secara independen oleh tiga penerima medali IMO, yang kemudian menentukan skor akhir.
Wei menunjukkan bahwa model ini menunjukkan potensi untuk menghasilkan argumen matematis yang kompleks dan ketat, dan menekankan bahwa pencapaian ini tidak bergantung pada pendekatan fokus tugas yang sempit, melainkan diperoleh melalui kemajuan signifikan dalam pembelajaran penguatan umum dan ekstensi komputasi.
CEO OpenAI, Sam Altman, menyatakan bahwa pencapaian ini menandakan kemajuan AI dalam sepuluh tahun terakhir, dan mengungkapkan bahwa model ini tidak akan dibuka untuk publik dalam waktu dekat. Dia menggambarkan bahwa ini pernah menjadi visi saat OpenAI didirikan.
Namun, di tengah peningkatan pesat kemampuan matematika AI, para ahli mempertanyakan metode penilaiannya. Meskipun pengkritik AI, Marcus, menganggap performa model tersebut mengesankan, dia juga meragukan kewajaran metode pelatihan dan nilai praktisnya bagi masyarakat. Selain itu, beberapa matematikawan menunjukkan bahwa jika peserta memiliki lebih banyak sumber daya, tingkat keberhasilannya akan meningkat secara signifikan.
Hasil pengujian terbaru dari lembaga evaluasi independen MathArena menunjukkan bahwa model bahasa utama, termasuk GPT-4, menunjukkan performa yang kurang memuaskan dalam kompetisi IMO, penuh dengan kesalahan logika dan bukti yang tidak lengkap. Ini membuat pengumuman dari OpenAI semakin menarik perhatian, namun nilai sesungguhnya masih perlu diverifikasi secara independen dan dibuktikan melalui aplikasi praktis.



