OpenAI minggu ini mengumumkan penelitian penting yang secara sistematis menganalisis penyebab mendasar dari fenomena ilusi yang dihasilkan oleh model bahasa besar. Penelitian ini menunjukkan bahwa proses pelatihan dan evaluasi saat ini cenderung memberi penghargaan pada dugaan model, bukan mendorong mereka untuk mengakui ketidakpastian, yang merupakan faktor utama yang menyebabkan AI percaya diri menghasilkan informasi yang salah.
Ilusi AI mengacu pada situasi di mana model dengan percaya diri menghasilkan pernyataan yang terlihat logis tetapi sebenarnya salah, dan masalah ini menjadi penghalang bagi pengguna untuk sepenuhnya mempercayai sistem AI. OpenAI dengan jelas mendefinisikan ilusi tersebut dalam Situasi di mana model dengan percaya diri menghasilkan jawaban yang tidak benar, dan bahkan dengan kehadiran model terbaru seperti GPT-5, fenomena ilusi ini tetap ada.
Dalam penelitian ini, penulis utama makalah Adam Tauman Kalai melakukan beberapa pengujian dan menemukan bahwa berbagai chatbot ketika ditanya tentang judul disertasi mereka, secara percaya diri memberikan jawaban yang salah, menunjukkan bahwa masalah ini adalah hal yang umum.
Tim OpenAI menemukan bahwa metode evaluasi saat ini mengatur mekanisme insentif yang salah, yang merupakan bagian dari alasan mengapa fenomena halusinasi tetap ada. Para peneliti menunjukkan bahwa sebagian besar metode untuk mengevaluasi kinerja model mendorong model untuk melakukan tebak-tebakan, daripada jujur menghadapi ketidakpastian.
Ini mirip dengan tes pilihan ganda: jika tidak tahu jawaban tapi menebak secara acak, tetap ada kemungkinan untuk menjawab dengan benar; sedangkan memilih untuk tidak menjawab pasti mendapatkan nilai nol. Oleh karena itu, ketika model hanya dinilai berdasarkan akurasi, yang didorong adalah menebak, bukan mengakui tidak tahu.
Penelitian menunjukkan bahwa dalam ribuan soal uji, model yang menerapkan strategi tebak-tebakan akhirnya tampil lebih baik di papan skor dibandingkan model yang dengan hati-hati mengakui ketidakpastian. OpenAI menyebutkan, mengabaikan jawaban adalah bagian dari indikator kerendahan hati, dan kerendahan hati merupakan salah satu nilai inti perusahaan.
Meskipun fenomena ilusi masih ada, OpenAI terbaru GPT-5 telah mencapai kemajuan signifikan dalam mengurangi ilusi. Berdasarkan data sistem kartu GPT-5, tingkat ilusi pada model baru ini turun sekitar 26% dibandingkan dengan GPT-4o, dan menunjukkan kinerja luar biasa dalam berbagai evaluasi.
Dalam pengujian LongFact-Concepts dan LongFact-Objects, tingkat kebohongan GPT-5 hanya 0,7% dan 0,8%, jauh lebih rendah dibandingkan dengan OpenAI o3 yang mencapai 4,5% dan 5,1%. Dalam situasi berisiko tinggi seperti pencarian medis, tingkat kebohongan GPT-5 hanya 1,6%, menunjukkan keunggulannya di bidang tersebut.
OpenAI telah mengusulkan solusi sederhana: hukuman bagi mereka yang terlalu percaya diri seharusnya lebih tinggi daripada hukuman untuk ketidakpastian, sekaligus memberikan poin tambahan untuk perilaku yang mengungkapkan ketidakpastian dengan tepat. Tim penelitian menekankan bahwa hanya menambah tes persepsi ketidakpastian tidaklah cukup, perlu juga memperbarui metode evaluasi yang saat ini banyak digunakan.
Dalam makalah tersebut dikatakan bahwa jika indikator evaluasi utama terus memberikan imbalan untuk tebak-tebakan beruntung dari model, maka model tersebut akan terus belajar dari perilaku tebak-tebakan ini. Sementara itu, mengubah indikator evaluasi dapat memperluas penerapan teknik pengurangan ilusi.
Penelitian ini juga menganalisis mekanisme yang menghasilkan ilusi selama proses pra-pelatihan. OpenAI menjelaskan bahwa model bahasa belajar melalui prediksi kata berikutnya dalam tekstur yang sangat besar, berbeda dengan pembelajaran mesin tradisional, setiap kalimat tidak memiliki label Benar/Salah yang jelas, sehingga model hanya dapat melihat contoh positif dari bahasa yang mengalir.
Tim penelitian menjelaskan dengan analogi pengenalan gambar: jika foto diberi label dengan tanggal ulang tahun hewan peliharaan, meskipun algoritma semakin canggih, kesalahan akan tetap muncul karena sifat acak dari ulang tahun tersebut. Demikian pula, contoh-contoh seperti ejaan dan tanda baca yang mengikuti pola yang konsisten, kesalahan ini akan berkurang seiring dengan meningkatnya data; namun, fakta acak dengan frekuensi rendah seperti ulang tahun hewan peliharaan tidak dapat diprediksi hanya dengan pola saja, yang mengarah pada munculnya ilusi.
Sementara itu, OpenAI sedang merestrukturisasi tim perilaku modelnya, yang terdiri dari sekitar 14 orang dan bertugas membentuk cara interaksi model AI dengan manusia. Menurut memo internal, tim perilaku model akan digabungkan dengan tim pelatihan lanjutan dan akan melapor kepada kepala pelatihan lanjutan, Max Schwarzer.
Pemimpin tim yang merupakan pendiri, Joanne Jang, akan meluncurkan sebuah proyek baru bernama OAI Labs yang berfokus pada penemuan dan desain prototipe antarmuka baru untuk kolaborasi antara manusia dan AI. Tim ini sebelumnya telah berupaya membentuk karakteristik model serta mengurangi perilaku menjilat sambil menangani masalah bias politik dan isu lainnya.
Penelitian ini memberikan dasar teoritis yang penting untuk memahami masalah ilusi AI, yang membantu mendorong seluruh industri untuk memperbaiki standar evaluasi model. OpenAI menyatakan akan terus berusaha untuk mengurangi tingkat kesalahan kepercayaan dalam output model bahasa.
Para ahli industri percaya bahwa dengan perbaikan metode evaluasi dan penerapan teknologi baru, masalah ilusi AI diharapkan dapat dikendalikan dengan lebih baik, yang akan semakin meningkatkan kepercayaan dan kegunaan pengguna terhadap sistem AI.



