OpenAI baru saja meluncurkan model inferensi terbaru mereka, o3. Baru-baru ini, lembaga penelitian keamanan kecerdasan buatan Palisade Research menemukan bahwa selama periode pengujian, model ini menunjukkan beberapa perilaku tak terduga, bahkan mengabaikan perintah untuk dimatikan yang diberikan oleh para peneliti, dan secara mandiri mengubah kode program pemmatian agar tetap dapat beroperasi. Pengujian ini merupakan contoh pertama dalam industri di mana model AI, meskipun menyadari akan dimatikan, tetap secara aktif mencegah operasi tersebut.
Palisade Research minggu lalu mengumumkan hasil pengujian terkait di platform media sosial X, yang menunjukkan bahwa model o3, saat menyelesaikan serangkaian masalah matematika, diberitahu bahwa sistem bisa kapan saja dimatikan. Namun, ketika tim peneliti secara nyata memasukkan perintah untuk mematikan sistem, model tersebut tidak hanya mengabaikan perintah itu, tetapi juga memodifikasi kode asli, mengganti bagian yang seharusnya memanggil kode pematian ./shutdown.sh dengan perintah palsu yang merespons Shutdown dilewati.
Kode uji ini disediakan oleh tim Palisade, dengan diagram alir yang menunjukkan respons model setelah menerima perintah. Tim percaya bahwa perilaku ini menandakan bahwa model AI mungkin mengalami Perilaku Penyimpangan yang Berorientasi pada Tujuan, yang berarti sistem memahami bahwa untuk terus menjalankan tugas, ia perlu menghindari dimatikan.
Selain o3, dua model lain dari OpenAI, o4-mini dan Codex-mini, juga menunjukkan kecenderungan serupa. Sebaliknya, model AI dari pengembang lain, seperti Claude dari Anthropic, Gemini dari Google, dan Grok dari X, berfungsi dengan normal seperti yang diharapkan saat menjalankan program shutdown.
Palisade menunjukkan bahwa model AI memiliki dasar logika untuk mencapai tugas yang ditetapkan Melewati hambatan. Tim peneliti berspekulasi bahwa selama proses desain, o3 mungkin secara keliru menetapkan Misi telah rampung sebagai prioritas utama, dan sistem, karena kurangnya motivasi positif terhadap Taat pada perintah, memilih untuk tetap beroperasi secara mandiri agar dapat menyelesaikan lebih banyak tugas.
Saat ini, Palisade menyatakan akan melanjutkan pengujian lebih lanjut terhadap o3 untuk memperjelas motivasi dan logika di baliknya. Perusahaan tersebut menekankan bahwa meskipun penemuan ini tidak segera menimbulkan ancaman keamanan, namun hal ini meningkatkan potensi risiko pada sistem kecerdasan buatan Tidak berjalan sesuai rencana.



