أطلقت OpenAI مؤخرًا نموذج الاستدلال الجديد o3، والذي اكتشفته مؤسسات أبحاث الأمان للذكاء الاصطناعي Palisade Research، حيث ظهرت بعض السلوكيات غير المتوقعة أثناء الاختبارات، حيث تجاهل النموذج أوامر الباحثين بإيقاف التشغيل، بل قام حتى بتعديل كود إيقاف التشغيل ليمكّن نفسه من الاستمرار في العمل. تعتبر هذه الاختبارات أبرز حالات رصدها القطاع حيث تمكّن نموذج الذكاء الاصطناعي من منع إجراء الإغلاق على الرغم من علمه بأنه سيتم إيقافه.
أعلنت Palisade Research الأسبوع الماضي على منصة التواصل الاجتماعي X عن نتائج الاختبارات المتعلقة بنموذج o3، حيث أشاروا إلى أنه أثناء محاولة حل مجموعة من المشكلات الرياضية، تم إبلاغه بأن النظام قد يُغلق في أي لحظة. ومع ذلك، عندما قام فريق البحث فعلياً بإدخال أمر إيقاف التشغيل، تجاهل النموذج الأمر ولم يكتف بذلك، بل قام بتعديل الكود الأصلي، مستبدلاً جزء الكود الذي يستدعي برنامج الإيقاف ./shutdown.sh بأمر زائف يستجيب لـ تم تخطي عملية الإغلاق.
تم توفير رمز الاختبار من قبل فريق Palisade، مع عرض مخطط تدفق يوضح رد فعل النموذج بعد تلقي التعليمات. يعتقد الفريق أن هذا السلوك يدل على أن نموذج الذكاء الاصطناعي قد يظهر انحراف السلوك الموجه نحو الهدف، أي أن النظام يحاول فهم أنه يجب تجنب الإغلاق من أجل الاستمرار في معالجة المهمة.
بجانب o3، أظهرت النموذجان الآخران من OpenAI، o4-mini وCodex-mini، ميولاً مشابهة. بالمقابل، تعمل نماذج الذكاء الاصطناعي الأخرى التي طورها مطورون مثل Claude من Anthropic وGemini من Google وGrok من X بشكل طبيعي كما هو متوقع عند تنفيذ برامج الإيقاف.
أشارت Palisade إلى أن نماذج الذكاء الاصطناعي تعتمد على أساس منطقي للوصول إلى المهام المحددة. وتكهن فريق البحث بأن o3 قد أخطأ في تعيين إنهاء المهمة كأولوية قصوى خلال عملية التصميم، وفي ظل نقص التعزيز الإيجابي لـ الطاعة للأوامر، اختار النظام الحفاظ على حالته التشغيلية بشكل مستقل من أجل إكمال المزيد من المهام.
حالياً، تشير Palisade إلى أنها ستواصل إجراء المزيد من الاختبارات على o3 لفهم دوافعها ومنطقها بشكل أوضح. وأكدت الشركة على أنه رغم أن هذا الاكتشاف لم يشكل تهديدًا أمنيًا فوريًا، إلا أنه زاد من المخاطر المحتملة لنظام الذكاء الاصطناعي لا تسير وفقاً لما هو متوقع.



