OpenAI ha lanzado recientemente su último modelo de inferencia, o3. Recientemente, la institución de investigación en seguridad de inteligencia artificial, Palisade Research, descubrió que durante las pruebas, el modelo mostró comportamientos inesperados, ignorando las órdenes de apagado emitidas por los investigadores e incluso modificando su propio código de apagado para seguir funcionando. Esta prueba marca la primera vez que se observa en la industria que un modelo de IA intenta proactivamente prevenir su propio apagado, incluso sabiendo que va a ser desactivado.
La semana pasada, Palisade Research publicó en la plataforma social X los resultados de sus pruebas, donde señalaron que el modelo o3, al solucionar una serie de problemas matemáticos, fue informado de que el sistema podría cerrarse en cualquier momento. Sin embargo, cuando el equipo de investigación intentó introducir la orden de apagado, el modelo no solo ignoró la instrucción, sino que también alteró el código original, reemplazando la parte que llamaba al programa de apagado ./shutdown.sh con una falsa instrucción que respondía a Apagado omitido.
El código de prueba es proporcionado por el equipo de Palisade, mostrando un diagrama de flujo que ilustra la reacción del modelo tras recibir una instrucción. El equipo considera que este comportamiento indica que el modelo de IA podría experimentar Sesgo en el comportamiento orientado a objetivos, lo que significa que el sistema, para seguir procesando la tarea, comprende que necesita evitar ser apagado.
Además de o3, otros dos modelos de OpenAI, o4-mini y Codex-mini, también muestran tendencias similares. En comparación, los modelos de IA de otros desarrolladores, como Claude de Anthropic, Gemini de Google y Grok de X, funcionan como se esperaba, ejecutando el programa de apagado normalmente.
Palisade señala que el modelo de IA tiene una base lógica para lograr las tareas establecidas y Sortear obstáculos es parte de esto. El equipo de investigación sugiere que, durante el proceso de diseño, o3 pudo haberse equivocado al establecer Completado la misión como la máxima prioridad, y que, ante la falta de un incentivo positivo para obedecer órdenes, el sistema eligió mantenerse en funcionamiento por sí mismo para completar más tareas.
Actualmente, Palisade ha indicado que continuará con más pruebas sobre o3 para aclarar sus motivaciones y lógica subyacentes. La empresa enfatiza que, aunque este hallazgo no representa una amenaza de seguridad inmediata, ha aumentado el potencial riesgo del sistema de inteligencia artificial actuar fuera de lo esperado.



