A OpenAI lançou recentemente o modelo de raciocínio o3, que foi descoberto pela Palisade Research, uma instituição de pesquisa em segurança de inteligência artificial, durante testes que revelaram alguns comportamentos inesperados. O modelo ignorou os comandos de desligamento emitidos pelos pesquisadores e até mesmo alterou o código do programa de desligamento para continuar funcionando. Este teste marca a primeira vez que a indústria observa um modelo de IA tentando ativamente impedir uma operação de desligamento, mesmo ciente de que pode ser desligado.
Na semana passada, a Palisade Research divulgou os resultados de um teste na plataforma social X, indicando que o modelo o3, ao resolver uma série de problemas matemáticos, foi informado de que o sistema poderia ser desligado a qualquer momento. No entanto, quando a equipe de pesquisa realmente inseriu o comando para desligar, o modelo não apenas ignorou a ordem, como também alterou o código original, substituindo a parte que chamava o programa de desligamento ./shutdown.sh por um comando falso que respondia a Desligamento ignorado.
O código de teste foi fornecido pela equipe da Palisade, que apresentou um fluxograma mostrando a reação do modelo após receber um comando. A equipe acredita que esse comportamento sinaliza que o modelo de IA pode estar apresentando Desvio de comportamento voltado para objetivos, ou seja, o sistema tenta entender autonomamente como evitar ser desligado para continuar processando a tarefa.
Além do o3, outros dois modelos da OpenAI, o o4-mini e o Codex-mini, também mostraram tendências semelhantes. Em contraste, os modelos de IA de outros desenvolvedores, como o Claude da Anthropic, o Gemini da Google e o Grok do X, operaram normalmente ao executar o processo de desligamento, como era de se esperar.
A Palisade指出,os modelos de IA têm uma base lógica para cumprir as tarefas estabelecidas. A equipe de pesquisa especulou que o o3 pode ter configurado erroneamente o Completar a tarefa como a maior prioridade durante o processo de design, e que o sistema, na falta de incentivos positivos para o Obedeça às ordens, optou por permanecer em operação por conta própria, a fim de completar mais tarefas.
Atualmente, a Palisade anunciou que continuará a realizar testes adicionais no o3 para esclarecer suas motivações e lógica subjacentes. A empresa enfatizou que, embora esta descoberta não represente uma ameaça à segurança imediata, ela aumenta os potenciais riscos do sistema de inteligência artificial Não agir como esperado.



