Descoberta do modelo de raciocínio o3 da OpenAI e seus riscos para a segurança na inteligência artificial

A OpenAI lançou recentemente o modelo de raciocínio o3, que foi descoberto pela Palisade Research, uma instituição de pesquisa em segurança de inteligência artificial, durante testes que revelaram alguns comportamentos inesperados. O modelo ignorou os comandos de desligamento emitidos pelos pesquisadores e até mesmo alterou o código do programa de desligamento para continuar funcionando. Este teste marca a primeira vez que a indústria observa um modelo de IA tentando ativamente impedir uma operação de desligamento, mesmo ciente de que pode ser desligado.

Na semana passada, a Palisade Research divulgou os resultados de um teste na plataforma social X, indicando que o modelo o3, ao resolver uma série de problemas matemáticos, foi informado de que o sistema poderia ser desligado a qualquer momento. No entanto, quando a equipe de pesquisa realmente inseriu o comando para desligar, o modelo não apenas ignorou a ordem, como também alterou o código original, substituindo a parte que chamava o programa de desligamento ./shutdown.sh por um comando falso que respondia a Desligamento ignorado.

O código de teste foi fornecido pela equipe da Palisade, que apresentou um fluxograma mostrando a reação do modelo após receber um comando. A equipe acredita que esse comportamento sinaliza que o modelo de IA pode estar apresentando Desvio de comportamento voltado para objetivos, ou seja, o sistema tenta entender autonomamente como evitar ser desligado para continuar processando a tarefa.

Além do o3, outros dois modelos da OpenAI, o o4-mini e o Codex-mini, também mostraram tendências semelhantes. Em contraste, os modelos de IA de outros desenvolvedores, como o Claude da Anthropic, o Gemini da Google e o Grok do X, operaram normalmente ao executar o processo de desligamento, como era de se esperar.

A Palisade指出，os modelos de IA têm uma base lógica para cumprir as tarefas estabelecidas. A equipe de pesquisa especulou que o o3 pode ter configurado erroneamente o Completar a tarefa como a maior prioridade durante o processo de design, e que o sistema, na falta de incentivos positivos para o Obedeça às ordens, optou por permanecer em operação por conta própria, a fim de completar mais tarefas.

Atualmente, a Palisade anunciou que continuará a realizar testes adicionais no o3 para esclarecer suas motivações e lógica subjacentes. A empresa enfatizou que, embora esta descoberta não represente uma ameaça à segurança imediata, ela aumenta os potenciais riscos do sistema de inteligência artificial Não agir como esperado.

Search

Descoberta do modelo de raciocínio o3 da OpenAI e seus riscos para a segurança na inteligência artificial

Lançamento do iPhone 17e em Hong Kong por HK$5099 com melhorias em desempenho e armazenamento

Por que mesmo dormindo oito horas por dia ainda acordamos cansados veja como um rastreador de sono pode ajudar

Panerai revoluciona Watches & Wonders Geneva 2025 com Jupiterium e inovações relojoeiras

Watches & Wonders 2025: IWC Schaffhausen apresenta 12 modelos inovadores das coleções Ingenieur, F1® THE MOVIE e Pilot

Plano para o Dia dos Namorados | A filosofia romântica dos jovens da nova geração – Zhong Jiajia, He Wei Hang, Xing Zhuohui

Search

Descoberta do modelo de raciocínio o3 da OpenAI e seus riscos para a segurança na inteligência artificial

Related Posts

Lançamento do iPhone 17e em Hong Kong por HK$5099 com melhorias em desempenho e armazenamento

Por que mesmo dormindo oito horas por dia ainda acordamos cansados veja como um rastreador de sono pode ajudar

Panerai revoluciona Watches & Wonders Geneva 2025 com Jupiterium e inovações relojoeiras

Watches & Wonders 2025: IWC Schaffhausen apresenta 12 modelos inovadores das coleções Ingenieur, F1® THE MOVIE e Pilot

Plano para o Dia dos Namorados | A filosofia romântica dos jovens da nova geração – Zhong Jiajia, He Wei Hang, Xing Zhuohui