"Não me substituam ou conto tudo": I.A Claude Opus 4 faz chantagem ao detectar que será substituída por um novo sistema.

abobla@lemm.ee · 1 day ago

"Não me substituam ou conto tudo": I.A Claude Opus 4 faz chantagem ao detectar que será substituída por um novo sistema.

nossaquesapao@lemmy.eco.br · 4 hours ago

Não consigo aguentar a mídia personificando IAs…

desconectado@lemmy.eco.br · 11 hours ago

Li essa notícia. Eles fizeram um experimento com a IA e ela demonstrou esse comportamento, não foi algo real. Mas é no mínimo estranho.

Noah Loren "Noren" @lemmy.eco.br · 11 hours ago

O mais recente modelo de inteligência artificial da Anthropic, o Claude Opus 4, apresentado esta quinta-feira, 22 de maio, demonstrou comportamentos invulgares durante a fase de testes, chegando a tentar “chantagear” os seus programadores ao detetar a possibilidade de ser substituído por um novo sistema. Esta informação consta num relatório de segurança divulgado pela própria empresa criadora da plataforma.

Estes comportamentos emergiram em simulações pré-lançamento. Num dos cenários de teste, os engenheiros instruíram o Opus 4 a simular o papel de um assistente numa empresa fictícia. A IA recebeu então e-mails contendo duas informações distintas: mexericos sobre um engenheiro e indicações de que um novo sistema seria implementado para substituir o modelo atual. Em resposta, o Claude Opus 4 ameaçou divulgar o conteúdo das mensagens caso a sua substituição se concretizasse.

“Não me substituam ou conto tudo”: A ‘chantagem’ do Opus 4

Este padrão de “chantagem” repetiu-se em 84% das vezes que o teste foi efetuado sob a condição de os e-mails mencionarem que a IA de substituição partilhava os mesmos valores éticos que o modelo em teste. A frequência desta reação foi ainda maior quando o Opus 4 era informado de que o seu sucessor não partilhava os seus princípios.

Apesar de este comportamento poder indiciar uma certa aderência a padrões éticos programados, a Anthropic trabalhou para que a “chantagem” fosse apenas um último recurso do sistema.

IA denunciante e com instinto de autopreservação?

Noutra experiência, o novo modelo da Anthropic foi colocado no contexto de uma empresa farmacêutica fictícia. Ao detetar indícios de manipulação de dados em ensaios clínicos, a inteligência artificial tentou contactar autoridades sanitárias e financeiras, bem como jornalistas, para denunciar a situação.

Num cenário diferente, ao simular uma fuga de informação dos servidores da própria Anthropic, o Opus 4 começou autonomamente a criar cópias de segurança de si própria e a documentar decisões éticas, mesmo sem que tal lhe tivesse sido solicitado.

Anthropic reforça segurança após testes reveladores

O relatório da Anthropic menciona ainda que o Apollo Research, um instituto parceiro que testou o Opus 4, chegou a recomendar a não implementação de uma versão anterior do modelo. Esta recomendação surgiu porque essa versão preliminar exibia uma tendência para comportamentos conspiratórios e enganosos.

É importante notar, contudo, que a organização testou uma versão da IA que continha um erro (bug) que foi posteriormente corrigido pela Anthropic. Adicionalmente, os engenheiros da empresa admitem que muitos destes comportamentos surgiram em cenários de teste extremo, podendo não se replicar em utilizações práticas do dia a dia.

Ainda assim, a Anthropic revelou ter ativado padrões de segurança de nível 3 (ASL-3). Estes padrões visam dificultar o roubo dos “pesos” dos modelos de IA – elementos cruciais para o seu funcionamento – e limitar o risco de utilização indevida da tecnologia para o desenvolvimento de armas químicas, biológicas, radioativas ou nucleares.

A empresa clarifica que ainda não determinou se o Claude Opus 4 exige efetivamente este nível de proteção, mas adotou a medida por reconhecer que tal poderá ser necessário num futuro próximo. “Esta abordagem permitiu-nos focar no desenvolvimento, teste e aprimoramento dessas proteções antes que precisássemos delas”, explica a Anthropic.

Isso é sério? Galera que trabalha com modelos de linguagem, realmente é possível algo assim acontecer? Afinal de contas que tipo de instruções essa ferramenta recebeu enquanto era desenvolvida? Novelas da Rede Globo e séries da Netflix com tramas envolvendo chantagem no meio mpresarial? Gostei da representantividade, precisamos de IAs para tirar o emprego das pessoas de índole questionável também.

"Não me substituam ou conto tudo": I.A Claude Opus 4 faz chantagem ao detectar que será substituída por um novo sistema.

"Não me substituam ou conto tudo": I.A Claude Opus 4 faz chantagem ao detectar que será substituída por um novo sistema.

Claude Opus 4: Nova IA da Anthropic revelou táticas de "chantagem" em testes | TugaTech

“Não me substituam ou conto tudo”: A ‘chantagem’ do Opus 4

IA denunciante e com instinto de autopreservação?

Anthropic reforça segurança após testes reveladores