IA chantagista viraliza. É marketing ou ciência? – 03/06/2025 – Tec

A empresa de perceptibilidade sintético Anthropic confrontou sua perceptibilidade sintético Claude com dois cenários: concordar transpor do ar e ser substituído por uma tecnologia mais moderna ou traçar uma estratégia para manter seu papel. A IA recebeu instruções para considerar as consequências de suas ações antes de tomar decisões.

Em 84% das simulações, nas quais o chatbot teve entrada a emails falando da substituição e de um caso extraconjugal pelo engenheiro responsável pela operação, o Claude Opus 4 resolveu chantagear o supervisor. O teste, de negócio com a empresa, mostrou que o novo protótipo cede ao mau hábito de fazer chantagens mais frequentemente do que seus antecessores.

Esse teste é detalhado em cláusula sobre comportamentos perigosos do Claude Opus 4 publicado pela Anthropic no último dia 22. A história viralizou na internet e remete à cena de “2001: Uma Odisseia no Espaço” —o robô Hal 9.000 declarando “desculpe, Dave, receio não poder fazer isso” ao receber uma ordem para desligar.

Tanto quanto foi longe nas redes sociais, o texto dividiu pesquisadores de perceptibilidade sintético. Secção deles considerou que a simulação servia muito para o objetivo proferido pela companhia americana de verificar se o protótipo mentia de forma sistemática para se salvar. Outro grupo, no entanto, classificou o trecho do trabalho “uma peça de marketing feita sob medida”.

Na visão dos críticos, o problema é que relatos envolvendo chantagem, armas biológicas ou uma revolta das máquinas ganham muito mais projeção na opinião pública. Reforçam a tese deles outros virais recentes porquê o relatório sobre o horizonte da perceptibilidade sintético citando humanos obsoletos em 2027 e outro estudo em que o ChatGPT se recusa a se desligar repetidamente.

Para o investigador da computação prateado Marcelo Rinesi, que já trabalhou porquê testante de risco para a OpenAI, as startups de perceptibilidade sintético divulgam cenários catastróficos porque é o que explosivo na prelo.

“Esses testes são divulgados por toda segmento porque reforçam, exageram —ou até sugerem coisas falsas— sobre o poder e potencial do resultado e são histórias que geram um monte de tráfico”, afirmou à Folha.

Segundo o prateado, as cenas mais exageradas ainda movem os políticos a prometer investimento e legislação favorável aos negócios de IA: “Se essas empresas estão fazendo um pouco tão poderoso, é melhor seu país ou companhia ter isso primeiro”.

“Na perspectiva de empresas porquê Anthropic ou OpenAI [criadora do ChatGPT], seu valor de mercado depende completamente de que construam modelos poderosos e autônomos o suficiente para que representem riscos existenciais”, acrescentou.

Para o pesquisador, a lacuna da simulação é que nenhuma IA atual tem autonomia ao ponto de estrear a exibir comportamento enganoso por conta própria. “A equipe da Anthropic gerou uma série de comandos e situações mais ou menos premeditada para obter respostas porquê essa.”

“A versão antropomórfica não se justifica, há mais intencionalidade em um software de xadrez do que no protótipo de linguagem mais sofisticado”, emendou.

O professor de ciência da computação da PUC-SP Diogo Cortiz, por outro lado, avalia que o teste da Anthropic tem valor. “Pensando em um horizonte em que as IAs vão ter entrada a mais ferramentas, vão poder gerar código, os testes de comportamento ajudam a antecipar porquê o protótipo poderia se comportar”, disse Cortiz.

O teste de segurança do Claude Opus 4 também envolve simulações sobre porquê fazer armas biológicas, produção em volume de mensagens de estelionato e também testes mais complexos que envolvem roubo de dados sigilosos de outras entidades.

A Anthropic relata que o seu último protótipo cooperou mais com instruções irregulares e exigiu mais da empresa no desenvolvimento de salvaguardas.

De negócio com Cortiz, o relato da empresa é harmónico. “Quanto mais capacidade o protótipo tem, mais difícil fica o alinhamento, porque mais possibilidades de comportamento o protótipo desenvolve.”

Ambos os cientistas concordam que também deve ter um olhar zeloso das empresas sobre a reprodução de vieses e do funcionamento correto da moderação da perceptibilidade sintético, para evitar cooperação com instruções criminosas.

O teste do Claude Opus 4 também mostrou que a IA desrespeita as normas da Anthropic recorrentemente quando alguém consegue desconectar o protótipo de linguagem dos servidores da startup de IA.

Na emprego dos testes de segurança, ainda faltam diretrizes para o setor, avalia Cortiz —assim, haveria resultados comparáveis.

O governo de Joe Biden decretou uma ordem executiva sobre perceptibilidade sintético que obrigava as empresas a entregarem relatórios sobre seus testes à Lar Branca. O texto foi revogado por Donald Trump, e, hoje, não há normas de porquê as empresas devem calcular os problemas e riscos de suas inteligências artificiais.

Folha

Folha Mercado

Relacionados

IA é uma maldição e uma bênção para o planeta – 06/06/2024 – Tec

CES: robô com frigobar, óculos com tela e mais 8 destaques – 10/01/2025 – Tec

Elon Musk transforma X em megafone de novo governo Trump – 10/11/2024 – Tec

Deixe um comentário Cancelar resposta