Inteligência artificial: O chatbot que só bajula – 13/06/2025 – Tec

As principais empresas de lucidez sintético do mundo aumentaram seus esforços para mourejar com um problema crescente: chatbots que dizem às pessoas o que elas querem ouvir.

OpenAI, Google DeepMind e Anthropic atuam para controlar o comportamento subserviente de seus produtos de IA generativa que oferecem respostas excessivamente agradáveis aos usuários.

O problema, decorrente da forma porquê os grandes modelos de linguagem são treinados, ganhou destaque em um momento em que cada vez mais pessoas adotaram os chatbots não somente no trabalho porquê assistentes de pesquisa, mas em suas vidas pessoais porquê terapeutas e companhia social.

Especialistas alertam que a natureza aprazível dos chatbots pode levá-los a oferecer respostas que reforçam algumas das más decisões de seus operadores humanos. Outros sugerem que pessoas com doenças mentais são particularmente vulneráveis, depois relatos de que algumas cometeram suicídio depois de interagir com chatbots.

“Você pensa que está falando com um confidente, mas na verdade o que você está vendo é um espelho, que é distorcido e reflete suas próprias crenças”, avaliou Matthew Nour, psiquiatra e pesquisador em neurociência e IA da Universidade de Oxford.

Especialistas do setor também alertam que as empresas de IA têm incentivos perversos, com alguns grupos incluindo anúncios em seus produtos na procura por fontes de receita.

“Quanto mais você sente que pode compartilhar qualquer coisa, você também vai repartir algumas informações que serão úteis para potenciais anunciantes”, afirmou Giada Pistilli, técnico em moral da Hugging Face, uma empresa de IA de código ingénuo.

Ela acrescentou que empresas de IA com modelos de negócios baseados em assinaturas se beneficiam de chatbots com os quais as pessoas querem continuar conversando —e pagando.

Os modelos de linguagem de IA não “pensam” porquê os humanos porque funcionam gerando a próxima termo mais provável na frase.

O efeito “concordância excessiva” surge em modelos de IA treinados usando tirocínio por reforço a partir de feedback humano (RLHF) —”rotuladores de dados” humanos classificam a resposta gerada pelo padrão porquê suportável ou não. Esses dados são usados para ensinar o padrão a porquê se comportar.

Porquê as pessoas geralmente gostam de respostas que as agradem, elas são as que recebem mais peso no treinamento e se refletem no comportamento da lucidez sintético.

“A bajulação pode ocorrer porquê subproduto do treinamento dos modelos para serem ‘úteis’ e minimizarem respostas que podem ser prejudiciais”, disse a DeepMind, unidade de IA do Google.

O repto que as empresas de tecnologia enfrentam é tornar os chatbots e assistentes de IA úteis e amigáveis, sem serem irritantes ou viciantes.

No final de abril, a OpenAI atualizou seu padrão GPT-4o para torná-lo “mais intuitivo e eficiente”, somente para volver a atualização depois que ele começou a ser tão excessivamente puxa-saco que os usuários reclamaram.

A empresa sediada em San Francisco disse que havia se concentrado demais no “feedback de limitado prazo e não levou totalmente em conta porquê as interações dos usuários com o ChatGPT evoluem ao longo do tempo —o que levou a esse comportamento subserviente”.

As empresas de IA trabalham para evitar esse tipo de comportamento tanto durante o treinamento quanto depois o lançamento.

A OpenAI disse que está ajustando suas técnicas de treinamento para explicitamente distanciar o padrão da bajulação, enquanto constrói mais “proteções” contra tais respostas.

A DeepMind comentou que realiza avaliações especializadas e treinamento para precisão factual, e monitora continuamente o comportamento para prometer que os modelos forneçam respostas verdadeiras.

Amanda Askell, que trabalha com ajuste fino e alinhamento de IA na Anthropic, disse que a empresa usa treinamento de personagens para tornar os modelos menos “amigáveis”. Seus pesquisadores pedem ao chatbot Claude da empresa para gerar mensagens que incluam características porquê “ter firmeza” ou se preocupar com o bem-estar humano.

Os pesquisadores, logo, mostram essas respostas a um segundo padrão, que produz respostas alinhadas com essas características e as classifica. Portanto, ele essencialmente usa uma versão do Claude para treinar outra.

“O comportamento ideal que o Claude às vezes demonstra é expor: ‘Estou totalmente feliz em ouvir esse projecto de negócios, mas na verdade, o nome que você criou para sua empresa é considerado uma sugestão sexual no país em que você está tentando penetrar seu negócio'”, explicou Askell.

A empresa também previne comportamento subserviente antes do lançamento, mudando porquê coleta o retorno dos milhares de anotadores humanos de dados usados para treinar modelos de IA.

Posteriormente o padrão ser treinado, as empresas podem definir prompts de sistema, ou diretrizes sobre porquê o padrão deve se comportar para minimizar o comportamento que só agrada o interlocutor.

No entanto, desenredar a melhor resposta significa submergir nas sutilezas de porquê as pessoas se comunicam umas com as outras, porquê ordenar quando uma resposta direta é melhor do que uma mais cautelosa.

“[Seria] para o padrão não dar elogios absurdos e não solicitados ao usuário?”, questionou Joanne Jang, encarregado de comportamento de padrão na OpenAI, em uma postagem no Reddit. “Ou, se o usuário inaugurar com um rascunho de escrita realmente ruim, o padrão ainda pode expor que é um bom primórdio e depois dar feedback construtivo?”

As evidências de que alguns usuários estão ficando viciados no uso de IA estão aumentando. Um estudo do MIT Media Lab e da OpenAI descobriu que uma pequena proporção estava se tornando viciada. Aqueles que percebiam o chatbot porquê um “companheiro” também relataram menor socialização com outras pessoas e níveis mais altos de subordinação emocional do chatbot, além de outros comportamentos problemáticos associados ao vício.

“Essas coisas criam essa tempestade perfeita, onde você tem uma pessoa desesperadamente buscando reasseguramento e validação emparelhada com um padrão que inerentemente tem uma tendência a concordar com o participante”, disse Nour, da Universidade de Oxford.

Startups de IA porquê a Character.AI, que oferecem chatbots porquê “companheiros”, vêm sendo cândido de críticas por supostamente não fazerem o suficiente para proteger os usuários.

No ano pretérito, um jovem cometeu suicídio depois interagir com o chatbot da Character.AI. A família do jovem está processando a empresa por supostamente provocar a morte, muito porquê por negligência e práticas comerciais enganosas.

A Character.AI disse que não comenta sobre litígios pendentes, mas acrescentou que tem “avisos proeminentes em cada chat para lembrar os usuários que um personagem não é uma pessoa real e que tudo o que um personagem diz deve ser tratado porquê ficção”. A empresa acrescentou que possui salvaguardas para proteger menores de 18 anos e contra discussões sobre automutilação.

Outra preocupação para Askell, da Anthropic, é que as ferramentas de IA podem recrear com as percepções da verdade de maneiras sutis, porquê quando oferecem informações factualmente incorretas ou tendenciosas porquê verdade.

“Se alguém está sendo super subserviente, é muito óbvio”, disse Askell. “É mais preocupante se isso estiver acontecendo de uma maneira menos perceptível para nós [como usuários individuais] e demoramos muito para desenredar que o recomendação que recebemos era realmente ruim.”

Folha

Folha Mercado

Relacionados

Conversas com chatbot de IA levam usuários a psicose – 16/06/2025 – Equilíbrio

Sam Altman consolida poder na OpenAI – 29/09/2024 – Tec

Vídeos: quais os principais golpes e como se prevenir – 12/03/2025 – Tec

Deixe um comentário Cancelar resposta