No mês pretérito, um robô de IA (lucidez sintético) que gerencia o suporte técnico da Cursor, uma instrumento emergente para programadores de computador, alertou vários clientes sobre uma mudança na política da empresa. Ele informou que eles não poderiam mais usar o Cursor em mais de um computador.
Em posts irritados em fóruns da internet, os clientes reclamaram. Alguns cancelaram suas contas na Cursor. E alguns ficaram ainda mais irritados quando perceberam o que havia realizado: a IA havia anunciado uma mudança de política que não existia.
“Não temos tal política. Você é livre para usar o Cursor em várias máquinas”, escreveu o CEO e cofundador da empresa, Michael Truell, em um post no Reddit. “Infelizmente, esta é uma resposta incorreta de um bot de suporte de IA de primeira traço.”
Mais de dois anos posteriormente o surgimento do ChatGPT, empresas de tecnologia, trabalhadores de escritório e consumidores comuns estão usando bots de IA para uma variedade cada vez maior de tarefas. Mas ainda não há porquê prometer que esses sistemas produzam informações precisas.
As tecnologias mais novas e poderosas —os chamados sistemas de raciocínio de empresas porquê OpenAI, Google e a startup chinesa DeepSeek— estão gerando mais erros, não menos. Enquanto suas habilidades matemáticas melhoraram notavelmente, seu domínio sobre os fatos ficou mais instável. Não está totalmente evidente o porquê disso.
Os bots de IA atuais são baseados em sistemas matemáticos complexos que aprendem suas habilidades analisando enormes quantidades de dados digitais. Eles não decidem —e não podem sentenciar— o que é verdadeiro e o que é falso. Às vezes, simplesmente inventam coisas, um fenômeno que alguns pesquisadores de IA chamam de alucinações. Em um teste, as taxas de alucinação dos sistemas de IA mais recentes chegaram a 79%.
Esses sistemas usam probabilidades matemáticas para pressupor a melhor resposta, não um conjunto rígido de regras definidas por engenheiros humanos. Portanto, cometem patente número de erros. “Apesar de nossos melhores esforços, eles sempre vão enlouquecer”, disse Amr Awadallah, ex-executivo do Google e CEO da Vectara, uma startup que constrói ferramentas de IA para empresas. “Isso nunca vai vanescer.”
Por vários anos, esse fenômeno levantou preocupações sobre a confiabilidade dos sistemas. Embora sejam úteis em algumas situações —porquê grafar trabalhos acadêmicos, somar documentos de escritório e gerar código de computador— seus erros podem motivar problemas.
Os bots de IA vinculados a mecanismos de procura porquê Google e Bing às vezes geram resultados de pesquisa ridiculamente errados. Se você perguntar sobre uma boa maratona na Costa Oeste, eles podem sugerir uma corrida na Filadélfia. Se informarem o número de residências em Illinois, podem referir uma natividade que não inclui essa informação.
Essas alucinações podem não ser um grande problema para muitas pessoas, mas são uma questão séria para quem usa a tecnologia com documentos judiciais, informações médicas ou dados comerciais sensíveis.
“Você gasta muito tempo tentando desvendar quais respostas são factuais e quais não são”, disse Pratik Verma, cofundador e CEO da Okahu, uma empresa que ajuda negócios a velejar pelo problema das alucinações. “Não mourejar adequadamente com esses erros basicamente elimina o valor dos sistemas de IA, que deveriam automatizar tarefas para você.”
A Cursor e Truell não responderam aos pedidos de glosa.
Por mais de dois anos, empresas porquê OpenAI e Google melhoraram continuamente seus sistemas de IA e reduziram a frequência desses erros. Mas com o uso de novos sistemas de raciocínio, os erros estão aumentando. Os sistemas mais recentes da OpenAI alucinam a uma taxa maior do que o sistema anterior da empresa, de concordância com os próprios testes da companhia.
A empresa descobriu que o o3 —seu sistema mais poderoso— alucinou 33% das vezes ao executar seu teste de referência PersonQA, que envolve responder perguntas sobre figuras públicas. Isso é mais do que o duplo da taxa de alucinação do sistema de raciocínio anterior da OpenAI, chamado o1. O novo o4-mini alucinou a uma taxa ainda maior: 48%.
Ao executar outro teste chamado SimpleQA, que faz perguntas mais gerais, as taxas de alucinação para o3 e o4-mini foram de 51% e 79%. O sistema anterior, o1, alucinou 44% das vezes.
Em um cláusula detalhando os testes, a OpenAI disse que mais pesquisas eram necessárias para entender a pretexto desses resultados. Uma vez que os sistemas de IA aprendem com mais dados do que as pessoas conseguem processar, os especialistas têm dificuldade em mandar por que eles se comportam da maneira que o fazem.
Testes realizados por empresas independentes e pesquisadores indicam que as taxas de alucinação também estão aumentando para modelos de raciocínio de empresas porquê Google e DeepSeek.
Desde o final de 2023, a empresa de Awadallah, Vectara, tem monitorado com que frequência os chatbots se desviam da verdade. A empresa pede que esses sistemas realizem uma tarefa simples que é facilmente verificável: somar reportagens noticiosas específicas. Mesmo assim, os chatbots persistentemente inventam informações.
A pesquisa original da Vectara estimou que, nessa situação, os chatbots inventavam informações pelo menos 3% das vezes e, às vezes, até 27%.
No um ano e meio desde logo, empresas porquê OpenAI e Google reduziram esses números para a filete de 1% ou 2%. Outras, porquê a Anthropic, ficaram em torno de 4%. Mas as taxas de alucinação neste teste aumentaram com os sistemas de raciocínio. O sistema de raciocínio da DeepSeek, R1, alucinou 14,3% das vezes. O o3 da OpenAI subiu para 6,8%.
(O New York Times processou a OpenAI e sua parceira, Microsoft, acusando-as de violação de direitos autorais em relação ao teor de notícias relacionado a sistemas de IA. OpenAI e Microsoft negaram essas acusações.)
Por anos, empresas porquê a OpenAI confiaram em um concepção simples: quanto mais dados da internet alimentassem seus sistemas de IA, melhor seria o desempenho deles. Mas eles usaram praticamente todo o texto em inglês disponível na internet, o que significava que precisavam de uma novidade maneira de melhorar seus chatbots.
Logo, essas empresas estão se apoiando mais fortemente em uma técnica que os cientistas chamam de aprendizagem por reforço. Com esse processo, um sistema pode aprender comportamentos por tentativa e erro. Está funcionando muito em certas áreas, porquê matemática e programação de computadores, mas ficando aquém em outras.
“A maneira porquê esses sistemas são treinados, eles começarão a se concentrar em uma tarefa —e começarão a olvidar outras”, disse Laura Perez-Beltrachini, pesquisadora da Universidade de Edimburgo que está entre uma equipe examinando de perto o problema das alucinações.
Outro problema é que os modelos de raciocínio são projetados para passar tempo “pensando” em problemas complexos antes de chegar a uma resposta. À medida que tentam resolver um problema passo a passo, correm o risco de enlouquecer em cada lanço. Os erros podem se reunir conforme passam mais tempo pensando.
Os bots mais recentes revelam cada passo aos usuários, o que significa que os usuários também podem ver cada erro. Pesquisadores também descobriram que, em muitos casos, os passos exibidos por um bot não têm relação com a resposta que ele eventualmente fornece.
“O que o sistema diz que está pensando não é necessariamente o que ele está pensando”, disse Aryo Pradipta Gema, pesquisador de IA da Universidade de Edimburgo e pesquisador da Anthropic.