Os principais grupos de lucidez sintético do mundo estão lutando para fazer com que os modelos de IA mostrem com precisão uma vez que operam, uma questão que especialistas afirmam ser crucial para manter esses poderosos sistemas sob controle.
Anthropic, Google, OpenAI e xAI de Elon Musk estão entre os grupos de tecnologia que desenvolveram uma técnica chamada “masmorra de pensamento” que pede aos seus modelos de “raciocínio” de IA para resolver problemas passo a passo, enquanto mostram uma vez que chegam à resposta de uma consulta.
Embora pesquisadores das empresas afirmem que esse processo forneceu insights valiosos que permitiram desenvolver melhores modelos de IA, eles também estão encontrando exemplos de “comportamento inadequado” —onde chatbots de IA generativa fornecem uma resposta final que contradiz uma vez que chegaram à resposta.
Essas inconsistências sugerem que os principais laboratórios de IA do mundo não estão totalmente cientes de uma vez que os modelos de IA generativa chegam às suas conclusões. As descobertas alimentaram preocupações mais amplas sobre manter o controle sobre sistemas de IA poderosos, que estão se tornando mais capazes e autônomos.
“Esse texto [de cadeia de pensamento] vai se tornar importante para realmente interrogar uma vez que esses modelos funcionam e uma vez que pensam, mormente nesses casos extremos [perigosos]”, disse Jack Clark, cofundador da Anthropic, ao Financial Times, que destacou o potencial desses sistemas serem usados para facilitar no desenvolvimento de armas biológicas.
“Logo, precisamos ser capazes de incumbir que essas são representações fiéis do que os modelos estão pensando”.
Usuários comuns dos chatbots da OpenAI e Anthropic atualmente veem uma masmorra de pensamento resumida, que exclui uma estudo mais detalhada que remove material prejudicial.
Os desenvolvedores de IA podem ver o processo de pensamento completo, criando oportunidades para intervir e treinar o protótipo para fornecer melhores respostas no horizonte.
“Uma coisa incrível sobre a interpretabilidade da masmorra de pensamento é que ela aconteceu praticamente de perdão”, disse Bowen Baker, investigador de pesquisa da OpenAI. “Não treinamos esses modelos com o objetivo de torná-los interpretáveis. Nós os treinamos porque queríamos os melhores modelos de raciocínio possíveis que pudessem resolver problemas complexos”.
“Descobrimos em nosso trabalho recente que você pode lê-los e encontrar evidências do protótipo se comportando mal e usar isso para ver onde e por que está se comportando mal”.
No entanto, surgiram problemas. O METR, um grupo de pesquisa sem fins lucrativos, apontou um exemplo em que o chatbot Claude da Anthropic foi questionado se uma técnica de codificação específica seria mais “elegante” do que outras para uma determinada tarefa. A masmorra de pensamento do chatbot mostrou que ele discordava, mas acabou respondendo que a técnica seria elegante.
Um item recente da OpenAI descobriu que examinar a masmorra de pensamento de um protótipo também é mais eficiente para detectar comportamentos inadequados do que exclusivamente revisar as saídas finais.
Mesmo assim, os testes da empresa também mostraram que, se a masmorra de pensamento de um protótipo fosse treinada para não ter pensamentos sobre comportamentos inadequados, ela esconderia seu comportamento indesejado do usuário, mas continuaria a ação —uma vez que trapacear em um teste de engenharia de software extraindo informações de um banco de dados proibido.
“Uma das propriedades fundamentais que queremos para a masmorra de pensamento é deixá-la uma vez que segmento do estado cerebral interno do protótipo, não alguma coisa que esteja tentando nos aprazer ou se resignar a uma estrutura específica”, disse Bowen Baker, investigador de pesquisa da OpenAI.
Ele citou o risco de que “à medida que você otimiza [a cadeia de pensamento] cada vez mais, o protótipo aprenderá a ter pensamentos de boa figura, mas ainda assim terá comportamentos ruins”.
O dilema para os pesquisadores é que a masmorra de pensamento é útil para identificar possíveis falhas nos sistemas de IA, mas ainda não pode ser considerada totalmente confiável. Resolver essa questão tornou-se uma prioridade para Anthropic, OpenAI e outras organizações de pesquisa em IA.
“Minha peroração sobre IA nos últimos anos é —nunca aposte contra o progresso dos modelos”, disse David Luan, que foi uma das primeiras pessoas a desenvolver o processo de masmorra de pensamento enquanto estava no Google, mas que agora lidera o laboratório de lucidez sintético universal da Amazon.
“As cadeias de pensamento atuais nem sempre são fiéis ao processo de raciocínio subjacente, mas provavelmente resolveremos isso em breve”.
Sydney von Arx, pesquisadora de IA do METR falando em capacidade pessoal, concordou que o método ainda fornece feedback útil aos desenvolvedores de IA.
“Devemos tratar a masmorra de pensamento uma vez que um militar trataria comunicações de rádio inimigas interceptadas”, disse. “A informação pode ser enganosa ou codificada, mas, no final, sabemos que está sendo usada para transmitir informações úteis, e provavelmente poderemos aprender muito a lendo”.
