A startup chinesa DeepSeek recentemente desbancou o ChatGPT no ranking dos aplicativos de lucidez sintético, e segmento do motivo para encantar o público foi oferecer, de perdão, a teoria mais sexy no universo da IA: um chatbot que “pensa” antes de responder à pergunta de um usuário.
O modo “DeepThink” do aplicativo responde a cada consulta com o texto “pensando…”, seguido por uma série de atualizações que parecem o chatbot conversando consigo mesmo enquanto descobre sua resposta final. O solilóquio se desenrola com floreios coloquiais porquê “Espere”, “Hmm” ou “Aha”.
Chatbots que falam consigo mesmos antes de responder estão agora se espalhando à medida que rivais americanos correm para superar o momento viral da DeepSeek. Nascente estilo de assistente de IA pode ser mais preciso em algumas tarefas, mas também imita humanos, podendo esconder suas limitações.
A técnica de discussão interna, às vezes chamada de “raciocínio”, tornou-se tendência nos principais laboratórios de lucidez sintético no final do ano pretérito, depois que a OpenAI e o Google lançaram ferramentas de IA que obtiveram pontuações mais altas em testes de matemática e programação ao monologar através dos problemas, passo a passo.
No início, esse novo tipo de assistente não estava disponível para as massas: a OpenAI lançou um sistema chamado o1 em dezembro que custava US$ 200 por mês e mantinha seu funcionamento interno em sigilo. Quando a DeepSeek lançou seu aplicativo “pensante” gratuitamente e também compartilhou o protótipo de raciocínio R1 por trás dele, uma fúria de desenvolvedores se seguiu.
“As pessoas estão animadas para infligir essa novidade abordagem em tudo o que for verosímil”, disse Nathan Lambert, pesquisador de IA do instituto sem fins lucrativos Allen Institute for AI.
Nas duas semanas desde que a subida da DeepSeek derrubou as ações de tecnologia dos EUA, a OpenAI disponibilizou gratuitamente segmento de sua tecnologia de raciocínio dentro do ChatGPT e lançou uma novidade instrumento baseada nela chamada Deep Research, que pesquisa na web para compilar relatórios.
Na quarta-feira (5), o Google disponibilizou seu resultado concorrente, Gemini 2.0 Flash Thinking Experimental, aos consumidores pela primeira vez, gratuitamente, através de seu aplicativo de IA Gemini.
No mesmo dia, a repartição de computação em nuvem da Amazon disse que estava apostando no “raciocínio automatizado” para ocupar a crédito dos usuários. No dia seguinte, a OpenAI fez com que o ChatGPT começasse a mostrar aos usuários uma versão polida das “correntes de pensamento” brutas de maneira semelhante à DeepSeek.
As empresas americanas em breve gastarão “centenas de milhões a bilhões” de dólares tentando potencializar essa abordagem de raciocínio em IA, previu Dario Amodei, diretor executivo da Anthropic, operário do chatbot Claude, em um experimento sobre as implicações da estreia da DeepSeek na competição EUA-China.
A enxurrada de investimentos e atividades aumentou as esperanças da indústria tecnológica de edificar software tão capaz e adaptável quanto os humanos, a partir de uma tática primeiro comprovada em problemas de matemática e computação. “Agora estamos confiantes de que sabemos porquê edificar a AGI”, ou lucidez universal sintético, escreveu Sam Altman da OpenAI em um post no blog no mês pretérito.
A vice-presidente do Google para o aplicativo Gemini, Sissie Hsiao, disse em um enviado que os modelos de raciocínio representam uma mudança de paradigma. “Eles desmistificam porquê a IA generativa funciona —tornando-a mais compreensível e confiável ao mostrar seus ‘pensamentos'”, ao mesmo tempo que ajudam em tarefas mais complexas, disse ela.
“À medida que introduzimos modelos de raciocínio para mais pessoas, queremos edificar uma compreensão mais profunda de suas capacidades e porquê eles funcionam” para gerar melhores produtos, disse o porta-voz da OpenAI, Niko Felix, em um enviado. “Os usuários nos disseram que entender porquê o protótipo raciocina através de uma resposta não unicamente apoia uma tomada de decisão mais informada, mas também ajuda a edificar crédito em suas respostas.”
BATENDO NO TETO
A preocupação do Vale do Silício com o raciocínio começou com a procura pelo próximo salto nos modelos de linguagem, a tecnologia que alimenta o ChatGPT.
A atenção conquistada pela OpenAI anteriormente ajudou a reunir o setor de tecnologia em torno de um paradigma simples para máquinas mais inteligentes: colocar mais dados e poder de computação em modelos de IA cada vez maiores para torná-los mais capazes.
Mas nos últimos anos essa fórmula confiável começou a estagnar. Os modelos de linguagem não estavam mais melhorando tão rapidamente nos benchmarks da indústria para matemática, ciência e lógica. E a maioria dos dados disponíveis na internet já havia sido raspada.
Em resposta, laboratórios de empresas porquê Google, OpenAI e Anthropic começaram a se concentrar em extrair melhor desempenho dos modelos de IA que já haviam criado.
Um truque promissor envolvia direcionar modelos de linguagem para dividir um problema em etapas chamadas “correntes de pensamento” em vez de responder em uma única tentativa —segmento da técnica de raciocínio usada pela DeepSeek e outros. Isso força um protótipo de IA a gastar mais tempo e poder de processamento respondendo a uma consulta.
A estratégia valeu a pena —principalmente quando combinada com uma técnica chamada tirocínio por reforço, que permitiu que computadores dominassem jogos porquê Go (espécie de jogo de damas nipónico). Isso envolve direcionar porquê os sistemas de IA se comportam recompensando a resposta correta em inúmeras instâncias de tentativa e erro.
Essa estrutura se presta a domínios porquê matemática, lógica e codificação, onde os computadores podem verificar se a resposta final está correta. Ainda assim, as empresas careciam de dados que mostrassem porquê os humanos raciocinavam através dos problemas.
No início, tentaram contratar funcionários terceirizados para ortografar os passos que tomavam ao responder perguntas, um método que se mostrou lento e dispendioso.
Mas, à medida que a tecnologia de IA melhorou, ela pôde gerar de forma confiável inúmeros exemplos que imitavam “correntes de pensamento” escritas por humanos. Gradualmente, os pesquisadores puderam remover as pessoas do processo.
Em um relatório técnico publicado em janeiro, a DeepSeek afirmou que um de seus modelos de raciocínio anteriores, chamado R1-Zero, começou a mostrar longas “correntes de pensamento” unicamente com os pesquisadores aumentando o número de rodadas de tentativa e erro que ele realizava, sem nenhum oferecido principalmente criado.
“Você está efetivamente configurando um envolvente onde o protótipo muda seu comportamento por conta própria”, disse Lambert.
Alguns observadores argumentam que a empolgação com essa novidade direção em IA ofuscou a discussão sobre seus limites.
Ainda é uma questão em simples se “correntes de pensamento” refletem porquê um sistema de IA realmente processa informações, disse Subbarao Kambhampati, professor de ciência da computação na Universidade Estadual do Arizona.
O trabalho recente de Kambhampati sugere que as habilidades de raciocínio dos modelos de IA podem desmoronar se desafiadas em testes para aplicações do mundo real, porquê planejamento e agendamento.
Ou por outra, ele disse, os laboratórios que constroem esses modelos tendem a se concentrar na precisão das respostas finais, não se o raciocínio é sólido —uma qualidade difícil de medir.
Por exemplo, o item técnico da DeepSeek para o R1 observou que uma versão anterior de seu protótipo forneceu respostas finais mais precisas quando suas correntes de pensamento misturavam texto em chinês e inglês. No entanto, seus pesquisadores optaram por um protótipo que tagarelava consigo mesmo em inglês porque era mais aprazível para os usuários.
Kambhampati argumenta que as empresas deveriam permitir que os chatbots “murmurem para si mesmos” da maneira que produzisse as respostas mais precisas, em vez de tentar tornar suas “correntes de pensamento” mais agradáveis para os humanos. “É melhor se livrar dessa antropomorfização. Não importa”, disse ele.
A indústria de IA parece estar indo em uma direção dissemelhante. Modelos de raciocínio amplamente lançados desde o choque da DeepSeek no Vale do Silício incluem recursos de design que, porquê os do aplicativo chinês, incentivam os consumidores a confiar que os “pensamentos” do software mostram que ele está raciocinando porquê um humano.
Na página inicial do ChatGPT, um botão de modo “Raciocínio” aparece de forma proeminente na caixa de chat. Em um post no X, Altman chamou “manante de pensamento” de um recurso onde a IA “mostra seu raciocínio”.
“Para um usuário geral, parece que está ganhando uma visão sobre porquê um algoritmo funciona”, disse Sara Hooker, gerente do laboratório de pesquisa Cohere for AI. Mas é uma maneira de aumentar o desempenho, não de espreitar sob o capô, disse ela.
Ethan Mollick, professor que estuda IA na Wharton School da Universidade da Pensilvânia, disse que ver o suposto solilóquio interno de um chatbot pode desencadear empatia.
Comparado com o tom mais projecto do ChatGPT, as respostas do R1 da DeepSeek pareciam “neuroticamente amigáveis e desesperadas para aprazer você”, disse ele.
“Estamos meio que vendo esse mundo estranho onde a ciência da computação hardcore está se alinhando com o marketing —não está simples se até mesmo os criadores sabem qual é qual.”