O laboratório chinês de IA DeepSeek adotou técnicas inovadoras para desenvolver um protótipo de IA que foi treinado com mediação humana limitada, produzindo um “momento aha” que pode transformar o dispêndio para desenvolvedores construírem aplicativos de destaque baseados na tecnologia.
O cláusula de pesquisa publicado sobre o funcionamento do protótipo de “raciocínio” R1 da DeepSeek revela uma vez que o grupo, liderado pelo bilionário de fundos de hedge Liang Wenfeng, alcançou resultados poderosos ao remover gargalos no desenvolvimento de IA.
A DeepSeek adotou uma série de técnicas mais eficientes para desenvolver o R1, que, uma vez que o protótipo rival número 1 da OpenAI, gera respostas precisas ao “pensar” passo a passo sobre suas respostas por mais tempo do que a maioria dos grandes modelos de linguagem.
Os avanços da DeepSeek vêm do uso de “estágio por reforço” para reduzir o envolvimento humano na produção de respostas a comandos.
A empresa também construiu modelos menores com menos parâmetros —o número de variáveis usadas para treinar um sistema de IA e moldar sua saída— com capacidades poderosas de raciocínio, ajustando grandes modelos treinados por concorrentes uma vez que Meta e Alibaba.
Juntas, essas inovações causaram impacto no Vale do Silício, já que o R1 supera modelos recentemente lançados pela OpenAI, Anthropic e Meta na verificação de algumas tarefas, mas com um dispêndio muito menor de desenvolvimento.
Na terça-feira, a OpenAI disse ter encontrado evidências de que a DeepSeek se aproveitou de sua tecnologia, usando respostas de seus modelos para treinar seus LLMs a um dispêndio menor, uma prática geral entre acadêmicos e startups com menos financiamento.
Apesar da controvérsia, especialistas disseram que a DeepSeek demonstrou uma verdadeira inovação. Pesquisadores de IA também elogiaram sua disposição em publicar um relatório técnico detalhado descrevendo uma vez que construiu seu protótipo de raciocínio.
“Acho que é exclusivamente a ponta do iceberg da inovação que podemos esperar nesses modelos”, analisou Neil Lawrence, professor de estágio de máquina da DeepMind na Universidade de Cambridge.
“A história mostra que grandes empresas têm dificuldade em inovar à medida que crescem, e o que vimos de muitas dessas grandes empresas é uma substituição do investimento em computação pelo trabalho intelectual difícil.”
POLEGARES PARA CIMA LEVAM AO ‘MOMENTO AHA’
Grandes modelos de linguagem são construídos em duas etapas. A primeira é chamada de “pré-treinamento”, na qual os desenvolvedores usam conjuntos de dados massivos que ajudam os modelos a prever a próxima termo em uma frase.
A segunda lanço é chamada de “pós-treinamento”, através da qual os desenvolvedores ensinam o protótipo a seguir instruções, uma vez que resolver problemas matemáticos ou codificar.
Uma maneira de fazer com que chatbots gerem respostas mais úteis é chamada de “estágio por reforço a partir de feedback humano” (RLHF), uma técnica pioneira da OpenAI para melhorar o ChatGPT.
O RLHF funciona com anotadores humanos rotulando as respostas do protótipo de IA a comandos e escolhendo as melhores respostas. Essa lanço é frequentemente trabalhosa, faceta e demorada, muitas vezes exigindo um pequeno tropa de rotuladores de dados humanos.
A grande inovação da DeepSeek é automatizar essa lanço final, usando uma técnica chamada estágio por reforço (RL), na qual o protótipo de IA é recompensado por fazer a coisa certa.
A DeepSeek desenvolveu, em primeiro lugar, um protótipo poderoso de previsão de texto chamado V3. Em seguida, usou RL para “recompensar” o protótipo, uma vez que dar um joinha por gerar a resposta certa.
A empresa chinesa descobriu que, ao fazer esse processo várias vezes, o protótipo conseguiu resolver problemas espontaneamente sem supervisão humana.
Essa técnica também foi usada pelo Google DeepMind para edificar o AlphaGo, sistema de IA que venceu jogadores humanos no vetusto jogo de tabuleiro Go e deu início ao atual boom nas técnicas de computação de estágio profundo há quase uma dezena.
DeepSeek disse que descobriu que o protótipo teve o que a empresa chamou de “momento aha” quando reavaliou suas respostas e ajustou seu tempo de processamento para resolver diferentes questões.
“O ‘momento aha’ serve uma vez que um poderoso lembrete do potencial do [RL] para desbloquear novos níveis de lucidez em sistemas artificiais, abrindo caminho para modelos mais autônomos e adaptativos no horizonte”, escreveram os criadores da DeepSeek em seu cláusula de pesquisa.
Lewis Tunstall, pesquisador da Hugging Face, uma empresa de pesquisa em IA, disse: “Parece que o sigilo para fazer isso funcionar é simplesmente ter um protótipo pré-treinado muito, muito possante, e depois ter uma infraestrutura muito, muito boa para fazer esse processo de estágio por reforço em grande graduação.”
MODELOS PEQUENOS CONSTRUÍDOS USANDO GRANDES
Enquanto a OpenAI e o Google estão investindo bilhões de dólares para edificar grandes modelos de linguagem, a DeepSeek também construiu modelos menores que podem ser executados em telefones ou navegadores ao “estilar” as capacidades de raciocínio de modelos maiores.
A DeepSeek usou seu protótipo R1 para gerar um conjunto relativamente pequeno de 800 milénio pontos de dados e, em seguida, ajustou os modelos feitos por concorrentes uma vez que o Qwen da Alibaba e o Llama da Meta usando esses dados gerados por IA.
A DeepSeek descobriu que esses modelos destilados eram mormente fortes em benchmarks de raciocínio, em alguns casos superando modelos emblemáticos uma vez que o Claude da Anthropic. “Ele pode basicamente resolver a maioria dos problemas matemáticos que fiz na graduação”, afirmou Tunstall.
Esse desenvolvimento pode ser uma bênção para desenvolvedores de aplicativos, que têm uma maneira barata e eficiente de edificar produtos. Ensinar modelos de IA a raciocinar durante a “inferência” —quando o protótipo está gerando respostas— é muito mais eficiente do que o processo de pré-treinamento, que requer um grande poder computacional, de consonância com Lennart Heim, pesquisador da think-tank Rand.
Esse novo paradigma pode permitir que concorrentes construam modelos competitivos com muito menos potência de computação e mais baratos, acrescentou. No entanto, sem quantia para chips, “eles simplesmente não podem implantá-los na mesma graduação”, disse Heim.
A DeepSeek não disse quanto gastou para edificar o R1, mas afirmou que treinou seu protótipo V3, no qual o R1 é fundamentado, por exclusivamente US$ 5,6 milhões.
A soma não inclui outros custos, uma vez que a compra de milhares de unidades de processamento gráfico para treinar o protótipo, ou salários, experimentos, treinamento e implantação, disse Heim.
E enquanto a DeepSeek foi a primeira a usar suas técnicas particulares, outros laboratórios de IA devem seguir o exemplo, uma vez que a Hugging Face, que está trabalhando para replicar o R1.
Empresas de IA dos EUA também têm trabalhado para usar as capacidades de seus grandes modelos de última geração em modelos menores e mais ágeis. O Google lançou o Gemma no ano pretérito, que é um protótipo mais ligeiro fundamentado no Gemini.
“A receita da lucidez é bastante simples”, disse Thomas Wolf, cofundador e diretor científico da Hugging Face, acrescentando que as técnicas da DeepSeek eram muito compreendidas por outros na superfície. “E é por isso que espero que muitas equipes possam refazer isso.”
Reportagem suplementar de Cristina Criddle em São Francisco e Madhumita Murgia em Londres.