A desenvolvedora chinesa de IA DeepSeek afirmou que gastou US$ 294 milénio (R$ 1,6 milhão) no treinamento de seu padrão R1, valor muito subalterno aos números relatados por rivais americanas, em um cláusula que provavelmente reacenderá o debate sobre o lugar de Pequim na corrida pelo desenvolvimento da lucidez sintético.
A primeira estimativa divulgada dos custos de treinamento do R1 da empresa sediada em Hangzhou apareceu em um cláusula revisado por pares na revista acadêmica Nature, publicado na quarta-feira (17).
O lançamento pela DeepSeek do que disse serem sistemas de IA de menor dispêndio em janeiro levou investidores globais a venderem ações de tecnologia, preocupados que os novos modelos pudessem ameaçar a dominância de líderes de IA, incluindo a Nvidia.
Desde logo, a empresa e o fundador Liang Wenfeng praticamente desapareceram da vista do público, exceto por algumas atualizações de novos produtos.
O cláusula na Nature, que listou Liang uma vez que um dos coautores, afirmou que o padrão R1 da DeepSeek, focado em raciocínio, custou US$ 294 milénio para treinar e utilizou 512 chips Nvidia H800. Uma versão anterior do cláusula publicada em janeiro não continha essa informação.
Os custos de treinamento para os modelos de linguagem grande que alimentam os chatbots de IA referem-se às despesas incorridas com a realização de um cluster de chips poderosos por semanas ou meses para processar vastas quantidades de texto e código.
Sam Altman, CEO da gigante americana OpenAI, disse em 2023 que o treinamento de modelos fundamentais custou “muito mais” que US$ 100 milhões (R$ 530 milhões) —embora sua empresa não tenha fornecido números detalhados para nenhum de seus lançamentos.
Algumas das declarações da DeepSeek sobre seus custos de desenvolvimento e a tecnologia utilizada foram questionadas por empresas e autoridades americanas.
Os chips H800 mencionados foram projetados pela Nvidia para o mercado chinês depois que os EUA, em outubro de 2022, tornaram proibido a exportação de seus chips de IA mais poderosos, H100 e A100, para a China.
Autoridades americanas disseram à Reuters em junho que a DeepSeek tem aproximação a “grandes volumes” de chips H100 que foram adquiridos depois a implementação dos controles de exportação dos EUA. A Nvidia informou à Reuters na quadra que a DeepSeek utilizou chips H800 adquiridos legalmente, não H100.
Em um documento de informações suplementares que acompanha o cláusula na Nature, a empresa reconheceu pela primeira vez que possui chips A100 e disse que os utilizou em estágios preparatórios de desenvolvimento.
“Em relação à nossa pesquisa sobre o DeepSeek-R1, utilizamos as GPUs A100 para preparar os experimentos com um padrão menor”, escreveram os pesquisadores. Depois esta temporada inicial, o R1 foi treinado por um totalidade de 80 horas no cluster de 512 chips H800, acrescentaram.
A Reuters já havia relatado anteriormente que uma das razões pelas quais a DeepSeek conseguiu atrair as mentes mais brilhantes da China foi porque era uma das poucas empresas domésticas a operar um supercomputador com cluster A100.
DESTILAÇÃO DE MODELO
A DeepSeek também respondeu pela primeira vez, embora não diretamente, às afirmações de um cumeeira mentor da Vivenda Branca e outras figuras americanas de IA em janeiro de que havia deliberadamente “destilado” os modelos da OpenAI em seus próprios.
A chinesa tem consistentemente defendido a destilação uma vez que um pouco que proporciona melhor desempenho do padrão, sendo muito mais barato para treinar e executar, permitindo aproximação mais grande às tecnologias baseadas em IA devido às demandas de recursos intensivos em virilidade desses modelos.
O termo refere-se a uma técnica pela qual um sistema de IA aprende com outro sistema de IA, permitindo que o padrão mais novo colha os benefícios dos investimentos de tempo e poder computacional que foram empregados na construção do padrão anterior, mas sem os custos associados.
A DeepSeek disse em janeiro que havia usado o padrão de IA Llama de código desobstruído da Meta para algumas versões destiladas de seus próprios modelos.
A DeepSeek afirmou na Nature que os dados de treinamento para seu padrão V3 dependiam de páginas web rastreadas que continham um “número significativo de respostas geradas por modelos da OpenAI, o que pode levar o padrão base a comprar conhecimento de outros modelos poderosos indiretamente”.
Mas disse que isso não foi premeditado, mas sim incidental.
A OpenAI não respondeu imediatamente a um pedido de observação.
