No dia seguinte ao Natal, uma pequena startup chinesa chamada DeepSeek revelou um novo sistema de perceptibilidade sintético que poderia se igualar às capacidades dos chatbots de ponta de empresas porquê OpenAI e Google.
Isso por si só já seria um marco. Mas a equipe por trás do sistema, chamado DeepSeek-V3, descreveu um passo ainda maior.
Em um cláusula de pesquisa explicando porquê construíram a tecnologia, os engenheiros da DeepSeek disseram que usaram unicamente uma fração dos chips de computador altamente especializados que as principais empresas de IA dependem para treinar seus sistemas.
Esses chips estão no núcleo de uma competição tecnológica tensa entre os Estados Unidos e a China. Enquanto o governo dos EUA trabalha para manter a liderança do país na corrida global de IA, está tentando limitar o número de chips poderosos, porquê os fabricados pela empresa do Vale do Silício Nvidia, que podem ser vendidos para a China e outros rivais.
Mas o desempenho do padrão DeepSeek levanta questões sobre as consequências não intencionais das restrições comerciais do governo dos EUA. Os controles forçaram pesquisadores na China a serem criativos com uma ampla gama de ferramentas que estão livremente disponíveis na internet.
O chatbot da DeepSeek respondeu a perguntas, resolveu problemas de lógica e escreveu seus próprios programas de computador tão muito quanto qualquer programa já no mercado, de concordância com os testes de referência que as empresas de IA dos EUA têm usado.
E foi criado de forma econômica, desafiando a teoria preponderante de que unicamente as maiores empresas de tecnologia —todas elas com sede nos Estados Unidos— poderiam se dar ao luxo de produzir os sistemas de IA mais avançados.
Os engenheiros chineses disseram que precisaram de unicamente murado de US$ 6 milhões em poder computacional bruto para edificar seu novo sistema. Isso é murado de 10% do que o gigante da tecnologia Meta gastou para edificar sua mais recente tecnologia de IA.
“O número de empresas que têm US$ 6 milhões para gastar é muito maior do que o número de empresas que têm US$ 100 milhões ou US$ 1 bilhão para gastar”, disse Chris V. Nicholson, um investidor da firma de capital de risco Page One Ventures, que se concentra em tecnologias de IA.
Desde que a OpenAI desencadeou o boom da IA em 2022 com o lançamento do ChatGPT, muitos especialistas e investidores concluíram que nenhuma empresa poderia competir com os líderes de mercado sem gastar centenas de milhões de dólares em chips especializados.
As principais empresas de IA do mundo treinam seus chatbots usando supercomputadores que utilizam até 16 milénio chips, se não mais. Os engenheiros da DeepSeek, por outro lado, disseram que precisaram de unicamente murado de 2.000 chips de computador especializados da Nvidia.
As restrições aos chips na China forçaram os engenheiros da DeepSeek a “treiná-lo de forma mais eficiente para que ainda pudesse ser competitivo”, disse Jeffrey Ding, professor assistente na Universidade George Washington, especializado em tecnologia emergente e relações internacionais.
No início deste mês, o governo Biden emitiu novas regras que visam impedir que a China obtenha chips avançados de IA por meio de outros países.
As regras se baseiam em várias rodadas de restrições anteriores que impedem que empresas chinesas possam comprar ou fabricar chips de computador de ponta. O presidente Donald Trump ainda não indicou se manterá as regras ou as revogará.
O governo dos EUA tentou manter chips avançados fora das mãos de empresas chinesas por preocupações de que pudessem ser usados para fins militares. Em resposta, algumas empresas na China estocaram milhares de chips, enquanto outras os adquiriram de um mercado furtivo florescente de contrabandistas.
A DeepSeek é administrada por uma empresa de trading quantitativo chamada High Flyer. Em 2021, canalizou seus lucros para comprar milhares de chips Nvidia, que usou para treinar seus modelos anteriores.
A empresa, que não respondeu a pedidos de glosa, tornou-se conhecida na China por atrair talentos recém-saídos das melhores universidades com a promessa de altos salários e a capacidade de seguir as questões de pesquisa que mais despertam seu interesse.
Zihan Wang, um engenheiro de computação que trabalhou em um padrão anterior da DeepSeek, disse que a empresa também contrata pessoas sem qualquer formação em ciência da computação para ajudar a tecnologia a entender e ser capaz de gerar verso e atingir questões no notoriamente difícil examinação de recepção para faculdades chinesas.
A DeepSeek não fabrica nenhum resultado voltado para consumidores, deixando seus engenheiros focados inteiramente em pesquisa. Isso significa que sua tecnologia não está limitada pelo paisagem mais rigoroso das regulamentações da China sobre IA, que exigem que a tecnologia voltada para o consumidor cumpra os controles do governo sobre informações.
As principais empresas dos EUA continuam a proceder no estado da arte em IA. Em dezembro, a OpenAI revelou um novo sistema de “raciocínio” chamado o3 que supera o desempenho das tecnologias existentes, embora ainda não esteja amplamente disponível fora da empresa.
Mas a DeepSeek continua a mostrar que não está muito detrás. Neste mês, lançou um impressionante padrão de raciocínio próprio.
O New York Times processou a OpenAI e seu parceiro, Microsoft, acusando-os de violação de direitos autorais de teor de notícias relacionado a sistemas de IA. A OpenAI e a Microsoft negaram essas alegações.
Reuven Cohen, um consultor de tecnologia em Toronto, tem usado o DeepSeek-V3 desde o final de dezembro. Ele diz que é comparável aos sistemas mais recentes da OpenAI, Google e Anthropic —e muito mais barato de usar.
“O DeepSeek é uma maneira de eu forrar verba”, disse. “Esse é o tipo de tecnologia que alguém porquê eu quer usar.”
Uma segmento crucial deste mercado global em rápida mudança é uma teoria antiga: software de código destapado.
Uma vez que muitas outras empresas, a DeepSeek disponibilizou seu mais recente sistema de IA porquê código destapado, o que significa que compartilhou a programação por trás de seu resultado com outras empresas e pesquisadores. Isso permite que outros construam e distribuam seus próprios produtos usando as mesmas tecnologias.
Muitos executivos e especialistas argumentaram que as grandes empresas dos EUA não deveriam terebrar suas tecnologias porque poderiam ser usadas para espalhar desinformação ou provocar outros danos graves. Alguns legisladores dos EUA exploraram a possibilidade de impedir ou restringir essa prática.
Mas outros argumentam que, se os reguladores sufocarem o progresso da tecnologia de código destapado nos Estados Unidos, a China ganhará uma vantagem significativa.
Se as melhores tecnologias de código destapado vierem da China, argumentam, os desenvolvedores dos EUA construirão seus sistemas com base nessas tecnologias. A longo prazo, isso poderia colocar a China no núcleo da pesquisa e desenvolvimento de IA.
“O núcleo de seriedade da comunidade de código destapado tem se movido para a China”, disse Ion Stoica, professor de ciência da computação na Universidade da Califórnia, Berkeley. “Isso pode ser um grande risco para os EUA”, porque permite que a China acelere o desenvolvimento de novas tecnologias.