A plataforma de lucidez sintético chinesa DeepSeek iniciou um novo capítulo da disputa entre Estados Unidos e China pela liderança tecnológica, ao apresentar resultados que chocaram investidores mundo afora.
A startup chinesa tinha uma fração do investimento mobilizado por big techs, além de restrições impostas pelo governo americano no aproximação a chips de ponta da Nvidia, e, mesmo assim, desenvolveu um padrão de IA generativa tão eficiente quanto o ChatGPT, da OpenAI. Trata-se da DeepSeek-R1.
Existe pouca informação sobre a empresa que está por trás da DeepSeek, mas um item publicado em janeiro cita uso de placas H800 da Nvidia, fabricadas desde 2023, por um dispêndio de menos de US$ 6 milhões (R$ 35,6 milhões).
O megaprojeto de data centers encampado por Sam Altman para desenvolver IA, por exemplo, prevê US$ 100 bilhões (R$ 589 bilhões) de investimentos iniciais.
Mas as pessoas interessadas no desempenho da DeepSeek se frustram, desde domingo (26), com dificuldades para se cadastrar. A empresa atribui a instabilidade a ataques hackers provenientes do exterior.
A Folha mostra inferior o que há de novo na DeepSeek e por que isso mudou todo o páreo envolvendo a corrida pela liderança no desenvolvimento de lucidez sintético.
O QUE É A DEEPSEEK?
DeepSeek é uma plataforma de IA generativa chinesa, criada em 2023 com investimento do fundo High-Flyer. O fundador, Liang Wenfeng, fez riqueza usando lucidez sintético para tomar decisões de investimento no mercado financeiro.
Desde aquele ano, a DeepSeek investe pesado para atrair os maiores talentos da China com o objetivo de desenvolver seu próprio padrão de IA. Em 2024, a empresa chinesa levou ao ar a primeira versão de sua plataforma, equipada com a DeepSeek-V2, atualizada depois para V2.5 e V3.
Foi o proclamação mais recente da startup, no último dia 20, o padrão DeepSeek-R1, que surpreendeu o mercado. Os criadores compararam o desempenho da sua indivíduo ao do o1, o padrão mais recente da OpenAI, capaz de fechar a prova de matemática do ITA e passar na prova de residência em medicina da USP.
A DeepSeek está disponível na nuvem e também pode ser baixada para realização na própria máquina.
QUÃO BOA É A DEEPSEEK?
Em rankings de modelos de lucidez sintético, a DeepSeek disputa as primeiras fileiras com os GPTs da OpenAI e as variações do Gemini, do Google.
O padrão se destaca, sobretudo, nos testes de matemática e programação. Também fica adiante na escrita em chinês, embora seja capaz de se orar em inglês e português com fluidez.
A prensa internacional e o CEO da Meta, Mark Zuckerberg, ressalvaram que a IA não responde a perguntas sobre fragilidades do regime de Xi Jinping.
Programadores, por outro lado, que executam o padrão na própria máquina, mostram que a DeepSeek está livre de exprobação quando roda fora da nuvem.
QUAIS ERAM OS RECURSOS ÀS MÃOS DA STARTUP CHINESA?
A DeepSeek tinha uma fração do investimento mobilizado por big techs, além de restrições impostas pelo governo americano no aproximação a chips de ponta da Nvidia, durante o processo de desenvolvimento do R1.
Um item publicado pela equipe da DeepSeek em janeiro menciona uso de placas H800 da Nvidia, fabricadas desde 2023, por um dispêndio de menos de US$ 6 milhões (R$ 35,6 milhões).
O megaprojeto de datacenters encampado por Sam Altman para desenvolver IA, por exemplo, prevê US$ 100 bilhões (R$ 589 bilhões) de investimentos iniciais.
Toda a mão de obra da DeepSeek é chinesa e foi formada na China, de convénio com o fundador, Liang. “Temos que desenvolver os melhores talentos nós mesmo”, afirmou em uma rara entrevista.
A equipe da DeepSeek-R1 desenvolveu a plataforma com uma estratégia inédita, segundo item publicado pela empresa na ocasião do lançamento.
Os pesquisadores chineses, primeiro, melhoraram o DeepSeek-V3 (da geração anterior) usando somente a técnica de tirocínio de reforço, na qual a IA recebe uma recompensa quando entrega uma resposta adequada. O padrão da indústria é fazer um novo treinamento do padrão, com base em dados mais específicos.
Essa primeira IA recebeu o nome de R1-Zero. Essa abordagem levou a um comportamento inesperado: o padrão começou a alocar mais tempo de processamento para problemas mais complexos, demonstrando uma capacidade de priorizar tarefas com base em sua dificuldade.
Embora a R1-Zero pensasse de maneira independente, ela misturava idiomas e, às vezes, fugia do tema abordado na pergunta.
Para emendar o problema, a equipe da DeepSeek usou uma base de dados de referência, que chamou de “dados de inicialização a insensível”, antes de fazer o tirocínio por reforço.
O QUE É UM MODELO DE CÓDIGO ABERTO?
Diferentemente dos principais concorrentes, a DeepSeek adota um formato de código ingénuo.
Isso significa que a empresa disponibiliza diferentes versões do seu padrão de lucidez sintético para o público, que podem ser editadas e ativadas na própria máquina do usuário. A startup chinesa também publica artigos sobre seus avanços técnicos.
Essa transparência pode atrair o setor de tecnologia de diversas empresas pelo mundo, por permitir maior personalização da utensílio, além de facilitar a manutenção e controle.
Outras empresas de IA começaram sob a premissa do conhecimento ingénuo, mas voltaram detrás e passaram a apinhar propriedade intelectual. São exemplos disso a OpenAI e a francesa Mistral, ambas subsidiadas pela Microsoft.
POR QUE ISSO IMPACTOU A BOLSA?
A DeepSeek, além de apresentar um padrão vantajoso para os clientes corporativos, mostrou custos muito inferiores à concorrência. Os investimentos chineses, aparentemente na lar dos milhões de dólares, ficam muito inferior das dezenas de bilhões de dólares mencionadas por big techs em seus balanços ao longo do ano pretérito.
As principais empresas de tecnologia americana treinam seus chatbots com supercomputadores que utilizam mais de 10 milénio placas da Nvidia. Os engenheiros da DeepSeek disseram que precisaram de murado de 2.000 dessas peças.
Com isso, os investidores avaliaram que superestimaram a demanda por equipamentos da Nvidia, fazendo as ações da empresa desabarem em quase US$ 600 bilhões.
OS CHIPS AINDA IMPORTAM?
Embora os resultados da DeepSeek impressionem, os chips ainda são importantes na corrida pela liderança da IA generativa. O paradigma que levou a geração do ChatGPT e seus similares foi o item “Atenção é tudo o que você precisa”, cuja premissa é a de que quanto mais dados houver no treinamento do padrão, melhor será o resultado.