Algumas das grandes empresas de perceptibilidade sintético, incluindo OpenAI, Microsoft e Meta, estão recorrendo a um processo chamado “destilação” na corrida global para gerar modelos de IA que sejam mais baratos para consumidores e empresas.
A técnica ganhou força depois que a DeepSeek, da China, a utilizou para edificar modelos de IA poderosos e eficientes baseados em sistemas de código simples lançados por concorrentes uma vez que Meta e Alibaba. O progresso colocou em incerteza se as big techs manteriam a liderança de IA, levando investidores de Wall Street a retirar bilhões de dólares do valor das ações das empresas do Vale do Silício.
Através da destilação, as empresas pegam um grande protótipo de linguagem —chamado de protótipo “professor”— que gera a próxima vocábulo provável em uma sentença. O protótipo professor gera dados que portanto treinam um protótipo “aluno” menor, ajudando a transferir rapidamente o conhecimento e as previsões do protótipo maior para o menor.
Embora a destilação tenha sido amplamente usada por anos, avanços recentes levaram especialistas da indústria a crer que o processo será cada vez mais profícuo para startups que buscam maneiras econômicas de edificar aplicações baseadas na tecnologia.
“A destilação é mágica”, disse Olivier Godement, director de resultado da plataforma da OpenAI. “É um processo que essencialmente pega um protótipo de fronteira muito grande e inteligente e usa esse protótipo para ensinar outro menor… muito capaz em tarefas específicas que é super barato e super rápido de executar.”
Grandes modelos de linguagem uma vez que o GPT-4 da OpenAI, o Gemini do Google e o Llama da Meta requerem enormes quantidades de dados e poder computacional para desenvolver e manter. Embora as empresas não tenham revelado números precisos de quanto custa treinar grandes modelos, é provável que sejam centenas de milhões de dólares.
Graças à destilação, desenvolvedores e empresas podem acessar as capacidades desses modelos por uma fração do preço, permitindo que desenvolvedores de aplicativos executem modelos de IA rapidamente em dispositivos uma vez que laptops e smartphones.
Os desenvolvedores podem usar a plataforma da OpenAI para destilação, aprendendo com os grandes modelos de linguagem que sustentam produtos uma vez que o ChatGPT. O maior investidor da OpenAI, a Microsoft, usou o GPT-4 para estilar sua pequena família de modelos de linguagem Phi uma vez que secção de uma parceria mercantil depois investir quase US$ 14 bilhões (R$ 82,83 bilhões) na empresa.
No entanto, a startup com sede em San Francisco disse crer que a DeepSeek destilou os modelos da OpenAI para treinar seu concorrente, um movimento que seria contra seus termos de serviço, mas não apresentou provas. A DeepSeek não comentou sobre as alegações.
Embora a destilação possa ser usada para gerar modelos de cimo desempenho, especialistas apontam que eles são mais limitados.
“A destilação apresenta um interessante trade-off; se você torna os modelos menores, inevitavelmente reduz sua capacidade”, comentou Ahmed Awadallah da Microsoft Research, que afirmou que um protótipo destilado pode ser projetado para ter um ótimo desempenho em tarefas uma vez que resumo de e-mails, por exemplo, “mas realmente não seria bom em mais zero.”
David Cox, vice-presidente de modelos de IA na IBM Research, disse que a maioria das empresas não precisa de um protótipo massivo para executar seus produtos, e os modelos destilados são poderosos o suficiente para propósitos uma vez que chatbots de atendimento ao cliente ou para rodar em dispositivos menores uma vez que telefones.
“Sempre que você pode [torná-lo menos caro] e isso lhe dá o desempenho evidente que você deseja, há muito pouca razão para não fazê-lo”, analisou.
Isso representa um repto para muitos dos modelos de negócios das principais empresas de IA. Mesmo que os desenvolvedores usem modelos destilados de empresas uma vez que a OpenAI, eles custam muito menos para rodar, são menos caros para gerar e, portanto, geram menos receita. Criadores de modelos uma vez que a OpenAI frequentemente cobram menos pelo uso de modelos destilados, pois eles exigem menos trouxa computacional.
No entanto, Godement da OpenAI argumentou que grandes modelos de linguagem ainda serão necessários para “tarefas de subida perceptibilidade e cimo risco” onde “as empresas estão dispostas a remunerar mais por um cimo nível de precisão e confiabilidade”. Ele acrescentou que grandes modelos também serão necessários para desenredar novas capacidades que podem portanto ser usadas para destilação para modelos menores.
Ainda assim, a empresa visa impedir que seus grandes modelos sejam destilados para treinar um concorrente. A OpenAI tem equipes monitorando o uso e pode remover o aproximação de usuários que suspeita estarem gerando grandes quantidades de dados para exportar e treinar um rival, uma vez que aparentemente fez com contas que acredita estarem ligadas à DeepSeek. No entanto, grande secção dessa ação acontece retroativamente.
“A OpenAI tem tentado se proteger contra a destilação há muito tempo, mas é muito difícil evitá-la completamente”, comentou Douwe Kiela, CEO da Contextual AI, uma startup que constrói ferramentas de recuperação de informações para empresas.
A destilação também é uma vitória para os defensores de modelos abertos, onde a tecnologia é disponibilizada gratuitamente para que os desenvolvedores possam edificar sobre ela. A DeepSeek também tornou seus modelos recentes abertos para desenvolvedores.
“Vamos usar [a destilação] e colocá-la em nossos produtos imediatamente”, destacou Yann LeCun, cientista-chefe de IA da Meta. “Essa é a teoria do código simples. Você lucra com o progresso de todos e de todos os outros, desde que esses processos sejam abertos.”
A destilação também significa que os criadores de modelos podem gastar bilhões de dólares para continuar as capacidades dos sistemas de IA, mas ainda enfrentar concorrentes que muitas vezes alcançam rapidamente, uma vez que os lançamentos recentes da DeepSeek demonstram. Isso gera questionamentos sobre a vantagem do pioneiro na construção de LLMs quando suas capacidades podem ser replicadas em questão de meses.
“Em um mundo onde as coisas estão se movendo tão rápido… você poderia realmente gastar muito moeda, fazendo do jeito mais difícil, e portanto o resto do campo está logo detrás de você”, disse Cox da IBM. “Logo, é um cenário de negócios interessante e complicado.”