Brasileiro foi para Meta em busca da ‘superinteligência’ – 15/07/2025 – Tec

O trabalho de Rafael Valle, 40, está no horizonte, na procura por uma perceptibilidade sintético universal de áudio —uma espécie de ChatGPT dos sons, capaz de imitar vozes alheias, vocalizações animais e até melodias musicais que ainda não existem.

O brasílio foi um dos talentos da IA que o CEO da Meta, Mark Zuckerberg, contratou com bilhões de dólares para montar um laboratório do qual objetivo é conseguir a ‘superinteligência’. Trata-se de um marco teórico para quando a IA superaria as capacidades humanas.

Músico regente de formação, Valle é um dos autores do progressão tecnológico que permitiu gerar voz em segundos. A conquista foi fundamental para desenvolver IAs capazes de conversar em tempo real. “Não faria sentido proferir um tanto e esperar um minuto [para ter a resposta]”, disse Valle.

De concordância com o pesquisador, a equipe da Meta reúne muro de 50 pessoas em torno do projeto de erigir a ‘IA superinteligente’ e multimodal, capaz de interagir por texto, áudio e imagem, entre outros meios. Zuckerberg conseguiu recrutar talentos de OpenAI, Nvidia e Google.

O brasílio começou na Meta no último dia 7 e disse que a equipe ainda está estabelecendo uma rotina. “Vamos trabalhar tanto com pesquisas de longo prazo sobre os caminhos para conseguir a superinteligência porquê também na geração de produtos para o grande público.”

Valle diz ter visto uma vantagem na troca: a chance de oferecer produtos e ter chegada ao público de mais de 2 bilhões de pessoas da Meta, enquanto a Nvidia é uma empresa focada em atender outros negócios e facilitar o desenvolvimento de tecnologia.

Outrossim, o pesquisador brasílio valorizou a oportunidade de trabalhar com dois pesquisadores próximos do cérebro por trás do ChatGPT, o observador Ilya Sutskever. “Ilya é o vaticinador da perceptibilidade sintético”, diz o brasílio.

Sutskever deixou a OpenAI, depois uma tentativa de derrubar o CEO Sam Altman, e fundou a startup Safe Superintelligence junto com o engenheiro Daniel Gross —que também foi contratado por Zuckerberg.

Valle defende que o Vale do Silício já trabalha com IAs superinteligentes, e que as pessoas ainda estão aprendendo o potencial da tecnologia. Um exemplo disso, diz ele, foi a identificação de proteínas com auxílio do AlphaFold2 do Google, feito que seria impossível para um humano realizar em tempo hábil e acabou reconhecido com o Prêmio Nobel de Química.

De concordância com o pesquisador da Meta, as pessoas ainda não conseguem entender porquê funciona a perceptibilidade das máquinas, que seria fundamentalmente dissemelhante da perceptibilidade dos homens. “É porquê aquela conformidade da barata querendo compreender a música dos homens —ela nunca conseguirá, está além da compreensão”, disse o brasílio.

Por outro lado, avalia o brasílio, as pessoas conseguirão tirar proveito da perceptibilidade sintético mesmo sem compreender completamente porquê funciona o trabalho das máquinas. “É porquê as teorias de Albert Einstein sobre o universo que as pessoas só conseguiram provar empiricamente anos depois.”

Embora esteja hoje na ponta de lança do desenvolvimento tecnológico, Valle se formou em música, com especialidade em regência, na Universidade Federalista do Rio de Janeiro. Já graduado, trabalhou na orquestra de Jocy de Oliveira.

Tudo mudou na vida de Valle durante a leitura de um livro sobre perceptibilidade sintético em meados dos anos 2000 —era um tanto genérico, de que ele não lembra o nome, sobre carros autônomos e reconhecimento facial. “Foi quando pensei: dá para fazer máquinas que fazem música”, diz ele. “Fui singelo”, emenda.

O trabalho de Valle com perceptibilidade sintético e fala começou durante um doutorado iniciado em 2012 na Universidade de Berkeley, na Califórnia, depois um mestrado em Stuttgart, na Alemanha. Nos Estados Unidos, ele tentou desenvolver uma perceptibilidade sintético que reconhece vozes clonadas —porquê as que são usadas com frequência em golpes e materiais difamatórios no Brasil.

“Eu já fazia esta pergunta: a perceptibilidade sintético para gerar som, que ainda não era feita sob a perspectiva de imitar, não confundiria todo mundo?”, questionou. “Eu queria ver se há alguma coisa que o ouvido humano não percebe na vaga sonora que a máquina identifica.”

Hoje, usando uma tecnologia que Valle ajudou a fabricar, é verosímil plagiar timbre, tom e ritmo de voz de alguém com um áudio de três segundos.

Por isso, avaliou o pesquisador, é impossível fazer um sistema que identifica se uma voz é sintética ou autêntica usando perceptibilidade sintético. “O único jeito de prometer isso seria um sistema de controle concentrado, com chegada a todas as falas das pessoas e áudios gerados por perceptibilidade sintético, o que é eticamente inviável.”

“A saída deve ser por um selo de autenticação obrigatório”, concluiu. O padrão já é adotado por grandes empresas de tecnologia porquê o Google e a OpenAI.

O brasílio começou na Nvidia em 2014, quando pesquisadores da DeepMind (hoje um braço do Google) deram os primeiros sinais de que o horizonte da perceptibilidade sintético estava na riqueza de dados disponíveis na internet e nas redes neurais, uma tecnologia que imita o ilustração do cérebro humano para fazer cálculos estatísticos complexos.

Em mais de dez anos na empresa, Valle ajudou a erigir a base tecnológica dos grandes modelos de linguagem que trabalham com sons. Além da arquitetura TTS, que gera e copia falas em segundos, a pesquisa dele ajudou a melhorar ferramentas já disponíveis para o público, porquê a tradução em tempo real de ligações, com fluidez e timbres mais naturais.

Antes de deixar a Nvidia no início deste mês, Valle concluiu seu trabalho mais ávido: o Fugatto, uma tentativa de fazer um padrão generalista de áudio. Essa tecnologia seria capaz de reproduzir fala, ruídos, sons de animais, instrumentos musicais e até sonoridades inexistentes no mundo.

Valle disse que a teoria do Fugatto surgiu há três anos, porquê um presente que ele queria dar ao rebento que, na idade, era exclusivamente um projeto e hoje tem três meses. Ele, em galhofa com a esposa, disse: “O que vamos fazer quando nosso rebento, que vai ser meio doido igual à gente, pedir o som de um latido de um saxofone?”

O tal latido do saxofone apareceu no item de lançamento do padrão de IA, divulgado em 25 de abril. O texto destaca as capacidades que o padrão de perceptibilidade sintético atingiu sendo treinado exclusivamente com dados sonoros —é um feito similar ao obtido no desenvolvimento do GPT, que foi treinado exclusivamente para prever a próxima vocábulo em um texto e é capaz de grafar, transcrever, programar entre outras tarefas.

Folha

Folha Mercado

Relacionados

Vazamento de 16 bilhões de senhas está inflado; entenda – 20/06/2025 – Tec

Ecommerces adotam modelo do TikTok como tática de vendas – 13/10/2025 – Tec

‘Palworld’ quebra recordes e é acusado de plagiar Pokémon – 31/01/2024 – Tec

Deixe um comentário Cancelar resposta