Mais de 700 vídeos do meio do influenciador brasílico Felipe Neto no YouTube foram usados no desenvolvimento de modelos de perceptibilidade sintético de Microsoft, Google, Baidu e outras empresas. O instituidor diz que nunca foi consultado sobre o uso de suas produções.
Esses materiais são uma pequena fração da YT-Temporal-180M, uma coleção de 5.494.771 publicações no YouTube citada por gigantes da tecnologia em artigos sobre o desenvolvimento de IAs. O registro inclui clipes de funk, reportagens e documentários brasileiros.
Todo esse material, assim uma vez que pelo menos outros nove conjuntos de vídeos baixados do YouTube e usados no treinamento de modelos de IA, foi obtido com a quebra dos termos de uso da plataforma.
Isso porque o gigante dos vídeos proíbe o download automático das publicações (mineração de dados). Aliás, as regras do YouTube protegem obras originais com direitos autorais em nome do instituidor.
A Microsoft, o Google e a Baidu usaram coleções de vídeos raspados (baixados involuntariamente) do YouTube durante o desenvolvimento de IAs chamadas de encoder. São modelos que analisam vídeos e acrescentam contexto às cenas.
Essas ferramentas são excelentes pontos de partida para geração de outros modelos de perceptibilidade sintético, explica o diretor do CEIA (Meio de Vantagem em Perceptibilidade Sintético) da UFG (Universidade Federalista de Goiás) Anderson Soares.
Além do encoder VideoPrism citado em cláusula acadêmico, o Google é o possuinte do principal aplicativo de IA para gerar vídeos do mercado, o Veo 3. O serviço está disponível em pacote vendido por preços a partir de R$ 96,99 ao mês.
Em nota, o YouTube diz que garante que criadores e detentores de direitos controlem uma vez que seu teor é utilizado. A plataforma dá a opção de que o usuário permita o compartilhamento de vídeos com outras companhias de tecnologia nas configurações avançadas de seu meio.
Segundo o expedido, YouTube e Google usam as publicações dos canais no desenvolvimento de modelos de IA, sob a justificativa de aprimorar a experiência de criadores e espectadores. Para acessar o serviço deles, é preciso concordar com essa exigência.
“Essa prática abrange desde o fortalecimento de nossas operações de segurança e o aprimoramento de nossos sistemas de recomendação, até o desenvolvimento de novos recursos de IA generativa, uma vez que a dublagem automática”, diz a nota.
O Google não comentou o uso de vídeos minerados por terceiros em violação aos termos do YouTube, plataforma que pertence ao mesmo conglomerado. Procuradas, Microsoft, Nvidia e OpenAI afirmam que não vão se pronunciar. A Baidu não respondeu às tentativas de contato da reportagem.
Felipe Neto não quis fazer comentários adicionais.
Uma vez que a maior segmento do teor disponível em domínio público na internet está em inglês, obras em outros idiomas são estratégicas para as empresas de perceptibilidade sintético. O teor do YouTube, que hospeda mais de 20 bilhões de vídeos de diversas origens, supre esse vácuo.
Embora a mineração de obras em outros idiomas seja uma estratégia generalidade, “é difícil declarar que teor cada empresa minerou”, diz o professor de ciência da computação da PUC-SP Diogo Cortiz. Desde que o ChatGPT se tornou um fenômeno no término de 2022, os gigantes do setor deixaram de compartilhar detalhes sobre suas pesquisas em IA.
“Há muita falta de transparência na maioria das grandes empresas”, diz Cortiz.
No momento, há um debate judicial sobre a legitimidade do uso de obras protegidas por recta autoral sem o devido licenciamento.
De um lado, associações de jornais, produtores cinematográficos e artistas defendem que o uso de material original no treinamento de IAs só poderia ocorrer mediante licenciamento ou convénio contratual. De outro, as empresas americanas do setor argumentam que trata-se de um “uso justo”. Elas também pleiteiam uma leitura dos direitos autorais mais permissiva, que não freie a inovação.
De convénio com a professora de recta do dedo Mariana Valente, da Universidade de St. Gallen, na Suíça, os tribunais pelo mundo precisam determinar se é necessário autorização e pagamento ao responsável, se basta a concordância com os termos de uso ou se nenhuma dessas exigências se aplica.
As primeiras decisões são deste ano. No início do mês, por exemplo, um tribunal boche decidiu que a OpenAI violou os direitos do cantor Herbert Grönemeyer —ele mantém um meio no YouTube seguido por 170 milénio pessoas.
Os autos mostram que o ChatGPT reproduziu letras do compositor na íntegra. A sentença não abordou o treinamento.
A OpenAI pode recorrer da decisão. “Não concordamos com o veredito e estamos avaliando os próximos passos”, disse a empresa em nota.
O tribunal de Munique ainda precisa definir qual será a reparação financeira. Essa decisão pode servir de precedente em outras ações na Europa, diz Valente.
O QUE A FOLHA ENCONTROU
Na coleção de vídeos YT-Temporal-180M (usada por Google, Microsoft e Baidu), há milhares de produções de três dos dez canais mais seguidos no YouTube por brasileiros e de veículos jornalísticos.
São 711 publicações de Felipe Neto, 171 da produtora KondZilla (conhecida por clipes de funk) e 74 do meio infantil Maria Clara & JP. Havia ainda vídeos do veículo gaúcho Correio do Povo (579) e da revista Veja (2.205).
Essa base de dados está disponível na plataforma Hugging Face e hospedada em um servidor do próprio Google. A Hugging Face mostra que os mais de 20 gigabytes de vídeos YT-Temporal-180M foram baixados 1.493 vezes.
Essa coleção foi reunida, em 2021, por pesquisadores do núcleo de pesquisa Allen Institute for AI da Universidade de Washington. Os autores do trabalho dizem que usaram a API do YouTube para subtrair os vídeos e não consultaram seus criadores.
Em reverência à privacidade e aos direitos autorais dos donos dos conteúdos, os pesquisadores dizem que atendem a pedidos de exclusão de obras.
Os artigos acadêmicos das big techs também mencionam outras coleções de vídeos baixados em tamanho do YouTube. Segmento delas foi revelada pela revista The Atlantic.
Os vídeos do YouTube são identificados por um código aleatório, sem referência ao país de origem. Por isso, é difícil medir qual é a parcela exata desse teor que pertence a canais brasileiros.
