A Cloudflare, uma das maiores empresas de infraestrutura de internet do mundo, acaba de tomar uma decisão que deve influenciar a disputa entre empresas de perceptibilidade sintético e produtores de teor. A companhia anunciou na terça-feira (1º) que, porquê regra, vai bloquear o aproximação de robôs de IA em todos os sites que usam seus serviços —a não ser que o possuinte de cada veículo opte pelo contrário.
Robôs são comuns na internet e servem a várias funções, nem sempre maliciosas. Mas, no caso de serviços porquê o ChatGPT, são usados para extrair teor de páginas na internet e treinar modelos de perceptibilidade sintético, muitas vezes sem remunerar por isso e também sem levar visitantes em troca para cada site.
Antes, quando usava os serviços da Cloudflare, já era verosímil escolher bloquear o aproximação desses robôs; mas, sem uma decisão ativa, o padrão era a porta permanecer ensejo. Agora, vai intercorrer o contrário, e cada produtor de teor precisa optar por dar o sinal verdejante.
Ao mesmo tempo, a empresa também anunciou uma iniciativa batizada de “pay per crawl”, que vai permitir aos sites cobrarem para permitir o aproximação dos robôs.
Estima-se que a Cloudflare domine 20% do tráfico da internet, o que dá uma dimensão do impacto da medida para as empresas de perceptibilidade sintético. Já no proclamação, um grupo de veículos jornalísticos e plataformas de internet anunciou sua adesão ao novo padrão —entre eles, as revistas The Atlantic e Time, além da sucursal de notícias Associated Press e os sites Reddit e Pinterest.
O livre aproximação ao teor online foi necessário para treinar os principais modelos de IA no mercado. Mas, conforme fica mais simples que esses serviços devem substituir as plataformas de procura, analistas apontam riscos para o padrão de negócios de produtores de teor.
No padrão que vigorou nas últimas décadas, os sites garantiam aproximação a robôs de mecanismos de procura —porquê o Google—, que indexavam o teor e, com isso, ajudavam as páginas a receber visitantes, numa troca considerada benéfica.
Já com a perceptibilidade sintético, esse mecanismo tem sido subvertido, com modelos que também realizam buscas. O Google, por exemplo, lançou em maio do ano pretérito o serviço AI Overview: quem faz uma pesquisa no site agora vê, antes dos resultados com links, uma resposta gerada por IA para sua questão, sem necessariamente precisar clicar nos sites.
Recentemente, a empresa de tecnologia divulgou que o número de buscas que não resultam em nenhum clique saltou de 56% para 69% entre maio do ano pretérito e maio deste ano.
Outrossim, algumas organizações têm indigitado que os robôs vêm sobrecarregando seus servidores com tráfico extra, criando novos custos, sem com isso oferecer nenhum retorno significativo. Em abril, a Wikimedia Foundation divulgou um transmitido dizendo que o aproximação dos robôs de IA vem atrapalhando o funcionamento da Wikipédia —segundo a instalação, 65% dos seus custos com tráfico vêm desses acessos automatizados.
“Desde janeiro de 2024, o uso de orquestra para diminuir teor multimídia cresceu 50%. Essa subida não está vindo de leitores humanos”, diz o transmitido. “O aumento de tráfico gerado por robôs é sem precedentes e apresenta cada vez mais riscos e custos.”
A mesma reclamação tem sido feita por instituições culturais, porquê bibliotecas e museus, que costumam ter seus acervos vasculhados por robôs, mesmo sem ter uma infraestrutura porquê a Wikipédia para atender a subida de tráfico. Isso tem levado alguns acervos culturais a permanecer offline, segundo um relatório de pesquisadores das universidades de Exeter e de Novidade York.
O progresso da IA também tem violado uma das normas éticas mais consolidadas na internet, o protocolo de exclusão de robôs. Quase todo site tem um registo chamado “robots.txt”, com a lista de quais robôs têm ou não têm autorização para acessar seu teor. Não é uma barreira de segurança e sim um aviso, mas que costumava ser respeitado.
Costumava. No primórdio de junho, a revista americana Wired denunciou, depois uma investigação, que robôs da Perplexity AI estavam extraindo conteúdos de seu site e de outras publicações da editora Condé Nast.
Não à toa, a questão já tem levado a diversos questionamentos na Justiça. Um dos mais notórios é o do jornal americano The New York Times, que move um processo contra a OpenAI e a Microsoft por violação de direitos autorais. O veículo acusa as duas empresas de usarem seu teor para treinar chatbots sem remunerar por isso.
A indústria de IA, porém, teve duas vitórias importantes em acusações de violação de direitos autorais neste semestre.
No término de junho, um juiz federalista de San Francisco, nos EUA, decidiu em prol da Anthropic, num processo em que três escritores acusavam a empresa de usar livros sem autorização para treinar seu padrão de IA. No mesmo dia e na mesma cidade, um juiz em outra namoro deu uma vitória para a Meta em um processo semelhante.
Ambos consideraram que as duas empresas faziam “uso justo” do material. No segundo caso, porém, os escritores viram motivo para esperança: o juiz disse que sua decisão valia só para aquele caso, não porquê regra universal.
