Veículos de mídia vetam Internet Archive contra bots de IA

Veículos de mídia vetam Internet Archive contra bots de IA – 13/03/2026 – Economia

Tecnologia

A cruzada global de produtores de teor a término de impedir que robôs de perceptibilidade sintético se apropriem de suas publicações —muitas vezes sem remunerar por isso— pode deixar uma vítima inesperada no queimação cruzado: o site Wayback Machine, mantido pela organização sem fins lucrativos Internet Archive, que há 30 anos arquiva cópias digitais do que é publicado na rede.

Os chamados “crawlers” de IA são bots que raspam o teor dos sites para o treinamento de modelos de linguagem. Essa prática, que está na origem de serviços uma vez que o ChatGPT, é motivo de diversos processos judiciais pelo mundo —uma vez que o que o jornal americano The New York Times move contra a OpenAI.

Robôs são comuns na internet e servem a várias funções, nem sempre maliciosas; mas, desde o surgimento dos grandes modelos de linguagem, eles são tema de controvérsia. Finalmente, está evidente o potencial de serviços uma vez que o ChatGPT para substituir mecanismos de procura, criando uma prenúncio ao padrão de negócios das empresas de mídia.

“As empresas de tecnologia utilizam as reportagens, análises, os dados produzidos nas redações, muitas vezes com cimalha dispêndio, para treinar esses modelos que depois oferecem respostas diretamente aos usuários”, diz Samira de Castro, presidente da Fenaj (Federação Vernáculo dos Jornalistas).

“Sem o aproximação ao tráfico, à publicidade ou às assinaturas, os veículos correm o risco de ver o seu teor gerar valor para terceiros sem qualquer retorno financeiro.”

Empresas de mídia pelo mundo já vêm tomando medidas para bloquear os bots de IA. Mas, agora, o Internet Archive passou a ser visto também uma vez que um risco —enfim, os robôs poderiam usar o registro do Wayback Machine, uma espécie de máquina do tempo de sites da internet, uma vez que uma forma de contornar as restrições que enfrentam nos sites oficiais de cada veículo.

Esse registro da plataforma, aliás, também é construído com a ajuda de robôs que buscam cópias do que é publicado em cada site.

O jornal britânico The Guardian, por exemplo, já anunciou que bloqueou o aproximação de robôs do Internet Archive às suas páginas. O veículo, aliás, foi mais longe: tomou medidas para retirar seu teor da API da plataforma e do Wayback Machine, só permitindo cópias de sua home e páginas internas, não de artigos. Jornais uma vez que o Financial Times e o próprio The New York Times, entre outros, também adotam medidas semelhantes.

Em agosto do ano pretérito, o Reddit também determinou o bloqueio dos bots do Internet Archive, que tem em seus registros cópias de perfis, comentários e fóruns da rede social. Um tipo de teor, diga-se, que a plataforma tenta licenciar —uma vez que em um harmonia recente que fez com o Google.

Parcerias de licenciamento de teor, aliás, já se espalharam pela indústria uma vez que forma de evitar novos litígios. Por exemplo, a Meta tem harmonia com CNN; a OpenAI, com The Washington Post; e o Google se juntou à Associated Press.

Nascido ainda nos anos 1990, o Internet Archive se propunha a resolver uma questão trazida pela novidade tecnologia: a preservação do teor do dedo. As bibliotecas tradicionais, por exemplo, conseguiam armazenar por séculos livros, periódicos e documentos; já no envolvente do dedo, ficou mais generalidade as publicações se perderem para sempre.

Dessa forma, o Wayback Machine se tornou uma utensílio de pesquisa não só na mão de historiadores e outros especialistas, mas também para investigações jornalísticas. O site é um fruto da estação da internet ocasião, cujos defensores pregavam que o conhecimento do dedo deveria estar alcançável uma vez que segmento de um patrimônio cultural coletivo.

“O Internet Archive deu uma espécie de permanência para conteúdos que nasceram digitais. Eles parecem permanentes, mas na verdade são efêmeros”, diz Diogo Cortiz, professor da PUC-SP. “Era a estação em que as pessoas estavam começando a gerar seus sites e blogs, que rapidamente saíam do ar. Acho que foi um projeto bem-sucedido, que hoje tem uma abrangência bastante ampla.”

Há diversas evidências, mas, de que o Wayback Machine foi usado por empresas de IA para treinar modelos de linguagem. No início da atual vaga dessa tecnologia, era generalidade as companhias deixarem evidente em relatórios técnicos públicos quais bases de dados utilizaram —é mal é verosímil saber, por exemplo, que recorreram a cópias piratas de livros, inclusive de autores brasileiros.

Uma investigação do The Washington Post em 2023 mostrou que o Wayback Machine estava entre os milhões de sites usados pelo Google e pela Meta para desenvolver modelos. Em uma das bases de dados, com 15 milhões de domínios, o registro da internet aparecia na posição 187 uma vez que o mais presente.

Em um post numa rede social, o fundador do Internet Archive, Brewster Kahle, disse que a organização toma medidas para se proteger, uma vez que impedir o download em tamanho de algumas coleções digitais —um pouco principal para o treinamento de IA. Críticos apontam, mas, que o projeto não bloqueia os bots das principais empresas de tecnologia.

Mesmo diante da disputa entre produtores de informação e empresas de IA, a preservação do teor do dedo continua uma questão relevante.

“O Internet Archive sempre cumpriu um papel fundamental de preservação da memória do dedo para jornalistas, pesquisadores e historiadores”, diz Samira de Castro, da Fenaj.

“Portanto, limitar esse aproximação pode enfraquecer a preservação do registro histórico na internet. A longo prazo, o caminho mais equilibrado provavelmente passa por novos marcos regulatórios e modelos de licenciamento que possam remunerar o jornalismo sem comprometer iniciativas legítimas de preservação da memória web.”

Folha

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *