Um novo padrão poderá dar a sites de empresas de mídia, criadores de teor e bases de dados uma classe extra de proteção contra o uso não remunerado de suas produções no treinamento de ferramentas de lucidez sintético.
Disponível a todos os publicadores, o Really Simple Licensing (RSL) altera o padrão binário do robots.txt, que diz sim ou não para os conteúdos passíveis de raspagem em cada site. A raspagem é o nome oferecido a uma coleta sistematizada de dados visíveis e invisíveis de um site.
Em um portal de notícias, por exemplo, a instrumento de treinamento de IA puxa –raspa– o teor de reportagens. Em um site de um órgão do governo, coleta os dados estatísticos hospedados ali.
Com o novo padrão, os sites poderão incluir monetização, que pode ser do tipo “pay-per-crawl” (pagamento por raspagem) e “pay-per-inference” (pagamento por uso do teor em respostas de IA).
Por trás do desenvolvimento do novo padrão estão grupos uma vez que Reddit, People Inc, Yahoo!, Ziff Davis, WikiHow, Quora, O’Reilly Media e Medium.
Além de dar uma resposta econômica ao uso de teor, o novo padrão pode reduzir as tensões entre gigantes de IA e grupos de mídia, muitos deles hoje em litígio contra os controladores dessas ferramentas –uma vez que é o caso de Folha e The New York Times.
A Folha entrou com uma ação judicial contra a OpenAI requerendo que a dona da plataforma do ChatGPT pare de coletar e usar, sem autorização e pagamento, o teor do jornal.
Antes, o New York Times também havia processado a OpenAI e a Microsoft por violação de direitos autorais, alegando que milhões de textos estão sendo usados pelas empresas de lucidez sintético sem o pagamento de direitos autorais.
OpenAI e Google foram procurados, mas não responderam. A Microsoft disse que não comentaria.
Para Daniel Bichuetti, técnico em IA e tecnologia e CEO da Forlex, o RSL cria um ecossistema de benefícios mútuos diretos e indiretos para publicadores, para empresas de IA e para os usuários finais. A esses últimos, deve ter a melhora no nível de crédito nas respostas geradas por IA e “com menor propensão a ‘alucinações'”, afirma.
Ele vê vantagens também para empresas menores, que passam a ter condições de negociar coletivamente. Para a consultora de IA para negócios Victoria Luz, o padrão dá a pequenas empresas maior poder de barganha.
Enquanto grandes companhias de mídia uma vez que Wall Street Journal e Financial Times já fecharam acordos de teor com empresas de IA, as pequenas não têm, hoje, o mesmo nível de chegada.
Na prática, o que o RSL disponibiliza aos publicadores é a possibilidade de produzir novas respostas durante a raspagem de dados para o treinamento. Além do sim ou não, o padrão permite que um publicador indique, por exemplo, “sim, sob pagamento” ou “sim, com a citação da manadeira”.
Victoria salvaguarda que o protocolo atual do robots.txt já definia o que poderia ou não ser usado no treinamento das ferramentas de IA. “A leitura das empresas é a de que essas limitações já tinham sido desrespeitadas nesses processos de treinamento. Agora, [com o RSL] há uma classe extra.”
Para o novo padrão ser efetivo, porém, é necessário “que essas empresas de lucidez sintético se comprometam com essa governança”, diz Victoria.
Ela avalia ainda que o lançamento do RSL poderá solicitar um novo “estabilidade de forças” em um momento em que diversos países, o Brasil um deles, discute a regulamentação dessas ferramentas e o uso de conteúdos protegidos por direitos autorais. O projeto de lei 2.338 foi revalidado no Senado em 2024 e agora tramita na Câmara.
Um risco do padrão que exige a remuneração pelo teor, na avaliação de Victoria Luz, é a geração de um novo dispêndio para ferramentas que são gratuitas.
“Se a gente coloca pagamento associado a todo tipo de teor, esses modelos vão permanecer extremamente caros e inviáveis para a grande maioria”, afirma. “Esses modelos [de IA] precisam de dados suficientes e gratuitos para que sejam treinados e para que esse dispêndio não seja repassado ao usuário. Esse é o principal ponto de atenção.”
Luis Molla Veloso, líder de produtos na Vindi, afirma que, com o padrão de governança trazido pelo RSL, é provável que, a médio e longo prazo, haja justamente na disponibilidade de dados abertos ou gratuitos na internet, “já que secção desse teor poderá permanecer protegido por licenciamento.”
No site solene do novo padrão, Tim O’Reilly, CEO da O’Reilly Media e integrante do juízo técnico do RSL, afirma que as regras para sistemas de lucidez sintético precisam evoluir.
Em entrevista ao jornal O Mundo, Nicolas Robinson Andrade, diretor da OpenAI para a América Latina, afirmou que a empresa se opõe ao pagamento de direitos autorais previsto no projeto de lei na Câmara e compara a remuneração para autores de teor jornalístico, artístico e literário a impostos sobre cadeiras.
“É uma vez que se o Brasil se tornasse o único país do mundo a taxar a fabricação de cadeiras. Aí é procedente que as fábricas de cadeiras no porvir não sejam construídas cá.”
