Para treinar grandes modelos de lucidez sintético, empresas de tecnologia soltam pela internet robôs chamados de crawlers (rastreadores, em português), que a vasculham e reviram, a termo de extrair e categorizar dados disponíveis em sites.
Em alguns contextos, a prática pode ser considerada violação de direitos autorais.
Buscadores porquê o Google e o Bing, por exemplo, usam esses robôs, também chamados de spider (aranha), desde os primórdios da internet, para listar o que há disponível online. A tecnologia ainda é usada em serviços de conferência de preços, porquê Buscapé e Submarino. Essas soluções baixam unicamente metadados —informações descritivas de um site, porquê horário e data de publicação.
Os rastreadores usados para desenvolver modelos de IA, por sua vez, raspam todo o teor da página para condicionar o sistema a gerar os melhores textos, imagens e vídeos para cada resposta, diz Lucas Lago, pesquisador do Instituto Aaron Swartz.
O próprio Swartz que dá nome ao instituto, cofundador da rede social Reddit, foi um ciberativista processado pelo governo americano por usar um rastreador nos sistemas do MIT (Instituto de Tecnologia de Massachusetts) com o objetivo de subtrair mais de 4 milhões de artigos acadêmicos —ele cometeu suicídio a semanas do julgamento, em janeiro de 2013.
“Para a gente do Instituto Aaron Swartz é mormente incômodo ver empresas bilionárias sendo criadas com entrada ilegal a dados, quando o Aaron foi perseguido por ter feito alguma coisa similar com o objetivo de prometer um entrada mais democrático ao conhecimento”, diz Lago.
A prática por secção de startups que visam lucro reacendeu a discussão sobre sua legitimidade, uma vez que o material sintético gerado por IAs generativas, às vezes, tem trechos idênticos aos originais.
COMO FUNCIONA?
O primeiro passo da raspagem de dados é enviar um sinal para o servidor de internet para receber o código por trás do site —esse algoritmo informa o que há de metadados, texto, imagem, vídeo, tabelas ou links em uma página da internet.
Todo rastreador secção de uma lista inicial de links, de entendimento com Lago. Os que miram toda a internet são feitos para pular de link em link que encontram na sequência original de páginas. Uns buscam, especificamente, tabelas, outros textos, assim por diante.
De entendimento com relatório de 2012, o Google raspava mais de 20 bilhões de sites a cada dia. Hoje, o processo está tão automatizado que a própria plataforma diz não ter uma estimativa precisa de quantos páginas são visitadas por seus rastreadores.
Para aumentar a eficiência do processo, eles listam as páginas pelas quais passaram, com o objetivo de não subtrair a mesma informação várias vezes. Assim, categorizam os arquivos salvos.
Tudo que é baixado fica guardado em uma base de dados, que serve para fomentar buscadores ou desenvolver lucidez sintético.
QUAIS SÃO OS BOTS DAS PRINCIPAIS EMPRESAS?
O Google, por exemplo, usa rotineiramente nove rastreadores: um para smartphones, um para computadores, um para imagens, um para notícias, um para vídeos, um para produtos, um para permitir a procura avançada, outro com funções diversas e um último para treinar modelos de lucidez sintético porquê o Gemini, o ChatGPT do Google.
Esse último bot, chamado de extended, foi lançado pelo Google em setembro, mais de seis meses depois depois da primeira plataforma de IA do Google, o Bard (depois transformado em Gemini). O gigante das buscas diz que tirar um site da lista de buscas desse bot não retira o endereço das buscas, já que elas são organizadas por outros rastreadores.
A OpenAI tem um mecanismo parecido para fomentar as redes neurais (códigos computacionais feitos para simular o comportamento de um neurônio) que dão vida ao ChatGPT, o GPTBot.
A Meta, que tenta impedir a raspagem dos conteúdos nos sites das próprias redes sociais (Facebook, Instagram e Threads), até para pesquisadores e jornalistas, também tem rastreadores que vasculham a web, e não dá informações sobre seus métodos.
COMO FUGIR DOS ROBÔS?
Quando há informações disponíveis sobre os rastreadores, porquê no caso de OpenAI e Google, os donos de site podem usar um registro chamado “robots.txt”, que serve para dar instruções aos tais robôs.
Com isso, é provável evitar que eles baixem à revelia textos, imagens, áudios e vídeos disponíveis na web.
O editor do site pode até indicar se uma página específica pode ser raspada ou não.
O “robots.txt” serve porquê um manual de instruções do que o bot pode fazer no endereço de propriedade de alguém.
As empresas de tecnologia, porém, nem sempre são transparentes sobre os bots que usam. OpenAI e Google só divulgaram informações sobre seus rastreadores depois de terem desenvolvido grandes modelos de lucidez sintético, já disponíveis no mercado.
A Meta não divulga até hoje.
Lago, do Instituto Aaron Swartz, diz que obedecer às recomendações do registro “robots.txt” é uma “política de cordialidade”, e programadores têm meios para dribá-las.
COMO AS EMPRESAS USAM ESSES DADOS?
Os dados baixados pelos rastreadores podem ter diversos fins. As inteligências artificiais generativas que conhecemos usam uma técnica chamada de tirocínio profundo, que consiste em fomentar com grandes volumes de dados as redes neurais (algoritmos complexos, compostos por uma rede similar aos neurônios).
Em universal, os desenvolvedores primeiro treinam as redes neurais a partir de uma técnica chamada tirocínio por imitação, em que ensinam o padrão de lucidez sintético a repetir padrões encontrados na tamanho de dados.
Depois, usam o chamado tirocínio por reforço, no qual utilizam uma modelo menor para mostrar os resultados desejados.
As redes neurais atuais, em termos de código, são muito similares entre si e conhecidas desde o início dos anos 2010. A tecnologia está disseminada em artigos científicos. Funcionam a partir de uma sequência enorme de matrizes matemáticas, porquê aquelas ensinadas no ensino fundamental.
O diferencial entre os produtos das grandes empresas está na qualidade e no tratamento dos dados minerados.
A PRÁTICA ESTÁ EM CONFORMIDADE COM A LEI?
A mineração de dados, muito usada em pesquisas científicas, pode ser ilícito quando sobrecarrega os servidores de um site, vigia concorrentes ou furta informação secreto —isso, em universal, quando viola os termos de uso de sites.
Há portais que informam proibir a raspagem de dados em suas normas, o que pode ser desrespeitado se houver interesse público, porquê no caso do jornalismo e da ciência.
No caso do uso de dados minerados para treinar lucidez sintético, não há um consenso.
O ato de lucidez sintético, que regula a tecnologia na União Europeia (UE), por exemplo, determina que os donos dos sites devem ser consultados antes da raspagem de dados e têm o direto de recusar a mineração.
No Japão, o treinamento de inteligências artificiais é considerado um uso honesto (do inglês “fair use”) e não requer pagamentos de direitos autorais.
Nos Estados Unidos, não há definição sobre a taxa.
O CEO do Google, Sundar Pichai, argumentou em entrevista ao podcast do site especializado Verge que os produtos de sua empresa devem trazer ganhos para a sociedade e, por isso, também “poderiam ser considerados porquê uso honesto”.
O QUE DIZEM AS REGRAS NO BRASIL?
O Brasil, atualmente, discute regulação de IA. O esboço de projeto elaborado pelo Senado, segue o caminho da UE e proíbe a prática sem consentimento. Abre ainda espaço para remuneração pelo entrada a dados protegidos por direitos autorais.
O diretor científico do IBDA (Instituto Brasiliano de Recta Autoral), Allan Rocha de Souza, diz que, mesmo sem regulação, os procedimentos das empresas têm de respeitar direitos autorais.
Por isso, há disputas judiciais, porquê no caso do processo do jornal americano New York Times contra a OpenAI. A pretexto que pode ditar um precedente sobre o uso de dados minerados para desenvolver IAs.
COMO AS BIG TECHS PODEM DRIBLAR A LEGISLAÇÃO?
Mesmo se houver regulações e jurisprudências locais contrárias aos interesses de gigantes da tecnologias, essas empresas ainda podem driblar as autoridades e usar dados de todo o mundo para treinar seus modelos de IA em países com legislação mais branda.
As chamadas big techs têm entrada a data centers —galpões repletos de computadores com o objetivo de concentrar processos computacionais— no Japão e nos Estados Unidos, por exemplo. No primeiro país, o treinamento de inteligências artificiais é considerado um uso honesto (do inglês “fair use”) e não requer pagamentos de direitos autorais. No segundo, não há definição sobre a taxa.
Os gigantes da tecnologia, logo, poderiam trazer seus modelos prontos e testados comercialmente para os países mais restritivos. “Só logo as big techs precisariam se adequar à regulação sítio”, diz Souza.