Por Que Parte Do Arquivo Da Internet Está Desaparecendo

Por que parte do arquivo da internet está desaparecendo – 11/11/2024 – Tec

Tecnologia

Os fragmentos remanescentes de papiros, mosaicos e tábuas de cera da Antiguidade nos ensinam o que os moradores de Pompeia comiam no moca da manhã, 2.000 anos detrás.

Aprendendo um pouco de latim medieval, é provável saber quantos animais eram criados no século 11, nas fazendas de Northumberland, no setentrião da Inglaterra, graças ao Domesday Book —o documento mais velho dos Arquivos Nacionais do Reino Uno.

Cartas e romances remanescentes mostram porquê era a vida social na era vitoriana —e quais eram as pessoas mais adoradas ou odiadas da quadra, no Reino Uno.

Mas os historiadores do porvir podem enfrentar dificuldades para entender totalmente porquê vivemos hoje, no início do século 21.

O motivo: a combinação da nossa forma de vida do dedo com a falta de esforços oficiais para arquivar as informações que o mundo produz hoje em dia pode extinguir a nossa história.

Mas um grupo informal de organizações vem combatendo as forças da entropia do dedo. Muitas delas são operadas por voluntários, com pouco esteio institucional.

O maior símbolo da luta para salvar a web é o Internet Archive, uma organização sem fins lucrativos sediada em São Francisco, na Califórnia (EUA).

Criada em 1996 porquê um projeto enamorado do pioneiro da internet Brewster Kahle, a organização criou o que pode ser o mais ávido projeto de registo do dedo já realizado.

São 866 bilhões de páginas web, 44 milhões de livros, 10,6 milhões de vídeos com filmes e programas de televisão – e muito mais.

Abrigadas em diversos centros de dados espalhados pelo mundo, as coleções do Internet Archive e outros grupos similares são tudo o que temos para evitar a amnésia do dedo.

“Os riscos são muitos. Não é só a tecnologia que pode falhar, embora isso certamente aconteça”, afirma Mark Graham, diretor da Wayback Machine — uma utensílio do Internet Archive que coleta e armazena cópias de websites para a posteridade.

“O mais importante é que as instituições falham, as empresas fecham. As organizações jornalísticas são devoradas por outras organizações jornalísticas ou saem do ar, porquê é cada vez mais frequente”, exemplifica ele.

Graham destaca que existem inúmeros incentivos para colocar teor online, mas são poucas as razões que fazem as companhias manterem oriente teor por longo prazo.

Mesmo com todos os feitos já realizados, o Internet Archive e organizações similares enfrentam ameaças financeiras, dificuldades técnicas, ciberataques e batalhas jurídicas geradas por empresas que não gostam da teoria de ver cópias da sua propriedade intelectual disponíveis gratuitamente.

E, porquê mostram as recentes derrotas na Justiça, o projeto de salvar a internet pode ser tão volátil quanto o próprio teor que ele tenta proteger.

“Cada vez mais, nossos esforços intelectuais, nosso entretenimento, nossas notícias e nossas conversas existem exclusivamente no envolvente do dedo”, explica Graham. “Oriente envolvente é inerentemente frágil.”

Salvar nossa história

Um quarto de todas as páginas web que já existiram em qualquer momento entre 2013 e 2023… não existem mais.

Esta é a desenlace de um estudo recente do think tank (meio de pesquisa e debates) Pew Research Center, com sede na capital americana, Washington DC. Suas conclusões fizeram toar o rebate: nossa história do dedo está desaparecendo.

Os pesquisadores concluíram que o problema se agrava, quanto mais antiga for uma página web. A organização tentou acessar páginas existentes em 2013 —e 38% delas não funcionam mais.

Mas oriente também é um problema das publicações mais recentes. Muro de 8% das páginas web publicadas em qualquer momento de 2023 desapareceram em outubro do mesmo ano.

Esta não é exclusivamente uma preocupação dos admiradores da história e dos obcecados pela internet. O estudo indicou, por exemplo, que um em cada cinco websites governamentais contém pelo menos um link quebrado.

O Pew Research Center também descobriu que mais da metade dos artigos da Wikipédia tem um link quebrado na sua seção de referências. Ou seja, as evidências que sustentam as informações da enciclopédia online estão lentamente se desintegrando.

Com a inexistência de um trabalho público formal de documentação da web, o Internet Archive passou a ser uma segmento fundamental da nossa infraestrutura do dedo

Mas, graças ao trabalho do Internet Archive, nem todos esses links quebrados ficaram inacessíveis. O projeto Wayback Machine vem destacando exércitos de robôs para rastrear os tortuosos labirintos da internet há décadas.

O sistema baixa cópias funcionais de websites à medida que eles mudam ao longo do tempo. Muitas vezes, eles capturam as mesmas páginas diversas vezes em um único dia e as oferecem ao público sem dispêndio.

“Quando observamos quantos daquelas URLs foram oferecidas pelo Wayback Machine, verificamos que dois terços eram disponíveis de alguma forma”, ele conta. Isso indica que o Internet Archive está cumprindo sua função, guardando registros da sociedade online para a posteridade.

Outras organizações, grandes e pequenas, trabalham com projetos similares.

A Livraria do Congresso dos Estados Unidos, por exemplo, preserva websites governamentais, os sites dos congressistas e uma coleção de sites jornalísticos norte-americanos. A Livraria do Congresso também preservou uma imitação de cada tweet enviado desde a instauração do Twitter (hoje, publicado porquê X), até o fechamento do projeto, em 2017.

Outros governos conduzem suas próprias iniciativas. O UK Web Archive, da Livraria Britânica, rastreia anualmente os websites com nomes de domínio .uk, preservando uma imitação da internet britânica pelo menos uma vez por ano.

Em 2022, um grupo de voluntários se propôs a salvar a internet ucraniana, quando ela foi atingida por ciberataques russos.

Mas o escopo destes projetos é pequeno e o Internet Archive procura ter uma cobertura mais abrangente.

Com os recursos disponíveis, seria impossível chegar perto de preservar toda a internet, mas seus sistemas definiram uma ampla rede.

E, dependendo do que você esteja procurando, a coleção do Internet Archive é tão vasta que, às vezes, parece um registro funcional e completo da World Wide Web.

O sucesso traz complacência

Os documentos do Archive disponíveis ao público ajudam a manter o registro das nossas vidas na era atual.

A Wikipédia adotou, porquê prática padrão, mencionar as cópias de websites do Wayback Machine e não os próprios websites originais. E a organização também preserva uma vasta coleção de gravações anteriores à era do dedo.

A adorada série de TV americana Fernwood 2 Night (1977), por exemplo, não está disponível em nenhum serviço de streaming, mas você pode observar de perdão no Internet Archive.

Livros, revistas e websites mencionam as cópias digitais de livros do Internet Archive, indisponíveis nas bibliotecas físicas.

O projeto age até porquê utensílio de preservação para o público. Qualquer pessoa pode carregar vídeos, websites e praticamente qualquer coisa para os servidores da organização.

Entre as principais coleções preservadas pela Wayback Machine, encontram-se vastos registros de websites criados no GeoCities – um velho serviço de hospedagem de sites, agora extinto.

Muito antes das redes sociais, o GeoCities foi uma das primeiras plataformas que possibilitavam a qualquer pessoa produzir o seu próprio website.

Os historiadores da internet consideram o GeoCities um dos capítulos mais importantes dos primórdios da World Wide Web – e, sem o trabalho do Internet Archive, a maior segmento dos seus sites teria sido perdida.

Mais recentemente, uma percentagem do Congresso dos Estados Unidos adotou o Internet Archive para preservar artigos e documentos relativos ao ataque ao Capitólio, em 6 de janeiro de 2021.

“De tempos em tempos, surge uma novidade plataforma e as forças econômicas rapidamente meio que a destroem”, afirma Andrew Jackson, arquiteto técnico de registros de preservação da Coalizão para a Preservação Do dedo, um grupo ativista e organização filantrópica britânica que orienta porquê preservar os arquivos digitais online. “É uma grande nascente de rotatividade.”

O website jornalístico especializado em tecnologia CNET sofreu pressões em 2023, posteriormente informações de que a empresa excluiu dezenas de milhares de artigos, causando a perda de décadas de história.

Entre as respostas do site, veio a indicação de que todos os seus artigos excluídos foram preservados na Wayback Machine.

Muitos críticos acusaram a empresa de ter transferido para o Internet Archive sua responsabilidade de manutenção dos arquivos.

“O Google e outros mecanismos de procura incentivam ativamente a manutenção de URLs estáveis, mas, tecnicamente, é um pouco bastante difícil”, explica Jackson. “Sempre que uma novidade empresa reforma seu website, ela precisa calcular quantos das suas novas URLs ela irá tentar manter ao longo do tempo.”

Mas vale a pena lembrar que o Internet Archive é uma organização sem fins lucrativos, financiada por doações de fundações beneficentes. É um projeto sem término, com custos que crescem exponencialmente.

O Internet Archive assumiu voluntariamente a missão de ser a principal livraria da nossa vida do dedo em todo o mundo. E, com a web se aproximando da sua quarta dez, oriente projeto totalmente não solene se tornou um pilar fundamental da internet.

Mas, da mesma forma que aumenta a nossa crédito no Internet Archive, também crescem as ameaças que pairam sobre o seu trabalho.

‘Ponto crítico de omissão’

Em setembro, o Internet Archive anunciou uma importante parceria com o Google. O mecanismo de procura da gigante da tecnologia irá agora incluir links para o Wayback Machine nos seus resultados de procura. Nenhuma das partes publicou os detalhes financeiros do entendimento.

Mas outras notícias recentes demonstram que o projeto ainda enfrenta fragilidades.

Sua vulnerabilidade foi exposta claramente em uma ação judicial contra o Internet Archive, promovida por quatro grandes editoras de livros.

Elas alegam que a prática de digitalizar livros físicos e emprestar cópias digitais infringe a legislação americana de direitos autorais.

Antes da pandemia de Covid-19, o Internet Archive emprestava exclusivamente uma imitação do dedo por vez, para cada livro físico na sua coleção.

Mas, durante os lockdowns, a organização eliminou a restrição, emprestando aos seus apoiadores quantidades ilimitadas de cópias digitais de livros, para tentar indemnizar o fechamento das bibliotecas físicas.

Em 2023, um tribunal americano julgou a prática ilícito e, no início de setembro, o recurso do Internet Archive contra a decisão foi rejeitado.

A organização havia informado que concordava em remunerar ao grupo de editoras um valor não revelado em relação ao caso.

Passada aquela ação, o Internet Archive já enfrenta outro processo movido pelas gravadoras, referente à digitalização de discos.

Em caso de rota, oriente novo processo poderá custar US$ 400 milhões (R$ 2,3 bilhões). O valor pode pôr em risco a sobrevivência da organização.

Formada ao longo de três décadas, a coleção do Internet Archive inclui centenas de bilhões de páginas web

O diretor dos serviços de livraria do Internet Archive, Chris Freeland, afirmou, em enunciação sobre a decisão judicial, que a organização está analisando o parecer dos tribunais.

As batalhas jurídicas existenciais não são os únicos riscos que pairam sobre o mundo da preservação do dedo.

O UK Web Archive teve uma exemplar das ameaças técnicas mal intencionadas em outubro de 2023, quando um ciberataque derrubou seus sistemas digitais. Um ano depois, o portal ainda enfrenta problemas causados pela queda —e o chegada online a grande segmento da sua coleção ainda está indisponível.

Em maio de 2024, o Internet Archive divulgou que estava enfrentando um grande ataque distribuído de negação de serviço (DDoS, na {sigla} em inglês). Nele, vândalos ou outros delinquentes criam sistemas automatizados para bombardear websites com visitas, tentando derrubá-los sobrecarregando seus servidores.

No pico do ataque, dezenas de milhares de visitas simultâneas surgiam a cada segundo. Os serviços foram derrubados, incluindo a Wayback Machine.

Com isso, o rastreamento regular da web para registo foi interrompido por qualquer tempo, o que pode ter causado lacunas permanentes no seu registro histórico.

O Internet Archive “foi criado por um tipo e se tornou uma espécie de pivô”, segundo Jackson.

“Ele também parece ser um ponto crítico de omissão em potencial. Embora seja muito mais sofisticado do que simplesmente os voluntários, ele é uma instituição, em uma região, sujeito a um tórax lícito.”

A organização reconhece estas preocupações. Se o trabalho do Internet Archive fosse suspenso e “esta vazio não fosse preenchida imediatamente, grande segmento do que é disponibilizado atualmente na web pública ficaria em risco”, explica Graham.

Ele deixa evidente que o Internet Archive não irá desistir suas responsabilidades no porvir próximo, mas seria útil obter ajuda externa para o projeto.

“Existem oportunidades para muitas pessoas contribuírem, de diversas formas”, destaca ele.

Responsabilidades partilhadas, prioridades diferentes

Sem um trabalho formal de organização do trabalho de preservação da internet, o projeto fica a função de amadores e voluntários, ao lado de alguns grupos de organismos não oficiais que, geralmente, operam de forma independente.

“Faz sentido que o trabalho de registo seja descentralizado”, segundo a historiadora de tecnologia Mar Hicks, da Universidade da Virgínia, nos Estados Unidos. “Mas um dos problemas é a variação das prioridades.”

Hicks destaca que um dos primeiros pontos que qualquer arquivista irá considerar ao erigir um registo é o que ele deve priorizar.

“E, com muita descentralização, as prioridades serão muito diferentes”, explica ela. “Haverá pessoas nos grupos cuja prioridade será tentar reunir de tudo – o sumo que puderem, eles podem querer completar tudo.”

E haverá outros que irão se concentrar em determinadas áreas, porquê o registo britânico, por exemplo.

A preocupação com essa abordagem pontual e descentralizada é a possibilidade de repetição, que faz com que preciosos recursos de registo sejam desperdiçados com cópias duplicadas ou triplicadas dos websites mais populares.

Enquanto isso, algumas áreas que podem ter valor histórica são desprezadas por se enquadrarem entre as responsabilidades de grupos diferentes.

“Os arquivistas irão expor que estas questões existem há muito tempo”, afirma Hicks. Mas elas são exacerbadas pela quantidade de material produzida no nosso mundo do dedo.

Todos os dias, são enviados murado de um bilhão de e-mails. O YouTube afirma que mais de 500 horas de vídeo são postadas na plataforma a cada minuto.

Para Hicks, a internet é “essencialmente uma mangueira de incêndio, lançando material e informações. Não faz sentido tentar registrar tudo o que sai da mangueira. Não faria sentido do ponto de vista de recursos.”

De certa forma, esta é uma preocupação antiga.

“Porquê historiadores, temos o mesmo problema”, explica Hicks. “Temos uma enorme quantidade de documentos do pretérito. Mas temos exclusivamente certos documentos e as vozes de certas pessoas – e muitas das vozes que estão faltando foram incrivelmente importantes, mas foram apagadas.”

Para Hicks, é preciso ter certas prioridades sobre o que está sendo preservado das pegadas digitais da nossa geração. Caso contrário, corremos o risco de extrapolar rapidamente os custos com esforços secundários de registro da história da web. Isso sem falar nos oceanos de arquivos digitais que vivem offline.

“Se precisarmos preservar tudo, fica muito custoso”, segundo Andrew Jackson. “Existe muito teor mais velho ou menos interessante que fica perdido pelo caminho.”

“Não estamos capturando muito o mundo não ocidental”, reconhece Jackson. “Existem lacunas que não foram preenchidas em diferentes domínios culturais.”

Muitas dessas organizações que procuram combater suas próprias tendências e preconceitos acabam assumindo o peso da tarefa, enquanto os governos e as empresas responsáveis pelas plataformas simplesmente assistem.

“Grupos independentes de pessoas, simplesmente preocupadas e dispostas a destinar seu tempo livre a esta questão, têm mais recursos e conhecimento do que as instituições formalmente responsáveis”, afirma Jackson.

Hicks alerta que existe um vácuo que poucas pessoas estão atendendo, exceto por um punhado de arquivistas obsessivos.

“Não está evidente de quem é a responsabilidade de arquivar [a internet], nem a serviço de quem”, afirma a historiadora. Mas um ponto é evidente: segundo ela, todos nós deveríamos remunerar para concordar a luta pela preservação.

“De um ponto de vista muito pragmático, se você não remunerar essas pessoas e prometer que estes arquivos recebam financiamento, eles não irão viver no porvir”, explica ela. “Eles irão desvanecer e todo o trabalho de coleta irá voar pela janela.”

“Porque o grande propósito do registo não é simplesmente coletá-lo, mas fazer com que ele seja mantido indefinidamente no porvir.”

O Iluminismo do século 18 viu o promanação de um movimento internacional de bibliotecas, com os governos e filantropos percebendo a urgência de preservar e partilhar livros para o público. Mas oriente siso de responsabilidade cívica do pretérito não se estendeu para a internet.

Isso pode se responsabilidade aos complexos interesses comerciais do mundo do dedo ou simplesmente às imensas dificuldades técnicas. Ou, talvez, porque os observadores casuais podem não descobrir necessário preservar a web.

Um livro é um recurso claramente finito — ele pode ser perdido ou danificado. Mas a web parece muito atingível. Qualquer pessoa com conexão à internet pode transfixar um navegador e digitar uma URL.

Está tudo ali, disponível. Até que não esteja mais.

Leia a versão original deste texto cá cá (em inglês) no site BBC Innovation.

Folha

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *