[Desenvolvimento web] · 13 de agosto de 2019 · 7 min de leitura

O que acontece quando a internet esquece?

Quando falamos de compartilhamento de conteúdo, sempre ouvimos a máxima “A internet nunca esquece”. Qualquer conteúdo publicado na internet pode se espalhar rapidamente por diversas plataformas, independentemente de sua veracidade (e dos desejos de seu autor). Uma tentativa de censura ou remoção pode, ainda, gerar uma maior repercussão (um fenômeno popularmente conhecido como “Efeito Streisand” ^[arquivado] ). No entanto, o oposto também é verdade — a internet esquece, e isso acontece com uma frequência muito maior do que imaginamos.

Do que é feita a internet?

Piadas à parte, simplificar o conceito de internet como “uma rede mundial de computadores” não está exatamente errado — isso só ignora alguns níveis de abstração e complexidade. Este blog, por exemplo, nada mais é do que alguns arquivos estáticos (isto é, arquivos que permanecerão no mesmo estado até que eu os gere e os publique novamente) em algum dos servidores do GitLab.

Quando você pede ao seu navegador para que ele acesse anna.flourishing.stream, o seu dispositivo consulta uma lista de nomes (Domain Name System, ou Sistema de Nomes de Domínios), pretendendo traduzir o amigável anna.flourishing.stream para um endereço IP (Internet Protocol address, ou Endereço de Protocolo da Internet). Ele recebe uma resposta dizendo que anna.flourishing.stream é um “apelido” para contraexemplo.gitlab.io, localizado no endereço 35.185.44.232.

Por fim, algumas configurações internas do meu projeto no GitLab (um registro em texto (TXT) com um código de confirmação específico) se certificam de servir todo o conteúdo publicado no repositório flourishingstream no anna.flourishing.stream.

Dependências tecnológicas e humanas

Perceba que, desta forma, a estabilidade do Localizando-me está intimamente ligada à estabilidade dos servidores do GitLab. Adicionalmente, levando em conta que há dois anos faço referências ao conteúdo do anna.flourishing.stream, o acesso a essas páginas é extremamente dependente da detenção do controle do domínio flourishing.stream. Se eu não adicionasse o redirecionamento correto nas configurações de DNS desse domínio, você não conseguiria encontrar as páginas certas.

Considere também que, em dois anos, este blog tomou muitas formas. Em seus primeiros seis meses, ele foi hospedado em um servidor da Digital Ocean ^[arquivado] e administrado com Ghost ^[arquivado] . Posteriormente, migrei todo o conteúdo do Localizando-me para o Hugo ^[arquivado] , e por pouco mais de um ano ele foi servido através do GitHub Pages ^[arquivado] . Por fim, estou o servindo pelo GitLab Pages ^[arquivado] há quase dois meses.

Entre diferentes softwares e encarnações, houve muitas mudanças de temas e disposição de conteúdo. Em sua estrutura, apenas uma coisa permaneceu imutável: o padrão de nomes de URLs (Uniform Resource Locators, ou Localizador Uniforme de Recursos) que uso para organizar as minhas postagens.

Como uma das primeiras pessoas a escrever em português sobre o Outreachy ^[arquivado] , sempre senti uma imensa responsabilidade em preservar os relatórios relacionados ao meu estágio. Para atingir esse objetivo, é muito importante que toda pessoa que consulte registros históricos sobre a 15ª rodada do Outreachy consiga acessar o conteúdo original de todas as postagens que referenciei há anos. Por isso, formulei o seguinte padrão de identificação:

anna.flourishing.stream /2019/08/13 /o-que-acontece-quando-a-internet-esquece

Domínio
Data de publicação do texto (13 de agosto de 2019)
Slug (conjunto de palavras definidas por mim para melhor referenciar o conteúdo do texto; geralmente uma reprodução do título)

Seguindo essa fórmula, textos adicionados na página do meu projeto de estágio ^[arquivado] no MediaWiki.org permanecem acessíveis sem que seja necessária alguma intervenção humana na wiki — só preciso ter o cuidado de implementá-lo em toda ferramenta que eu usar para gerenciar o meu blog.

A saúde e a integridade de um site, portanto, é extremamente dependente de fatores como as tecnologias utilizadas para construí-lo; a sua manutenção com e sem intervenção humana; os servidores nos quais está localizado e o controle dos domínios que utiliza.

Apodrecimento de links

Chamamos de apodrecimento de links o processo pelo qual links passam quando eles não nos direcionam mais para o conteúdo que desejávamos referenciar no passado. Isso pode levar a situações como:

Ser saudado pelo erro “404 Not Found” (404 Página não encontrada);
Se deparar com um paywall (proteção de páginas que requer pagamentos para acesso);
Ser direcionado para uma página com um conteúdo completamente diferente do original.

Realizar um estudo para explorar esse fenômeno em sua totalidade é impossível. O que temos hoje são análises em escopos bem delimitados que apontam para diferentes resultados — mas suficientemente relevantes para que o combate ao apodrecimento de links seja necessário. Por exemplo, um estudo de 2014 da Harvard Law School determinou que aproximadamente 50% das URLs mencionadas em decisões da Suprema Corte estadunidense não apontavam mais para o conteúdo originalmente referenciado ¹.

Algumas das possíveis causas para esse fenômeno são:

Mudanças nas tecnologias utilizadas ou na estrutura do site que não levaram em conta a preservação de conteúdo previamente publicado;
Conteúdo expirado ou deliberadamente excluído (seja pelos próprios autores, por vontade própria, ou por exigências legais);
Problemas no servidor de hospedagem (hardware ou software);
Modificações relacionadas aos níveis de privacidade do conteúdo (em plataformas como o Facebook) ou ao estado de contas em redes sociais;
Revogação do controle do domínio original ou mudança para outro domínio;
Encerramento voluntário (como ocorreu com o querido Orkut).

Arquivamento digital

Duas soluções se sobressaem no debate sobre preservação digital:

A conscientização de administradores de sites para prevenir o apodrecimento desencadeado por problemas técnicos;
O arquivamento de páginas, feito voluntariamente ou por terceiros.

É do segundo ponto que surgiram iniciativas como a Wayback Machine² e o Perma.cc ^[arquivado] . No entanto, elas não aparecem sem criar outros problemas, sendo o maior deles o que devemos preservar.

Preservar absolutamente tudo não é uma opção viável no presente — há um limite físico no que podemos arquivar. Além disso, nem tudo deve ser preservado. Eleger critérios de preservação realmente universais, no entanto, parece impossível.

Tudo que é público deve ser arquivado? Mas e se eu quiser ser esquecida? E se eu quiser que o conteúdo que eu produzi também seja esquecido, por mais relevante que ele possa ser? Os meus desejos individuais devem ser ignorados “pelo bem maior”?

Há, ainda, diversos problemas técnicos. Soluções centralizadas em apenas um servidor são tão suscetíveis ao apodrecimento quanto as páginas que elas guardam. No entanto, se elas adotarem um modelo distribuído e independente, como podemos verificar a autenticidade da informação que guardam? De que maneira podemos estender isso para páginas que não existem mais?

Não podemos mais deixar de pensar em todas essas questões. Vivemos em uma época em que o conhecimento humano nunca foi tão acessível — por isso, é nosso dever pensar em soluções que o preservem.

Política de preservação

Você deve ter notado algo diferente nas citações de páginas externas nesta postagem. Isso é parte de uma política de preservação que irei adotar no Localizando-me:

Todas as páginas do Localizando-me podem ser arquivadas.

Todas as páginas citadas no Localizando-me serão preservadas nos servidores do Internet Archive², exceto:

Menções ao próprio Internet Archive;
Páginas pessoais no rodapé do Localizando-me;
Páginas internas do Localizando-me.

Menções a textos hospedados em páginas pessoais levarão em conta a licença sob a qual o conteúdo foi disponibilizado. Páginas pessoais com licenças ambíguas ou não especificadas serão evitadas na medida do possível.

Caso eu deseje citar um texto com licença ambígua ou não especificada, entrarei em contato com a pessoa autora para pedir uma permissão para arquivamento. Com a concessão, a menção à página será acompanhada de uma nota de rodapé explicitando os termos da permissão.

Menções a postagens em redes sociais não serão mais incorporadas usando ferramentas nativas. Citações diretas a pessoas específicas serão evitadas sempre que possível.

Quando estritamente necessárias, citações diretas serão realizadas por texto e acompanhadas de um link para a fonte original. No entanto, só serão arquivadas as postagens de:

Autoridades públicas, somente quando o conteúdo citado foi publicado durante a vigência de seu serviço ou mandato;
Empresas, organizações e grupos;
Pessoas que explicitamente consentiram ao arquivamento.

Citações diretas sem arquivamento sempre serão acompanhadas por uma nota de rodapé com a mensagem “ATENÇÃO: O conteúdo da página citada pode ter sido modificado após a publicação deste texto."

Citações com arquivamento serão acompanhadas por um link sobrescrito (^[arquivado]) com a mensagem “Página preservada no Internet Archive”.

Por último, um pedido

Se você também se preocupa com essa questão e frequentemente escreve longas sequências de tweets, textões no Facebook ou artigos em blogs, considere:

Adotar uma política de preservação;
Explicitar a sua posição sobre a possibilidade de arquivamento do seu trabalho.

E se você trabalha com dados públicos, arquive-os. Quando a ignorância reina, o apodrecimento de links trabalha a favor da obscuridade.

Citação retirada do artigo sobre “Link rot” da Wikipédia anglófona ^[arquivado] . ↩︎
ATENÇÃO: O conteúdo da página citada pode ter sido modificado após a publicação deste texto. ↩︎ ↩︎