Internet Archive Bloqueado: Produtores de Conteúdo Lutam Contra Robôs de IA por Direitos Autorais

Internet Archive Sob Fogo Cruzado: A Guerra pelo Conteúdo na Era da IA

A crescente preocupação de produtores de conteúdo com o uso indevido de suas publicações por robôs de inteligência artificial está gerando um efeito cascata inesperado. A luta para proteger obras intelectuais e garantir remuneração pelo trabalho tem levado a medidas drásticas, que agora atingem diretamente o Internet Archive e seu famoso serviço, o Wayback Machine.

Esses robôs, conhecidos como ‘crawlers’ de IA, raspam a internet em busca de informações para treinar modelos de linguagem, como os utilizados em ferramentas como o ChatGPT. Essa prática tem sido o centro de diversas disputas judiciais ao redor do mundo, evidenciando um conflito de interesses entre a inovação tecnológica e os direitos autorais.

A Federação Nacional dos Jornalistas (Fenaj) aponta que o uso de reportagens e análises, produzidas com alto custo, para treinar modelos de IA, sem qualquer retorno financeiro para os veículos de comunicação, representa uma ameaça ao modelo de negócios da mídia. Conforme Samira de Castro, presidente da Fenaj, “Sem o acesso ao tráfego, à publicidade ou às assinaturas, os veículos correm o risco de ver o seu conteúdo gerar valor para terceiros sem qualquer retorno financeiro.” Essa batalha, que começou com bloqueios diretos nos sites, agora se estende a arquivos digitais históricos.

Wayback Machine: Um Alvo Inesperado na Guerra de IA

O Internet Archive, uma organização sem fins lucrativos dedicada a preservar cópias digitais da internet, tornou-se um ponto de discórdia. A plataforma, que há 30 anos arquiva o conteúdo online através do Wayback Machine, é vista por alguns como uma forma de contornar as restrições impostas pelos sites originais. Robôs de IA poderiam utilizar o vasto acervo do Wayback Machine como uma fonte alternativa para coletar dados, burlando os bloqueios implementados por jornais e outras mídias.

Jornais Globais Adotam Medidas Drásticas

Grandes veículos de comunicação já estão tomando providências. O jornal britânico The Guardian anunciou o bloqueio do acesso de robôs do Internet Archive às suas páginas. Além disso, o veículo buscou retirar seu conteúdo da API da plataforma e do Wayback Machine, permitindo apenas cópias de sua página inicial e seções internas, e não de artigos individuais. Outros jornais de renome, como o Financial Times e o The New York Times, também implementaram medidas semelhantes para proteger seu material.

O Papel Histórico do Internet Archive e os Novos Desafios

Criado nos anos 90, o Internet Archive tinha como missão principal a preservação do conteúdo digital, algo que se tornou mais desafiador com a efemeridade da internet. O Wayback Machine se consolidou como uma ferramenta vital para historiadores, pesquisadores e jornalistas investigativos, representando a era da internet aberta, onde o conhecimento digital era visto como patrimônio cultural. Diogo Cortiz, professor da PUC-SP, destaca que o projeto “deu uma espécie de permanência para conteúdos que nasceram digitais”.

No entanto, evidências apontam que o Wayback Machine tem sido utilizado para treinar modelos de IA. Uma investigação do The Washington Post em 2023 revelou que o arquivo da internet estava entre os milhões de sites usados pelo Google e pela Meta para desenvolver seus modelos de linguagem. Em uma base de dados com 15 milhões de domínios, o arquivo da internet aparecia como a 187ª fonte mais presente.

Busca por Equilíbrio: Licenciamento e Regulação

Diante desse cenário, parcerias de licenciamento de conteúdo têm se tornado uma estratégia comum na indústria. Empresas como Meta, OpenAI, Google e Associated Press já estabeleceram acordos para o uso de conteúdo. A Fenaj defende que “o caminho mais equilibrado provavelmente passa por novos marcos regulatórios e modelos de licenciamento que possam remunerar o jornalismo sem comprometer iniciativas legítimas de preservação da memória web.” A questão é complexa, envolvendo a proteção dos criadores de conteúdo e a manutenção de um valioso acervo histórico digital.