Você já imaginou a Wikipédia, a enciclopédia online colaborativa que conhecemos e acessamos diariamente, sofrendo com uma enxurrada de acessos que a estão sobrecarregando? Pois é, essa é a realidade que a Fundação Wikimedia está enfrentando. Um aumento de 50% no uso de banda larga, desde janeiro de 2024, está colocando a infraestrutura da plataforma em risco. E o principal culpado? Os robôs de inteligência artificial.
Neste post, vamos explorar como esses bots de IA estão impactando a Wikipédia e outras plataformas da Wikimedia, e quais os desafios que isso representa para o futuro do acesso livre ao conhecimento.
O apetite insaciável dos bots de IA
Bots de IA estão extraindo terabytes de dados da Wikimedia, incluindo a Wikipédia e o Wikimedia Commons, que abriga 144 milhões de arquivos de mídia. Esse consumo massivo de informações, usado para treinar modelos de linguagem gigantes (LLMs), está gerando custos técnicos e financeiros altíssimos para a fundação.
A situação se agrava ainda mais pela forma como esses bots acessam a informação. Ao contrário dos usuários humanos, que acessam principalmente artigos populares e frequentemente armazenados em cache, os bots buscam páginas obscuras e menos acessadas, forçando os servidores centrais a processar cada requisição.
Como resultado, 65% das solicitações mais caras à infraestrutura da Wikimedia são realizadas por bots, enquanto eles representam apenas 35% das visualizações totais de páginas. Ou seja: cada requisição de um bot custa muito mais do que a de um usuário humano.
Bots que burlam os sistemas de segurança
Para piorar a situação, muitos desses crawlers de IA ignoram as regras estabelecidas. Eles desrespeitam as diretivas robots.txt
, se disfarçam de visitantes humanos e até usam endereços IP residenciais para evitar bloqueios. Isso força a equipe de engenharia da Wikimedia a dedicar esforços consideráveis em medidas defensivas.
Todo tempo gasto limitando a taxa de acessos dos bots ou mitigando picos de tráfego é tempo perdido em melhorar a plataforma e dar suporte a colaboradores e usuários. E não se trata apenas das plataformas de conteúdo, mas também da infraestrutura de desenvolvimento, como ferramentas de revisão de código e rastreadores de bugs.
Um sistema aberto em risco
A Fundação Wikimedia reconhece a importância de fornecer conhecimento como um serviço, e seu conteúdo é licenciado livremente. No entanto, como eles mesmos afirmam: “Nosso conteúdo é gratuito, mas nossa infraestrutura não”.
A fundação está investindo em abordagens sistêmicas para lidar com este problema. A tarefa é complexa: equilibrar os interesses dos desenvolvedores de IA com a sustentabilidade das plataformas de conhecimento aberto. Uma maior coordenação entre desenvolvedores e provedores de recursos pode ser a chave para resolver esse problema, através de APIs dedicadas, financiamento compartilhado de infraestrutura ou padrões de acesso mais eficientes.
Sem essa colaboração, a continuidade das plataformas que impulsionaram os avanços em IA está comprometida. A mensagem da Wikimedia é clara: a liberdade de acesso não implica liberdade de consequências.
Precisamos pensar em soluções criativas e colaborativas para garantir o acesso livre à informação sem comprometer a estabilidade e a sustentabilidade das plataformas que a disponibilizam.
Compartilhe suas experiências e ideias sobre como podemos lidar com esse desafio!
Fonte: Ars Technica