Robôs de IA sobrecarregam a Wikipédia: tráfego sobe 50%

Você já imaginou a Wikipédia, a enciclopédia online colaborativa que conhecemos e acessamos diariamente, sofrendo com uma enxurrada de acessos que a estão sobrecarregando? Pois é, essa é a realidade que a Fundação Wikimedia está enfrentando. Um aumento de 50% no uso de banda larga, desde janeiro de 2024, está colocando a infraestrutura da plataforma em risco. E o principal culpado? Os robôs de inteligência artificial.

Contents

O apetite insaciável dos bots de IA Bots que burlam os sistemas de segurança Um sistema aberto em risco

Neste post, vamos explorar como esses bots de IA estão impactando a Wikipédia e outras plataformas da Wikimedia, e quais os desafios que isso representa para o futuro do acesso livre ao conhecimento.

O apetite insaciável dos bots de IA

Bots de IA estão extraindo terabytes de dados da Wikimedia, incluindo a Wikipédia e o Wikimedia Commons, que abriga 144 milhões de arquivos de mídia. Esse consumo massivo de informações, usado para treinar modelos de linguagem gigantes (LLMs), está gerando custos técnicos e financeiros altíssimos para a fundação.

A situação se agrava ainda mais pela forma como esses bots acessam a informação. Ao contrário dos usuários humanos, que acessam principalmente artigos populares e frequentemente armazenados em cache, os bots buscam páginas obscuras e menos acessadas, forçando os servidores centrais a processar cada requisição.

Como resultado, 65% das solicitações mais caras à infraestrutura da Wikimedia são realizadas por bots, enquanto eles representam apenas 35% das visualizações totais de páginas. Ou seja: cada requisição de um bot custa muito mais do que a de um usuário humano.

Bots que burlam os sistemas de segurança

Para piorar a situação, muitos desses crawlers de IA ignoram as regras estabelecidas. Eles desrespeitam as diretivas robots.txt, se disfarçam de visitantes humanos e até usam endereços IP residenciais para evitar bloqueios. Isso força a equipe de engenharia da Wikimedia a dedicar esforços consideráveis em medidas defensivas.

Todo tempo gasto limitando a taxa de acessos dos bots ou mitigando picos de tráfego é tempo perdido em melhorar a plataforma e dar suporte a colaboradores e usuários. E não se trata apenas das plataformas de conteúdo, mas também da infraestrutura de desenvolvimento, como ferramentas de revisão de código e rastreadores de bugs.

Um sistema aberto em risco

A Fundação Wikimedia reconhece a importância de fornecer conhecimento como um serviço, e seu conteúdo é licenciado livremente. No entanto, como eles mesmos afirmam: “Nosso conteúdo é gratuito, mas nossa infraestrutura não”.

A fundação está investindo em abordagens sistêmicas para lidar com este problema. A tarefa é complexa: equilibrar os interesses dos desenvolvedores de IA com a sustentabilidade das plataformas de conhecimento aberto. Uma maior coordenação entre desenvolvedores e provedores de recursos pode ser a chave para resolver esse problema, através de APIs dedicadas, financiamento compartilhado de infraestrutura ou padrões de acesso mais eficientes.

Sem essa colaboração, a continuidade das plataformas que impulsionaram os avanços em IA está comprometida. A mensagem da Wikimedia é clara: a liberdade de acesso não implica liberdade de consequências.

Precisamos pensar em soluções criativas e colaborativas para garantir o acesso livre à informação sem comprometer a estabilidade e a sustentabilidade das plataformas que a disponibilizam.

Compartilhe suas experiências e ideias sobre como podemos lidar com esse desafio!

Fonte: Ars Technica

O apetite insaciável dos bots de IA

Bots que burlam os sistemas de segurança

Um sistema aberto em risco

Assine Nossa Newsletter Diária

Fique por dentro! Receba as últimas notícias de última hora diretamente na seu e-mail.

Deixe um comentário Cancelar resposta