人工智能爬虫导致维基共享资源带宽需求激增 50%


维基媒体基金会是维基百科和十几个其他众包知识项目的管理组织,该基金会周三表示,自 2024 年 1 月以来,从维基共享资源下载多媒体的带宽消耗激增了 50%。

该公司在周二的一篇博客文章中写道,其原因并非源于渴求知识的人类需求不断增长,而是源于想要训练人工智能模型的自动化、数据饥渴的抓取工具。

帖子写道:“我们的基础设施是为了在高关注度事件期间承受来自人类的突然流量激增而建立的,但爬虫机器人产生的流量是前所未有的,并且带来了越来越大的风险和成本。”

维基共享资源是一个可自由访问的图像、视频和音频文件存储库,这些文件可在开放许可下使用或属于公共领域。

深入研究后,维基百科表示,最“昂贵”的流量(即就所消费内容类型而言资源最密集的流量)中,近三分之二(65%)来自机器人。然而,只有 35% 的整体页面浏览量来自这些机器人。根据维基百科的说法,造成这种差异的原因是,经常访问的内容在其缓存中更靠近用户,而其他不经常访问的内容则存储在更远的“核心数据中心”,从那里提供内容的成本更高。这是机器人通常会寻找的内容类型。

“虽然人类读者倾向于关注特定的(通常是相似的)主题,但爬虫机器人倾向于‘批量阅读’大量页面并访问不太受欢迎的页面,”维基百科写道。“这意味着这些类型的请求更有可能被转发到核心数据中心,这使得我们的资源消耗更加昂贵。”

总而言之,维基媒体基金会的网站可靠性团队不得不花费大量时间和资源来阻止爬虫程序,以避免对普通用户造成干扰。而这一切都是在考虑基金会面临的云成本之前。

事实上,这代表了一种快速增长的趋势的一部分,这种趋势正在威胁开放互联网的存在。上个月,软件工程师兼开源倡导者Drew DeVault 抱怨人工智能爬虫忽略了旨在抵御自动流量的“robots.txt”文件。而“务实工程师”Gergely Orosz上周也抱怨说,来自 Meta 等公司的人工智能爬虫增加了他自己项目的带宽需求。

尽管开源基础设施尤其处于风口浪尖,但开发人员正在以“智慧和报复”进行反击。一些科技公司也在尽自己的努力解决这个问题——例如,Cloudflare 最近推出了 AI Labyrinth,它使用人工智能生成的内容来减慢爬虫的速度。

然而,这更像是一场猫捉老鼠的游戏,最终可能迫使许多出版商躲在登录和付费墙的后面——这对当今使用网络的每个人都是有害的。


相關推薦

2024-10-23

表了一份报告表明,QUIC 在高速网络下的性能不足,可能导致数据传输速度下降,尤其是在文件传输、视频流媒体和网页浏览等应用场景中。 研究表明,与传统的 TCP+TLS+HTTP/2 协议栈相比,UDP+QUIC+HTTP/3 协议栈在高速网络

2022-07-08

范围内一共有数千种不同的语言,但由于语言数据的匮乏导致如今的翻译技术仍然有很多不足之处。以大家熟知的 Google 翻译为例,它目前能够翻译的语言数量仅限于 133 种;而微软的必应翻译支持的语言比 Google 翻译更少。 虽

2025-03-26

与其阻止爬虫机器人,不如主动把它们引进一个由AI生成的「废话迷宫」,让它们自我迷失。 Cloudflare近日推出名为「AI迷宫」(AI Labyrinth)的新工具,用以对付未经授权、到处抓取网页数据的爬虫机器人。这些爬虫通常抓取

2025-03-28

2025年春招中,人工智能领域招聘需求大幅增长,算法、机器学习等方面的人才成为企业高薪争抢的“香饽饽”,人工智能讲师岗位招聘量也在激增。 随着AI技术加快应用,未来还会缺哪些方面的人才?如何捕捉到其中的就业新

2025-04-02

司近日发布了《2025年软件供应链现状报告》,揭示了在人工智能(AI)迅速发展的背景下,软件供应链所面临的严峻安全挑战。根据该报告,研究团队通过对1400多名专业人士的调研,以及来自7000多家客户的数据分析,勾勒出了

2024-09-26

离线数据存储在 HDFS 集群,经常会出现作业读取 HDFS 慢,导致 CPU/Memory 等待 IO 而处于空闲状态。 Slow Shuffle IO:线上部署了 External Shuffle Service(ESS),Shuffle 量非常大(每天超 500PB,一些作业达几百 TB), ESS 的稳定性是一个比较

2024-08-02

为基础软件,不仅促进了深度学习技术的飞速进步,更为人工智能技术的广泛应用铺设了坚实的基础。 深度学习框架为开发者提供了便捷易用的开发接口,这些接口对数据和操作进行了高度抽象,使得开发者能够更专注于算法

2025-03-27

模型厂商普遍选择开源,且有强劲的市场爆发力,是因为人工智能发展处在四个重要时刻。 一是端侧智能的需求崛起,包括个人单机部署AI方面的需求,推动端侧智能快速发展。 二是企业行业AI部署的需求驱动,千行百业AI需

2023-08-23

对调度负载的影响,避免pod 进入无效 pipeline 状态,从而导致集群误扩容 更多信息,参考: https://github.com/volcano-sh/volcano/issues/3000 https://github.com/volcano-sh/volcano/issues/2782 精细化管理Node资源,增强韧性 当节点中由于某种

2025-04-04

正如克莱·舍基(Clay Shirky)在他最新著作中所解释的,维基百科(Wikipedia)实际上就是一个过程——它每天都会被垃圾信息发布者、破坏者、怪人等编辑,但同时,“好人”们使其改进的速度更快。如果你回到2001年,将维基百

2023-07-05

整; Instance 算子占用线程阻塞执行,大量查询任务将导致执行线程池被占满、无法响应后续请求,甚至出现逻辑死锁; Instance 线程间的调度依赖于系统调度机制,线程进行反复切换将产生额外的性能开销; 在不同分析

2022-10-16

构,提升系统可维护性; 简介 XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性; 特性 1、简洁:API直观简洁,可快速上手; 2、轻量级

2023-06-18

致任务卡住 无法监控数据源状态 Git拉取错误 当爬虫不存在时应用崩溃问题 数据集问题 功能优化 默认显示最新列表数据 任务完成后关闭Runner 批量写入日志 配置日志TTL 更多数据源 环境变量

2022-12-08

何制作 Vue 应用程序,在每次迭代中都会运行 npm install,导致下载量暴增。此外,也有人认为该事件与 Nuxt 框架 3.0 版本的正式发布有关,Nuxt 3.0 版本基于 Vue 3 构建,可能会导致 Vue 的下载量暴增。 但导致 Vue npm 下载