关键词
网络爬虫
维基媒体基金会运营着维基百科的附属网站,该基金会最近披露,其基础设施已被大量人工智能驱动的网络爬虫所淹没。这些自动化机器人消耗了大量昂贵的服务器资源,给维基媒体工程师带来了沉重的负担,他们不得不努力通过技术手段来减轻其影响,同时也给组织带来了巨大的运营成本。
维基百科是一个免费的图片、视频和其他各种媒体资源库,目前托管着超过 1.44 亿个文件。这个庞大的档案库已经成为人工智能抓取工具的首要目标,它们不断收集其中的内容,以汇编用于训练机器学习模型的数据集。
除了维基共享资源之外,维基百科本身也遭受了大规模且不加区分的抓取攻击。维基百科意识到技术防御已不足以阻止这种激增的数据,因此采取了积极主动的措施——精心策划并发布了专为训练目的而设计的 AI 优化数据集。这些数据集目前托管在谷歌的 Kaggle 平台上,这是一个数据科学家的社区中心,旨在让 AI 开发者直接下载结构化数据,而不是继续轰炸维基百科的服务器。
新发布的数据集经过精心设计,充分考虑了机器学习的工作流程,使AI从业者能够轻松访问机器可读的文章数据,用于建模、微调、基准测试、校准和分析。所有包含的内容均已获得公共许可,可自由分发。
该数据集截至2025年4月15日,包含研究摘要、简明描述、图片链接、信息框数据和文章章节。数据集特意省略了参考文献、源文档和音频文件,仅关注文本和结构元素。初始版本提供英语和法语版本。
维基百科认为,结构良好的 JSON 格式数据集远比费力地抓取和解析原始维基百科内容更具吸引力。然而,这种方法能否成功遏制人工智能网络爬虫的猛烈攻击,仍有待观察。
END
原文始发于微信公众号(安全圈):【安全圈】维基百科提供免费的人工智能数据集来应对无休止的网络爬虫
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论