维基百科提供免费的人工智能数据集来应对无休止的网络爬虫

admin

140350
文章

117
评论

2025年4月21日00:45:12评论8 views字数 819阅读2分43秒阅读模式

关键词

网络爬虫

维基媒体基金会运营着维基百科的附属网站，该基金会最近披露，其基础设施已被大量人工智能驱动的网络爬虫所淹没。这些自动化机器人消耗了大量昂贵的服务器资源，给维基媒体工程师带来了沉重的负担，他们不得不努力通过技术手段来减轻其影响，同时也给组织带来了巨大的运营成本。

维基百科是一个免费的图片、视频和其他各种媒体资源库，目前托管着超过 1.44 亿个文件。这个庞大的档案库已经成为人工智能抓取工具的首要目标，它们不断收集其中的内容，以汇编用于训练机器学习模型的数据集。

除了维基共享资源之外，维基百科本身也遭受了大规模且不加区分的抓取攻击。维基百科意识到技术防御已不足以阻止这种激增的数据，因此采取了积极主动的措施——精心策划并发布了专为训练目的而设计的 AI 优化数据集。这些数据集目前托管在谷歌的 Kaggle 平台上，这是一个数据科学家的社区中心，旨在让 AI 开发者直接下载结构化数据，而不是继续轰炸维基百科的服务器。

新发布的数据集经过精心设计，充分考虑了机器学习的工作流程，使AI从业者能够轻松访问机器可读的文章数据，用于建模、微调、基准测试、校准和分析。所有包含的内容均已获得公共许可，可自由分发。

该数据集截至2025年4月15日，包含研究摘要、简明描述、图片链接、信息框数据和文章章节。数据集特意省略了参考文献、源文档和音频文件，仅关注文本和结构元素。初始版本提供英语和法语版本。

维基百科认为，结构良好的 JSON 格式数据集远比费力地抓取和解析原始维基百科内容更具吸引力。然而，这种方法能否成功遏制人工智能网络爬虫的猛烈攻击，仍有待观察。

来源：https://securityonline.info/wikimedia-offers-free-ai-dataset-to-combat-relentless-web-scraping/

END

原文始发于微信公众号（安全圈）：【安全圈】维基百科提供免费的人工智能数据集来应对无休止的网络爬虫

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

维基百科提供免费的人工智能数据集来应对无休止的网络爬虫

随着全球紧张局势加剧，针对能源行业的网络威胁激增

俄罗斯黑客借虚假CAPTCHA传播新型恶意软件LOSTKEYS，高价值目标面临数据窃取危机

网安原创文章推荐【2025/5/8】

曹县恶意软件 OtterCookie 升级，新增 Windows、Linux 和 macOS 功能

网络犯罪分子使用CoGUI钓鱼工具包攻击日本

谷歌警告：俄 APT 组织Star Blizzard利用 ClickFix 部署新型 LostKeys 恶意软件

思科发布IOS XE无线控制器中的关键漏洞更新

LockBit勒索软件运营网站遭入侵，内部数据库遭泄露

开始菜单跳转列表失效谜案告破！微软静默修复，详解幕后 CFR 机制利弊

【暗网快讯】20250509期

发表评论