维基百科提供免费的人工智能数据集来应对无休止的网络爬虫

admin 2025年4月21日00:45:12评论1 views字数 819阅读2分43秒阅读模式
维基百科提供免费的人工智能数据集来应对无休止的网络爬虫

关键词

网络爬虫

维基百科提供免费的人工智能数据集来应对无休止的网络爬虫

维基媒体基金会运营着维基百科的附属网站,该基金会最近披露,其基础设施已被大量人工智能驱动的网络爬虫所淹没。这些自动化机器人消耗了大量昂贵的服务器资源,给维基媒体工程师带来了沉重的负担,他们不得不努力通过技术手段来减轻其影响,同时也给组织带来了巨大的运营成本。

维基百科是一个免费的图片、视频和其他各种媒体资源库,目前托管着超过 1.44 亿个文件。这个庞大的档案库已经成为人工智能抓取工具的首要目标,它们不断收集其中的内容,以汇编用于训练机器学习模型的数据集。

除了维基共享资源之外,维基百科本身也遭受了大规模且不加区分的抓取攻击。维基百科意识到技术防御已不足以阻止这种激增的数据,因此采取了积极主动的措施——精心策划并发布了专为训练目的而设计的 AI 优化数据集。这些数据集目前托管在谷歌的 Kaggle 平台上,这是一个数据科学家的社区中心,旨在让 AI 开发者直接下载结构化数据,而不是继续轰炸维基百科的服务器。

新发布的数据集经过精心设计,充分考虑了机器学习的工作流程,使AI从业者能够轻松访问机器可读的文章数据,用于建模、微调、基准测试、校准和分析。所有包含的内容均已获得公共许可,可自由分发。

该数据集截至2025年4月15日,包含研究摘要、简明描述、图片链接、信息框数据和文章章节。数据集特意省略了参考文献、源文档和音频文件,仅关注文本和结构元素。初始版本提供英语和法语版本。

维基百科认为,结构良好的 JSON 格式数据集远比费力地抓取和解析原始维基百科内容更具吸引力。然而,这种方法能否成功遏制人工智能网络爬虫的猛烈攻击,仍有待观察。

来源:https://securityonline.info/wikimedia-offers-free-ai-dataset-to-combat-relentless-web-scraping/

  END  

原文始发于微信公众号(安全圈):【安全圈】维基百科提供免费的人工智能数据集来应对无休止的网络爬虫

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年4月21日00:45:12
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   维基百科提供免费的人工智能数据集来应对无休止的网络爬虫https://cn-sec.com/archives/3976941.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息