【技术分享】OpenAI爬虫造成的数据流量异常事件

admin 2025年6月5日23:13:57评论11 views字数 1486阅读4分57秒阅读模式
【技术分享】OpenAI爬虫造成的数据流量异常事件

2025/06/05 星期四

多云·西南风5级

//01 前言

最近协助处理了一起数据异常出境事件,简单总结报告来说每天都有400M-1GB的数据流量流向多个国家,通联几万次,累计数据总流量通常可以达到几十GB的流量。通过前往现场排查后,发现此次数据流量异常出境事件是因为OpenAI爬虫造成的,随即分享了此次文章。

【技术分享】OpenAI爬虫造成的数据流量异常事件

//02 GPTbot

GPTbot是OpenAI在2023年8月推出开发的一个网络爬虫,主要用于自动收集公开可用的网页数据,以帮助训练和改进其AI模型。GPTbot会爬取公开的网页内容(文本、代码等),用于扩展训练数据集,提升AI的语言理解能力。通过分析更多样化的数据,改进AI的准确性、多样性和上下文理解能力。

【技术分享】OpenAI爬虫造成的数据流量异常事件

    OpenAI此前表示该工具遵守付费墙规则,不抓取需付费内容及个人身份信息,网站所有者可通过修改robots.txt文件或屏蔽指定IP地址限制其访问。尽管OpenAI强调数据收集旨在提升模型性能,但其操作引发了关于隐私保护、版权合规及数据安全的争议。除此之外,OpenAI还公布了OpenAI使用的爬虫IP地址,也可以根据 IP 地址来拒绝访问。

【技术分享】OpenAI爬虫造成的数据流量异常事件

//03 日志排查

该套出现问题的系统使用Nginx搭建,通过访问Nginx保存的access.log日志文件,发现足足有300多个GB。第一次见这么大的日志文件,且该日志文件无法直接使用文本打开,否则电脑根本处理不了。只能现在服务器中备份出来外接移动硬盘放在主机上进行排查,这里推荐一款工具LogViewPro,一款文本日志查看软件可以秒开任意大小的文件(4GB或者更大),支持高亮某行文字(例如警告,错误)。

【技术分享】OpenAI爬虫造成的数据流量异常事件

    简单对日志进行分析,发现GPTbot爬虫大量爬取网站的html、css、js、jpeg、png多个资源内容,且一天爬取访问量高达十几万次。这也多亏服务器配置好,要不然估计网站打开都得缓慢运行了。可以看到全是20.171.207.0/24这个C段的IP,与OpenAI公布的OpenAI使用的爬虫IP地址可以匹配上,全部携带了gptbot字段。理论上来说当网络爬虫数量达到一定规模或行为过于密集时,可能引发类似‌分布式拒绝服务(DDoS)‌ 的效果,导致网站资源耗尽、响应缓慢甚至崩溃瘫痪。

【技术分享】OpenAI爬虫造成的数据流量异常事件
//04 禁止GPTBot

OpenAI表示会遵循网站的robots.txt文件中明确标示的规则。如果网站配置了禁止GPTBot抓取的标签,它理论上会停止访问该网站。简单来看,如果不想让GPTBot访问网站的内容,就得将以下代码添加到目录中robots.txt里面。

User-agentGPTBotDisallow/
    但反过来想你不想被爬,还得提前配置好“robots.txt”文件。这相当于把责任推给了网站的负责人,你不设置防止爬取,那我们就默认为可以爬取。这又涉及到使用爬虫爬取网站信息是否违法的问题,但是如果爬虫导致目标网站瘫痪或数据损坏,是可能被追责的。

【技术分享】OpenAI爬虫造成的数据流量异常事件

//05 结尾

总结一下此次安全事件,OpenAI的GPTbot爬虫会爬取公开的网页内容(文本、代码等),用于扩展训练数据集,提升AI的语言理解能力。当每天无时无刻都在爬取,且被爬取的网站信息过多时会产生大量的异常流量问题,最好还是按照要求设置一下robots.txt文件吧,要不然你的出口可能和境外产生大量的通联数据流量。

END

作者 | 剁椒Muyou鱼头

I like you,but just like you.

我喜欢你,仅仅如此,喜欢而已~

点赞在看不迷路哦!

原文始发于微信公众号(剁椒Muyou鱼头):【技术分享】OpenAI爬虫造成的数据流量异常事件

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年6月5日23:13:57
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【技术分享】OpenAI爬虫造成的数据流量异常事件https://cn-sec.com/archives/4137802.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息