2025/06/05 星期四
多云·西南风5级
//01 前言
最近协助处理了一起数据异常出境事件,简单总结报告来说每天都有400M-1GB的数据流量流向多个国家,通联几万次,累计数据总流量通常可以达到几十GB的流量。通过前往现场排查后,发现此次数据流量异常出境事件是因为OpenAI爬虫造成的,随即分享了此次文章。
//02 GPTbot
GPTbot是OpenAI在2023年8月推出开发的一个网络爬虫,主要用于自动收集公开可用的网页数据,以帮助训练和改进其AI模型。GPTbot会爬取公开的网页内容(文本、代码等),用于扩展训练数据集,提升AI的语言理解能力。通过分析更多样化的数据,改进AI的准确性、多样性和上下文理解能力。
OpenAI此前表示该工具遵守付费墙规则,不抓取需付费内容及个人身份信息,网站所有者可通过修改robots.txt文件或屏蔽指定IP地址限制其访问。尽管OpenAI强调数据收集旨在提升模型性能,但其操作引发了关于隐私保护、版权合规及数据安全的争议。除此之外,OpenAI还公布了OpenAI使用的爬虫IP地址,也可以根据 IP 地址来拒绝访问。
//03 日志排查
该套出现问题的系统使用Nginx搭建,通过访问Nginx保存的access.log日志文件,发现足足有300多个GB。第一次见这么大的日志文件,且该日志文件无法直接使用文本打开,否则电脑根本处理不了。只能现在服务器中备份出来外接移动硬盘放在主机上进行排查,这里推荐一款工具LogViewPro,一款文本日志查看软件可以秒开任意大小的文件(4GB或者更大),支持高亮某行文字(例如警告,错误)。
简单对日志进行分析,发现GPTbot爬虫大量爬取网站的html、css、js、jpeg、png多个资源内容,且一天爬取访问量高达十几万次。这也多亏服务器配置好,要不然估计网站打开都得缓慢运行了。可以看到全是20.171.207.0/24这个C段的IP,与OpenAI公布的OpenAI使用的爬虫IP地址可以匹配上,全部携带了gptbot字段。理论上来说当网络爬虫数量达到一定规模或行为过于密集时,可能引发类似分布式拒绝服务(DDoS) 的效果,导致网站资源耗尽、响应缓慢甚至崩溃瘫痪。
OpenAI表示会遵循网站的robots.txt文件中明确标示的规则。如果网站配置了禁止GPTBot抓取的标签,它理论上会停止访问该网站。简单来看,如果不想让GPTBot访问网站的内容,就得将以下代码添加到目录中robots.txt里面。
User-agent: GPTBot
Disallow: /
//05 结尾
总结一下此次安全事件,OpenAI的GPTbot爬虫会爬取公开的网页内容(文本、代码等),用于扩展训练数据集,提升AI的语言理解能力。当每天无时无刻都在爬取,且被爬取的网站信息过多时会产生大量的异常流量问题,最好还是按照要求设置一下robots.txt文件吧,要不然你的出口可能和境外产生大量的通联数据流量。
END
I like you,but just like you.
我喜欢你,仅仅如此,喜欢而已~
点赞在看不迷路哦!
原文始发于微信公众号(剁椒Muyou鱼头):【技术分享】OpenAI爬虫造成的数据流量异常事件
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论