【技术分享】OpenAI爬虫造成的数据流量异常事件

admin

145368
文章

119
评论

2025年6月5日23:13:57评论17 views字数 1486阅读4分57秒阅读模式

2025/06/05 星期四

多云·西南风5级

//01 前言

最近协助处理了一起数据异常出境事件，简单总结报告来说每天都有400M-1GB的数据流量流向多个国家，通联几万次，累计数据总流量通常可以达到几十GB的流量。通过前往现场排查后，发现此次数据流量异常出境事件是因为OpenAI爬虫造成的，随即分享了此次文章。

//02 GPTbot

GPTbot是OpenAI在2023年8月推出开发的一个网络爬虫，主要用于自动收集公开可用的网页数据，以帮助训练和改进其AI模型。GPTbot会爬取公开的网页内容（文本、代码等），用于扩展训练数据集，提升AI的语言理解能力。通过分析更多样化的数据，改进AI的准确性、多样性和上下文理解能力。

OpenAI此前表示该工具遵守付费墙规则，不抓取需付费内容及个人身份信息，网站所有者可通过修改robots.txt文件或屏蔽指定IP地址限制其访问。尽管OpenAI强调数据收集旨在提升模型性能，但其操作引发了关于隐私保护、版权合规及数据安全的争议。除此之外，OpenAI还公布了OpenAI使用的爬虫IP地址，也可以根据 IP 地址来拒绝访问。

//03 日志排查

该套出现问题的系统使用Nginx搭建，通过访问Nginx保存的access.log日志文件，发现足足有300多个GB。第一次见这么大的日志文件，且该日志文件无法直接使用文本打开，否则电脑根本处理不了。只能现在服务器中备份出来外接移动硬盘放在主机上进行排查，这里推荐一款工具LogViewPro，一款文本日志查看软件可以秒开任意大小的文件(4GB或者更大),支持高亮某行文字(例如警告,错误)。

简单对日志进行分析，发现GPTbot爬虫大量爬取网站的html、css、js、jpeg、png多个资源内容，且一天爬取访问量高达十几万次。这也多亏服务器配置好，要不然估计网站打开都得缓慢运行了。可以看到全是20.171.207.0/24这个C段的IP，与OpenAI公布的OpenAI使用的爬虫IP地址可以匹配上，全部携带了gptbot字段。理论上来说当网络爬虫数量达到一定规模或行为过于密集时，可能引发类似‌分布式拒绝服务(DDoS)‌ 的效果，导致网站资源耗尽、响应缓慢甚至崩溃瘫痪。

//04 禁止GPTBot

OpenAI表示会遵循网站的robots.txt文件中明确标示的规则。如果网站配置了禁止GPTBot抓取的标签，它理论上会停止访问该网站。简单来看，如果不想让GPTBot访问网站的内容，就得将以下代码添加到目录中robots.txt里面。

User-agent: GPTBotDisallow: /

但反过来想你不想被爬，还得提前配置好“robots.txt”文件。这相当于把责任推给了网站的负责人，你不设置防止爬取，那我们就默认为可以爬取。这又涉及到使用爬虫爬取网站信息是否违法的问题，但是如果爬虫导致目标网站瘫痪或数据损坏，是可能被追责的。

//05 结尾

总结一下此次安全事件，OpenAI的GPTbot爬虫会爬取公开的网页内容（文本、代码等），用于扩展训练数据集，提升AI的语言理解能力。当每天无时无刻都在爬取，且被爬取的网站信息过多时会产生大量的异常流量问题，最好还是按照要求设置一下robots.txt文件吧，要不然你的出口可能和境外产生大量的通联数据流量。

END

作者 | 剁椒Muyou鱼头

I like you,but just like you.

我喜欢你，仅仅如此，喜欢而已~

点赞在看不迷路哦！

原文始发于微信公众号（剁椒Muyou鱼头）：【技术分享】OpenAI爬虫造成的数据流量异常事件

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【技术分享】OpenAI爬虫造成的数据流量异常事件

Gemini 2.5Pro的官方新福利，速薅

人工智能时代，企业数据安全应对之策

区块链在网络安全中的实际应用与局限

卫星图揭秘伊朗核设施遭袭背后的暗流涌动与未解之谜

一个关于思科模拟器中如何配置交换机的问题，配置了半天还是不行?

Docker配置了daemon镜像源但未生效，仍走默认源的解决办法

G.O.S.S.I.P 阅读推荐 2025-06-26 RAG Trackback

如何做好IT资产管理

近期勒索软件组织Qilin如此活跃 | 什么来头？

5 分钟零配置！一键搭建局域网文件共享服务器（手机 / 电脑互传必备）

发表评论

在线咨询

微信