自今年1月上线以来,Anubis已被下载近20万次,被GNOME桌面环境、FFmpeg项目,甚至联合国教科文组织(UNESCO)等机构采用。
在这场看似不对称的“信息保卫战”中,Iaso代表的是日益边缘化的“小互联网”势力,而她面对的对手,是不再遵守robots.txt协议、不再理会公平原则甚至知识产权法规的生成式AI巨头。
“我一开始想把服务器从公网下线,但还是希望保留公开代码。”Iaso回忆说,于是她开始尝试“拦截”——而这些尝试一开始并不合法,“有些做法我不能在录音里承认”。
直到她将一段实验性代码上传GitHub,GNOME项目作为“救命稻草”采用后,这段工具开始崭露头角:Anubis诞生了。
在AI爬虫变得越来越狡猾的今天,传统防御手段失效已成共识。
- robots.txt?——AI公司直接无视。
- 验证码(CAPTCHA)验证?——很多爬虫已集成自动识别器。
- 反向迷宫系统(如Cloudflare的“AI迷宫”)?——效果不错,但普通开发者无力搭建。
Iaso的解决方案,是一个她称之为“Uncaptcha”的机制:让浏览器完成一组JavaScript加密运算,并通过服务器校验,以此确认访客是否为真正的“人类用户”。这一过程对普通用户完全透明,主流浏览器自2022年以来已能轻松完成运算,但对AI爬虫而言,却需要高昂的计算成本。
这正是关键所在:“让AI爬虫的行为变得‘不经济’”,从而降低其大规模爬取的动机。
- 开源透明:任何人都可以使用、修改、部署;
- 轻量易装:不依赖大型基础设施,适合博客、小型文档站;
- 防御有效:自动识别大部分爬虫行为,不干扰正常用户;
- 持续迭代:Iaso正在开发“非加密版本”,以减少CPU负载,还在研究无需JavaScript的防御方案,照顾注重隐私的用户。
正因如此,它受到许多开源组织和小型机构的追捧。尽管它只是“一段业余时间里写的工具”,但Anubis已成为这场非对称战争中的一把利剑。
她表示,数据投毒等方法无效。“在生成式AI的训练规模下,‘往海里撒点尿’不会改变海的味道。”
Anubis的背后,是一个人持续对抗整个野蛮生长的AI行业的努力。虽然她通过 Patreon和GitHub Sponsors获得一些支持,但她坦言这不足以维持全职开发,“如果有足够资金,我会立即雇佣协作者一起维护”。
在这个由AI驱动、数据疯狂攫取的时代,个体似乎注定处于劣势。但正如Iaso所说:“如果AI公司想阻止我,只需要想办法让我分心。”
Anubis或许不是最终的答案,但它代表了一种可能——一种不服输、不投降、不静默的姿态。
附注:Anubis项目主页(GitHub)地址:https://github.com/Xe/anubis
如果你不想让你的文档库、博客、开源项目等在线资产成为AI爬虫的饲料,不妨试一试这位开发者的“AI爬虫盾牌”。
原文始发于微信公众号(GoUpSec):她写出一个小工具,对抗整个AI产业的爬虫大军
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论