一、案件缘起:从“公共网页”到“付费语料”的变局
过去一年,Reddit 通过向大型模型开发者出售 API 访问权,把社区帖子转化为新的收入来源:2024 年 2 月与 Google 达成年费约 6000 万美元的授权协议(reuters.com);同年 5 月又与 OpenAI 签署实时数据合作协议,用于 ChatGPT 等产品(theverge.com)。与此同时,Reddit 发布《Public Content Policy》,要求任何商业实体若想抓取或复用其公开内容,必须事先签订合同(techcrunch.com)。
Anthropic 曾在 2024 年 7 月公开表示“已屏蔽自家爬虫对 Reddit 的访问”,但 Reddit 服务器日志记录显示:自彼时至 2025 年 5 月,Anthropic 的自动化请求仍超过 10 万次(theverge.com)。经多轮谈判无果后,Reddit 于 2025 年 6 月 4 日在加州旧金山高等法院提起诉讼(案号 CGC-25-6258921),成为首例由 UGC 社区平台针对生成式 AI 公司提起的“反爬+违约”大案。
二、案件事实
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
“Anthropic’s bots continued to hit Reddit’s servers over one hundred thousand times … while refusing any license that would protect Reddit users’ privacy, including removal of deleted content.”(诉状第 10 段)(redditinc.com)
起诉状按“事实陈述—五项法律事由—救济请求”结构展开,共 42 页。
法律依据
-
合同法(Breach of Contract): -
Reddit 用户协议:Reddit 的用户协议明确规定,任何用户或实体访问 Reddit 平台时,必须遵守相关条款,包括禁止未经授权的商业化使用 Reddit 内容以及禁止通过自动化手段收集数据(除非 Reddit 明确允许)。Anthropic 通过其机器人访问 Reddit 平台,即表示同意遵守这些条款。 -
违反条款:Anthropic 未经授权使用 Reddit 内容进行商业化训练,违反了用户协议中关于商业化使用和数据抓取的禁止性规定。 -
侵权法(Trespass to Chattels): -
Reddit 的财产权:Reddit 的平台及其底层技术基础设施(包括服务器、软件等)是 Reddit 的个人财产。Anthropic 未经授权进入并使用 Reddit 的平台及技术基础设施,获取 Reddit 内容,构成对 Reddit 财产权的侵犯。 -
损害后果:Anthropic 的行为导致 Reddit 的服务器容量和功能受损,影响了 Reddit 为合法用户提供服务的能力。 -
侵权法(Tortious Interference With Contract): -
Reddit 与用户的合同关系:Reddit 与用户之间通过用户协议和隐私政策建立了合同关系,Reddit 有义务保护用户隐私、尊重用户对其内容的选择权等。 -
Anthropic 的干扰行为:Anthropic 未经授权抓取 Reddit 内容,绕过 Reddit 的合规 API,无法确保尊重用户删除帖子或评论的请求,干扰了 Reddit 履行与用户的合同义务。 -
加州商业与职业法典第 17200 条(Unfair Competition Law): -
不公平竞争行为:Anthropic 的行为构成不公平竞争,包括未经授权获取和使用 Reddit 内容、干扰 Reddit 与用户的合同关系等。Anthropic 的虚假陈述(如声称已停止抓取 Reddit 平台内容,但实际上仍在继续)也构成欺诈性商业行为。
诉讼请求
目前 Reddit 已向法院提起诉讼,要求:
-
禁止 Anthropic 继续使用 Reddit 数据进行商业活动:Reddit 请求法院下达禁令,禁止 Anthropic 继续使用或从商业产品中移除任何包含 Reddit 内容的数据或技术。 -
赔偿损失:Reddit 要求 Anthropic 赔偿其因未经授权使用 Reddit 内容而获得的利润,以及 Reddit 因此遭受的损失,包括许可收入损失、服务器流量增加导致的成本等。 -
其他救济措施:Reddit 还要求 Anthropic 支付惩罚性赔偿、律师费和诉讼费用等,并请求法院根据具体情况作出其他适当的判决。
三、与同类案件的关键差异
-
合同路径 vs. 版权路径 -
《纽约时报》诉 OpenAI、音乐出版社诉 Anthropic 等案件以“作品享有版权”为核心,必须应对“合理使用”辩护的不确定性。reuters.com -
Reddit 作为平台并不拥有所有帖文的版权,但通过服务条款取得“商业使用的排他控制”,从而绕开版权法的门槛,直接诉诸州法违约。这种模式尤其适用于用户生成内容(UGC)难以一一确权的场景。 -
平台利益 vs. 原创作者利益 -
版权人诉讼侧重维护作品本身的复制权、改编权;Reddit 诉讼强调“平台对内容集的组织投资与服务器资源”的价值。对于普通用户而言,Reddit 承诺在许可协议中保留“删除即不再被训练”的条款,表面上把用户隐私纳入商业谈判。 -
但本案也暴露出 UGC 平台与投稿用户利益可能并不完全一致:平台出售聚合数据的收益未必会共享给个人创作者,这将加剧版权人与平台之间的二阶博弈。 -
技术防护与合同防护的“双锁” -
诉状把 robots.txt 的技术封禁与 User Agreement 的法律封禁并列为“合同义务”。倘若法院认可,“技术阻挡+合同条款”将成为开放网页寻求专属收益的标准做法,为未来更多反爬虫诉讼提供模板。
核心差别在于权利定位:Reddit 并不垄断帖子版权,却以服务条款赋予自己对“商业化抓取”的排他控制权,从而避开“合理使用”辩论;而新闻社、词曲作者只能诉诸传统版权法。对模型公司而言,过去常见的“版权清晰→需授权,版权模糊→爬虫抓取”逻辑被打破:UGC 社区也能凭合同把公开网页变成受限资产。
四、对行业的深远意义
-
训练数据成本或进一步分化
若法院最终认定“公开网页 + 合同条款”足以阻却自由抓取,Reddit-Google、Reddit-OpenAI 等交易将成为高质社区数据的 参考价。对缺乏资金的初创模型开发者而言,若无法负担许可费,只能转向替代语料或合成数据;但由于 Wikipedia、Common Crawl 等集的语言风格与论坛对话差异较大,模型效果可能受限。
-
“数据来源尽调”正成为投资者关注点
Anthropic 已同时面对歌词案和本案,多元诉讼势必在融资与上市文件中被重点披露。机构投资者开始要求企业出具数据谱系、删除响应、许可台账等合规证明。虽然尚难断言所有 VC 都会把该项列为“硬性门槛”,但在大额融资与并购场景,数据许可合规已成为常见尽调问题。
-
州法院判例的潜在示范效应
hiQ v. LinkedIn 等先例已被欧盟文件引用;若本案确认合同+robot 协议的可执行性,欧英等市场的监管机构可能在未来规则制定中加以参照。但其受采纳程度仍取决于各法域对“公开数据再利用”及强制数据共享政策的平衡。
-
用户隐私与模型训练的新接口
诉状强调“删除帖文仍被训练”风险,预示监管机构可能鼓励(而非立即强制)平台建立机器可读删除通知与“模型更新删源”流程。短期内此类要求仍属软法倡议,惟一旦落地,平台与模型企业都需投入额外工程资源。
结语
Reddit 诉 Anthropic 案把争议焦点从“是否合理使用受版权保护的文本”转移到“是否违反经过公告的合同与技术限制”,为 UGC 社区提供了新的维权路线:不必在版权归属迷雾中鏖战,而是以服务条款直接限定 AI 抓取行为。
对生成式 AI 产业而言,这意味着训练前的 数据来源审计、授权谈判与删除补偿机制 正从“合规附属”晋升为“商业必修”。忽视这一环节的代价,不只是潜在赔偿,更可能是“删库重训”的高昂技术与时间成本。随着 Reddit 打响第一枪,公开网页是否仍是“可随意采撷的公共资源”这一问题,将在法院判决与各国立法的交织中迎来重新定义。
原文始发于微信公众号(数据安全矩阵):训练数据抓取新案由第一案!| Reddit起诉Anthropic抓取公开帖子构成违约、侵占动产、不正当竞争案解析
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论