训练数据抓取新案由第一案！| Reddit起诉Anthropic抓取公开帖子构成违约、侵占动产、不正当竞争案解析

2025年6月5日23:10:41评论15 views字数 3520阅读11分44秒阅读模式

一、案件缘起：从“公共网页”到“付费语料”的变局

过去一年，Reddit 通过向大型模型开发者出售 API 访问权，把社区帖子转化为新的收入来源：2024 年 2 月与 Google 达成年费约 6000 万美元的授权协议(reuters.com)；同年 5 月又与 OpenAI 签署实时数据合作协议，用于 ChatGPT 等产品(theverge.com)。与此同时，Reddit 发布《Public Content Policy》，要求任何商业实体若想抓取或复用其公开内容，必须事先签订合同(techcrunch.com)。

Anthropic 曾在 2024 年 7 月公开表示“已屏蔽自家爬虫对 Reddit 的访问”，但 Reddit 服务器日志记录显示：自彼时至 2025 年 5 月，Anthropic 的自动化请求仍超过 10 万次(theverge.com)。经多轮谈判无果后，Reddit 于 2025 年 6 月 4 日在加州旧金山高等法院提起诉讼（案号 CGC-25-6258921），成为首例由 UGC 社区平台针对生成式 AI 公司提起的“反爬＋违约”大案。

二、案件事实

要素	内容
原告	Reddit, Inc.
被告	Anthropic PBC
法院	Superior Court of California, County of San Francisco
立案日期	2025 年 6 月 4 日
诉因	违约、故意干扰合同、不当得利、动产侵权、加州不正当竞争法 §17200
主要事实	Anthropic 未获许可即持续抓取 Reddit 内容 >100 000 次；抓取行为违背《User Agreement》和 robots.txt；抓取数据被用于训练 Claude 模型，并带来商业收益
救济请求	永久禁令、损害赔偿、返还不当得利、律师费等

“Anthropic’s bots continued to hit Reddit’s servers over one hundred thousand times … while refusing any license that would protect Reddit users’ privacy, including removal of deleted content.”（诉状第 10 段）(redditinc.com)

起诉状按“事实陈述—五项法律事由—救济请求”结构展开，共 42 页。

法律依据

合同法（Breach of Contract）：

Reddit 用户协议：Reddit 的用户协议明确规定，任何用户或实体访问 Reddit 平台时，必须遵守相关条款，包括禁止未经授权的商业化使用 Reddit 内容以及禁止通过自动化手段收集数据（除非 Reddit 明确允许）。Anthropic 通过其机器人访问 Reddit 平台，即表示同意遵守这些条款。
违反条款：Anthropic 未经授权使用 Reddit 内容进行商业化训练，违反了用户协议中关于商业化使用和数据抓取的禁止性规定。

侵权法（Trespass to Chattels）：

Reddit 的财产权：Reddit 的平台及其底层技术基础设施（包括服务器、软件等）是 Reddit 的个人财产。Anthropic 未经授权进入并使用 Reddit 的平台及技术基础设施，获取 Reddit 内容，构成对 Reddit 财产权的侵犯。
损害后果：Anthropic 的行为导致 Reddit 的服务器容量和功能受损，影响了 Reddit 为合法用户提供服务的能力。

侵权法（Tortious Interference With Contract）：

Reddit 与用户的合同关系：Reddit 与用户之间通过用户协议和隐私政策建立了合同关系，Reddit 有义务保护用户隐私、尊重用户对其内容的选择权等。
Anthropic 的干扰行为：Anthropic 未经授权抓取 Reddit 内容，绕过 Reddit 的合规 API，无法确保尊重用户删除帖子或评论的请求，干扰了 Reddit 履行与用户的合同义务。

加州商业与职业法典第 17200 条（Unfair Competition Law）：

不公平竞争行为：Anthropic 的行为构成不公平竞争，包括未经授权获取和使用 Reddit 内容、干扰 Reddit 与用户的合同关系等。Anthropic 的虚假陈述（如声称已停止抓取 Reddit 平台内容，但实际上仍在继续）也构成欺诈性商业行为。

诉讼请求

目前 Reddit 已向法院提起诉讼，要求：

禁止 Anthropic 继续使用 Reddit 数据进行商业活动：Reddit 请求法院下达禁令，禁止 Anthropic 继续使用或从商业产品中移除任何包含 Reddit 内容的数据或技术。
赔偿损失：Reddit 要求 Anthropic 赔偿其因未经授权使用 Reddit 内容而获得的利润，以及 Reddit 因此遭受的损失，包括许可收入损失、服务器流量增加导致的成本等。
其他救济措施：Reddit 还要求 Anthropic 支付惩罚性赔偿、律师费和诉讼费用等，并请求法院根据具体情况作出其他适当的判决。

三、与同类案件的关键差异

合同路径 vs. 版权路径

《纽约时报》诉 OpenAI、音乐出版社诉 Anthropic 等案件以“作品享有版权”为核心，必须应对“合理使用”辩护的不确定性。reuters.com
Reddit 作为平台并不拥有所有帖文的版权，但通过服务条款取得“商业使用的排他控制”，从而绕开版权法的门槛，直接诉诸州法违约。这种模式尤其适用于用户生成内容（UGC）难以一一确权的场景。

平台利益 vs. 原创作者利益

版权人诉讼侧重维护作品本身的复制权、改编权；Reddit 诉讼强调“平台对内容集的组织投资与服务器资源”的价值。对于普通用户而言，Reddit 承诺在许可协议中保留“删除即不再被训练”的条款，表面上把用户隐私纳入商业谈判。
但本案也暴露出 UGC 平台与投稿用户利益可能并不完全一致：平台出售聚合数据的收益未必会共享给个人创作者，这将加剧版权人与平台之间的二阶博弈。

技术防护与合同防护的“双锁”

诉状把 robots.txt 的技术封禁与 User Agreement 的法律封禁并列为“合同义务”。倘若法院认可，“技术阻挡＋合同条款”将成为开放网页寻求专属收益的标准做法，为未来更多反爬虫诉讼提供模板。

核心差别在于权利定位：Reddit 并不垄断帖子版权，却以服务条款赋予自己对“商业化抓取”的排他控制权，从而避开“合理使用”辩论；而新闻社、词曲作者只能诉诸传统版权法。对模型公司而言，过去常见的“版权清晰→需授权，版权模糊→爬虫抓取”逻辑被打破：UGC 社区也能凭合同把公开网页变成受限资产。

四、对行业的深远意义

训练数据成本或进一步分化

若法院最终认定“公开网页 + 合同条款”足以阻却自由抓取，Reddit-Google、Reddit-OpenAI 等交易将成为高质社区数据的 参考价。对缺乏资金的初创模型开发者而言，若无法负担许可费，只能转向替代语料或合成数据；但由于 Wikipedia、Common Crawl 等集的语言风格与论坛对话差异较大，模型效果可能受限。
“数据来源尽调”正成为投资者关注点

Anthropic 已同时面对歌词案和本案，多元诉讼势必在融资与上市文件中被重点披露。机构投资者开始要求企业出具数据谱系、删除响应、许可台账等合规证明。虽然尚难断言所有 VC 都会把该项列为“硬性门槛”，但在大额融资与并购场景，数据许可合规已成为常见尽调问题。
州法院判例的潜在示范效应

hiQ v. LinkedIn 等先例已被欧盟文件引用；若本案确认合同＋robot 协议的可执行性，欧英等市场的监管机构可能在未来规则制定中加以参照。但其受采纳程度仍取决于各法域对“公开数据再利用”及强制数据共享政策的平衡。
用户隐私与模型训练的新接口

诉状强调“删除帖文仍被训练”风险，预示监管机构可能鼓励（而非立即强制）平台建立机器可读删除通知与“模型更新删源”流程。短期内此类要求仍属软法倡议，惟一旦落地，平台与模型企业都需投入额外工程资源。

结语

Reddit 诉 Anthropic 案把争议焦点从“是否合理使用受版权保护的文本”转移到“是否违反经过公告的合同与技术限制”，为 UGC 社区提供了新的维权路线：不必在版权归属迷雾中鏖战，而是以服务条款直接限定 AI 抓取行为。

对生成式 AI 产业而言，这意味着训练前的 数据来源审计、授权谈判与删除补偿机制 正从“合规附属”晋升为“商业必修”。忽视这一环节的代价，不只是潜在赔偿，更可能是“删库重训”的高昂技术与时间成本。随着 Reddit 打响第一枪，公开网页是否仍是“可随意采撷的公共资源”这一问题，将在法院判决与各国立法的交织中迎来重新定义。

原文始发于微信公众号（数据安全矩阵）：训练数据抓取新案由第一案！| Reddit起诉Anthropic抓取公开帖子构成违约、侵占动产、不正当竞争案解析

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

训练数据抓取新案由第一案！| Reddit起诉Anthropic抓取公开帖子构成违约、侵占动产、不正当竞争案解析

一、案件缘起：从“公共网页”到“付费语料”的变局

二、案件事实

法律依据

诉讼请求

三、与同类案件的关键差异

四、对行业的深远意义

结语

Docker配置了daemon镜像源但未生效，仍走默认源的解决办法

G.O.S.S.I.P 阅读推荐 2025-06-26 RAG Trackback

如何做好IT资产管理

近期勒索软件组织Qilin如此活跃 | 什么来头？

5 分钟零配置！一键搭建局域网文件共享服务器（手机 / 电脑互传必备）

0day漏洞攻防竞赛：东大与美国的隐秘战争

BreachForums暗网论坛看来是真凉了

NSFOCUS旧友记王艳《往事值得回味》

信息科技关键风险指标监测（ KRI ）

Splunk系列：Splunk字段提取篇（三）

发表评论

在线咨询

微信