Meta Platforms, Inc. 正面临严重的版权侵权诉讼指控,原告声称该科技巨头使用来自影子图书馆的 81.7 TB 盗版书籍来训练其Llama AI 模型。
该诉讼在美国加利福尼亚州北区地方法院提起,指控 Meta 从 Z-Library 和 LibGen 等来源非法下载受版权保护的材料,尽管公司内部对此类行为的合法性和道德性存在担忧。原告由作家理查德·卡德雷 (Richard Kadrey) 和其他代表拟议集体的人带领,已提交动议,反对审前调查裁决,他们认为该裁决限制了他们收集针对 Meta 的关键证据的能力。
他们声称,Meta 于2024年12月13日,即事实调查结束前几个小时,最后一刻披露了超过 2,000份文件,揭示了员工关于使用盗版材料进行人工智能训练的确凿证据。
据报道,新近解密的电子邮件披露了迄今为止针对 Meta 的有力证据,该证据来自书籍作者对 Meta 提起的版权诉讼,书籍作者声称该公司使用盗版书籍非法训练其 AI 模型。
披露的文件中包括内部通讯,承认 LibGen 等数据库是“盗版的”,并对其使用表达了道德方面的担忧。
据报道,一名员工表示:“我认为使用盗版材料应该超出我们的道德界限。”另一份文件表明,Meta 使用 LibGen 的决定已上报给首席执行官马克·扎克伯格。
作者声称,有关 torrenting 的内部电子邮件证明 Meta 知道这是非法的。他们指出,员工 Bashlykov 发出的警告被忽视了。
据称,Meta 并未停止这一行为,而是试图掩盖其踪迹,最近一次是在2024 年4月,它还从影子库秘密下载并共享了数TB的数据。
海量数据采集
原告声称,Meta 近年来从影子库中下载了至少 81.7 TB 的数据,其中包括通过 Anna's Archive 从 Z-Library 和 LibGen下载的35.7 TB的数据。
据报道,这些数据包括用于训练 Llama 模型的数千万份受版权保护的作品。此次涉嫌盗版的规模比之前许多涉及知识产权盗窃的案件都要大。
原告对最近的一项调查裁决的几个方面提出了质疑:
-
重新开始取证:他们认为,最近披露的文件与 Meta 关键证人的先前证词相矛盾,并有理由重新开始取证,以就这些披露的内容向他们进行质询。
-
Torrenting 数据:原告正在寻求访问 Meta 的 Torrenting 日志和对等共享记录,以证明下载和重新分发了多少盗版材料。
-
Llama 4 和 5 训练数据集:原告声称,Llama 即将推出的版本所使用的数据集与他们的案件相关,应该提供。
-
犯罪欺诈例外:他们声称,Meta 的律师参与了使用盗版材料的决定,尽管他们知道这是非法的,因此有必要根据犯罪欺诈例外对特权通信进行不公开的审查。
此案可能会对科技行业产生深远影响,特别是在人工智能开发中使用版权材料的道德和法律标准方面。
如果原告成功,这可能会成为追究公司在机器学习模型中使用未经授权内容的责任的先例。
Meta 尚未公开回应这些最新指控。法院考虑原告反对意见的听证日期尚未确定。
原文始发于微信公众号(祺印说信安):Meta使用从Torrent影子图书馆窃取的81.7TB书籍训练其Llama AI模型
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论