Meta 承认使用盗版书籍来训练 AI，并拒绝赔偿作家

admin

102737
文章

87
评论

2024年1月15日22:01:55评论28 views字数 770阅读2分34秒阅读模式

Meta 承认使用盗版书籍来训练 AI，并拒绝赔偿作家

大型语言模型（LLM）技术近年来取得了巨大进步，但其背后却隐藏着版权纠纷的阴云。科技巨头们利用海量文本数据训练 LLM，其中难免会涉及到受版权保护的作品，招致作者和媒体组织的强烈抗议。

近日，Meta（前身为 Facebook）就因使用包含大量盗版书籍的“Books3”数据集训练其 LLAM 1 和 LLAM 2 模型而面临包括喜剧演员 Sarah Silverman 和作家 Richard Kadrey 在内的一众作者的集体诉讼。Meta 虽承认使用了 Books3 数据集，却拒绝向作者支付适当的补偿。

Books3 是一个包含 19.5 万本图书、总容量近 37GB 的文本数据集，由 AI 研究者 Shawn Presser 于 2020 年创建，旨在为改进机器学习算法提供更好的数据源。Meta 也将其用于训练自己的 LLAM 模型，然而 Books3 中包含大量从盗版网站 Bibliotik 爬取的受版权保护作品，使得 Meta 的行为面临法律风险。

IT之家注意到，Meta 的做法并非特例。此前，《纽约时报》也因 OpenAI 和微软使用其文章训练聊天机器人 ChatGPT 而对其提起诉讼。OpenAI 则辩称，不使用受版权保护的材料来训练 AI 模型“几乎不可能”，并要求法院驳回相关诉讼。Meta 同样否认故意侵犯版权，声称其使用 Books3 数据集属于合理使用范畴，无需获得许可、署名或支付补偿。

此外，Meta 还在对诉讼作为集体诉讼的合法性提出异议，拒绝向提起诉讼的作家或其他参与 Books3 争议的人士提供任何形式的经济“补偿”。

值得注意的是，Books3 数据集中的部分内容来自盗版网站 Bibliotik，该数据集在 2023 年被丹麦反盗版组织 Rights Alliance 要求下架，目前面临数字存档禁令。

消息来源：IT之家

【

原文始发于微信公众号（FreeBuf）：Meta 承认使用盗版书籍来训练 AI，并拒绝赔偿作家

左青龙
微信扫一扫

右白虎
微信扫一扫

Meta 承认使用盗版书籍来训练 AI，并拒绝赔偿作家

Forrester：2024年五大网络安全新威胁

新的R编程漏洞暴露项目面临供应链攻击

SpaceX 遭攻击，泄露近150GB数据以及多份图纸

为什么使用微软AI会加剧现有的数据质量和隐私问题

5000 多台 CrushFTP 服务器被零日漏洞攻击

利用山寨谷歌 Chrome 传播，安全公司披露勒索木马 Brokewell

大众汽车遭黑客入侵长达 5 年，燃油引擎 / 电池等机密文件泄露

原创 | 近年全球石油天然气行业网络安全事件汇总分析

近年全球石油天然气行业网络安全事件汇总分析

开源的Judge0 中存在多个沙箱逃逸漏洞，可导致系统遭完全接管

发表评论

在线咨询

微信