AI产业的版权危机:Meta大模型完整记忆了《哈利·波特》

admin 2025年6月27日01:30:10评论7 views字数 1724阅读5分44秒阅读模式
AI产业的版权危机:Meta大模型完整记忆了《哈利·波特》

在大模型版权争议愈演愈烈的背景下,来自斯坦福大学、康奈尔大学与西弗吉尼亚大学的联合研究抛出惊人发现:Meta旗下的Llama3.1大型语言模型,能够复现《哈利·波特与魔法石》高达91%的内容,显示其极可能已“完整记忆”了这本全球畅销书的文本。

这一结论,或许将对AI行业的版权边界判定带来决定性影响。

大模型的本质是“盗版分销商”?

研究人员通过向多个公开可用的大语言模型(LLM)输入《哈利·波特》中的短文本片段,并测量其输出后续内容的准确程度,从而评估模型对原书的“记忆力”。在Llama 3.1,70B这个版本中,模型表现出了极高的还原率。

研究采用了一种名为“token重叠预测”的技术:将书籍内容切分为100个token(大致为词语或符号)为一组的片段,再向模型提供前50个token,并评估其生成剩余部分的能力。最终,该方法成功复现了《魔法石》91%的内容。

“如果它没记住,几乎不可能连续猜中这么多单词。”——康奈尔大学数字法教授James Grimmelmann指出,这种再现精度几乎不可能是偶然。

Meta及其他科技巨头一直宣称其AI模型是“生成式”的,即通过算法生成全新内容,而非储存与复制现有文本。但该研究却动摇了这一立场。

“我们证明了大模型既不是图书搜索引擎,也不是创意型生成工具,而是一种介于两者之间的新物种。”论文作者、斯坦福大学的Mark Lemley表示。换言之,如果模型确实记住了整本书,那它不仅是基于该书训练,更是其数字翻版。

在法律上,这种行为可能被视为“非法复制”,而非“合理使用”。按照目前的美国版权法,如果一个系统内嵌或能输出未经许可的完整受版权内容,那么无论其形式多么复杂,本质上都可能构成侵权

更令人震惊的是:Llama3.1,70B自发布以来被下载超过百万次。如果法院最终认定其包含《哈利·波特》的完整文本,那么Meta可能已经“分发”了100万份盗版图书。

版权法的“核选项”:摧毁模型?

一旦某模型被认定为“非法复制品”,是否意味着法律上可以要求其“被销毁”?

研究作者在论文中提出了一个类比:如果某人拥有了储存100部盗版电影的硬盘,法院可以命令销毁这块硬盘;同理,如果AI模型本身“等于”一本未经授权的小说,那么发布和部署该模型就可能违法。这为AI产业带来了前所未有的合规风险。

尽管当前还没有法院对AI模型做出“摧毁”判决,但一旦该逻辑成立,不仅会波及Meta,还可能牵连所有训练过程缺乏清晰版权清单的大模型供应商。

值得注意的是,并非所有模型或图书都被“记住”了。研究人员指出,Llama3.1版本与其他模型的差异,可能源于训练时是否去重、哪些数据集被保留等关键工程决策。例如,《权力的游戏》也被高度复现,但《暮光之城》却几乎没有被记住。

这与Meta曾使用的“Books3”数据集密切相关——这是一个广受争议的数据集,包含大量受版权保护的图书内容。虽然Meta并未公开其训练数据,但分析认为该数据集很可能是Llama 3.1记住《哈利·波特》的直接原因。

AI产业的版权红线

当前,包括OpenAI在内的多家公司承认“过度记忆”是一种训练失误,而非设计目标。但此次研究为政策制定者提供了一个“可量化”的标准:一旦模型能够还原超过一定比例的原文内容,就可认定为侵权。

Grimmelmann教授指出:“这反而是一个好消息。监管者终于有了‘量尺’:比如记住超过某个比例,就算违法。之后就由开发者负责如何避免记忆超限。”

这将催生新的技术需求,例如自动检测模型输出中的版权重合度、训练前的版权筛选,以及基于风险分级的模型部署管控。

Llama3.1或许只是冰山一角。在大模型训练纷纷触碰“知识产权灰域”的当下,这项研究重新点燃了对AI模型合法性的根本追问:如果一台机器能无误地背诵整本畅销书,它还是在“创作”吗?还是仅仅披着“智能”外衣的海盗?

未来,AI公司也许必须面对一个前所未有的问题:你训练的不只是模型,而可能是一座数字图书馆——而你从未付过版权费。

参考链接:https://arxiv.org/pdf/2505.12546

AI产业的版权危机:Meta大模型完整记忆了《哈利·波特》

END

原文始发于微信公众号(GoUpSec):AI产业的版权危机:Meta大模型完整记忆了《哈利·波特》

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年6月27日01:30:10
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   AI产业的版权危机:Meta大模型完整记忆了《哈利·波特》https://cn-sec.com/archives/4203534.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息