AI产业的版权危机：Meta大模型完整记忆了《哈利·波特》

2025年6月27日01:30:10评论7 views字数 1724阅读5分44秒阅读模式

在大模型版权争议愈演愈烈的背景下，来自斯坦福大学、康奈尔大学与西弗吉尼亚大学的联合研究抛出惊人发现：Meta旗下的Llama3.1大型语言模型，能够复现《哈利·波特与魔法石》高达91%的内容，显示其极可能已“完整记忆”了这本全球畅销书的文本。

这一结论，或许将对AI行业的版权边界判定带来决定性影响。

大模型的本质是“盗版分销商”？

研究人员通过向多个公开可用的大语言模型（LLM）输入《哈利·波特》中的短文本片段，并测量其输出后续内容的准确程度，从而评估模型对原书的“记忆力”。在Llama 3.1，70B这个版本中，模型表现出了极高的还原率。

研究采用了一种名为“token重叠预测”的技术：将书籍内容切分为100个token（大致为词语或符号）为一组的片段，再向模型提供前50个token，并评估其生成剩余部分的能力。最终，该方法成功复现了《魔法石》91%的内容。

“如果它没记住，几乎不可能连续猜中这么多单词。”——康奈尔大学数字法教授James Grimmelmann指出，这种再现精度几乎不可能是偶然。

Meta及其他科技巨头一直宣称其AI模型是“生成式”的，即通过算法生成全新内容，而非储存与复制现有文本。但该研究却动摇了这一立场。

“我们证明了大模型既不是图书搜索引擎，也不是创意型生成工具，而是一种介于两者之间的新物种。”论文作者、斯坦福大学的Mark Lemley表示。换言之，如果模型确实记住了整本书，那它不仅是基于该书训练，更是其数字翻版。

在法律上，这种行为可能被视为“非法复制”，而非“合理使用”。按照目前的美国版权法，如果一个系统内嵌或能输出未经许可的完整受版权内容，那么无论其形式多么复杂，本质上都可能构成侵权。

更令人震惊的是：Llama3.1，70B自发布以来被下载超过百万次。如果法院最终认定其包含《哈利·波特》的完整文本，那么Meta可能已经“分发”了100万份盗版图书。

版权法的“核选项”：摧毁模型？

一旦某模型被认定为“非法复制品”，是否意味着法律上可以要求其“被销毁”？

研究作者在论文中提出了一个类比：如果某人拥有了储存100部盗版电影的硬盘，法院可以命令销毁这块硬盘；同理，如果AI模型本身“等于”一本未经授权的小说，那么发布和部署该模型就可能违法。这为AI产业带来了前所未有的合规风险。

尽管当前还没有法院对AI模型做出“摧毁”判决，但一旦该逻辑成立，不仅会波及Meta，还可能牵连所有训练过程缺乏清晰版权清单的大模型供应商。

值得注意的是，并非所有模型或图书都被“记住”了。研究人员指出，Llama3.1版本与其他模型的差异，可能源于训练时是否去重、哪些数据集被保留等关键工程决策。例如，《权力的游戏》也被高度复现，但《暮光之城》却几乎没有被记住。

这与Meta曾使用的“Books3”数据集密切相关——这是一个广受争议的数据集，包含大量受版权保护的图书内容。虽然Meta并未公开其训练数据，但分析认为该数据集很可能是Llama 3.1记住《哈利·波特》的直接原因。

AI产业的版权红线

当前，包括OpenAI在内的多家公司承认“过度记忆”是一种训练失误，而非设计目标。但此次研究为政策制定者提供了一个“可量化”的标准：一旦模型能够还原超过一定比例的原文内容，就可认定为侵权。

Grimmelmann教授指出：“这反而是一个好消息。监管者终于有了‘量尺’：比如记住超过某个比例，就算违法。之后就由开发者负责如何避免记忆超限。”

这将催生新的技术需求，例如自动检测模型输出中的版权重合度、训练前的版权筛选，以及基于风险分级的模型部署管控。

Llama3.1或许只是冰山一角。在大模型训练纷纷触碰“知识产权灰域”的当下，这项研究重新点燃了对AI模型合法性的根本追问：如果一台机器能无误地背诵整本畅销书，它还是在“创作”吗？还是仅仅披着“智能”外衣的海盗？

未来，AI公司也许必须面对一个前所未有的问题：你训练的不只是模型，而可能是一座数字图书馆——而你从未付过版权费。

参考链接：https://arxiv.org/pdf/2505.12546

END

原文始发于微信公众号（GoUpSec）：AI产业的版权危机：Meta大模型完整记忆了《哈利·波特》

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

ChatGPT官方网络安全类GPTs推荐清单，及提示词破解