在大模型版权争议愈演愈烈的背景下,来自斯坦福大学、康奈尔大学与西弗吉尼亚大学的联合研究抛出惊人发现:Meta旗下的Llama3.1大型语言模型,能够复现《哈利·波特与魔法石》高达91%的内容,显示其极可能已“完整记忆”了这本全球畅销书的文本。
这一结论,或许将对AI行业的版权边界判定带来决定性影响。
大模型的本质是“盗版分销商”?
研究人员通过向多个公开可用的大语言模型(LLM)输入《哈利·波特》中的短文本片段,并测量其输出后续内容的准确程度,从而评估模型对原书的“记忆力”。在Llama 3.1,70B这个版本中,模型表现出了极高的还原率。
研究采用了一种名为“token重叠预测”的技术:将书籍内容切分为100个token(大致为词语或符号)为一组的片段,再向模型提供前50个token,并评估其生成剩余部分的能力。最终,该方法成功复现了《魔法石》91%的内容。
“如果它没记住,几乎不可能连续猜中这么多单词。”——康奈尔大学数字法教授James Grimmelmann指出,这种再现精度几乎不可能是偶然。
Meta及其他科技巨头一直宣称其AI模型是“生成式”的,即通过算法生成全新内容,而非储存与复制现有文本。但该研究却动摇了这一立场。
“我们证明了大模型既不是图书搜索引擎,也不是创意型生成工具,而是一种介于两者之间的新物种。”论文作者、斯坦福大学的Mark Lemley表示。换言之,如果模型确实记住了整本书,那它不仅是基于该书训练,更是其数字翻版。
在法律上,这种行为可能被视为“非法复制”,而非“合理使用”。按照目前的美国版权法,如果一个系统内嵌或能输出未经许可的完整受版权内容,那么无论其形式多么复杂,本质上都可能构成侵权。
更令人震惊的是:Llama3.1,70B自发布以来被下载超过百万次。如果法院最终认定其包含《哈利·波特》的完整文本,那么Meta可能已经“分发”了100万份盗版图书。
版权法的“核选项”:摧毁模型?
一旦某模型被认定为“非法复制品”,是否意味着法律上可以要求其“被销毁”?
研究作者在论文中提出了一个类比:如果某人拥有了储存100部盗版电影的硬盘,法院可以命令销毁这块硬盘;同理,如果AI模型本身“等于”一本未经授权的小说,那么发布和部署该模型就可能违法。这为AI产业带来了前所未有的合规风险。
尽管当前还没有法院对AI模型做出“摧毁”判决,但一旦该逻辑成立,不仅会波及Meta,还可能牵连所有训练过程缺乏清晰版权清单的大模型供应商。
值得注意的是,并非所有模型或图书都被“记住”了。研究人员指出,Llama3.1版本与其他模型的差异,可能源于训练时是否去重、哪些数据集被保留等关键工程决策。例如,《权力的游戏》也被高度复现,但《暮光之城》却几乎没有被记住。
这与Meta曾使用的“Books3”数据集密切相关——这是一个广受争议的数据集,包含大量受版权保护的图书内容。虽然Meta并未公开其训练数据,但分析认为该数据集很可能是Llama 3.1记住《哈利·波特》的直接原因。
AI产业的版权红线
当前,包括OpenAI在内的多家公司承认“过度记忆”是一种训练失误,而非设计目标。但此次研究为政策制定者提供了一个“可量化”的标准:一旦模型能够还原超过一定比例的原文内容,就可认定为侵权。
Grimmelmann教授指出:“这反而是一个好消息。监管者终于有了‘量尺’:比如记住超过某个比例,就算违法。之后就由开发者负责如何避免记忆超限。”
这将催生新的技术需求,例如自动检测模型输出中的版权重合度、训练前的版权筛选,以及基于风险分级的模型部署管控。
Llama3.1或许只是冰山一角。在大模型训练纷纷触碰“知识产权灰域”的当下,这项研究重新点燃了对AI模型合法性的根本追问:如果一台机器能无误地背诵整本畅销书,它还是在“创作”吗?还是仅仅披着“智能”外衣的海盗?
未来,AI公司也许必须面对一个前所未有的问题:你训练的不只是模型,而可能是一座数字图书馆——而你从未付过版权费。
参考链接:https://arxiv.org/pdf/2505.12546
END
原文始发于微信公众号(GoUpSec):AI产业的版权危机:Meta大模型完整记忆了《哈利·波特》
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论