G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案

admin 2023年12月5日02:33:52评论57 views字数 2843阅读9分28秒阅读模式

近日,首例AI创作内容侵犯著作权案的裁决结果公布,引发了人们对大型模型时代版权保护问题的关注。随着大 模型的性能不断提升,在情感分析、文段总结归纳以及语言翻译等下游任务中,其准确性和熟练程度已经接近甚至 超越了人类水平。大模型提示 (Prompt) 是人与大模型之间的沟通纽带,引导大模型输出高质量内容,在其中发挥 了重要的作用。一个优质的提示能够引导模型生成高质量且富有创意的内容,有时甚至能决定某个任务的成败。此 外,用于训练提示的特定数据集可能包含敏感的个人信息,如果提示被泄露,这些信息容易受到隐私推理攻击。目 前,尚无针对大型模型使用场景中提示版权保护方案的研究。随着提示在各个场景中的广泛应用,如何保护其版权 已经成为一个亟待解决的问题。

近日,浙江大学网络空间安全学院的最新研究成果PromptCARE: Prompt Copyright Protection by Watermark Injection and Verification,提出了首个基于双层优化的水印注入与验证方案,在不破坏大模型提 示的前提下,实现了大模型提示词版权验证,该研究目前已被IEEE S&P 2024接收。

G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案

众所周知,版权保护是人工智能领域的一大难题。现有研究主要关注模型和数据集的版权保护,其技术路线主要 包括数据集推断、模型指纹和模型水印。目前,水印技术已广泛应用于检测给定文本是否由特定大型模型生成。然而,为模型和数据集版权保护而设计的水印并不适用于提示词版权保护,提示词版权保护面临着许多挑战。首先,大型模型提示通常仅包含几个单词,如何在低信息熵的提示中注入水印是一个挑战。其次,在处理文本分类任务时,大型模型的输出仅包含几个离散的文本单词,如何使用低信息熵的文本单词验证提示水印也存在挑战。此外,一旦提示词被窃取并部署到在线提示服务后,攻击者可以通过过滤查中的单词、截断大型模型输出单词等方式干扰水印的验证过程。

PromptCARE框架

通常来说,在自然语言分类问题中,针对测试样本  ,其中,  为查询语句,  为”标签单词(label token)“集合,大模型的输出预测单词为  。当预测单词存在于分类”标签单词“集合中(即:  ),判定大模 型预测成功。在该研究中,作者提出引入“信号单词(signal token)”  的概念,这些“信号单词“作为水印的密文数 据,当且仅当输入语句包含特定触发器(trigger)的时候,大模型才输出这些”信号单词“。

框架概述

G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案

在该研究中,作者首次提出了名为 PromptCARE 的提示词版权保护框架,该框架运用水印注入与验证的手段, 实现了对提示词版权的有力保护。PromptCARE 水印包含两个关键步骤:水印注入与水印验证。(1)在水印注入 阶段,作者提出一种基于min-min的双层优化的训练方法,同时训练了一个提示词  和一个触发器  。当输入语句不携带触发器,大模型功能正常;当输入语句携带触发器,大模型输出预先指定单词。(2)在水印验 证阶段,作者提出假设检验方法,观察大模型输出单词的分布,验证者可以建立假设检验模型,从而验证提示是否 存在水印。

水印注入

G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案

如上图所示,作者首先提出了一种名为“top-2K”的“信号单词”选择策略,其中K代表每个类别“标签单词”的数量。在确定K个“信号单词”后,将这些单词注入每个类别的“标签单词”中,作为水印数据集的新标签。些“信号单词”作 为水印的密文信息,通过随机梯度下降法嵌入到提示词中。

在此基础上,作者提出一种基于min-min的双层优化的训练方法,在训练提示词任务的同时训练水印任务。下层优化训练提示词  ,输入查询语句和提示词  的时候,大模型正常输出“标签单词”,此时优化提示词  ;当输入查询语句、提示词和预先设定触发器  的时候,大模型输出特定的“信号单词”,此时优化触发器  。通过交替训练   和  的时候,最终将密文信息注入到提示词  中。

水印验证

G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案

如图 3 所示,在验证水印的阶段,作者通过在输入语句中添加预设的触发器来进行水印验证。通常情况下,大模 型会正常执行预测;当输入添加预设的触发器后,大模型将激活水印功能并输出”信号单词“。在实际使用场景中, 验证者将携带触发器的数据输入到添加过水印的大模型服务和待检测的未知大模型服务,统计输出预测单词的分 布,建立t-test假设检验模型,验证两个预测分布是否相似以确定检测的未知大模型服务是否使用了携带水印的提 示词。

实验与结论

最后,作者采用6个基准数据集和3个通用的大模型(BERT、RoBERTa 和 Facebook OPT)进行了大规模的实验 以验证PromptCARE的有效性(Effectiveness)、无害性(Harmlessness)、鲁棒性(Robustness)和隐蔽性 (Stealthiness)。值得一提的是,该工作针对商用大模型LLaMA样例学习实验,实验结果表明,PromptCARE能 有效保护商用大模型所使用的提示词版权。

G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案

不久前,该研究受到了国际性科学杂志《New Scientist》的采访。在采访中,作者向记者介绍了大模型提示的 版权保护的现状与突出问题,并详细介绍了团队在大模型提示版权保护方面取得的最新研究进展。作者期望这项工 作能够激发学术界和工业界对大模型提示隐私和版权保护的关注,提出更多大模型提示的隐私和版权保护方案,尤 其是针对商用大模型。

G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案

(图片来源:https://www.newscientist.com/article/2388071-what-is-an-ai-prompt-engineer-and-does-every-company-need-one/)


论文链接:https://arxiv.org/abs/2308.02816 

代码链接:

https://github.com/grasses/PromptCARE


投稿作者介绍:

姚宏伟,浙江大学网络空间安全学院博士研究生,导师为秦湛老师,研究方向为人工智能安全、大模型安全。

娄坚(https://sites.google.com/view/jianlou),浙江大学杭州国际科创中心百人计划研究员,研究方向为数据安全与隐私保护、人工智能安全。

秦湛(https://person.zju.edu.cn/qinzhan),浙江大学网络空间安全学院副院长,国家创新人才青年项目,浙江大学百人计划研究员,博士生导师,研究方向为数据安全与隐私保护、人工智能安全。

任奎(https://person.zju.edu.cn/kuiren),浙江大学求是讲教授,ACM、CCF和IEEE会士,浙江大学网络空间安全学院院长,计算机科学与技术学院副院长,区块链与数据安全全国重点实验室副主任。任奎教授主要从事数据安全与隐私保护、人工智能安全、物联网安全等领域的研究。

原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年12月5日02:33:52
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   G.O.S.S.I.P 阅读推荐 2023-12-01 PromptCARE,首个大模型提示词版权保护方案https://cn-sec.com/archives/2261439.html

发表评论

匿名网友 填写信息