今天给大家推荐的是由上海交通大学NSEC实验室投稿的,来自NDSS 2023的一篇文章——“ : Responsible Identity Audit Governing the Artificial Intelligence”,作者针对人工智能训练数据与模型版权窃取问题,提出首个基于可信第三方身份审计的数据集与模型身份版权保护方案。
研究背景
以深度学习为代表的人工智能技术正广泛应用于各个领域,例如图像识别、自然语言处理和自动驾驶,其中大规模训练数据集和深度神经网络模型发挥了重要作用。由于数据集收集(包含抓取和注释)和深度神经网络模型训练需要投入大量人力和计算资源,深度学习数据集与模型,尤其是需要专业知识才能获得的高质量数据集与模型(例如,在基于深度学习的药物开发任务中),是需要被保护的高价值知识产权。因此,保护数据集和模型免遭未经授权的复制或不当使用非常重要。
威胁模型
作者将版权拥有者(或称,受害者,防御者)与版权侵犯嫌疑人(或称,敌手,攻击者)分别记为 和 。 (或 )的数据集和模型记为 (或 )和 (或 )。出于竞争原因,本方法假设受害者和敌手都对相同的监督分类任务感兴趣。敌手的目标是构建一个与受害者具有相似表现的深度学习模型,但不知道受害者数据分布。深度学习流程中针对受害者数据集与模型版权( , )的威胁分类如下:
-
威胁❶:侵犯数据集版权。由于模型的表现高度依赖于训练数据质量,因此敌手旨在通过窃取 来构建 以训练高质量模型。敌手可以利用操作系统漏洞或侧信道攻击来窃取 。此外,敌手可以是直接获取数据集的内部攻击者。例如, 公司的一位低级别的前员工在离职时带走了 。在窃取数据集 之后,借助 的子集和敌手的与 具有相似分布的无交集数据,敌手的目标是构建自己的数据集 ,以保持数据效用。此外,敌手不会修改 的样本以保留数据实用性。最后,敌手借助 训练模型 以达到接近 的测试精度。
-
威胁❷:侵犯模型版权。在这一类威胁中,敌手旨在直接窃取模型 。敌手可以利用操作系统漏洞或侧信道攻击来窃取模型 ,敌手也可能是内部攻击者(例如,前雇员)。为了逃避潜在的基于审计的版权保护方法,敌手以成本远低于从零开始训练的成本,通过故意修改模型 来构建 。相关方法包含模型量化(Quantization)、剪枝(Pruning)或微调(Finetuning)。其中,模型微调是在敌手自己拥有,与 相似分布且无相交的数据上进行的。
-
威胁❸:不受信任的服务器。除了直接侵权之外,在这一类中,敌手(例如,云提供商)偷偷压缩部署的模型 以降低 的准确性为代价来减少能量消耗,或者试图通过修改 ,引起模型偏见或隐私问题来降低受害者的深度学习服务质量,损害其声誉并降低其竞争力。敌手过恶意微调模型来诱导模型不公平推理或注入模型后门,并在修改后的模型引发诉讼时指控受害者。与威胁❷不同的是,敌手并不以模型所有权为目标,而是擅自更改模型设计。
本文考虑的防御假设包含:
防御者(可信第三方和受害者)1)无法访问 ,2)通过查询置信度分数来黑盒访问 。
本文考虑的防御目标包含:
防御者的目标是:1)通过 和 之间的相似性估计来检测数据集版权侵权,2)通过 和 之间的相似性估计来检测模型版权侵权,以及3)限制查询次数以提高效率。
图1. 人工智能开发管道中的版权威胁
解决方案
本文所提出的解决方案包含以下三个模块:数据集相似度评估模块,模型参数相似度评估模块,基于可信第三方的审计模块。数据集相似度评估模块通过估计数据集版权拥有者与潜在的数据集版权侵犯者的相似度,得到数据集相似度 ,来判断后者窃取了前者的数据集版权:如果数据集相似度 , 那么说明两数据集相似度极高,存在版权侵犯的较大可能。否则,则两数据集无关,不涉及数据集版权侵犯。相似地,模型参数相似度评估模块通过估计两模型的参数相似度 ,进而依据模型参数相似度判定是否存在模型版权侵犯。
最后,基于承诺机制组成,本方法设计了基于可信第三方的审计模块。与现有的版权保护系统类似,该模块允许版权拥有者将其拥有的数据集与模型版权进行注册。同时,该模块可以在发生版权纠纷时,在版权拥有者的要求下,对潜在的版权侵犯方进行身份审计:通过估计数据集与模型的相似度,得到其数据集与模型版权信息,并依据注册顺序判断是否存在版权侵犯。两阶段的具体描述如下:
-
注册:
受害者(版权拥有者)调用 ) 提取密钥配对 向可信第三方提交验证密钥 进行注册。 -
身份审计:
1.可信第三方根据受害者的请求使用受害者提供的标记密钥mk查询f_A,从而估计数据集和模型相似度 。
2.第三方通过调用 判断两方(为0和1为索引标识)的版权纠纷的真正所有者,得到输出 作为判断所有者方索引。
图2.基于可信第三方的神经网络模型与训练数据集的身份审计方法版权拥有者(受害者),可信第三方与版权侵犯方(敌手)在注册与身份审计中的交互示意图
方法实现
数据集相似度估计
为了估计相似度(例如,0.0,0.1,…,1.0)并将每个目标相似度对应到在此数据集相似度下模型输出分布。首先,均匀采样一个估计子集 (例如,占比为 的1%的子集)。然后,准备一个查找表 用于记录每一个目标数据集相似度与在具有该相似度的数据集上训练模型在 上的输出的双射对应关系。估计 模型的训练数据 与 相似度时,在查找表中查询输出最接近于真实 的相似度值,即可得到估计值 。
图3.数据集相似度估计流程示意图
模型相似度估计
具体而言,防御者通过向自己的模型 输入 长度的独立分布高斯噪音,来预先收集自己模型的模型投影 。然后,再训练一个自动编码器 来捕获 的潜在分布,并通过例如微调若干轮等方式确定与独立模型的误差界限 。 为了估计相似性,使用 符合独立同分布的高斯噪音查询可疑模型 并使用自动编码器的重构误差计算 。然后使用估计的相似性来解决潜在的模型修改。若 与 为独立训练得到的,则重构误差接近 ,满足 。通常,除了独立模型的情况,本方法还能识别以下两种模型修改:
•静态修改 敌手模型与 共享相同的权重。此外,可以应用模型压缩技术(即量化或修剪)来加速推理。
•微调 () :敌手模型是使用与 分布相似的数据经过微调 得到的。
图4.模型修改识别流程示意图
安全性分析
作者假设独立创造的两个数据集/模型的相似度为0,即独立生成的数据集/模型不与已存在的任何数据集/模型相似。基于该假设与承诺机制的隐藏性(Hiding)与绑定性(Binding),作者可以证明以下安全性质:
-
非平凡身份。 对手无法提前制作一对对应任意注册的数据集或模型的密钥对 ,即使知道估计算法。
-
身份不可移除性。 即使知道估计算法,对手无法在远低于所需独立创作的时间 内更改数据集或模型身份,同时保留其可用性。
-
身份不可伪造性。 即使对手知道密钥 ,她无法说服第三方拥有高度相似的数据集或模型。
-
注册保序性。 万一对手窃取数据集或模型(例如,通过内部攻击),对手无法利用本文所提出的方案声明由实际所有者已注册的数据集或模型的版权所有权。
实验验证
本文在CIFAR-10/100, Tiny-ImageNet,AG-News(文本),UTKFace,FairFace数据集上利用14种不同的模型架构,考虑了攻击者对模型训练学习率、训练轮数、数据增强机制、权重衰减、窃取数据集大小等变量,验证了数据集与模型相似度估计方法的准确性。同时实验验证了,在攻击者的针对性措施(例如更改图片数据的颜色、清晰度,使用对抗训练以增大模型权重的更改幅度等操作)下的准确性。
论文下载:https://www.ndss-symposium.org/wp-content/uploads/2023/02/ndss2023_f1012_paper.pdf
代码下载:https://github.com/chichidd/RAI2
投稿作者介绍:
董天 上海交通大学
上海交通大学计算机科学与工程系博士生,网络安全与隐私保护实验室 (NSEC Lab)。目前主要研究方向是人工智能安全、数据安全与隐私保护等。
实验室主页:https://nsec.sjtu.edu.cn/
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论