G.O.S.S.I.P 阅读推荐 2023-03-23 RAI2

2023年3月24日23:35:28评论14 views字数 3773阅读12分34秒阅读模式

今天给大家推荐的是由上海交通大学NSEC实验室投稿的，来自NDSS 2023的一篇文章——“ : Responsible Identity Audit Governing the Artificial Intelligence”，作者针对人工智能训练数据与模型版权窃取问题，提出首个基于可信第三方身份审计的数据集与模型身份版权保护方案。 G.O.S.S.I.P 阅读推荐 2023-03-23 RAI2

研究背景

以深度学习为代表的人工智能技术正广泛应用于各个领域，例如图像识别、自然语言处理和自动驾驶，其中大规模训练数据集和深度神经网络模型发挥了重要作用。由于数据集收集（包含抓取和注释）和深度神经网络模型训练需要投入大量人力和计算资源，深度学习数据集与模型，尤其是需要专业知识才能获得的高质量数据集与模型（例如，在基于深度学习的药物开发任务中），是需要被保护的高价值知识产权。因此，保护数据集和模型免遭未经授权的复制或不当使用非常重要。

威胁模型

作者将版权拥有者（或称，受害者，防御者）与版权侵犯嫌疑人（或称，敌手，攻击者）分别记为 $V$ 和。（或）的数据集和模型记为（或）和（或）。出于竞争原因，本方法假设受害者和敌手都对相同的监督分类任务感兴趣。敌手的目标是构建一个与受害者具有相似表现的深度学习模型，但不知道受害者数据分布。深度学习流程中针对受害者数据集与模型版权（，）的威胁分类如下：

威胁❶：侵犯数据集版权。由于模型的表现高度依赖于训练数据质量，因此敌手旨在通过窃取 $X_{V}$ 来构建以训练高质量模型。敌手可以利用操作系统漏洞或侧信道攻击来窃取。此外，敌手可以是直接获取数据集的内部攻击者。例如，公司的一位低级别的前员工在离职时带走了。在窃取数据集之后，借助的子集和敌手的与具有相似分布的无交集数据，敌手的目标是构建自己的数据集，以保持数据效用。此外，敌手不会修改的样本以保留数据实用性。最后，敌手借助训练模型以达到接近的测试精度。
威胁❷：侵犯模型版权。在这一类威胁中，敌手旨在直接窃取模型。敌手可以利用操作系统漏洞或侧信道攻击来窃取模型，敌手也可能是内部攻击者（例如，前雇员）。为了逃避潜在的基于审计的版权保护方法，敌手以成本远低于从零开始训练的成本，通过故意修改模型来构建。相关方法包含模型量化(Quantization)、剪枝(Pruning)或微调(Finetuning)。其中，模型微调是在敌手自己拥有，与相似分布且无相交的数据上进行的。
威胁❸：不受信任的服务器。除了直接侵权之外，在这一类中，敌手（例如，云提供商）偷偷压缩部署的模型以降低的准确性为代价来减少能量消耗，或者试图通过修改，引起模型偏见或隐私问题来降低受害者的深度学习服务质量，损害其声誉并降低其竞争力。敌手过恶意微调模型来诱导模型不公平推理或注入模型后门，并在修改后的模型引发诉讼时指控受害者。与威胁❷不同的是，敌手并不以模型所有权为目标，而是擅自更改模型设计。

本文考虑的防御假设包含：
防御者（可信第三方和受害者）1）无法访问，2）通过查询置信度分数来黑盒访问。
本文考虑的防御目标包含：
防御者的目标是：1）通过和之间的相似性估计来检测数据集版权侵权，2）通过和之间的相似性估计来检测模型版权侵权，以及3）限制查询次数以提高效率。

G.O.S.S.I.P 阅读推荐 2023-03-23 RAI2
图1. 人工智能开发管道中的版权威胁

解决方案

本文所提出的解决方案包含以下三个模块：数据集相似度评估模块，模型参数相似度评估模块，基于可信第三方的审计模块。数据集相似度评估模块通过估计数据集版权拥有者与潜在的数据集版权侵犯者的相似度，得到数据集相似度，来判断后者窃取了前者的数据集版权：如果数据集相似度，那么说明两数据集相似度极高，存在版权侵犯的较大可能。否则，则两数据集无关，不涉及数据集版权侵犯。相似地，模型参数相似度评估模块通过估计两模型的参数相似度，进而依据模型参数相似度判定是否存在模型版权侵犯。

最后，基于承诺机制组成，本方法设计了基于可信第三方的审计模块。与现有的版权保护系统类似，该模块允许版权拥有者将其拥有的数据集与模型版权进行注册。同时，该模块可以在发生版权纠纷时，在版权拥有者的要求下，对潜在的版权侵犯方进行身份审计：通过估计数据集与模型的相似度，得到其数据集与模型版权信息，并依据注册顺序判断是否存在版权侵犯。两阶段的具体描述如下：

注册：
受害者（版权拥有者）调用）提取密钥配对向可信第三方提交验证密钥进行注册。
身份审计：
1.可信第三方根据受害者的请求使用受害者提供的标记密钥mk查询f_A，从而估计数据集和模型相似度。
2.第三方通过调用判断两方（为0和1为索引标识）的版权纠纷的真正所有者，得到输出作为判断所有者方索引。

G.O.S.S.I.P 阅读推荐 2023-03-23 RAI2
图2.基于可信第三方的神经网络模型与训练数据集的身份审计方法版权拥有者（受害者），可信第三方与版权侵犯方（敌手）在注册与身份审计中的交互示意图

方法实现

数据集相似度估计

数据集相似度评估模块的功能为对数据集与数据集进行相似度评估，其中与为两个包含数据元素的集合。这里，本方法将两数据集相似度定义为相交的元素数量在数据集中的占比，即，其中表示集合中元素的数量。该相似度度量为非对称的，这是因为版权纠纷中往往版权拥有者（即，发起身份审计）一方的利益为需要考虑的，因此仅需要评估拥有者数据集中有多少数据被窃取。在定义中，可以将视作原始版权拥有者的数据集，将视作被审计一方的数据集，得到的可以用于评估有多少样本窃取自。
为了估计相似度（例如，0.0,0.1,…,1.0）并将每个目标相似度对应到在此数据集相似度下模型输出分布。首先，均匀采样一个估计子集（例如，占比为的1%的子集）。然后，准备一个查找表用于记录每一个目标数据集相似度与在具有该相似度的数据集上训练模型在上的输出的双射对应关系。估计模型的训练数据与相似度时，在查找表中查询输出最接近于真实的相似度值，即可得到估计值。

G.O.S.S.I.P 阅读推荐 2023-03-23 RAI2
图3.数据集相似度估计流程示意图

模型相似度估计

由于敌手潜在的模型修改种类多，对参数影响不相同，直接进行模型参数会受模型修改种类不同而变化，难以在模型参数层面设计统一的相似度标准。受随机投影（Random Projection）方法启发，本文拟通过随机高斯噪音输入模型，生成模型投影，并通过比较模型投影的近似度，估计模型相似度  ，并最终根据估计值  对模型修改类型进行判别。
具体而言，防御者通过向自己的模型  输入  长度的独立分布高斯噪音，来预先收集自己模型的模型投影  。然后，再训练一个自动编码器  来捕获  的潜在分布，并通过例如微调若干轮等方式确定与独立模型的误差界限。为了估计相似性，使用  符合独立同分布的高斯噪音查询可疑模型  并使用自动编码器的重构误差计算  。然后使用估计的相似性来解决潜在的模型修改。若  与  为独立训练得到的，则重构误差接近  ，满足  。通常，除了独立模型的情况，本方法还能识别以下两种模型修改：
•静态修改  敌手模型与  共享相同的权重。此外，可以应用模型压缩技术（即量化或修剪）来加速推理。
•微调（）：敌手模型是使用与  分布相似的数据经过微调  得到的。

G.O.S.S.I.P 阅读推荐 2023-03-23 RAI2
图4.模型修改识别流程示意图

安全性分析

作者假设独立创造的两个数据集/模型的相似度为0，即独立生成的数据集/模型不与已存在的任何数据集/模型相似。基于该假设与承诺机制的隐藏性（Hiding）与绑定性（Binding），作者可以证明以下安全性质：

非平凡身份。对手无法提前制作一对对应任意注册的数据集或模型的密钥对，即使知道估计算法。
身份不可移除性。即使知道估计算法，对手无法在远低于所需独立创作的时间内更改数据集或模型身份，同时保留其可用性。
身份不可伪造性。即使对手知道密钥，她无法说服第三方拥有高度相似的数据集或模型。

实验验证

本文在CIFAR-10/100， Tiny-ImageNet，AG-News（文本），UTKFace，FairFace数据集上利用14种不同的模型架构，考虑了攻击者对模型训练学习率、训练轮数、数据增强机制、权重衰减、窃取数据集大小等变量，验证了数据集与模型相似度估计方法的准确性。同时实验验证了，在攻击者的针对性措施（例如更改图片数据的颜色、清晰度，使用对抗训练以增大模型权重的更改幅度等操作）下的准确性。

论文下载：https://www.ndss-symposium.org/wp-content/uploads/2023/02/ndss2023_f1012_paper.pdf

代码下载：https://github.com/chichidd/RAI2

投稿作者介绍：

董天上海交通大学

上海交通大学计算机科学与工程系博士生，网络安全与隐私保护实验室 (NSEC Lab)。目前主要研究方向是人工智能安全、数据安全与隐私保护等。
实验室主页：https://nsec.sjtu.edu.cn/

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

G.O.S.S.I.P 阅读推荐 2023-03-23 RAI2

研究背景

威胁模型

解决方案

方法实现

数据集相似度估计

模型相似度估计

安全性分析

实验验证

董天上海交通大学

G.O.S.S.I.P 阅读推荐 2025-06-26 RAG Trackback

如何做好IT资产管理

近期勒索软件组织Qilin如此活跃 | 什么来头？

5 分钟零配置！一键搭建局域网文件共享服务器（手机 / 电脑互传必备）

0day漏洞攻防竞赛：东大与美国的隐秘战争

BreachForums暗网论坛看来是真凉了

NSFOCUS旧友记王艳《往事值得回味》

信息科技关键风险指标监测（ KRI ）

Splunk系列：Splunk字段提取篇（三）

ubuntu 环境下的 docker 安装

发表评论

在线咨询

微信

研究背景

威胁模型

解决方案

方法实现

数据集相似度估计

模型相似度估计

安全性分析

实验验证

董天 上海交通大学

发表评论

在线咨询

微信

董天上海交通大学