大家好,今天给大家推荐的是由西安交通大学沈超研究组、香港城市大学王聪研究组和德国CISPA张阳研究组联合投稿的,关于迁移学习中教师模型推断攻击的文章Teacher Model Fingerprinting Attacks Against Transfer Learning,目前该工作已被发表在USENIX Security 2022。
在机器学习实践中,迁移学习已成为标注数据稀缺问题的常见解决方案。
在迁移学习中,开发者基于一个预训练模型(教师模型),根据下游任务训练数据对预训练模型结构或参数进行微调,快速构建出可以胜任下游任务的定制化模型(学生模型)。
现如今,预训练模型往往可以被公开访问和直接获取。例如深度学习框架Tensorflow、PyTorch,以及AI社区Hugging Face提供了多种预训练模型供开发者使用。
图片来源:https://huggingface.co/
本文指出,使用公开预训练模型进行迁移学习会显著提高模型信息泄露风险。
对此,本文提出了一种针对迁移学习模型的教师模型指纹攻击(teacher model fingerprinting attack),可以在黑盒模型场景下推断教师模型来源。
通过在多个数据集和预训练模型上的系统性实验评估,本文展示了所提出的教师模型指纹攻击可以准确地推断教师模型。
此外,本文还指出教师模型信息泄露可能引发后续风险,例如对抗样本攻击、模型窃取攻击等,并通过实验展示了教师模型信息泄露可以有效提升模型窃取攻击的有效性。
威胁模型
攻击意图
攻击者对目标学生模型发送一系列攻击样本,并通过分析相应的模型输出,推断出目标学生模型所使用的教师模型。
被攻击目标
被攻击目标为经迁移学习得到的学生模型,该学生模型中的大部分神经网络层来自于预训练教师模型。
本文主要考虑两种迁移学习策略:
预训练参数固定:
预训练神经网络层参数被固定,仅训练新添加神经网络层的参数。此时预训练部分被作为特征提取器使用。
预训练参数微调(fine-tuning):
部分预训练网络层参数同时参与训练,以使学生模型在下游任务上得到更好的拟合。
攻击者能力
候选教师模型:
本文假设攻击者从公开渠道获取到一组预训练候选教师模型。在攻击时,攻击者需要推断目标学生模型是否来自于某一个候选教师模型。
攻击数据集:
本文假设攻击者并不一定掌握教师模型或学生模型的训练数据,但可以从公开渠道获取同类型数据(例如攻击者借助鸟类图像数据攻击人脸识别模型)。
攻击者权限:
本文考察黑盒攻击,即攻击者仅可以向目标学生模型发送样本并获取模型输出,而无法获取模型内部信息,借此模拟通过API访问机器学习服务的场景。
此外,本文假定了一个更为严苛的攻击条件:模型仅返回Top-1分类标签,以最小化攻击者可获取的模型反馈信息。
方法介绍
如下图所示,本文所设计攻击的核心思路是对一个选定的探测输入𝑥(probing input),构造一个合成输入𝑥′(synthetic input),使二者在候选教师模型(candidate teacher model)上可以生成尽可能相似的中间特征。
当目标学生模型迁移自候选教师模型时,𝑥与𝑥′大概率会在学生模型中生成相似的中间特征,并产生相同的分类结果。
为了提高推断的可靠性,攻击者可以生成多对攻击样本(𝑥, 𝑥′),并逐对比较结果是否匹配。
匹配比例越高,目标学生模型来自于候选教师模型的概率就越大。
攻击者对所有候选教师模型重复上述攻击过程,并保留匹配比例最高的候选教师模型作为推断结果。
当最高匹配比例低于预先设定的阈值时,则认为目标模型并不来源于候选教师模型,此时推断结果为空。
下图展示了一组针对不同教师模型的合成输入示例。
实验评估
实验结果
本文实验主要涉及在7个预训练模型、6个不同数据集上生成的多个目标学生模型。
预训练参数固定时的攻击效果。
实验结果表明,当预训练参数固定时,教师模型指纹攻击可以准确地推断教师模型。在实验中,对于来源于候选教师模型集的126个学生模型,推断准确率达到100%。
预训练参数下的攻击效果。
预训练参数微调会改变来自教师模型的参数,进而影响中层特征表达过程,最终影响教师模型推断准确度。
下图展示了预训练参数微调规模对识别结果的影响,可以看出,模型微调会降低推断结果。
特别地,对于ResNet18、DenseNet121、MobileNetV2等包含Batch Normalization层的模型,模型微调会更明显地改变中间特征表达方式,从而更显著地减低推断准确率。
攻击样本数对攻击效果的影响。
下图展示了不同攻击样本数下的攻击效果。
总体而言,攻击样本数越多,攻击准确率越高。本文结果显示,当攻击样本数达到50(对/候选教师模型)时,即可以实现100%的攻击准确率。
探测数据集分布对攻击效果的影响。
在上述实验中,探测输入都来自于和下游任务无关的数据集VOC-Segmentation。
本文进一步发现,当探测数据集与学生模型训练集分布相同时,会有效提升推断准确率。
例如,下图给出了当探测输入来自于MNIST数据集时的攻击效果。
可以看到,对于MNIST任务上的学生模型,教师模型推断准确率得到显著提升。
教师模型指纹攻击辅助下的模型窃取。
本文还研究了迁移学习场景下的模型窃取攻击。
主要攻击流程包含两个步骤:
-
攻击者向目标模型发送一系列轮询样本并得到对应标签,构建替代模型训练数据集。
-
接着,攻击者在该数据集上进行迁移学习,并得到目标模型的替代模型(surrogate model)。
下图展示了模型窃取攻击效果。
实验结果显示,当攻击者使用与目标模型相同的教师模型时,所得到的替代模型在准确度(accuracy)和保真度(fidelity)两个指标上都优于使用其他教师模型的替代模型。
该结果表明在迁移场景下,教师模型推断攻击可以用于辅助提升模型窃取攻击效果。
论文链接:https://arxiv.org/abs/2106.12478
投稿作者介绍:
陈宇飞 香港城市大学,西安交通大学
个人主页:https://yfchen1994.github.io/
香港城市大学-西安交通大学联合培养博士生,目前主要研究方向为机器学习隐私与安全,相关研究成果已经发表在USENIX Security 2022/2019,NDSS 2022上。
原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 阅读推荐 2022-08-18 TeacherFingerprinting
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论