Pencil高效隐私保护神经网络训练框架

admin

144229
文章

118
评论

2024年5月18日09:26:52评论173 views字数 3194阅读10分38秒阅读模式

今天为大家介绍一篇发表于 NDSS 2024 的工作，第一作者为硕士生刘轩奇，通讯作者为刘卓涛老师，作者还包括李琦老师，徐恪老师和徐明伟老师。

文章主要目标是在保障训练数据隐私性的前提下，实现支持多数据提供方的神经网络训练。该工作是团队在隐私计算方面的最新成果，使用安全多方计算、同态加密和差分隐私等多种隐私计算技术，提出了隐私保护机器学习的新范式。

文章链接：

https://dx.doi.org/10.14722/ndss.2024.24512

Pencil: Private and Extensible Collaborative Learning without the Non-Colluding Assumption

Xuanqi Liu, Zhuotao Liu, Qi Li, Ke Xu, and Mingwei Xu

背景

以神经网络为代表的机器学习近年来发展迅猛，然而神经网络训练离不开大量数据。当今随着隐私信息保护政策法规的愈发完善，出于对个人隐私、企业机密等的隐私性考虑，通过收集分散在不同实体的明文数据进行中心化训练变得不再可行。在此背景下，隐私保护机器学习的概念应运而生，已有的各类隐私保护机器学习工作围绕着数据隐私性这一核心问题提出了多种范式，例如联邦学习、安全多方计算等。然而，针对神经网络训练的数据持有方（data owner, DO）和模型持有方（model owner, MO）分离场景，已有技术难以同时达成数据隐私性、模型隐私性、可扩展性、抗合谋四大安全目标。本工作尝试结合多种已有的隐私计算手段，构建高效的神经网络隐私训练系统，保证 (1) 训练数据隐私性 (2) 模型参数隐私性 (3) 多数据提供方的可扩展性 (4) 抗多方合谋的隐私性。

已有工作

隐私保护机器学习方面的已有工作主要可分为联邦学习、安全多方计算和纯同态加密三种类别。然而这三种方案均无法同时达到上文提到的四个安全目标。

联邦学习是当前应用最为广泛的隐私保护机器学习方案。联邦学习中，中心服务器维护一全局模型，每轮训练迭代中，中心服务器 (作为MO) 将全局模型分发给所有提供数据的客户端参与方 (作为DO)；客户端使用本地数据进行训练后，提交模型梯度给中心服务器；中心服务器依次聚合梯度并更新全局模型。联邦学习的明显优势是原始数据不出域，且训练均为明文计算，相对具有高效性。然而，联邦学习完全不保护模型隐私，对于渴望使用预训练模型进行微调的模型持有方而言，将其具有价值的预训练模型分发给全部参与方不可接受。

安全多方计算是另一种能同时保护模型和数据隐私的计算方案。在安全多方计算中，模型持有方和多个数据持有方分别作为计算节点进行协作计算，所有模型参数、数据和中间计算结果均以秘密分享形式分布在所有计算节点，任意一方无法单独恢复明文。然而，安全多方计算需要预先固定参与方数量，引入更多数据参与方需要重新设计协议；同时，安全多方计算无法抵抗合谋，即合谋的参与方能够破坏隐私性；巨大的网络传输开销也是安全多方计算面临的问题。

同态加密技术是一种使用非对称密码直接对密文进行有意义的计算的一种隐私计算方案。完全基于同态加密技术的神经网络训练方案具有较低的传输量开销，然而由于训练所得的模型为密文存储，则该方案仅能容许单个数据提供方（密文由其密钥加密），不具备参与方可扩展性。同时，后续模型部署与推理亦需要该数据提供方参与解密。另外，完全基于同态加密技术的方案面临巨大的计算量开销，耗时较大。

Pencil 介绍

Pencil 为本工作提出的全新高效隐私保护神经网络训练框架，通过结合安全多方计算和同态加密技术的优势，达成上述四大要求。首先，Pencil 构造一个两方单步训练协议，仅由 MO 和单个 DO 参与，进行模型的单步前后项传播并更新模型，该单步训练协议不泄露两方隐私，且模型梯度更新完全交给 MO 以保证其能够完整持有模型。进而，为了使用多个 DO 的并集数据，MO 在多个训练步骤中分别与不同的 DO 进行协作训练，该构造即可保证整体框架的可扩展性，引入更多 DO 不会引起整体训练开销的显著提高；同时，由于两方协议不泄露隐私，整体多方协议亦可保证抗共谋性质。

3.1 Pencil 整体训练过程

为简单起见，本工作考虑单分支前馈神经网络。在前向传播中，所有中间层输出以秘密分享形式由双方共同持有，最终层输出由 DO 重构而计算损失函数；而在后向传播中，DO 首先构造最终层输出对于损失函数的梯度，而所有中间层输出对损失函数梯度亦为秘密分享表示，而可训练参数的梯度计算完毕后由 MO 重构，并用于更新模型梯度。本工作将神经网络所有算子分为线性层和非线性层，其中线性层包括全连接层、二维卷积层，包含可训练参数，而非线性层包含池化层、ReLU激活函数。单层的训练过程如下图所示。

3.2 线性层训练协议

对于线性层，前向传播中，Pencil 使用同态加密构造两轮协议计算，其中对于输入张量和参数张量的编码方式源自 Cheetah 提出的多项式编码方案，采用该方案可以避免使用昂贵的密钥切换算法，高效实现矩阵乘和卷积。

而在反向传播中，主要的计算难点是权重张量相对损失函数梯度的计算。该计算涉及两个秘密分享张量的乘积，因而 Pencil 考虑使用同态加密进行两个交叉项的计算。计算过程如下图所示。为了避免模型梯度泄露数据隐私，DO 在还原梯度更新时向其加入差分隐私噪声。

3.3 非线性层训练协议

对于非线性层，本工作主要拓展了已有的 CrypTFlow2 隐私推理工作提出的基于不经意传输构造的计算协议，将其从前向传播拓展到反向传播。例如 ReLU 激活函数的前向传播计算可以分解为一次安全比较协议（即 DReLU）和一次多路选择器（MUX）协议，其均可使用不经意传输实现。基于不经意传输的安全多方计算技术相对于仅能计算线性运算的同态加密技术具有更高灵活性，但相对会引入更多交互轮次。

3.4 多掩码预处理优化

本工作提出使用一种多掩码预处理机制，将繁重的同态加密计算转移到离线预处理阶段，从而在线阶段仅需高效的明文计算。该方法可适用于任何用同态加密或安全多方计算技术处理的线性运算算子，双方分别提供一个操作数，所得结果为两操作数的线性乘积并以秘密分享形式归还给双方。具体流程如下图所示。

该预处理机制与传统的一次一密式预处理机制不同，所生成的相关联随机性可以重复使用。安全性分析表明，尽管该协议安全性无法达到信息论安全，但利用该机制的攻击者攻破明文所需要的搜索空间与掩码数量呈指数关系，选定合适参数时该攻击计算上不可行。

实验验证

与明文相当的精确度指标：不向训练梯度添加差分隐私噪声时，Pencil 训练精度和明文训练相当。

端到端训练高效性：分别将不使用与使用多掩码预处理机制的Pencil框架称为 Pencil 和 Pencil+，对多种不同模型架构的实验显示，本工作设计的训练协议具有高效性。例如在使用 Pencil+ 和迁移学习时，用于 CIFAR10 分类任务的 CNN 可在 6.5 小时内训练完成 (10 个训练周期)。

相较已有工作性能：与已有的两方安全计算训练工作 QUOTIENT 比较，本工作可带来 2 个数量级的效率提升。而与已有的任意多方安全计算通用框架相比，将 Pencil 拓展到更多的 DO 不会带来训练开销的迅速增长。

对抗隐私攻击：当加入适量的差分隐私噪声时，梯度匹配攻击无法成功还原训练数据；而在选择合适参数的情况下，针对多掩码预处理机制的攻击计算上不可行（m 为掩码数量，f 为定点数位精度）。

结语

通过有机结合安全多方计算的计算高效性和灵活性以及同态加密的传输高效性，本工作达成了同时支持数据隐私性、模型隐私性、可扩展性和抗合谋的安全神经网络训练框架，支持主流的卷积神经网络模型。我们期待未来能够通过探索更丰富的神经网络算子的隐私计算协议，进一步支持更为复杂、通用的神经网络模型。

原文始发于微信公众号（赛博新经济）：Pencil高效隐私保护神经网络训练框架

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Pencil高效隐私保护神经网络训练框架

生成式AI安全雷区警示：四大风险维度与攻防实践指南

社工老招再现 Scattered Spider锁定美保险公司进行渗透

血的教训！OneDrive封号致用户30年数据一夜蒸发

色流刷单骗局揭秘：背后的黑产操作系统

【已复现】泛微E-cology9存在远程代码执行漏洞

【钓鱼专题】警惕！新型！本地HTML类钓鱼攻击！

印度汽车共享公司Zoomcar遭遇数据泄露，影响840万用户

印度汽车共享公司Zoomcar发生数据泄露事件，影响840万用户

攻击者利用Zyxel远程代码执行漏洞CVE-2023-28771发起攻击

网安原创文章推荐【2025/6/17】

发表评论

在线咨询

微信