横向联邦学习技术原理浅析

2022年12月21日22:05:58评论33 views字数 2644阅读8分48秒阅读模式

前言

在过去二十年中，数据在互联网时代显示出了惊人的力量，恍如一台核动力发动机将一个个互联网公司推至百亿市值，人们在惊叹之余，认识到数据作为生产要素的重要性，以及数据对个人生活，对社会经济乃至国家安全的影响。我们大致可以把这些关切，归结为数据安全与隐私保护两个视角。

从安全的角度，近年来世界大国已将数据安全上升至国家安全的战略高度，2021年，美国政府发布《国家安全战略临时指南》，提出将网络安全列为国家安全首位，英国政府发布《竞争时代的全球英国：安全、国防、发展与外交政策综合评估》，将网络列为核心安全问题；日本政府发布《下一代网络安全战略纲要》。2014年4月15日，习近平总书记在中央国家安全委员会第一次会议上创造性提出总体国家安全观，以此为出发点，2021年9月1日，《中华人民共和国数据安全法》正式实施。

从隐私保护的角度，世界各地的数据隐私法近年数量激增。截至目前，全球已有133个管辖区颁布了综合数据隐私法；其中60项法律是在过去10年制定的，其中一半是在过去5年内制定的。在未来几年，我们可能会看到多达12余项更新的法律颁布。

我们有理由相信，我们已经进入到一个数据强监管的时代，我们需要让算法适应在有各种合规限制的条件下工作，这必然会降低数据生产效率，特别对于数据流转这一数据生命周期中最为敏感的环节。对于个人数据，数据流转需要数据主体（自然人）的知情（包括第三方披露）与同意，同时随着数据的流动，数据控制者的法律义务与合规风险也在扩散。这些合规要求最终都将以成本的形式体现在企业财务报表里，如何降低该类成本将是未来数据相关企业所关注的问题，针对这一问题，横向联邦学习被寄予期望，简单来说，针对消费终端这一典型场景，它将使个人数据流转“消失”，斩断个人数据采集链条与合规义务。

什么是横向联邦技术？

Gartner发布的2021年前沿科技战略趋势中，将隐私计算列为未来几年科技发展的九大趋势之一。联邦学习是隐私计算的重要场景，其主要目的在于在数据不流转的情况下，完成数据的联合计算，其又可进一步细分为纵向、横向、迁移三类联邦学习场景，以及三种场景的融合。三者的主要区别在于计算参与方之间对齐的数据类型，对于纵向联邦学习，数据ID可以对齐，对于横向联邦学习数据特征可以对齐，而对于迁移联邦学习没有天然的对齐数据，需要构造特定的神经网络完成学习任务。

下面我们以一个具体的场景来讨论横向联邦学习，假设我们开发了一个点餐APP，在每部手机上都记录有点餐记录，我们希望基于这些数据构建一个AI模型，用于预测用户的饮食习惯。直觉的解决方案如左图，我们直接采集这些点餐记录，在服务器上一次性完成模型训练，在预测过程中，让APP将用户特征上传到服务器做模型推理，很明显这个方案涉及个人数据流转，因此我们在服务器侧需要考虑数据控制者的法律义务，实施数据安全生命周期的技术控制策略。

在横向联邦的解决方案中，如右图所示，我们首先在服务器上基于经验或随机生成一个AI模型，并下发到每个APP，使其基于本地的点餐数据，调整该AI模型，并把这些优化残差聚合到服务器侧，从而使模型获得优化，这一过程反复进行，最终每个APP都获得了最优的模型。同时模型本地推理，避免了任何隐私数据的采集，如右图，彻底消除了数据“流转”环节，避免了数据控制者的法律义务，极大降低了业务成本与合规风险。

横向联邦学习包含那些底层技术？

从技术的角度讲，横向联邦学习是一类解决方案，因为在其迅速发展的过程中，出现了多类截然不同而又紧密相关的技术，它们在构造横向联邦学习的方案时时而独立，时而耦合，具体来讲，它们目前可归为三大类：基于应用密码学的多方安全计算；可信执行技术（TEE）；差分隐私技术。从安全性、性能、应用前提三个方面来看，这三类技术各具自己的优劣势，一般需要结合具体场景来选用。对于上节谈到的点餐建模场景，这类对性能要求不高的应用，通常采用基于应用密码学的方案，避免了硬件设施的投入。一个典型的基于应用密码学的横向联邦学习（安全聚合技术）技术栈如下图所示，它通常需要至少一种加法同态加密技术（比如Shamir秘密分享、Pailliar等），和一套支持信息隐藏的聚合方案（如Pair-wise掩码），配合以一些保障信道安全及认证的密码学原语。

对于没有密码学背景的人来说，这些元素通常是晦涩难懂，但横向联邦学习的原理确通常是比较直接的，以掩码协议来讲，如下图，计算参与方为了防止服务器直接获得自己的明文数据，在提交之前用一个随机数r与待提交数据进行求和（即所谓掩码），这些随机数是参与方两两提前商议的，它们被某一方加上，同时被另一方减去，在服务器一侧被抵消掉，最终服务器获得了所有参与方的和。虽然这只是完成了一个简单的计算，求和，但是对于“求解一个通用模型”的任务，其本质既是把每一个模型参数求均值的操作，而这一操作既是以求和为基础的。值得注意的是，实际应用时要考虑参与方掉线等问题，仍然需要考虑其他安全策略的补充。

结语

诚然采用横向联邦学习并非是法律义务或合规要求，就目前来说，它仍是一种企业降低隐私合规风险的自觉性手段，虽然它的引入将明显降低企业在数据生命周期中各个阶段的成本投入，但建设这一能力本身的投入也不可忽略，首先它需要相关专业的设计人员，其次就其机制运作本身所引入的带宽与电力消耗，也是产品经理需要考虑的。可喜的是，基于技术储备的优势与体现隐私关切的需求，大厂已然在横向联邦学习应用领域展开了探索，近5年来苹果、谷歌、华为分别在语音模型优化、输入法模型优化与视频推荐等应用方面尝试了该技术的落地。这些成功经验为该技术的进一步商用提供了一些启发，相信随着监管方面的加强，以及通用横向联邦软件和手机厂商横向联邦学习平台的成熟，这一方案的部署成本将会迅速降低，中小应用开发商将更多地利用这一能力降低数据安全建设与运营成本，同时提升用户的信任度。

END

直达链接

往期精彩推荐

●Windows DLL劫持漏洞分析

●利用Firmadyne进行固件模拟

●构造溯源蜜罐——伪造MySQL服务端

●Cisco RV110W 堆栈缓冲区溢出漏洞分析

●IoT产品固件提取方式

●应用抓包进阶

●Zeoticus勒索病毒技术分析

●NAND Flash 固件读取及解包处理

●如何正确的校验URL

CSL

联想GIC全球安全实验室（中国）

[email protected]

原文始发于微信公众号（联想全球安全实验室）：横向联邦学习技术原理浅析

左青龙
微信扫一扫

右白虎
微信扫一扫

横向联邦学习技术原理浅析

记一次对某学校APP渗透

记一次文件包含之“梦回A9大户”

安全技术分享：在真实场景中模拟动态二维码钓鱼与劫持测试

记一次重保期间的实战溯源反制

vulnhub之unknowndevice64-V1.0渗透实战

某平台后渗透利用技巧

登陆页面/登陆框渗透测试思路

绕过验证码实现任意用户登陆

加密C2框架Mythic流量分析

【免杀】通过ACPI检测沙箱

发表评论

在线咨询

微信