联邦学习安全性测评的思路分析

admin

102737
文章

87
评论

2022年11月3日19:04:13评论29 views字数 2365阅读7分53秒阅读模式

点击蓝字丨关注我们

申请加入数据安全共同体计划，请在本公众号回复“申请表”获取下载链接

数字经济高速发展的大背景下，信息技术与经济社会的交汇融合引发了数据量迅猛增长，数据已成为国家基础性战略资源，数据安全也由此上升到影响经济和社会稳定运行，乃至国家安全的高度。同时，国家政策要求数据作为生产要素参与收益分配。联邦学习可在多个数据拥有方不输出原始数据的情况下完成机器学习联合建模和联合预测，实现数据增值，在数据要素分配市场的应用日益广泛。

1.联邦学习发展现状

联邦学习是一种能够在保护隐私的情况下实现多方数据建模的分布式机器学习技术。近年来，联邦学习技术在鼓励数据要素市场化的政策的作用下得到了快速发展，并在数据流通领域得到了较多实践。

当前，国内联邦学习技术应用以toB模式为主，这种模式的特点是在数据共享的过程中，参与方数量较少，通常不超过两方，且参与方为机构、企业实体，参与方往往保有不同的数据特征，同时为达到联合释放数据价值的目的，参与方通常不会出现主动攻击的行为。为适配该需求，联邦学习技术应用关注纵向地拓展建模特征，并以保障无被动数据泄露（处于半诚实安全模型环境，不存在恶意参与方）为安全性目标进行设计开发。

而在toC模式下，联邦学习技术应用更多的是以大规模参与方参与、横向样本拓展、各方数据不平衡为特征。在安全性方面，该场景下存在会主动发起攻击的恶意参与方，对安全性保障要求较高。因此，toC场景下的联合建模对技术要求较为严苛，当下仅存在极少数的不成熟案例。

2.测评需求分析

联邦学习在有效破解“数据孤岛”问题的同时，仍然面临着数据安全方面的风险，具体体现在：

（1）隐私泄漏。在联邦学习过程中，参与方与参与方之间、参与方与协调方之间存在着各类隐私数据或可逆推出隐私的数据的流通，若这些数据未经过适当安全措施的处理，可能会暴露出用户的隐私。

（2）算法设计。联邦学习中的安全问题往往出现在算法设计上，隐藏得十分隐蔽，使用者极难发现。

（3）通用数据安全风险。包括了联邦学习过程中数据采集安全风险、数据传输安全风险、数据存储安全风险、数据使用安全风险等。

联邦学习产品设计的初衷是保护数据流通中的隐私安全，而联邦学习厂商难以自证其产品是“安全”的；同时，任何产品均不能做到“无限制”的绝对安全，在技术应用中要寻求运算效率和安全保障的平衡。企业在产品设计开发过程需要一个可以参考的标准，同时，帮助企业解决这些问题也成为了开展测评工作的需求来源。

3.测评依据与分析

中国信通院安全研究所牵头编制了行业标准《电信网和互联网联邦学习技术要求与测试方法》，并以此为基础开展了联邦学习安全性测评工作，该标准针对联邦学习技术产品提出了技术要求及相应的测试方法，总体来说做了以下三方面的技术要求。

一是，标准充分考虑了国内数据流通的需求，以toB需求为主线，抽象出联邦学习过程的六个阶段，包括数据管理、特征处理、联邦对齐、模型训练、模型预测、模型评估，进而针对不同阶段提出了具体安全要求。

二是，标准中的主要要求条款是以保障无被动数据泄露为主要目的而进行制定的，即以不存在恶意参与方作为要求条款的主要前提条件。例如条款对联邦过程中各方所能获知的参数种类进行了要求，各方不可通过这些中间参数单方面推导出原始数据。

三是，标准的安全性要求不仅考虑了技术上的安全，同时也兼顾了数据安全合规风险。例如，标准对联邦学习各阶段的结果归属提出了相应的要求，结果仅可被任务发起时约定的结果使用者所获取。如此，未得到各数据方授权而直接获取计算结果，便不符合标准要求。

4.测评思路分析

联邦学习安全性测评分成了两大部分，一部分为通用安全性测评，另一部分为联邦学习流程安全性测评。

在通用安全性方面，测评主要关注的是产品的“外在”安全，包括了认证授权、健壮性、通信安全、展示安全、存证日志、密码安全。“外在”的安全要求可以保证联邦学习产品拥有一个安全的外壳和操作环境。

在联邦学习流程安全性方面，测评主要关注联邦学习产品中各算法的安全性，即“内在”安全。依据联邦学习的流程，测评划分出了数据管理、数据对齐、特征处理、模型训练、模型预测、模型评估六大部分，并对各部分的算法是否存在安全漏洞进行判断。例如，测评要求“应确保第三方未经授权不可获得或推导出：模型参数明文、敏感数据”，若在toB场景下使用未加保护的原始fedavg算法，则会将模型参数汇聚于第三方，使第三方获知了模型参数的明文，若第三方未得到授权，则该方案不符合安全要求。再如，某些算法方案利用第三方产生公私钥，并进行分发，若第三方未得到授权，如此便同样违背了上述第三方不能获知敏感数据的要求。

5.总结与未来展望

现阶段的联邦学习测评依据标准而开展，关注的是toB场景下的有限安全性。未来随着联邦学习应用的发展，toC场景会逐渐有成熟的方案落地，安全性测评也会随之关注联邦学习中的主动攻击。在测试效率方面，当下已有联邦学习产品配备了自动生成佐证材料的功能以配合安全性证明的案例，这种方式虽然提高了测评效率但缺乏通用性，安全性测评依然严重依赖大量人工，测评自动化是未来安全性测评技术发展的方向。

供稿 | 中国信息通信研究院安全研究所

数据安全共同体计划

（data security community）

“数据安全共同体计划”为了促进《数据安全法》《个人信息保护法》落地实施，推动数据开发利用和数据安全领域的技术推广和产业创新，致力于促进数据安全产业链各环节的交流与合作，推动数据安全政策、技术、人才多要素良性互动，构建数据安全产业生态共同体。

咨询电话：

曹京 15810981762

解伯延 18631643906

联系人邮箱：[email protected]

联邦学习安全性测评的思路分析

原文始发于微信公众号（数据安全共同体计划）：联邦学习安全性测评的思路分析

左青龙
微信扫一扫

右白虎
微信扫一扫

联邦学习安全性测评的思路分析

PostExpKit - 20240423更新

yzmcms-pay_callback-rce漏洞复现

owasp大模型应用威胁视图理解大模型应用目前所面临的主要安全威胁

新一代供应链安全攻击面

《生成式人工智能数据应用合规指南》正式发布，5月1日实施

漏洞挖掘 | 某米企业src未授权访问

初遇内嵌WebShell的pdf文件

Hackerone 附件功能存在IDOR越权漏洞15000$

从环境搭建到内网渗透靶机

漏洞挖掘之某厂商OAuth2.0认证缺陷

发表评论

在线咨询

微信