基于安全多方计算的两方推理

admin 2023年9月5日11:33:14评论6 views字数 9314阅读31分2秒阅读模式

摘  要

数字基础设施的发展加速了个人隐私数据在机器学习中的应用。随着机器学习即服务的市场规模逐步扩大,服务提供商和用户在双向获利的同时也面临着严重的隐私泄露风险。因此,安全推理作为隐私保护机器学习的一个分支,成为科学界和工业界的研究热点。安全多方计算是安全推理最重要的密码学工具。从机器学习推理中潜在的隐私问题出发,引入安全多方计算技术,进一步对基于安全多方计算实现的安全推理框架进行分析研究,重点分析和评估了业界先进且实用的技术框架。最后进行了总结与展望,给出了隐私保护机器学习及安全推理的未来发展的思考与建议。
内容目录:
1 背景概述
1.1 机器学习推理及其存在的隐私问题
1.2 MPC 密码技术
2 两方安全推理研究
2.1 两方安全推理模型架构
2.2 两方安全推理方案概览
2.3 两方安全推理方案分析
3 实用性两方安全推理方案研究
3.1 Cryptflow2 和 Cheetah 的技术分析
3.2 Cryptflow2 和 Cheetah 的实验分析
3.3 Cryptflow2 和 Cheetah 的对比结论
4 结 语
人工智能是引领科技创新与产业变革的重要驱动力量,随着人工智能技术的飞速发展以及在不同行业领域的深化应用,世界各国均将人工智能列为提升国家竞争力、维护国家安全的重大战略。机器学习(Machine Learning,ML)是实现人工智能的重要环节,为了提升机器学习效能,大数据应用是关键。
近年来,全球信息泄露事件频频发生。2018 年,美国 Facebook 被第三方公司的应用程序恶意收集了5 000 万用户的个人信息,该数据是美国选民人数的 1/4;2020 年,巴西卫生部官网存在的严重漏洞导致 2.43 亿巴西人的个人信息被泄露;2021 年,中国初创公司 Socialarks(笨鸟社交)泄露了总计408 GB 超过 3.18 亿条用户记录。信息泄露时常发生在各行各业,各国纷纷从法律法规层面引导数据安全和隐私保护,个人对隐私保护的需求也愈发强烈。同样,基于大数据的机器学习也面临着严峻的隐私安全问题,科学界和工业界为解决机器学习中的隐私安全问题掀起了隐私保护机器学习(Privacy-Preserving Machine Learning,PPML)研究的浪潮,密码学技术在其中扮演了至关重要的角色。
目前,关于 PPML 的研究主要基于安全多方计算(Secure Multi-party Computation,MPC) 和 联 邦学习(Federated Learning,FL)两条路线,分别适用于安全性和性能要求较高的场景。为探索高安全、高性能的实用性 PPML,MPC 技术是最有效的密码学工具。PPML 框架一般涉及复杂且多样的运算类型,根据参与方数量、安全模型、计算能力和网络带宽等方面的不同,可以结合实际场景进行多种MPC 技术的组合来实现,从而安全地完成训练和推理任务,并且保证了训练数据、推理数据和模型参数的隐私。
本文针对机器学习推理阶段的隐私保护问题,对近几年关注度比较高的基于 MPC 实现的安全推理框架进行比对分析,主要从方案的系统架构、技术对比、算子协议和理论评估等方面进行归纳总结,并对梳理出的两项先进且实用的技术框架进行仿真验证与应用评估,最后进行总结与展望。

背景概述

1.1 机器学习推理及其存在的隐私问题
机器学习是当今发展最快的技术领域之一,位于计算机科学和统计学的交叉点,也是人工智能和数据科学的核心。1959 年,Arthur Samuel 将 ML 定义为计算机在不需要被显式编程的情况下而具备自主学习的能力。ML 的主要流程包括数据收集、数据预处理、模型训练与测试、预测或推理这 4 个阶段。
机器学习即服务(Machine Learning as a Service,MLaaS)是一项以 ML 推理预测为基础的在线服务,近年来发展迅速且应用广泛。然而,MLaaS 给机器学习模型持有者和数据持有者均带来了安全挑战。数据持有者担心数据隐私泄露给 MLaaS 平台,同时 MLaaS 平台持有者担心模型被冒充客户的对手窃取。在 MLaaS 这种商业模式下,PPML 主要表现为推理阶段的隐私威胁,需保证推理数据和模型数据的隐私。
为解决 ML 推理阶段的隐私问题,安全推理研究应运而生。近年来,有许多安全推理工作取得了较大的进展,它们主要采用密码技术与 ML 相结合的方式,常用的密码技术包括 MPC、FL 和差分隐私(Differential Privacy,DP)。MPC 是基于密码学原理的、具备可证明安全性的技术,本文将重点研究和分析基于 MPC 的两方推理。
1.2 MPC 密码技术MPC 理论
在 1982 年由姚期智为解答百万富翁问题而提出,是指多个参与方在不泄露各自隐私数据的前提下,共同完成某个函数计算的过程。MPC 集成了复杂的密码学原语,其包含的关键 基 础 技 术 有 不 经 意 传 输(Oblivious Transfer,OT)、混淆电路(Garbled Circuit,GC)、秘密共享(Secret Sharing,SS)和同态加密(HomomorphicEncryption,HE)。
OT 由 Rabin于 1981 年提出,是一个安全的两方通信协议,数据发送方同时发送多个信息,而数据接收方只收到其中部分信息,发送方无法判断接收方具体获得了哪些信息,接收方也不知道其他信息的内容。当前先进的 OT 技术包括 IKNP类型的 OT 扩展和矢量不经意线性评估(Vector Oblivious Linear Evaluation,VOLE) 类 型 的 OT 扩展,后者较前者在通信量上有显著降低。
GC 是姚期智于 1986 年针对百万富翁问题提出的解决方案,其核心技术是利用计算机编程,将多方参与的计算函数编译为布尔电路,并将每一个门对应的真值表加密打乱,在不泄露参与方私有数据的情况下实现电路的正确输出。GC 的实现仅需要简单的对称加密方案,其优点是可以在恒定轮数内完成计算。然而,GC 中涉及的通信量与电路大小呈线性相关,因此更适用于简单的逻辑运算。
SS 由 Shamir和 Blakley于 1979 年分别提出,其原理是将秘密拆分为多个秘密份额,并分发给不同的参与方,只有满足一定数量的拥有秘密份额的参与方共同协作才能恢复出秘密。在 MPC 中通常利用计算开销较少的加性秘密共享,但参与方基于秘密份额的交互轮数与电路深度有关。
HE 由 Rivest 等人于 1978 年提出,它是一种具有特殊性质的加密算法。原始数据经同态加密后,允许用户直接对密态数据进行运算(通常是加法、乘法运算),对运算结果再进行同态解密,得到的明文与对原始数据进行相同运算得到的结果一致。同态加密的优点是能够设计通信交互轮数较少的 MPC 协议,缺点是乘法同态占用的计算和存储开销较大,而目前基于格的同态加密在一定程度上降低了计算开销。
上述 4 种 MPC 密码技术的类型各不相同,在计算性能、通信开销和存储成本等方面都有各自的优劣势。面对 ML 推理中存在的隐私问题,往往需要结合多种 MPC 密码技术,以满足计算各种机器学习复杂函数的需求,实现性能均衡的隐私保护安全推理方案。
根据 MPC 参与方的可信程度,可以将 MPC 的安全模型分为半诚实模型和恶意模型。在半诚实模型中,每个参与方会严格遵守协议的流程执行计算,保证最终结果的正确输出。但在协议执行过程中,某些参与方会根据自己产生的过程数据以及其他参数方的输出数据来挖掘更多的信息。如果 MPC 方案在半诚实模型中除计算结果外不会泄露任何参与方的隐私信息,则称该方案满足半诚实安全。在恶意模型中,存在恶意的参与方不按照协议的流程执行计算,试图发送错误数据或者终止协议的执行来挖掘其他参与方的私有信息。如果 MPC 方案不会因为恶意参与方偏离协议的行为泄露隐私数据,则称该方案满足恶意安全。

两方安全推理研究

2.1 两方安全推理模型架构
安全推理方案主要基于服务器-客户端架构模式。如图 1 所示,服务器持有公开机器学习网络 F的权重 w,客户端持有隐私输入 x。在标准的机器学习推理任务中,客户端的目标是获得在服务器模型上对输入数据 x 进行推理的结果 F(w,x)。在安全推理中需保证服务器对 x 没有任何了解,并且客户端除了从 F(w,x) 和 x 推断,对服务器的模型 w 没有任何了解。
基于安全多方计算的两方推理
图 1 两方安全推理的架构
一种可扩展到实际机器学习任务的安全推理解决方案将打开大量基于 MLaaS 的应用程序,用户可以从机器学习服务中获得价值而不用担心其隐私数据的泄露,而模型所有者可以有效地将他们的服务货币化,而不用担心客户端数据被泄露。安全推理最重要的新兴应用是在医疗保健领域,之前的工作探索了针对胸部疾病、糖尿病视网膜病变、疟疾等疾病的隐私保护医疗诊断的安全推理服务。此外,一个可能的应用是隐私保护人脸识别,服务器可以不查看照片内容就从照片中识别罪犯。
安 全 推 理 是 一 个 安 全 的 两 方 计 算(2-Party Computation,2PC)的实例,2PC 的加密安全的通用协议已发展了几十年。然而,在实际应用中,针对机器学习任务的安全推理仍面临很大的挑战,特别是针对大规模网络和复杂的数据的安全推理,主要原因有二:(1)基于 MPC 的安全推理使用了丰富的密码学原语,在计算及通信层面均存在较大的性能开销,特别是在计算 ML 的激活函数时代价昂贵;(2)安全推理精度面临的挑战表现在两个方面,一方面是部分方案采用近似方法逼近激活函数,另一方面是采用定点算术计算浮点数。因此,安全推理较明文在性能和精度上均存在一定差距,隐私保护和机器学习等多个研究方向的学者纷纷对此积极进行探索和突破。
2.2 两方安全推理方案概览
机器学习推理任务是线性层的全连接、卷积、平均池化和批标准化,以及非线性层的激活函数和最大池化等一系列计算的组合,该复杂的计算最终转化为数值的加法、乘法和比较等基本算子。在基于 MPC 的安全推理中,这些复杂的计算最终归结为安全计算数值的加法、乘法、比较和截断。如表1 所示,从安全模型、MPC 技术和支持的算子协议等方面对现有安全推理框架进行总体分析。
(1)安全模型。两方的安全推理框架主要支持半诚实模型,较少研究考虑到恶意的客户端。
(2)MPC 技术。绝大部分框架混合使用多种技术,主要采用加性秘密共享对数据进行拆分,使得推理任务在分片数据上执行达到原始数据不泄露。从最新的 PPML 框架可以看出,主要偏向于采用 HE 计算线性层和 OT 计算非线性层的混合技术。
(3)支持的算子。所有框架均支持基本的线性层算子,线性层的主要改进点是快速地进行安全矩阵乘法。对于非线性层,比较和截断是两个重要的支撑算子,比较算子主要采用直接计算和转化为最高有效位(Most Significant Bit,MSB)两种方式,截断分为有误差的本地截断和无误差的安全截断。复杂的激活和池化函数转化为基础的加法、乘法和比较算子。
表 1  PPML 框架比较
基于安全多方计算的两方推理
2.3 两方安全推理方案分析
2014 年,Xie 等 人提 出 了 第 一 个 使 用 HE加密的隐私保护神经网络推理方案 CryptoNets,其主要面向云场景的安全推理功能。该方案使用类HE 友好的近似平方函数逼近激活层函数 ReLU 和Sigmoid,然而其对推理的准确性有影响且仅适用于浅层模型和小数据集。2017 年,Liu 等人通过MiniONN 变换将任意通用神经网络转换为一个不经意的神经网络,该框架混合使用秘密共享、加法同态和混淆电路技术完成安全推理。在该框架中,客户端仅需较少的计算能力,线性层使用点积三元组完成高效的矩阵乘法,其点积三元组在加法同态离线阶段产生,大大减少了在线阶段的计算开销;对于非线性层函数,该框架通过一次安全的秘密重构和混淆电路的比较计算 ReLU,并使用分段函数逼近的方法计算 Sigmoid。该框架的最大启示是将一部分操作划分到离线预计算,但存在激活函数近似带来的精度问题,以及计算过程中的秘密重构可能会泄露部分信息。2018 年,Riazi 等人提出了Chameleon 框架,线性层基于秘密共享和可信第三方离线生成的 Beaver 三元组来计算,使用混淆电路或 GMW 协议执行非线性层操作。在 5 层卷积深度神经网络上的评估显示,Chameleon 框架的运行速度比 CryptoNets 和 MiniONN 分别快 133 倍和 4.2 倍。同年,Juvekar 等人提出了低延迟的安全神经网络推理框架 Gazelle,使用了 HE 和混淆电路的技术组合,设计了一个较快速的 HE 库以实现 HE 矩阵向量乘法和卷积的线性运算。此外,还设计了一个HE和混淆电路编码之间无缝转换的加密转换协议。该框架与 CryptoNets 方法相比在线运行时间快了3 个数量级,且在 MNIST 和 CIFAR-10 数据集上的在线推理时间较 Chameleon 减少到原来的 1/30~1/20。2020 年,Mishra 等 人提 出 的 Delphi 框 架, 将Gazelle 线性层的繁重 HE 运算前移到离线预处理阶段。该框架一个最大的亮点是提出了一个采用神经结构搜索(Neural Architecture Search,NAS)和超参数优化技术的规划器(Planner),旨在确定哪些ReLU 激活函数使用二次多项式替代,哪些保持不变,使其性能和准确性直接达到最佳平衡。
以上工作考虑的均是半诚实安全模型下的安全推理,实际情况下可能会存在恶意客户端使用新的模型提取攻击来获得服务器的整个模型的攻击,MUSE和 SIMC 框架针对以上问题,采用有条件的揭露秘密技术,使其在经过认证的加法秘密共享和混淆电路标签之间进行转换,以达到抵抗恶意客户端的安全推理。
前述工作离能够实际应用于深层次的网络、大规模数据集和复杂分类的机器学习的安全推理仍然有一段距离。2020 年,Deevashwer 等人提出了一个实用性的 2PC 安全推理框架 Cryptflow2,其可在 SqueezeNet 网络下 1 min 内完成一张 ImageNet 规模的安全推理。之后,又在 Cryptflow2 的基础上,分别针对线性层和非线性层的改进提出了 GALA 和SIRNN框架。2022 年,阿里实验室对标 Cryptflow2 提出了当前行业性能最佳的安全推理框架 Cheetah,并在诸多工业场景应用落地。此类成果极大地促进了安全两方推理从理论研究迈向生产应用。

实用性两方安全推理方案研究

本节将重点分析评估 Cryptflow2、Cheetah 两项实用且先进的技术方案,并从应用的角度给出分析与建议。
3.1 Cryptflow2 和 Cheetah 的技术分析
Cryptflow2 框架使用不经意传输设计了高效的比较协议,对用于比较的两个秘密值进行比特序列的块划分,并使用二叉树逐层比较来加速协议。此外,设计了无误差的定点算术截断协议,准确纠正了溢出大误差和最后一比特小误差。Cheetah 是基于 Cryptflow2 的改进实现,在线性层和非线性层上性能提升表现为以下两个方面:
(1)Cryptflow2 表明,深度神经网络的非线性层函数,基于 OT 的协议在环基于安全多方计算的两方推理上的带宽消耗比环基于安全多方计算的两方推理上少 40% ~ 60%,且环基于安全多方计算的两方推理上的模约减在标准 CPU 上几乎是无计算开销的。基于 HE 的线性层使 用 单 指 令 多 数 据 流(Single Instruction Multiple Data,SIMD)技术来摊销 HE 操作的成本,由于代数要求 SIMD 需在环基于安全多方计算的两方推理上,可以使用中国剩余定理(Chinese Remainder Theorem,CRT) 使 素 数 模基于安全多方计算的两方推理但给 HE 带来了 3~5 倍的开销增长,且影响非线性层的消息增益。此外,由于卷积和矩阵的空间性质以及矩阵的矢量乘法,基于 HE 和 SIMD的协议不可避免地要对操作数进行多次旋转,旋转也是一个开销巨大的操作。Cheetah 就以上矛盾平衡了基于安全多方计算的两方推理两个环的使用,提出了 3 对编码函数基于安全多方计算的两方推理将输入的值(如张量或向量)映射到多项式的适当系数,然后使用基于格的 HE 高效地计算线性层函数,不仅消除了昂贵的 HE 旋转,也能够兼容基于安全多方计算的两方推理环上的秘密共享。
(2)在百万富翁协议上,Cheetah 使用 VOLE style OT 扩展替代 Cryptflow2 中的 IKNP-style OT扩展。Cryptflow2 实现了无误差的诚实截断占据了协议超 50% 的开销。Cheetah 虽然仅纠正溢出大误差而忽略最后一比特小误差,但是实验表明不影响模型的预测质量。
表 2  Cryptflow2 与 Cheetah 的技术比较
基于安全多方计算的两方推理
3.2 Cryptflow2 和 Cheetah 的实验分析
本 文 使 用 Cheetah 开 源 库实 现。Cheetah是一个安全和快速的深度神经网络(Deep Neural Network,DNN) 两 方 推 理 系 统, 其 实 现 基 于 带HEXL 加速 的 SEAL 同态库、高效的多方计算工 具 包(Effificient MultiParty Computation Toolkit,EMP-toolkit) 的 OT 库 , 在 EMP 上 还 扩 展 了Ferret 协议使其支持多实用类型的 OT。为了便于比较,Cheetah 系统集成了开源的安全和正确的推理(Secure and Correct Inference,SCI) 库 以 实现 Cryptflow 框架。实验环境为 Intel 至强 [email protected] 服务器上的 CentOS7.6-X64 虚拟机(16 GB 内存、500 GB 硬盘)。虚拟机上开启两个终端进行在线推理服务的模拟与仿真。基准测试是在预训练的 RestNet50 DNN 模型上推理一张 230×230 像素的 Imagenet 图像,安全推理实验的操作分布为 53个 Conv 层、49 个批标准化(Batch Normalization,BN)层和 1 个全连接(Fully Connection,FC)层,非线性层包括 97 个 ReLU、49 个 Truncation、1 个MaxPool、1 个 AvgPool 和 1 个 ArgMax。
分别采用Cryptflow2和Cheetah框架进行Resnet50模型的安全推理,得到在两种不同线程设置下,两个框架的总运行时间、总通信量(发送 + 接收)和通信轮数,如表 3 所示。运行时间与系统线程数量反相关,线程数量对通信量基本没有影响。Cheetah与 Cryptflow2 相比,计算和通信性能分别提升了2~3 倍和 7~10 倍,且通信轮数减少到原来的 1/3 左右。
表 3  运行时间与通信开销的比较
基于安全多方计算的两方推理
图 2 展 示 了 在 单 线 程 设 置 下,Cryptflow2 和Cheetah 在线性层、非线性层包含的 8 种算子中,依 次 推 理 运 行 每 个 算 子 的 总 时 间。Cryptflow2 和Cheetah 完成安全推理的计算开销主要集中在卷积、截断和 ReLU 上,且 Cheetah 在卷积和截断运算上计算性能远远高于 Cryptflow2。
基于安全多方计算的两方推理
图 2 算子运行时间的比较 
图 3 展 示 了 在 单 线 程 设 置 下,Cryptflow2 和Cheetah 在线性层、非线性层包含的 8 种算子中,依次推理运行每个算子的总通信量。Cryptflow2 和Cheetah 完成安全推理的通信代价主要集中在卷积、 批 标 准 化、 截 断 ReLU、 最 大 池 化 上, 且 在Cryptflow2 中截断运算的通信开销占据了整个推理任务总通信量的 60%。Cryptflow2 在截断、ReLU 和最大池化运算上通信开销远远高于 Cheetah。
基于安全多方计算的两方推理
图 3 算子通信量的比较
从 Cryptflow2 和 Cheetah 的技术和实验上分析,Cheeath 非线性层的百万富翁和截断协议的改进使得通信成本较 Cryptflow2 降低了 92% 左右,在同等可证明安全前提下速度提升了 3 倍,在多线程设置下可在数十秒内完成一张图片的识别,向实用性更进一步。
3.3 Cryptflow2 和 Cheetah 的对比结论
Cheetah 是 基 于 Cryptflow2 的 改 进 实 现, 在算子先进性、通信性能、计算性能等方面均优于Cryptflow2,且在大模型的在线推理方面更具实用性。Cryptflow2 在中、小模型方面性能较有实用性,并且 Cryptflow2 实现了无误差的截断,在高精度计算场景下可以考虑应用。综上,建议在时延敏感、中大型模型应用等场景下采用 Cheetah 技术方案,在时延要求不严但精度要求较高的中小型模型场景下采用 Cryptflow2 技术方案。

结  语

在政策和个人意识的推动下,隐私保护需求愈加强烈,机器学习中的隐私保护问题也受到了科学界和工业界的广泛关注,该问题的主流解决方法是将密码学技术与机器学习相结合。安全两方推理作为隐私保护机器学习的一个分支,使用该安全解决方案将更好地推动 MLaaS 平台的广泛应用。然而,仍存在许多急需解决的问题,有待进一步探索和突破,具体如下文所述。
(1)安全两方推理方案的性能有待提升。长期以来,密码技术的性能瓶颈是其与实际业务相结合的一大难点,而安全多方计算集成了丰富的密码学原语,在计算和通信上都存在较大的开销。安全多方计算应用于机器学习中,在通常情况下,相比于明文计算慢几个数量级,特别是大型网络的性能开销更是超出计算力和网络带宽的承受能力。因此,安全多方计算的性能瓶颈使机器学习很难落地应用,研究更加高效的方案是未来重要的研究方向。
(2)提高方案的准确率。机器学习大部分情况下计算的是浮点型数据,而密码技术的计算是在特定的域或环上,两种数据类型的转换主要采用定点算术。为防止数据膨胀而使用截断技术带来了一定概率的误差,对于机器学习的多层网络和多次迭代可能会造成严重的误差。此外,激活函数的计算代价是昂贵的,许多方案采用近似方法逼近也会带来误差。因此,隐私保护机器学习的误差和性能平衡是未来需要解决的问题。
(3)研究更高安全性的方案。目前绝大部分方案仅能抵抗半诚实攻击者,然而抵抗恶意攻击者的方案更符合实际场景。更高安全性的目标必定需要更大的性能代价,在满足性能实用性的情况下提高安全性的方案需要进一步研究。
(4)在行业中建立统一的安全评估标准。由于技术路线的多样性,对于安全两方推理框架的安全性证明和评估还没有一个统一的标准,仅有对于某项密码技术的安全性评估。行业推崇的方式是将方案和实验代码开源出来,接受同行的评判。建立健全的评估标准是刻不容缓的。
引用格式:雷术梅 , 彭夕茈 , 张小青 , 等 . 基于安全多方计算的两方推理 [J]. 通信技术 ,2023,56(3):337-344.
作者简介 >>>


雷术梅,女,硕士,主要研究方向为信息安全与密码应用技术、隐私计算;
彭夕茈,女,硕士,主要研究方向为信息安全与密码应用技术、隐私计算;
张小青,女,硕士,工程师,主要研究方向为信息安全与密码应用技术、隐私计算;
张舒黎,男,博士,高级工程师,主要研究方向为信息安全技术、隐私计算;
付  俊,男,硕士,高级工程师,主要研究方向为网络与信息安全、安全攻防、数据安全、隐私计算;
洪  运,男,硕士,工程师,主要研究方向为网络与信息安全、态势感知、威胁情报、用户行为分析。

编辑:陈十九

审核:商密君

征文启事

大家好,为了更好地促进同业间学术交流,商密君现开启征文活动,只要你对商用密码、网络安全、数据加密等有自己的独到见解和想法,都可以积极向商密君投稿,商密君一定将您的声音传递给更多的人。
基于安全多方计算的两方推理
来源:信息安全与通信保密杂志社
注:内容均来源于互联网,版权归作者所有,如有侵权,请联系告知,我们将尽快处理。
基于安全多方计算的两方推理

基于安全多方计算的两方推理
基于安全多方计算的两方推理
点分享
基于安全多方计算的两方推理
点点赞
基于安全多方计算的两方推理
点在看

原文始发于微信公众号(商密君):基于安全多方计算的两方推理

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年9月5日11:33:14
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   基于安全多方计算的两方推理http://cn-sec.com/archives/2007637.html

发表评论

匿名网友 填写信息