全文请在文末链接免费下载,知识星球“老烦的草根安全观”
NIST SP-800 NIST SP 800-226
差异隐私保证评估指南
约瑟夫·P·尼尔
佛蒙特大学
David Darais
Galois,股份有限公司。
内奥米·莱夫科维茨*
加里·S·豪沃斯
应用网络安全部信息技术实验室
*前NIST员工;本出版物的所有工作都是在NIST完成的。
本出版物可从以下网站免费获取:
https://doi.org/10.6028/NIST.SP.800‐226
2025年3月
编译 樊山 上海观安信息技术股份有限公司
2025年5月
目录
0.执行摘要5
0.1 差异隐私保证(第2节)5
0.2 微分专用算法(第3节)5
0.3 部署差异隐私(第4节)6
0.4 迈向标准化、认证和评估6
0.5 差异化隐私和政策7
1.导言7
目标受众9
1.1. 数据脱敏(De-Identification)和数据再识别(Re-Identification)9
1.2. 差异隐私(Differential Privacy)的独特元素11
1.3. 差异隐私与美国联邦监管格局12
2.差异隐私保证12
2.1. 差异隐私的承诺13
与其他隐私定义保持一致14
2.1.1. 差异隐私的数学15
2.1.2. 差异隐私的性质16
2.2. 隐私参数ε17
2.3. 差异隐私的变体20
2.3.1 选择一个变体。20
2.3.2(ε,δ)-差分隐私和灾难性故障。20
2.4. 隐私单元21
2.4.1.有界和无界差异隐私22
2.4.2. 定义“个人”的数据23
2.5.比较差异隐私保证27
2.5.1 隐私参数ε27
2.5.2 隐私参数δ28
2.5.3隐私单位28
2.6. 将差异隐私与其他数据发布相结合29
2.7. 隐私审计与实证研究30
3.微分隐私算法(Differentially Private Algorithms)30
3.1. 基本机制和共同要素31
3.1.1 选择机制32
3.2. 实用性和准确性32
3.2.1 公用事业指标:没有通用的解决方案33
3.2.2 准确性指标33
3.2.3 与子采样的比较35
3.2.4 监控实用程序36
3.3.偏见36
3.3.1. 系统性偏见37
3.3.2. 人类偏见40
3.3.3. 统计偏见41
3.4. 分析查询42
3.4.1. 计数查询42
3.4.2. 汇总查询45
3.4.3.平均查询数46
3.4.4.最小/最大查询46
3.5. 机器学习46
3.5.1 机器学习中的隐私风险47
3.5.2 实现差异化隐私47
3.5.3 实用48
3.6.合成数据49
3.6.1 合成数据的隐私考虑49
3.6.2 综合数据的效用考虑50
3.6.3 生成合成数据50
3.6.4 通过隐私边缘区分隐私合成数据50
3.6.5 通过深度学习区分隐私合成数据51
3.7. 非结构化数据52
4.部署差异隐私53
4.1. 查询模型53
4.1.1 隐私预算54
4.1.2 系统安全和恶意分析人54
4.1.3 实用性和数据可信度55
4.2. 信任模型55
4.2.1. 中心模型57
4.2.2.本地模型59
4.2.3.未来方向:洗牌模型和安全计算模型60
4.3.机制实施挑战61
4.3.1 浮点运算62
4.3.2 定时通道62
4.3.3 后端问题63
4.3.4 调整超参数63
4.4.数据安全和访问控制64
4.5. 数据收集风险65
4.6. 结论65
参考文献67
附录A 术语表76
附录B.技术细节80
附录B.1.(ε,δ)的定义-差异隐私80
附录B.2. 灵敏度和基本机制的定义80
附录B.3. 详细信息:计数查询82
附录B.4. 详细信息:汇总查询82
附录B.5. 详细信息:平均查询数83
附录B.6. 细节:微分隐私随机梯度下降84
附录B.7. 评估软件库的差异隐私85
0.执行摘要
数据分析是帮助组织理解信息技术产生的大量数据的重要工具。政府、工业、学术界或民间社会的许多组织都使用数据分析来改进研究,开发更有效的服务,打击欺诈,并为决策提供信息,以实现使命或业务目标。然而,当所分析的数据涉及或影响个人时,可能会出现隐私风险,这可能会限制或阻止组织充分发挥数据分析的潜力。隐私增强技术(PETs)可以帮助降低隐私风险,同时允许更多地使用数据。
本出版物描述了差异隐私——一种PET,用于量化个人数据出现在数据集中时的隐私风险。差别隐私于2006年首次被定义为一个理论框架,目前仍在从理论向实践过渡。本出版物旨在帮助那些需要管理数据分析和数据共享风险的人——包括企业主、产品经理、隐私专员、安全人员、软件工程师、数据科学家和学者——了解、评估和比较不同的隐私保障。特别是,这份出版物强调了从业者应该仔细考虑的隐私危害。
本出版物分为四个部分。第2节定义了差异隐私,第3节描述了实现差异隐私的技术及其属性,第4节涵盖了差异隐私部署的重要相关问题。还包括一个补充的交互式软件档案,以加深对差异隐私和实现差异隐私的技术的理解。
0.1 差异隐私保证(第2节)
差异隐私承诺,数据分析或已发布数据集导致的隐私减少将对数据集中发现数据的所有个人进行限制。换言之,即使个人没有提供数据,差异化隐私分析也可能导致个人隐私减少。本节介绍了差异隐私,描述了其属性,解释了如何推理和比较差异隐私保证,描述了差异隐私保证如何影响现实世界的结果,并强调了定义和评估这些保证的潜在危害。
0.2 微分专用算法(第3节)
差异隐私通常是通过在分析结果中添加随机噪声来实现的。更多的噪音会产生更好的隐私,但会降低结果的实用性。这种隐私-效用权衡可能会使实现高效用和强隐私保护变得困难。统计披露控制技术,即根据记录或特征的可识别性对其进行编辑,有时也会在结果中产生或放大系统性、人为或统计偏差——统计披露控制通常都是如此——因此必须注意理解和减轻这些影响。
本节描述了各种数据处理场景的算法。存在用于分析查询(例如计数、直方图、求和和和平均值)、回归任务、机器学习任务、合成数据生成和非结构化数据分析的差异隐私算法。实施差异隐私算法需要大量的专业知识,主要是由于各种因素,包括使用随机抽样。算法的随机方面可能很难正确,也很容易出错,而且——就像实现密码学一样——最好在可能的情况下使用现有的经过严格验证的库。
0.3 部署差异隐私(第4节)
差异隐私在有意发布差异隐私数据的情况下保护数据主体的隐私,但不保护以原始形式收集、存储和分析的数据。本节描述了部署差异隐私分析技术的实际问题,包括信任模型,该模型描述了潜在的恶意方及其可能采取的步骤;可能导致意外隐私失败的实施挑战;以及额外的安全问题和数据收集风险。例如,敏感数据必须按照行业最佳实践,通过强有力的访问控制策略和机制安全存储,否则根本不存储。导致敏感原始数据记录未经授权发布的数据泄露将使为泄露记录建立的任何差异隐私保证无效;然而,差异隐私保证仍然适用于所有未泄露的记录。
0.4 迈向标准化、认证和评估
本出版物旨在成为建立差异隐私保证标准的第一步,以确保差异隐私的部署提供强大的现实世界隐私保护。特别是,差异隐私保证标准应规定一种设置参数的方法,以解决本出版物中描述的所有隐私危害,并平衡隐私保证的强度与发布数据的预期收益。这样的标准将允许构建工具来评估差异隐私保障和提供差异隐私保障的系统,以及对符合标准的系统进行认证。
鉴于向非专家传达这些保证的挑战,差异隐私保证的认证尤为重要。彻底的认证过程将为非专家提供一个重要信号,表明特定系统将提供强有力的保证,而不需要他们了解这些保证的细节。
0.5 差异化隐私和政策
由于差异隐私是目前唯一严格的隐私数学定义,它很可能在官方统计数据的发布中发挥重要作用。本文件无意为美国联邦(和其他政府)机构提供指导,以引导差异隐私与法律、法规和政策的互动。美国联邦机构,特别是统计机构,有重要责任发布准确的信息,但可能对准确性有不同的定义。
原文始发于微信公众号(老烦的草根安全观):NIST差异隐私保证评估指南
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论