匿名化技术
英国ICO发布的《匿名化:管理数据保护风险行为准则》中给出了一些匿名化技术,包括:数据脱敏、假名化、数据聚合、衍生数据和分箱。新加坡PDPC发布的《基本匿名化指南》中给出的匿名化技术包括:抑制、脱敏、假名化、泛化、置换、数据聚合。爱尔兰DPC发布的《匿名化和假名化指南》中认为匿名技术有两个不同的体系:“随机化”和“泛化”。其他技术,如“屏蔽”或“假名化”,仅旨在删除某些标识符,也可在降低识别风险方面发挥作用。在许多情况下,这些技术在一起使用时效果最佳,从而对抗不同类型的识别风险。由于匿名化概念的不统一,很多标准中对并没有明确提及“匿名化技术”,更多的是“去标识化技术”。ISO/IEC 20889和GB/T 37964中给出了详细的去标识化技术,包括:
-
统计技术(statistical techniques):包括数据抽样和数据聚合;数据抽样能够增加识别出特定个人信息主体的不确定性,可以简化对数据集的计算量;数据聚合即求和、平均、最大最小值等,输出的是统计值,不会披露任何个体记录,但同时数据的可用性也会降低。
-
密码技术(cryptographic techniques):包括确定性加密、保序加密、保留格式加密、同态加密、同态秘密共享;确定性加密能够保证数据的可用性,常用于精准匹配搜索、数据关联分析等场景,但同时攻击者也能从两个密文来判断其对应的明文是否一致;保序加密即密文的排序和明文的排序是相同的,可用于涉及顺序信息的查询操作或者排序比较关系等场景;保留格式加密可以保证加密后的数据具有与原始数据相同的格式和长度,比如银行卡号加密后仍然是数字并且保留同样的长度,可用于测试环境下的功能测试、模拟测试等;同态加密是指对加密后的密文数据的计算结果进行解密,其结果与用同一方法处理未加密的原始数据的结果一致;同态秘密共享可将一个秘密拆分为若干份,对用于重构秘密的所有份额执行相同的数学运算,其结果等价于在原始秘密上执行相应数学运算的结果。
-
抑制技术(suppression techniques):包括屏蔽、局部抑制、记录抑制;抑制技术即对不满足隐私保护的数据项删除,不进行发布。包括从所有记录中选定的属性(如屏蔽)、对所选定的属性值(如局部抑制),或是将数据集中选定的记录(如记录抑制)删除。
-
假名化技术(pseudonymization techniques):包括独立于标识符的假名创建、基于密码技术的标识符派生假名创建;独立于标识符的假名创建的典型方法是用随机值代替原始标识符,需构建假名与原始标识符的映射表,并且需对该映射表进行严格的访问控制;基于密码技术的标识符派生假名创建是对属性值采用加密或散列等密码技术生成假名。
-
泛化技术(generalization techniques):包括取整、顶层与底层编码;取整涉及为所选的属性选定一个取整基数,然后将每个值向上或向下取整至最接近取整基数的倍数;顶层与底层编码即可将某用户薪水值设为“高于X元”或“低于X元”。
-
随机化技术(randomization techniques):包括噪声添加、置换、微聚集;噪声添加通过添加随机值到所选的属性值中来修改数据集,同时尽可能保持该属性在数据集中的原始统计特性;置换对数据集记录中所选属性的值进行重新排序的一种技术;微聚集是将数据集根据所选的一组连续属性划分为k个组,用每个组中的平均值替换该组中的属性。
-
数据合成技术(synthetic data techniques):合成数据是通过计算机程序人工生成的数据,而不是由真实事件生成的数据。合成数据可用做测试数据,通常是填补潜在或边缘用例。比如通过合成极端天气下的路况数据对自动驾驶进行测试。
-
K-匿名模型(K-anonymity model):K-匿名是指定标识符(直接标识符或准标识符)属性值相同的每一等价类至少包含 K 个记录,使攻击者不能判别出个人信息所属的具体个体。
-
差分隐私模型(differential privacy model):差分隐私通过给数据集的处理结果添加一定的噪声,使得数据集的处理结果对单一记录的变化(如删除或添加)不敏感,有效防止差分攻击。
匿名化实施方案
美国CCPA中给出了不可识别(deidentified)的要求,主要是技术+管理要求。我国目前有一些试点中的匿名化方案也是基于技术+管理的方式。美国HIPAA在描述不可识别个人的健康信息时,给出了两种评估方案:专家决定法和安全港,如图4所示。英国ICO给出了基于有动机攻击者测试的评估方案,新加坡PDPA也建议使用有动机攻击者测试来评估匿名化数据被重识别的剩余风险。我国的GB/T 37964国标中给出了综合性的评估方案:检查处理后的数据集不包括直接标识符和准标识符,验证处理后的数据集满足既定的重标识风险要求,模拟外部人员和内部违规人员进行入侵者测试。
图4 专家决定法和安全港
1、技术+管理的匿名化方案
环境维护包括:
-
技术环境:应满足安全、受控、可信和可证的要求;
-
合规环境:根据具体的广告业务场景,依照法律法规条款梳理形成合规规则库,并进行工具封装,用于对具体业务场景处理出具的合规性评估;形成的技术测评结论、合规评估报告等需要进行记录存档或备案;
-
管理环境:各参与方自控分域数据并承担相应责任,应控制数据关联,及时响应和制止风险事件,对匿名化处理过程进行监控并记录。
确定目标:包括确定相关参与方、数据对象、限定对数据的处理行为等。
技术处理:根据GB/T 37964,选择合适的去标识化技术对数据进行处理,涉及到密码技术的密钥由独立机构进行分配和管理,整个处理过程有据可查。
效果评估:对匿名化效果进行技术测评,对数据处理的合规性进行评估。
行为控制:通过协议、合同等方式约定数据接收方的责任和义务;各方对数据的传输、加工和使用要合规。
过程监管:组织内的数据匿名化处理应进行过程记录和保存,组织间的数据匿名化还应在公信机构进行合约备案,共同形成匿名化证据链,支持审计与审查。
2、专家决定法
专家决定法主要通过雇佣在统计学或数据处理方面有足够知识和经验的专家,专家通过应用数据处理方法,确定处理后的数据被单独或结合其他数据识别出特定个人的风险非常小。组织记录这些方法和结果,并证明其合理性。
3、安全港
安全港方案主要指去除18项标识符,并且数据处理者并不知道剩余信息可以单独或结合其他信息识别出个人。这18项标识符包括姓名、精确到州以下的地理位置信息、可直接关联个人的日期数据、电话号码、传真号码、电子邮箱地址、社会保险号、病历号、健康计划受益人号、银行账号、证书号、车辆识别号、设备识别符、URL地址、IP地址、生物识别符、正面照片、其他唯一识别符号。
4、有动机攻击者测试
有动机攻击者测试是通过模拟有动机攻击者或者邀请真正的有动机攻击者,对数据集进行重识别或数据复原的尝试。如果能够达到重识别或数据复原,则匿名化效果不满足要求。有动机攻击者测试可以是一个不断迭代的过程,通过测试可以不断完善数据匿名化处理过程,比如入侵者通过哪些变量组合可以识别到个人,那需要对这些变量进行进一步去标识化处理或者进行安全防护加固。该方法假设有动机攻击者是有合理能力的一般人,不是具有专业技能的人员(如黑客),也不是内幕人士(如医生),也不使用专业设备。有动机攻击者通过公开检索、询问、调查等方式,来看是否能对数据集进行重识别或数据复原,比如可以访问互联网、图书馆和所有公共文件等资源,可以询问可能对数据主体身份有额外了解的人。
5、综合评估方案
综合评估方案是多种方案的结合,首先基于数据集所限定的使用场景识别潜在的安全风险,确定匿名化策略和方法,选取合适的去标识化技术,对数据集进行去标识化处理。参照GB/T 42460—2023对处理后的数据集进行去标识化效果评估,如未达到4级,则继续对其进行去标识化处理,如个人信息标识度达到4级,则对其进行有动机攻击测试。实施攻击测试,模拟外部人员或内部违规人员进行入侵者测试。根据攻击测试的结果,评估匿名化处理后数据集的安全性,如果在测试中能够重识别或者数据复原,则测试不通过,需要重新调整匿名化策略和方法,从头进行匿名化处理和效果评估。如此迭代直到通过有动机攻击者测试。
结 语
匿名化的开始是去标识,标识是天然依赖环境和上下文的,匿名化也必然是依赖环境和上下文的,所以,匿名化是个相对的概念,需要在有限空间和时间、有限数据集和具体环境下讨论和实施匿名化。匿名化的结果是重标识风险足够小,重标识风险是个概率问题,受所在环境及各方安全能力、信任关系的影响,所以匿名化不单是技术问题,不是某项单一技术就能推导出匿名化,需要综合技术和管理手段。行业多数观点认为,我们需要讨论的匿名化方案是相对匿名化,因为绝对的匿名化是一种过度承诺,要么难以达到,要么会破坏“数据有用性”原则。相对匿名化是不结合密钥、外部场景信息的情况下,无法进行重识别,将相对匿名化方案限定在受控封闭的环境中,切断其与外部信息的关联,则可达到个保法中要求的无法识别和不能复原。数字时代,准确把握数据流动和安全发展的平衡点至关重要,相对匿名化相关技术和方案提供了解决之道。
[1] Anonymization: managing data protection risk code of practice
[2] Guide to basic anonymization
[3] ADVISORY GUIDELINES ON THE PERSONAL DATA PROTECTION ACT FOR SELECTED TOPICS
[4] ISO/IEC 29100:2011 Information technology — Security techniques — Privacy framework
[5] ISO TS 25237:2017 Health informatics — Pseudonymization
[6] ISO 19731:2017 Digital analytics and web analyses for purposes of market, opinion and social research — Vocabulary and service requirements
[7] ISO/IEC 20889:2018 Privacy enhancing data de-identification terminology and classification of techniques
[8] ISO/IEC 27559:2022 Information security, cybersecurity and privacy protection – Privacy enhancing data de-identification framework
[9] NISTIR 8053 De Identification of Personal Information
[10] GB/T 35273-2020 信息安全技术 个人信息安全规范
[11] TC260-001 汽车采集数据处理安全指南
[12] GB/T 37964-2019 个人信息去标识化指南
[13] GB/T 42460-2023 个人信息去标识化效果评估指南
[14] T/CAAAD 004-2022 T/CCSA 424-2022 互联网广告匿名化实施指南
[15] HIPAA Administrative Simplification
延伸阅读:
(本文作者:蚂蚁科技集团股份有限公司 白晓媛 彭晋)
CCIA数据安全工作委员会单位介绍 |
蚂蚁集团是全球领先的科技公司,致力于以科技推动数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。 |
原文始发于微信公众号(独角鲸安全):匿名化概念与方案研究(下)— 技术与方案篇
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论