深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

admin 2024年2月24日22:49:51评论14 views字数 6397阅读21分19秒阅读模式
接上篇:
深度分析 | 匿名化概念与方案研究(上)—概念与依据篇
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

匿名化技术

深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

英国ICO发布的《匿名化:管理数据保护风险行为准则》中给出了一些匿名化技术,包括:数据脱敏、假名化、数据聚合、衍生数据和分箱。新加坡PDPC发布的《基本匿名化指南》中给出的匿名化技术包括:抑制、脱敏、假名化、泛化、置换、数据聚合。爱尔兰DPC发布的《匿名化和假名化指南》中认为匿名技术有两个不同的体系:“随机化”和“泛化”。其他技术,如“屏蔽”或“假名化”,仅旨在删除某些标识符,也可在降低识别风险方面发挥作用。在许多情况下,这些技术在一起使用时效果最佳,从而对抗不同类型的识别风险。由于匿名化概念的不统一,很多标准中对并没有明确提及“匿名化技术”,更多的是“去标识化技术”。ISO/IEC 20889和GB/T 37964中给出了详细的去标识化技术,包括:

  • 统计技术(statistical techniques):包括数据抽样和数据聚合;数据抽样能够增加识别出特定个人信息主体的不确定性,可以简化对数据集的计算量;数据聚合即求和、平均、最大最小值等,输出的是统计值,不会披露任何个体记录,但同时数据的可用性也会降低。

  • 密码技术(cryptographic techniques):包括确定性加密、保序加密、保留格式加密、同态加密、同态秘密共享;确定性加密能够保证数据的可用性,常用于精准匹配搜索、数据关联分析等场景,但同时攻击者也能从两个密文来判断其对应的明文是否一致;保序加密即密文的排序和明文的排序是相同的,可用于涉及顺序信息的查询操作或者排序比较关系等场景;保留格式加密可以保证加密后的数据具有与原始数据相同的格式和长度,比如银行卡号加密后仍然是数字并且保留同样的长度,可用于测试环境下的功能测试、模拟测试等;同态加密是指对加密后的密文数据的计算结果进行解密,其结果与用同一方法处理未加密的原始数据的结果一致;同态秘密共享可将一个秘密拆分为若干份,对用于重构秘密的所有份额执行相同的数学运算,其结果等价于在原始秘密上执行相应数学运算的结果。

  • 抑制技术(suppression techniques):包括屏蔽、局部抑制、记录抑制;抑制技术即对不满足隐私保护的数据项删除,不进行发布。包括从所有记录中选定的属性(如屏蔽)、对所选定的属性值(如局部抑制),或是将数据集中选定的记录(如记录抑制)删除。

  • 假名化技术(pseudonymization techniques):包括独立于标识符的假名创建、基于密码技术的标识符派生假名创建;独立于标识符的假名创建的典型方法是用随机值代替原始标识符,需构建假名与原始标识符的映射表,并且需对该映射表进行严格的访问控制;基于密码技术的标识符派生假名创建是对属性值采用加密或散列等密码技术生成假名。

  • 泛化技术(generalization techniques):包括取整、顶层与底层编码;取整涉及为所选的属性选定一个取整基数,然后将每个值向上或向下取整至最接近取整基数的倍数;顶层与底层编码即可将某用户薪水值设为“高于X元”或“低于X元”。

  • 随机化技术(randomization techniques):包括噪声添加、置换、微聚集;噪声添加通过添加随机值到所选的属性值中来修改数据集,同时尽可能保持该属性在数据集中的原始统计特性;置换对数据集记录中所选属性的值进行重新排序的一种技术;微聚集是将数据集根据所选的一组连续属性划分为k个组,用每个组中的平均值替换该组中的属性。

  • 数据合成技术(synthetic data techniques):合成数据是通过计算机程序人工生成的数据,而不是由真实事件生成的数据。合成数据可用做测试数据,通常是填补潜在或边缘用例。比如通过合成极端天气下的路况数据对自动驾驶进行测试。

  • K-匿名模型(K-anonymity model):K-匿名是指定标识符(直接标识符或准标识符)属性值相同的每一等价类至少包含 K 个记录,使攻击者不能判别出个人信息所属的具体个体。

  • 差分隐私模型(differential privacy model):差分隐私通过给数据集的处理结果添加一定的噪声,使得数据集的处理结果对单一记录的变化(如删除或添加)不敏感,有效防止差分攻击。

匿名化不是单纯的技术问题,本质上是重识别风险概率问题,重识别受数据集、环境和上下文等多种因素的影响,因此无法简单的说使用某种技术就能达到匿名化。去标识化技术可以应用于匿名化,需要根据不同的上下文要求(如是否要保持数据记录的真实性、数据类型、对计算性能的要求等)选择不同的技术或者不同技术的组合对数据集进行处理,再基于具体的数据使用环境,结合应用对应的安全控制措施,使重识别风险足够小。所以,单纯针对数据集的处理技术而言,匿名化技术和去标识化技术没有本质区别。
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

匿名化实施方案

深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

美国CCPA中给出了不可识别(deidentified)的要求,主要是技术+管理要求。我国目前有一些试点中的匿名化方案也是基于技术+管理的方式。美国HIPAA在描述不可识别个人的健康信息时,给出了两种评估方案:专家决定法和安全港如图4所示。英国ICO给出了基于有动机攻击者测试的评估方案,新加坡PDPA也建议使用有动机攻击者测试来评估匿名化数据被重识别的剩余风险。我国的GB/T 37964国标中给出了综合性的评估方案:检查处理后的数据集不包括直接标识符和准标识符,验证处理后的数据集满足既定的重标识风险要求,模拟外部人员和内部违规人员进行入侵者测试。

深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

图4 专家决定法和安全港

深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

1、技术+管理的匿名化方案

美国CCPA中指出不可识别是指处理后的信息不能合理的用于推断或者关联特定消费者,同时给处理信息的组织提出要求:1)使用合理的措施来确保信息不被关联到主体;2)公开承诺维持和使用不可识别的信息,并且不进行对信息的重标识操作,除非是仅为了确定去标识化过程满足要求;3)用合同约定,信息的任何接收方都要遵守以上规定。第一点主要通过技术手段来实现,比如通过使用本文第三章中介绍的密码技术等手段,降低数据被复原和重标识的可能性;第二点强调主观意愿上不进行重标识,主观意愿比较抽象,在实际操作中,一方面可以使用管理手段对数据重标识行为进行约束,另一方面可以对数据处理过程进行监控,对有数据复原或关联风险进行告警阻断;第三点主要采用合同约定的方式,限制和约束数据接收方的行为,如果数据接收方违反约定,就要承担相应的后果和责任,以此进一步降低数据被复原和重标识的风险。
我国CCSA与中广协联合发布的团标《互联网广告匿名化实施指南》匿名化处理过程包括:环境维护、确定目标、技术处理、效果评估和行为控制等步骤。

环境维护包括:

  • 技术环境:应满足安全、受控、可信和可证的要求;

  • 合规环境:根据具体的广告业务场景,依照法律法规条款梳理形成合规规则库,并进行工具封装,用于对具体业务场景处理出具的合规性评估;形成的技术测评结论、合规评估报告等需要进行记录存档或备案;

  • 管理环境:各参与方自控分域数据并承担相应责任,应控制数据关联,及时响应和制止风险事件,对匿名化处理过程进行监控并记录。

确定目标:包括确定相关参与方、数据对象、限定对数据的处理行为等。

技术处理:根据GB/T 37964,选择合适的去标识化技术对数据进行处理,涉及到密码技术的密钥由独立机构进行分配和管理,整个处理过程有据可查。

效果评估:对匿名化效果进行技术测评,对数据处理的合规性进行评估。

行为控制:通过协议、合同等方式约定数据接收方的责任和义务;各方对数据的传输、加工和使用要合规。

过程监管:组织内的数据匿名化处理应进行过程记录和保存,组织间的数据匿名化还应在公信机构进行合约备案,共同形成匿名化证据链,支持审计与审查。

该方案与美国CCPA方案非常类似,增加了自身或委托第三方机构进行效果评估,以及过程监管,用“自证+他证”的方式进一步增强方案的可信度以及降低风险。在实际试点运行中,此方案至少需要三方参与构建,一方负责对数据对象的技术处理,二方负责对数据处理行为的评估存证,三方负责主体间的合约备案。使得匿名化三要素“主体、行为、对象”均可管控、可取证、可审计。
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

2、专家决定法

专家决定法主要通过雇佣在统计学或数据处理方面有足够知识和经验的专家,专家通过应用数据处理方法,确定处理后的数据被单独或结合其他数据识别出特定个人的风险非常小。组织记录这些方法和结果,并证明其合理性。

专家决定法是一种出现较早并应用较广的评价方法,通常用在某些变量难以获得时,利用专家经验得出评估结果。HIPAA隐私规则中并没有明确专家决定法应当使用的具体方法和标准。用定量的方法判断重标识风险足够小确实有较大难度,专家决定法不失为一种可行高效的方案。在实际应用中,可以对专家资质给出明确的和行业共识的标准,对专家的评估方法也需要进行标准化,比如针对具体场景的数据处理技术方案和管理方案,专家通过PIA评估、重标识风险定性判断等方式进行综合评估。对专家评估结果的合理性进行证明也是个难点,可以委托第三方机构对专家评估的过程进行监控审计,并由公信机构进行备案确认。
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

3、安全港

安全港方案主要指去除18项标识符,并且数据处理者并不知道剩余信息可以单独或结合其他信息识别出个人。这18项标识符包括姓名、精确到州以下的地理位置信息、可直接关联个人的日期数据、电话号码、传真号码、电子邮箱地址、社会保险号、病历号、健康计划受益人号、银行账号、证书号、车辆识别号、设备识别符、URL地址、IP地址、生物识别符、正面照片、其他唯一识别符号。

此方案存在较大的争议,首先去除唯一识别符后剩余的属性信息被重识别的风险仍然很大,尤其对于较小的样本量或罕见的属性值,个人仍然可能被识别。其次数据处理者自己判断并不足以证明方案的安全性和可行性。
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

4、有动机攻击者测试

有动机攻击者测试是通过模拟有动机攻击者或者邀请真正的有动机攻击者,对数据集进行重识别或数据复原的尝试。如果能够达到重识别或数据复原,则匿名化效果不满足要求。有动机攻击者测试可以是一个不断迭代的过程,通过测试可以不断完善数据匿名化处理过程,比如入侵者通过哪些变量组合可以识别到个人,那需要对这些变量进行进一步去标识化处理或者进行安全防护加固。该方法假设有动机攻击者是有合理能力的一般人,不是具有专业技能的人员(如黑客),也不是内幕人士(如医生),也不使用专业设备。有动机攻击者通过公开检索、询问、调查等方式,来看是否能对数据集进行重识别或数据复原,比如可以访问互联网、图书馆和所有公共文件等资源,可以询问可能对数据主体身份有额外了解的人。

公开资料显示,有动机攻击者测试目前已有一些应用,但是大都没有介绍细节方案,有动机攻击者如何选取,有动机攻击者测试的具体步骤和方法也并不明确,需要根据具体的场景进行综合分析和方案设计。
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

5、综合评估方案

综合评估方案是多种方案的结合,首先基于数据集所限定的使用场景识别潜在的安全风险,确定匿名化策略和方法,选取合适的去标识化技术,对数据集进行去标识化处理。参照GB/T 42460—2023对处理后的数据集进行去标识化效果评估,如未达到4级,则继续对其进行去标识化处理,如个人信息标识度达到4级,则对其进行有动机攻击测试。实施攻击测试,模拟外部人员或内部违规人员进行入侵者测试。根据攻击测试的结果,评估匿名化处理后数据集的安全性,如果在测试中能够重识别或者数据复原,则测试不通过,需要重新调整匿名化策略和方法,从头进行匿名化处理和效果评估。如此迭代直到通过有动机攻击者测试。

此方案综合了去标识化效果评估和有动机攻击者测试,需要注意的是无论是去标识化效果评估还是有动机攻击者测试都是在限定的环境中进行。此种方案经过了双重的重标识风险的评估和降低,去标识化效果评估用于判断是否达到匿名化效果,有动机攻击者测试用于判断匿名化效果是否满足要求。也有观点认为,去标识化效果达到GB/T 42460—2023中规定的标识度3级(消除了直接标识符,但包含准标识符,且重标识风险低于设定阈值)也可认为达到了匿名化,因为重标识风险已经低于设定的阈值。具体采用哪种方案还是需要同时考虑数据本身的特征和数据应用的环境。
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

结  语

深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇
深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

匿名化的开始是去标识,标识是天然依赖环境和上下文的,匿名化也必然是依赖环境和上下文的,所以,匿名化是个相对的概念,需要在有限空间和时间、有限数据集和具体环境下讨论和实施匿名化。匿名化的结果是重标识风险足够小,重标识风险是个概率问题,受所在环境及各方安全能力、信任关系的影响,所以匿名化不单是技术问题,不是某项单一技术就能推导出匿名化,需要综合技术和管理手段。行业多数观点认为,我们需要讨论的匿名化方案是相对匿名化,因为绝对的匿名化是一种过度承诺,要么难以达到,要么会破坏“数据有用性”原则。相对匿名化是不结合密钥、外部场景信息的情况下,无法进行重识别,将相对匿名化方案限定在受控封闭的环境中,切断其与外部信息的关联,则可达到个保法中要求的无法识别和不能复原。数字时代,准确把握数据流动和安全发展的平衡点至关重要,相对匿名化相关技术和方案提供了解决之道。

参考文献

[1] Anonymization: managing data protection risk code of practice

[2] Guide to basic anonymization

[3] ADVISORY GUIDELINES ON THE PERSONAL DATA PROTECTION ACT FOR SELECTED TOPICS

[4] ISO/IEC 29100:2011 Information technology — Security techniques — Privacy framework

[5] ISO TS 25237:2017 Health informatics — Pseudonymization

[6] ISO 19731:2017 Digital analytics and web analyses for purposes of market, opinion and social research — Vocabulary and service requirements

[7] ISO/IEC 20889:2018 Privacy enhancing data de-identification terminology and classification of techniques

[8] ISO/IEC 27559:2022 Information security, cybersecurity and privacy protection – Privacy enhancing data de-identification framework

[9] NISTIR 8053 De Identification of Personal Information

[10] GB/T 35273-2020 信息安全技术 个人信息安全规范

[11] TC260-001 汽车采集数据处理安全指南

[12] GB/T 37964-2019 个人信息去标识化指南

[13] GB/T 42460-2023 个人信息去标识化效果评估指南

[14] T/CAAAD 004-2022 T/CCSA 424-2022 互联网广告匿名化实施指南

[15] HIPAA Administrative Simplification

延伸阅读:

深度分析 | 匿名化概念与方案研究(上)—概念与依据篇

(本文作者:蚂蚁科技集团股份有限公司 白晓媛 彭晋)

CCIA数据安全工作委员会单位介绍

深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

蚂蚁集团是全球领先的科技公司,致力于以科技推动数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。

深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

原文始发于微信公众号(CCIA数据安全工作委员会):深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年2月24日22:49:51
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   深度分析 | 匿名化概念与方案研究(下)— 技术与方案篇http://cn-sec.com/archives/2118874.html

发表评论

匿名网友 填写信息