匿名化概念与方案研究(上)—概念与依据篇

admin 2024年3月4日00:59:08评论10 views字数 6432阅读21分26秒阅读模式
匿名化概念与方案研究(上)—概念与依据篇

个人信息概念的界定是个人信息保护的核心问题和逻辑起点,直接关系到保护对象的边界。2021年11月1日生效实施的《个人信息保护法》中规定的个人信息为“以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”,并明确匿名化处理后的信息不属于个人信息。过窄的“个人信息”定义无法实现对个人信息的充分保护,然而过宽的定义则可能会阻碍数据要素流通,无法促进数据要素市场培育。因此,匿名化的界定和评估至关重要。本文将从法律法规对匿名化的定义、标准中对匿名化的进一步解释、匿名化评估方案等方面,对匿名化的概念、实现技术和评估方案进行分析研究,为行业提供参考。

匿名化相关法规和文件

1、欧洲
欧盟1995年颁布的“95指令”中就给出了“匿名数据”(data rendered anonyous)的提法,即:使数据主体不再可识别的数据。
作为取代95/46/EC指令的GDPR,将“匿名信息”(anonymous information)定义为“与已识别或可识别的自然人无关的信息,或者以令数据主体不可识别或不再可识别的方式处理而得到的数据”。同时,GDPR还强调,在认定数据主体是否可被识别时,应当考虑所有合理且可能的方法,例如由数据控制者或其他人直接或间接识别自然人;至于什么是“合理且可能的方法”,需要考虑包括识别所需的成本和时间在内的所有客观因素,并且需考虑数据处理当时可用的技术和技术发展态势
英国ICO认可GDPR对“匿名信息”的解释,认为“匿名化”(anonymization)是将个人数据转化为匿名信息的方式,包括技术和各种方法。ICO认为,同样的信息在一个组织中可能是个人数据,而在另外一个组织中则可能是匿名信息。即该信息是个人数据还是匿名信息取决于其所处的环境,以及取决于组织处理信息的目的。比如,一个记者拍了一张沙滩照片,并在当地报纸上发表了一篇关于破纪录气温的报道。这张照片包括一些在海滩上放松的人,照片的质量足以让一些人辨认出来。但是记者拍这张照片,并不是为了了解照片中无意中拍到的任何人的任何信息,因此记者处理该照片时不属于个人数据。但是其中一名在海滩上被拍到的人告诉雇主,他们需要参加葬礼,并在当天休了丧假。他的同事从报纸上看到照片,并且发给了经理,经理基于此照片以虚假借口为理由对请假的同事给予处分,当经理处理该照片时属于个人数据。ICO认为对个人信息的匿名化是可行的,并且可有助于以隐私友好的方式满足社会对信息的需求。
爱尔兰DPC也认可GDPR对“匿名信息”的解释,但是又强调,对数据的匿名化处理的目的是不可逆的阻止个人被识别。同时,爱尔兰DPC也认为,即使是有效的匿名化,也有可能存在影响隐私保护的剩余风险,应该考虑到相关个人的关切点。

可见,即使是在欧洲统一的匿名信息的定义下,也存在不同的理解和解读。

2、美国
美国的法律法规多数没有采用匿名化概念,主要使用去标识化(deidentification)等概念。美国1996年发布的HIPPA就使用的是去标识化健康信息,认为去标识化后的健康信息的使用和披露不应受到限制。美国加州2018年发布的CCPA指出,“个人信息”不包括公开信息或合法获得的公众关注的真实信息,不包括去标识化信息或者聚合消费者信息。此处的去标识信息是指不能合理地识别,关联,描述,被联系在一起,或者说被链接,直接地或间接地,到特定消费者。此处的聚合消费者信息是指一组或一类消费者相关的信息,其中个人消费者标识已被删除,且与任何消费者或家庭(包括通过设备)没有联系或无法合理联系
此处的去标识化信息与GDPR的匿名信息非常类似,但是CCPA只强调 “合理的”手段,不包括GDPR中提到的“可能的”的手段,弱化了某些低概率的识别手段,不要求穷举所有可能的手段,意味着CCPA所规定的“去标识信息”比GDPR规定的“匿名信息”门槛要低一些。
3、新加坡
新加坡PDPC于2022年修订发布的《个人数据保护法下基于特定主题的建议指南》给出的“匿名化”(anonymization)定义是:将个人数据转换为无法识别任何特定个人的数据的过程,根据使用的具体过程,可以是可逆的或不可逆的,如果可逆的话,组织需要对其重标识风险进行控制。新加坡PDPC认为“去标识”仅指删除直接标识符,并不等同于“匿名化”。该指南指出,匿名化需要考虑两个因素:1)数据本身,或与接收方已经或可能获取到的其他信息相结合的数据;2) 组织为降低重新识别风险而实施的措施和保障措施。新加坡PDPC鼓励使用匿名化数据进行研究和分析,因为可以兼顾个人信息保护和基于数据的创新,降低数据泄露风险,降低对个人的影响等。
新加坡PDPC对匿名化的研究归根到底还是要平衡数据使用和隐私保护,特别说明了有的过程虽然可逆,也可以认为是匿名化,要根据具体情况去评估。对于一些天生信息丰富的数据(比如肖像照片),经过匿名化处理之后可能就无法用于其预期目的了。因此,从匿名化的目的是要用数据的角度来看,不是所有数据都能够被有效或者有意义的匿名化。
4、日本
日本PIPC于2020年修订发布的《个人信息保护法》(简称APPI)给出的“匿名处理信息”(anonymously processed information)的定义是:通过处理个人信息而产生的相关信息,它既不能根据采取以下规定的处理措施来识别到特定个人,也无法还原成个人信息。这些处理措施包括:1)删除个人信息包含的个人描述等 (包括将描述替换为其他描述,或者使用具有不可恢复的方法等); 2)删除所述个人信息中所包含的全部标识符 (包括将标识符替换为其他描述部分,或者使用具有不可恢复的方法等)。
APPI中匿名化处理信息的关键词是不可识别(neither to be able to identify)和不可复原(nor to be able to restore)。
5、中国
我国2021年发布的《个人信息保护法》给出“匿名化”的定义是:个人信息经过处理无法识别特定自然人且不能复原的过程。对“去标识化”也给出了明确定义:个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。并且还明确提出,对个人信息“采取相应的加密、去标识化等安全技术措施”是个人信息处理者的义务。
可以认为匿名化是效果更强的去标识化,从具体技术方面,两者也很类似(见第三章)。匿名化强调无法识别且不能复原,去标识化强调不借助额外信息的情况下无法识别。基于此,从无法识别的角度,如果将去标识化的个人信息与其他可能的额外信息之间的关联切断,把去标识化后的个人信息置于一个安全隔离的环境中,是否就能认为达到了匿名化定义中的“不可识别”?从不能复原的角度,如果对个人信息进行密态处理,并且上下游个人信息处理者都无法获得密钥,是否就能认为达到了匿名化定义中的“不可复原”?如果能就这两个推断问题达成共识,既明确了去标识化和匿名化的关系问题,又提供了切实可行的匿名化方案。


匿名化相关标准

1、ISO
1)ISO/IEC 29100:2011 信息技术 — 安全技术 — 隐私框架
该标准中对匿名化的定义是“PII被不可逆转的改变的过程,并且PII主体不能被直接或间接的标识,无论是被PII控制者单独还是联合其他方”。标准中对假名化的定义是“将个人识别信息PII替换为其他别名的过程”。标准中认为,在假名化的基础上,如果假名分配函数或表被删除,也是匿名化。
假名化保留了数据的可链接性,即有同样假名的不同数据可以链接起来。匿名化则破坏了不同数据之间的可链接性。
2)ISO TS 25237:2017 健康信息-假名化

该标准最早在2008年就发布了第一版,2017年进行了修订发布。在2008年版本中,对“匿名化(anonymization)”的定义是“删除标识数据集与数据主体之间的关联的过程”,该定义主要是从匿名化实现方式的角度出发,并且在正文中说明,不同于假名化,匿名数据的重标识是不可能的。在2017年版本中,对匿名化的定义直接引用了ISO/IEC 29100:2011中的定义,并进一步指出“概念是绝对的,在实践中可能很难获得”,该定义主要从实现目标的角度出发。标准中对匿名化具体的描述,如图1所示,是删除特征集与数据主体之间关联关系的过程。

匿名化概念与方案研究(上)—概念与依据篇

图1 ISO TS 25237:2017中对匿名化的释义

从图1中的描述来看,似乎ISO TS 25237中描述的匿名化更加类似于去标识化,但是结合上下文,本标准主要讲的假名化,假名化强调假名与一组特征之间的关联,这里的匿名化主要强调切断特征与任何主体间的关联。

3)ISO 19731:2017 以市场、意见和社会研究为目的的数字分析和网络分析-词汇与服务要求
该标准对匿名化的定义是“删除、模糊、聚合或更改标识符的过程,目的是防止对数据相关个人的识别”。标准中对服务提供者提出要求,不同来源的数据组合可能导致参与者被识别,服务提供者应尽一切努力保护参与者的匿名性。

这个定义从标识符的角度来阐述匿名化,对标识符的判定就成为匿名化判定的关键环节。标准中也提出不同来源的数据组合会导致重识别风险提升,可见多源数据融合是需要重点考虑的业务场景。

4)ISO/IEC 20889:2018 隐私增强数据去标识术语和技术分类
该标准中明确说明,由于匿名化概念的不统一,标准中没有使用匿名、匿名化、匿名性等相关术语,统一用去标识化的术语来描述。
该标准中对各类个人信息标识符进行定义,包括唯一标识符、准标识符、直接标识符、间接标识符等。标准中列出的重标识风险singling out、linking、inference与欧盟29条工作组对匿名化的认知一致,第29条工作组认为匿名化方案应该能够抵御这三项风险。标准强调要保证去标识数据的有用性,可以根据不同的使用目的选取不同的去标识技术来保证有用性。标准中给出的去标识化技术非常全面,包括统计技术、密码技术、抑制技术、假名化技术、泛化技术、随机化技术、数据合成技术、K匿名模型、差分隐私模型等,但是也强调去标识化技术需要配套其他安全措施,来提高其有效性。该标准可以作为一个去标准化技术字典来使用。
标准附录表B.1给出了ISO 25237、ISO 29100、ICO 2012、Article 29 2014中去标识化、匿名化、假名化术语与脱敏、泛化、随机化、差分隐私等技术之间的映射关系,个人认为这种直接的映射关系并不严谨,特别是涉及到匿名化,不建议参考。

5)ISO/IEC 27559:2022 隐私增强数据去标识框架

该标准基于ISO/IEC 20889中提出的去标识技术,从环境评估、数据评估、识别性评估和去标识治理等方面给出了去标准化实践,如图2所示。

匿名化概念与方案研究(上)—概念与依据篇

图2 ISO/IEC 27559中去标识化框架实践

同ISO/IEC 20889一样,由于匿名化概念不统一,标准中没有提及匿名化,用去标识化进行表述。图2中整个流程可以迭代,直到去标识化的数据满足设定的可接受的标准。这套评估框架的思路可应用于匿名化的评估。

2、NIST

2015年发布的NISTIR 8053《个人信息去标识》中对去标识化、假名化和匿名化进行了简单的比较,指出在一些医疗健康的场景下,将假名与主体标识间的映射关系删除就是匿名化。并且说明由于匿名化概念的不统一,所以NISTIR 8053中不使用匿名化的概念,全篇使用去标识化的概念(与CCPA、HIPPA等一致),有的场景下可以重标识,有的场景下不能重标识,并给出了数据可识别程度的递进图,如图3所示。

匿名化概念与方案研究(上)—概念与依据篇

图3 NISTIR 8053给出的数据可识别程度递进图

从上图中可以推导出更深程度的去标识化可以达到匿名化效果,不同程度的去标识化与隐私风险的直接相关,隐私风险无法消除,只能不断的降低。
3、国内标准

1)GB/T 35273-2020 信息安全技术 个人信息安全规范

35273中对匿名化的定义是“通过对个人信息的技术处理,使得个人信息主体无法被识别或者关联,且处理后的信息不能被复原的过程。”
该定义比个保法中匿名化的定义多了“关联”的描述,即无法识别+不能复原,无法关联+不能复原,任何一个组合都是匿名化。个人认为“关联”有二义性,有的场景下关联指的是标识符与主体之间的关联性,有的场景下关联指的是多条数据记录之间的关联。此处从个人信息主体的角度,似乎识别与关联表达的意思相同,用无法识别+不能复原的思路更加好理解,避免二义性。

2)GB/T 35273-2019 信息安全技术 个人信息去标识化指南

此标准主要参考了ISO/IEC 20889,将20889中的去标识化技术列在了标准附录中,在标准正文中明确了去标识化的目标和过程方法等:
  • 去标识化的目标是避免识别、控制风险和数据可用;
  • 需要考虑环境因素,不同的数据使用环境对重标识风险有直接影响
  • 对去标识化后的数据集进行验证,验证重标识风险和数据有用性复合预设目标
  • 持续监控去标识化效果,根据情况变化或定期进行重标识风险评估。
标准中强调了去标识化后数据集的“数据有用性”,去标识化或者匿名化的最终目标是兼顾个人信息保护和利用。此外,去标识化或者匿名化的过程本质是重标识风险的不断降低,重标识风险会根据外部环境(如技术发展、数据使用者环境变化等)的变化而变化,因此需要根据实际情况对已经交付的去标识化数据集进行重标识风险的再评估。

3)GB/T 42460-2023 信息安全技术 个人信息去标识化效果评估指南

此标准在GB/T 37964-2019的基础上,将个人信息的标识度(即去标识化效果)分为4个级别:
  • 1级:包含直接标识符,在特定环境下能直接识别个人信息主体;
  • 2级:消除了直接标识符,但包含准标识符,且重标识风险高于或等于可接受风险阈值;
  • 3级:消除了直接标识符,但包含准标识符,且重标识风险低于可接受风险阈值;
  • 4级:不包含任何标识符。
此方案中对准标识符的判断和识别对标识度的评估有直接的影响。标准附录中也给出了识别准标识符的方法和步骤:利用已有知识快速识别准标识符、通过属性相关性进一步识别准标识符、基于重标识度筛选准标识符、基于环境风险筛选准标识符。
可以推断出,在特定环境下,标识度为4级的数据可以被认为是匿名化数据,因为不包含任何标识符,就意味着不具备可识别性。在这里必须强调是在特定环境下,因为在高度开放的环境中,即使是统计数据也有一定的重识别风险,而在特定的环境下,可以使重识别风险足够小。标准中针对重识别风险的技术也强调需要同时考虑数据集及其使用的环境。

4)T/CAAAD 004-2022 T/CCSA 424-2022 互联网广告匿名化实施指南

此标准是通标协CCSA与中广协成立的移动互联网+广告联合工作组制定的团体标准,标准中给出了技术处理&评估+合规评估+过程管理的匿名化实施方案。技术、合规和管理由不同的角色承担,各方形成共识,共同组成“技术保障、评估规制、过程控制”三者相互信任制衡的服务与控制体系,即:选择适当的数据去标识化技术,约束识别与复原的路径;结合场景和条件的合规评估与备案机制,清晰法律和业务的边界;配套合约执行过程监控等运营措施,禁止或限制识别的使用,形成相互信任相互制衡的匿名化控制体系。
匿名化本质上是特定环境下对重识别风险的防控过程。通过多方多角色的相互制约,能够有效降低两方密谋的风险,以及通过技术+合规+管理的多方对有限责任的分担,有助于构建安全可信的匿名化处理环境,使得匿名化处理三要素“主体、行为、对象”可管控、可取证、可审计。

5)TC260-001 汽车采集数据处理安全指南

此标准明确给出了包含人脸、车牌等车外视频/图像数据的匿名化处理方案:匿名化处理包括对视频、图像中可识别个人身份的人脸、车牌等信息进行擦除等,确保无法利用视频、图像数据识别个人身份。对视频、图像数据的匿名化有一定的参考价值。

(本文作者:蚂蚁科技集团股份有限公司 白晓媛 彭晋)

匿名化概念与方案研究(上)—概念与依据篇

原文始发于微信公众号(独角鲸安全):匿名化概念与方案研究(上)—概念与依据篇

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年3月4日00:59:08
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   匿名化概念与方案研究(上)—概念与依据篇http://cn-sec.com/archives/2096196.html

发表评论

匿名网友 填写信息