《个人信息去标识化指南》

admin 2025年7月4日10:43:23《个人信息去标识化指南》已关闭评论12 views字数 1872阅读6分14秒阅读模式

一、 “告知-同意”以外

网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。” ——《网络安全法》第四十二条第一款

我国个人信息保护规则围绕着“告知-同意”原则构建,无论是收集、使用几乎都需要向个人信息主体告知并获得同意。《信息安全规范 个人信息去标识化指南》(GB/T 37964-2019)(“《个人信息去标识化指南》”)是个人信息领域最为重要的国家标准之一,是“告知-同意”以外,个人信息收集、处理的另一条进路。

二、 匿名化、去标识化

《信息安全规范 个人信息安全规范 》(GB/T 35273-2017)(“《个人信息安全规范》”)中,有匿名化与去标识化两个概念:

《个人信息去标识化指南》

区别:

  1. 去标识化的个人信息控制者可以存储额外的信息用于还原原始个人信息,要求个人信息控制者对“额外信息”分开存储和特殊保护;
  2. 去标识化后的个人数据仍属于个人信息,仍需保证去标识化数据的安全,匿名化的安全程度更高,可以明确匿名化处理后所得的信息不属于个人信息;而去标识化则更强调对标识内容的处理。

三、 个人信息去标识化指南

“本标准描述了个人信息去标识化的目标和原则,提出了去标识化过程和管理措施。”

1. 重要概念

《个人信息去标识化指南》

举例子:

《个人信息去标识化指南》

直接标识符就是姓名、QQ号这样的信息,准标识符就是性别、年龄、工作单位这样的信息。

2. 去标识化的目标

(1) 对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或结合其他信息识别出原始个人信息主体;

(2) 控制重标识的风险,根据可获得的数据情况和应用场景选择合适的模型和技术,将重标识的风险控制在可接受范围内,确保重表示风险不会随之新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识风险;

(3) 在控制重标识风险的前提下,结合业务目标和数据特性,选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的

而去标识化工作的最大挑战,来自于重标识的风险:

  • 分离:将属于同一个个人信息主体的所有记录提取出来。
  • 关联:将不同数据集中关于相同个人信息主体的信息联系起来。
  • 推断:通过其它属性的值以一定概率判断出一个属性的值。

3. 去标识化过程

《个人信息去标识化指南》

在去标识化工作中:

(1)首先需要确定目标,包括确定去标识化对象、建立去标识化目标和制定工作计划等内容,要结合法律法规、数据类型、业务背景等元素来确定目标在,对于重标识风险不可接受程度以及数据有用性最低要求进行确定后,建立个人信息去标识化的实施计划;

(2)对于识别标识符进行确定,方法包括查表识别法、规则判定法和人工分析法等。

(3)不同的数据与目标需要对应不同的技术与模型,原始数据需要按需经历预处理、选择模型技术、实施去标识化三个阶段工作;

(4)处理完成后需要对去标识化后重标识风险进行评估,计算出实际风险,与预期可接受风险阈值进行比较,以确保生成的数据集在重标识风险和数据有用性方面都符合预设的目标,整体工作需要定期展开验证评估。

4. 去标识化技术

需要理解去标识化的武器库里有哪些工具可以用,以及这些技术的能力与边界:

《个人信息去标识化指南》

5. 去标识化模型

(1)K-匿名模型

K-匿名模型要求发布的数据中,指定标识符(直接标识符或准标识符)属性值相同的每一等价类至少包含K个记录,各记录之间的关联性是有限的(1/K),使攻击者不能判别出个人信息所属的具体个体,从而保护了个人信息安全。各种去标识化技术可独立或综合使用以符合K-匿名模型的要求。

· L-多样性要求在K-匿名的基础上,实现每一等价类在每一敏感属性上存在至少L个不同值。

· T-接近性为防止概率性推导,要求任何等价类中敏感属性的分布与整个数据集中相应属性的分布之间的距离小于阀值T。

《个人信息去标识化指南》

(2)差分隐私模型

差分隐私核心思想:对于差别只有一条记录的两个数据集,查询它们获得相同值的概率非常非常的接近。

差分隐私提供:

a)隐私数学定义,在该定义下,数据集的处理结果对单一记录的变化不敏感,单一记录添加到数据集或从数据集中删除,对计算结果的统计特性影响极小,所产生的隐私泄露风险被控制在可接受范围内。

设有随机算法,为所有可能输出构成的集合的概率,对于任意两个邻近数据集与以及的任意子集,若算法满足:

则称算法提供ε差分隐私保护。

b)隐私度量方法,可以监控累积的隐私损失并设置损失限制的“预算”

差分隐私算法对其应答的每次查询会产生隐私成本或隐私损失。在精心设计的差分隐私算法中,单次查询损失可以足够小,不使隐私受到侵犯,但这些损失的累积效应最终会导致对隐私的侵犯。

《个人信息去标识化指南》

 

史宇航:逃离“告知-同意”:《个人信息去标识化指南》笔记

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年7月4日10:43:23
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   《个人信息去标识化指南》http://cn-sec.com/archives/4221762.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.