浅谈个人隐私保护与数据脱敏

admin 2023年11月13日13:24:30评论21 views字数 2644阅读8分48秒阅读模式

企业收集、存储、使用个人信息的过程中,需要从管理、技术上进行保护。其中在技术部分,企业需要在应用程序的开发过程中等特定场合,使用个人数据进行测试,因此使个人信息的保护范围扩大,增加了暴露的风险。当个人信息需要离开生产环境时,数据脱敏的措施扮演了重要的角色。数据脱敏的良好实施,需要完成识别敏感数据识、识别数据环境、识别数据的功能性和非功能性要求、维护脱敏数据等工作。

识别敏感数据

企业中所使用的数据并非全部都是敏感的,因此不需要全部进行脱敏处理,从而有效利用脱敏资源。数据之所以敏感,可能有以下原因:

l 数据受到法律、法规保护,例如身份证号、姓名、联系方式、健康状况等个人信息,不仅仅在中国,在很多国家都有相应法律、法规的约束。

l 企业竞争性信息,例如产品的配方、工艺、成本价格等。

l 其他生产性信息,例如交易额、交易时间等。

识别数据环境

企业中使用的数据环境各不相同,通常会有生产环境、开发环境、测试环境、分析环境、外包环境等。因此,针对敏感数据,还需要针对其所存在环境来决定脱敏与否。例如:当前较为流行的大数据分析,其部分分析成果,是否必须使用原始数据,还是基于脱敏数据即可完成分析?

脱敏数据,通常会跨越环境,所以采用静态的脱敏技术即可完成。在某些场景下,例如:呼叫中心的工作人员,是否必须知道客户的电话号码才能完成呼出?是否需要动态完成脱敏?

识别脱敏的功能要求

数据脱敏的功能性要求,表现在脱敏后的数据,在使用中需要满足的约束条件,包括关联性限制、重复性限制、抗解密等要求,以下选择部分功能性要求作为示例:

1 抗解密

脱敏的数据首先应当具有足够的抗解密特性,以避免被获得数据的人员进行解密,从而失去了脱敏的意义。

抗解密特性是脱敏的最基本能力,同时也是较难实现的一种能力,在样本量足够多的前提下,针对脱敏数据的攻击可能更加容易。

就加密算法的选择和攻击防御的策略,我们将另外探讨。

2 防重复

部分数据在测试中不能重复,例如:身份证号,同时用于主键时,一定不能重复,因此在选择方案时就需要一种避免造成重复的算法。

3 有效性

仍以身份证号为例,身份证的不同位置,具有一定的代表意义,其中第714位代表个人的生日信息,在脱敏的过程中,算法应当生成的结果仍然是有效的日期信息,例如:第1112位代表月份,应当是数字112之间。

4 关联性

由于部分信息可能出现在多个表中,而 不是在特定的一张表中。在这种前提下,脱敏数据应当保持其一致性,使分析、测试等工作能够得以顺利完成。

非功能性要求

在数据脱敏的过程中,脱敏效率可能是最关键的非功能性要求了,衡量脱敏效率的关键指标就是(数据量/秒)。企业在长期的经营过程中,积累了大量的数据,而对大量数据进行脱敏,存在着抗解密与效率之间的冲突,数据跨环境与网络读/写也会带来效率问题。动态脱敏可能对系统的响应时间更为严苛。解决效率问题,需要从算法的选择、IT架构重构的角度综合考虑。

脱敏数据的维护

由于脱敏效率的要求,因此维护一个脱敏库,进行增量或差量的脱敏可以有效的提高脱敏效率。增量和差量脱敏,需要维护脱敏数据标记,才能识别出已脱敏数据和待脱敏数据。

数据脱敏技术,是数据防泄露(DLP)的有效组成部分。全方位的个人信息保护,我们需要综合部署DLP方案。

最后,我们还应注意到,脱敏会造成一定的信息损失,因此影响分析结果。数据脱敏工作需要在信息保密和分析性间进行平衡和取舍。

数据脱敏对抗

个人信息和重要信息的泄漏,会带来意想不到的损失。由于系统测试、委托第三方进行分析服务等一系列需求,数据仍然可能暴露于更多的网络空间,甚至是离开信息属主(或托管者)的安全控制范围,很多组织已经意识到这一问题,并着手数据脱敏工作。对于可以直接标识个人信息或重要信息的数据,是否就安全了呢?

从很多地方我们可以知道,利用碎片信息的组合,也可以识别到敏感信息,例如原始数据如下:

浅谈个人隐私保护与数据脱敏

经过脱敏后,抑制了姓名、宗教信仰,并把年龄进行了泛化,脱敏后的数据形成了若干相同记录,这种脱敏方法被称为K-anonimity (对于任意纪录,其所属的相等集合内至少有k-1条半标识列属性值与该条纪录相同)。

浅谈个人隐私保护与数据脱敏

对于上述的脱敏方法,我们可以看到,利用社工,我们知道Ramasha年龄为29、性别为女性、居住在Tamil Nadu,而同等信息Salima在脱敏后也具有相同年龄、性别和居住地的属性,但我们知道Salima患有癌症的概率极小,通过以上分析,因此我们做出判断Ramasha患了癌症。

上述利用背景知识针对K-anonimity的攻击,在脱敏技术上可以借鉴L-Diversity对模型进行强化。L-Diversity假定对于任意等价类,包含L合理表达的值,则该等价类满足L-Deversity规则。如果数据集合中所有等价类都满足L-Deversity,则称该数据集合满足L-DeversityL-Diversity提供了用于评估属性泄露的风险的方法。

浅谈个人隐私保护与数据脱敏

我们可以看到,当把居住地信息抑制以后,采用上述的背景知识攻击难度增大。满足了L-Diversity后,我们注意到结果集损失了大量信息,可能无法实现我们期望的分析,降低了数据挖掘的价值。

另外,我们还需要注意到特定情况下满足L-Diversity是没有意义的,例如:进行HIV测试结果可能为阴性或阳性。对于数据集合而言,绝大多数人群可能从未接受过测试,接受测试的人群可能是阴性也有可能是阳性。而对于一般人群而言,测试结果敏感程度是不同的,未测试的人群不介意别人知道自己从未接受过测试,测试结果为阴性的人群也可能不介意被其他人知道,而测试结果为阳性的人群则更希望能够保密。这样利用推理的方法,我们就能降低识别样本所需的代价。

T-Closeness基于L-Diversity进行了改进,模型中认为等价类数据分布与全集数据分布之间的向量距离小于T时该等价类满足T-Closeness约束。如果数据集合中的所有等价类都满足T-Closeness,则称该数据集合满足T-Closeness.

数据脱敏建模需要在保密性和可分析性之间进行平衡和取舍。

参考资料:

1、 https://en.wikipedia.org/wiki/K-anonymity

2、 https://en.wikipedia.org/wiki/L-diversity

3、 https://en.wikipedia.org/wiki/T-closeness


原文始发于微信公众号(KK安全说):浅谈个人隐私保护与数据脱敏

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年11月13日13:24:30
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   浅谈个人隐私保护与数据脱敏https://cn-sec.com/archives/2200834.html

发表评论

匿名网友 填写信息