1.1.2 基于混淆的推理控制
上一节中讨论的协议提供了有关数据机密性的强(加密)保证。然而,这种强大的保护是以效率和灵活性为代价的。一方面,保护隐私的加密原语在计算和/或带宽方面需要大量资源。另一方面,它们缩小了可以对数据进行的处理类型。这是加密构造所固有的,这些构造对输入和输出进行修复处理,并严格定义在执行协议后哪些信息可用。
在本节中,我们将介绍基于混淆暴露给对手的数据来保护数据机密性的方法。这些技术提供了比密码学更宽松的保密性定义,因为它们不能完全隐藏信息。相反,他们的目标是提供一种方法来控制对手可以对用户的敏感信息进行推断的程度。事实上,对于大多数这些技术,保护级别取决于具体数据和对抗性知识。因此,对推理功能运行临时分析非常重要,如第5节中所述。此外,我们注意到,从这些技术中获得的隐私是基于限制对手可用的信息。因此,这些技术减少了任何人可用的信息量,因此,如果应用程序基于敏感信息,例如,约会应用程序上的查找匹配。但是,我们注意到,当敏感信息对于应用程序的目的并不重要时,可以在不影响效用的情况下部署这些技术,例如,可以使用非常基本的位置数据运行的天气应用程序。
基于混淆的推理控制技术不适用于保护传输中的数据,但可用于支持隐私保护外包、隐私保护协作计算和隐私保护发布。有四种主要技术可以对数据进行模糊处理,如下所述。我们注意到,这些技术主要是为了混淆数字或分类领域。混淆更复杂的内容(如自由文本)是一项更加分散的任务,因为相关性很难以系统的方式删除。到目前为止,还没有已知的技术可以可靠地匿名自由文本。但是,这些技术在减少元数据泄露的信息方面非常有效,正如我们在第1.2节中讨论的那样。
为了便于说明,让我们以下面的微观数据文件作为当前的例子。这是一个非常简单的示例,我们强调下面介绍的技术可以应用于多种类型的数据格式和域。
名字 |
年龄 |
性别 |
邮编 |
工资 |
Alice |
21 |
女性 |
21345 |
51300 |
Bob |
32 |
男性 |
25669 |
67400 |
Carla |
25 |
女性 |
18934 |
51500 |
Diana |
64 |
女性 |
21223 |
60200 |
Eve |
34 |
女性 |
18022 |
73400 |
Frank |
37 |
男性 |
25321 |
55800 |
Gerald |
19 |
女性 |
18235 |
68900 |
表 1:示例数据库
匿名化。数据匿名化是用于允许数据处理而不会对个人造成风险的常用技术。顾名思义,匿名化试图将身份与信息脱钩。这个想法是,从数据点中删除识别信息会使它们无法链接(即,它们不能被分组为属于同一实体),从而阻碍了对手从数据。
然而,实现完全匿名是非常分散的。事实上,数据集何时可以去匿名仍然不清楚。数据本身包含足够的信息来关联数据库上的不同属性和/或记录。鉴于这些群体,有许多技术可以重新识别数据发布背后的个人。对匿名化差异的一个关键见解是个人数据模式的独特性。数据集中发布的信息可能有许多组合,这些组合对个人来说是独一无二的。这些被称为准身份识别器。查找准识别器可以通过将数据映射到其他数据源中的识别信息来重新识别数据。因此,匿名化通常与下面描述的混淆技术相结合,以限制重新识别的风险。
在这一点上,在知识领域,值得一提的是k-anonymity的概念,它主张将泛化和抑制结合起来,以确保记录在数据库在同一数据集中至少其他k个条目中是匿名的(即,与无法区分的)。例如,在上面的示例中,可以推广邮政编码以实现双匿名性:
名字 |
年龄 |
性别 |
邮编 |
工资 |
* |
21 |
女性 |
21* |
51300 |
* |
32 |
男性 |
25* |
67400 |
* |
25 |
女性 |
18* |
51500 |
* |
64 |
女性 |
21* |
60200 |
* |
34 |
女性 |
18* |
73400 |
* |
37 |
男性 |
25* |
55800 |
* |
19 |
女性 |
18* |
68900 |
虽然这个概念很有希望,但有几个因素使它没有吸引力,很难在实践中使用。首先,由于上述问题的唯一性,获得k-anonymity可能需要在数据库中进行不可接受的泛化。其次,根据应用程序的不同,k-anonymity实际上可能不会阻止敏感属性的推断。这在“性别”列中的运行示例中进行了说明。尽管邮政编码中的泛化确保了双重匿名性,但对手以100%的概率知道每个ZIP区域中用户的性别,例如,居住在21*的所有用户都是女性。同样,对手了解到20多岁的女性收入约为51000。
为了解决这个问题,研究人员认为,隐私不仅需要k-anonymity,还需要l-diversity,这确保了每个k个匿名个体,至少有l敏感属性的可能值。研究人员还表明,l-多样性可以被打破,所谓的t-closeness,其中敏感属性集不仅是多样化的,而且遵循该属性的一般分布。需要一个种群。
k-anonymity概念在与健康相关的应用中非常流行。它也被改编成数据库以外的羊毛皮。
泛化 该技术包括降低共享数据的精度,目的是降低对手推理的准确性。泛化可以通过直接精确地减少共享值或在数据发布之前进行桶化(即从值到范围的映射)来实现。除其他外,该技术已被应用于数据库匿名化,降低了不同单元格中值的精度;或者在私人网络搜索中,单词被映射到预先被挑衅的集合中最接近的单词。
名字 |
年龄 |
性别 |
邮编 |
工资 |
Alice |
10–30 |
女性 |
21*** |
51300 |
Bob |
30–40 |
男性 |
25*** |
67400 |
Carla |
20–30 |
女性 |
18*** |
51500 |
Diana |
60–70 |
女性 |
21*** |
60200 |
Eve |
30–40 |
女性 |
18*** |
73400 |
Frank |
30–40 |
男性 |
25*** |
55800 |
Gerald |
10–20 |
女性 |
18*** |
68900 |
表3:泛化:将邮政编码的精度降低到前两位数字;通过桶化降低“年龄”列的精度。
抑制。这种技术包括在将部分信息提供给对手之前将其抑制。压制背后的基本原理是,提供给对手的数据越少,她就越难以做出推断。抑制策略决定了要隐藏哪些信息,是此类方案可能提供的隐私保护级别的关键。例如,随机抑制信息不太可能破坏数据中允许推理的模式。因此,除非删除大多数数据,否则此策略很少提供良好的保护。一种常见的策略是小计数抑制,其中不报告低于阈值的聚合值。该策略的保护级别取决于对数据的访问类型和对手的知识。其他抑制策略,根据所考虑的数据的性质及其特征提供更好的隐私结果。该技术已被应用于数据库匿名化,以隐藏不同单元格中的一些值;或在位置数据发布中,隐藏提供过多信息的位置样本。
名字 |
年龄 |
性别 |
邮编 |
工资 |
Alice |
21 |
女性 |
21345 |
51300 |
Bob |
32 |
男性 |
25669 |
67400 |
Carla |
25 |
* |
18934 |
51500 |
Diana |
64 |
* |
21223 |
60200 |
Eve |
34 |
女性 |
18022 |
73400 |
Frank |
37 |
* |
25321 |
55800 |
Gerald |
19 |
女性 |
18235 |
68900 |
表4:抑制:抑制50%的记录的性别属性
虚拟添加。这种技术包括将假数据点(所谓的假人)添加到提供给对手的数据中,以隐藏哪些是真实的样本。这个想法是,当对手在运行攻击时考虑假点时,她的推理会有错误。为了使这种防御有效,假点必须与真实点无法区分。理想情况下,从对手的角度来看,任何样本都应该看起来像真实或虚拟的样本,概率相等。然而,创造这种难以区分的点往往很困难,对手可以很容易地将它们消灭掉。因此,这种技术在极少数领域是有用的。虚拟添加技术已被用于增加网络搜索中的隐私或保护数据库免受推理的侵害。
名字 |
年龄 |
性别 |
邮编 |
工资 |
Alice |
21 |
女性 |
21345 |
51300 |
Bob |
32 |
男性 |
25669 |
67400 |
Carla |
25 |
女性 |
18934 |
51500 |
Donald |
54 |
男性 |
25669 |
53500 |
Diana |
64 |
女性 |
21223 |
60200 |
Eve |
34 |
女性 |
18022 |
73400 |
Frank |
37 |
男性 |
25321 |
55800 |
Goofy |
61 |
男性 |
21346 |
41500 |
Gerald |
19 |
女性 |
18235 |
68900 |
Minnie |
23 |
女性 |
18456 |
62900 |
表5:虚拟添加:添加50%的假记录(红色)
摄动。扰动技术将噪声注入到可供广告使用的数据中,反之亦然。噪声旨在降低对手的推理性能。与抑制技术类似,用于引入噪声的策略在提供的隐私级别中起着至关重要的作用。初始方案从多种随机分布中获取噪声,并将它们添加到数据中。这种方法并不真正有效,因为具有噪声分布知识边缘的对手可以以合理的精度推断原始数据值,因此有可能泄漏比预期更多的信息。
名字 |
年龄 |
性别 |
邮编 |
工资 |
Alice |
21 |
女性 |
21345 |
51345 |
Bob |
32 |
男性 |
25669 |
67863 |
Carla |
25 |
女性 |
18934 |
51053 |
Diana |
64 |
女性 |
21223 |
60302 |
Eve |
34 |
女性 |
18022 |
74558 |
Frank |
37 |
男性 |
25321 |
55005 |
Gerald |
19 |
女性 |
18235 |
69425 |
表6:扰动:用从正态分布N(0,1000)得出的噪声混淆工资
目前,基于扰动的技术的黄金标准是添加噪声以实现所谓的差分隐私。该技术的主要目标是解决数据匿名化技术在发布方面的局限性,例如前面提到的k-anonymity。
差分隐私,由Dwork引入,是一个隐私定义,最初旨在实现技术设计,以便在查询有关数据库上的用户的统计信息(平均值,方差,中位数等)时最大限度地提高准确性,同时最大限度地降低风险之意外推论。而比a财产之a数据(如这技术上图),差分隐私是a财产之a机制使用自输出这答案自查询针对数据集。如果通过查看查询结果,攻击者,则该算法是差分私有的不能区分是否一个人的数据是包括在这分析或不。更正式地说,是一种算法提供E-差异隐私,如果,对于所有数据集D1和D2在单个)元素(即一个单独的数据)上有所不同,并且所有可能的输出S算法的:
差分隐私确保,给定一个受干扰的数据样本,无论这个先验知识是什么,对手都会获得关于原始数据样本的微不足道的新信息量。存在许多算法来确保满足各种查询的差异隐私。
差分隐私是一个非常有用的定义,因为它提供了一个正式的框架来推理一个强大的对手可能能够推断出的关于个人的信息量。数据,无论对手的先验知识如何。但是,必须注意的是:
• 差分隐私提供了相对的保证,而不是绝对的隐私保护。这意味着所提供的保护是关于对手的事先知情。如果对手已经完全了解情况,差别隐私不会改善隐私。换句话说,差分隐私可确保数据的发布不会使用户或群体的隐私损失超过设定的阈值。但是,这并不能自动确保用户的整体隐私得到保护。因此,要声明隐私,重要的是不仅要确保方案提供给定的保证,还要计算推理上的对抗性误差,以便确保用户的敏感信息实际上受到保护(请参阅第5节)。
• 当前差分隐私的实际挑战之一是确定哪些值E提供可接受的隐私级别。保护级别关键取决于上这价值之这参数.这方法那只是ful断续器玲玲这差分隐私定义跟任意参数值确实不径直保证那对手不会从数据中学到太多的新信息。重要的是要确保E使得不同推断的概率实际上是区分。为例如果E=3,这只确保那这率当个体在数据集中或不在数据集中时,观察结果的概率之间的概率为:
这种概率差异通常可以是检测由古典统计探测器或任何摩登机器学习分类.在常规E值大比一值得a近看自验证那这算法提供所寻求的级别保护。
• 这量之噪声必填自阻碍推论上这数据取决于上这所谓敏感性的算法。灵敏度测量输入的变化将改变算法的输出的程度。当输入是数据库,输出是统计函数时,小的输入变化对输出几乎没有影响,因此,少量的噪声足以使算法具有差分私有性。我们但是,请注意,那什么时候差异私人算法是应用的自保护这隐私之单个样本相反之自这结果之a统计查询上a数据库这敏感性可能很大高等。因此,只有大量的噪音才能确保保护。例如,当应用差分隐私来混淆用户的报告位置以获取位置隐私保护五月是少比预期如果这参数是没有经过精心挑选。
• 差分隐私提供了最坏情况的保证,这意味着引入的噪声量是量身定制的,以约束数据集中的数据点给出的泄漏,这些数据点以最佳知识向对手提供最多信息。这意味着在平均情况下,噪声量大于所需的量。最近的研究一直在努力实现更严格的界限,以降低提供所需保护水平所需的噪声。
差分隐私概念已经扩展到考虑汉明距离以外的指标(即,区分一个人是否在数据库中)。具有差分隐私保证的扰动已被用于保护协作学习中的隐私或查询基于位置的服务时的位置。美国最近也采用了它来保护人口普查数据。
最后,重要的是要注意,对于许多实际情况,这些推理控件之一本身无法提供足够的隐私。因此,通常需要结合使用其中几种技术来限制可以进行的推断的数量。
原文始发于微信公众号(河南等级保护测评):网络安全知识体系1.1隐私和在线权利(三):隐私作为机密之数据保密(下)基于混淆的推理控制
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论