天极按
数据驱动创新(DDI)并不是一个全新的概念;它围绕着处理大量数据以提取有意义的见解和创造有价值的创新而发展。过去十年来,一直在讨论大数据带来的机遇和挑战。然而,为了充分利用数据的分析能力并推动具有影响力的进步,需要超越多个收集和分析点,采用更具协作性的方法,同时继续尊重对个人和业务敏感/关键数据的保护。
欧洲共同数据空间(以下简称欧盟数据空间)是欧洲数据战略中提出的一个新概念,并在《数据治理法》(DGA)中作了进一步阐述。根据设想将促进创新、经济增长和数字化转型,并围绕建立一个尊重隐私、安全和其他适用监管因素的数据共享框架,同时通过实施以下一系列措施促进跨部门合作:
-
促进对公共部门机构持有的某些类别数据的获取和再利用,这些数据由于受到保护而不能作为开放数据提供。
-
确保数据中介机构在欧盟数据空间的数据共享或汇集方面发挥值得信赖的促进作用。
-
促进数据共享,特别是为跨部门和特定目的使用数据提供便利。
由于利益相关者数量众多,战略目标和具体数据需求各不相同,协调起来可能具有挑战性,因此这项工作具有挑战性。此外,由于欧盟数据空间将在现有欧盟政策和法律框架内运行,因此确定跨部门共性、通用术语、设计和合规框架以及阐明适当的数据工程工具至关重要。
DGA为欧盟数据空间提供了一个总体的横向治理框架,同时也强调了这些数据空间需要根据其他适用的欧盟政策和法律运行,如与数据保护、网络安全、知识产权等有关的政策和法律,并遵守相关的部门相关立法。其中一个基本要素是在遵守适用法律的同时,实施数据汇集、访问、使用和共享工具,允许数据持有者随着时间的推移管理访问权和条件。
欧洲金融数据空间专家组最近的开放金融报告也强调了这些考虑因素。
其次,为了"以尽可能有效和负责任的方式获取和使用",欧盟数据空间的设计、设置和维护必须提供一个安全和受监督的处理环境。它们还必须在技术上保持与其他数据空间的互操作性,同时根据需要确保商业或统计资料的保密性、第三方知识产权的保护以及个人数据的保护。因此,一致且可预测的数据访问和再利用规则是数据持有者和数据使用者遵守欧盟政策和法律的关键。
最后,应采用关于再利用条件和相关技术与组织措施(TOMs)的基本统一建议,主要是为了帮助数据持有者更好地了解他们应如何调整安全与保密规则,并微调其企业政策,以继续遵守欧盟数据保护要求(GDPR)。
数据持有者有义务提升交互性。事实上,数据共享服务提供者应"促进以从数据持有者处收到的格式交换数据,并仅在以下情况下将数据转换为特定格式:加强部门内和部门间的互操作性;数据用户提出要求;欧盟法律规定;确保与国际或欧洲数据标准相一致"。这种互操作性应首先在欧盟层面进行定义,但也要考虑到技术标准或公认的规范。中介机构可为互操作性和个人数据共享提供便利,协助数据持有者对个人数据进行匿名化或假名化处理,起草和执行个人数据共享协议,或为行使个人权利提供便利。
本报告从工程角度探讨欧盟数据空间的设计和部署,重点是个人数据保护工程。本报告的主要目的是介绍有关个人数据保护的主要设计原则,并通过设想的欧盟数据空间在制药领域的两个使用案例,展示如何设计个人数据保护。这项工作旨在为政策制定者、监管者和数据保护从业人员提供支持,并在ENISA根据《网络安全法案》(CSA)承担的任务背景下进行,即在与数据保护和隐私相关的欧盟政策和法律的具体网络安全方面为成员国提供支持。这项工作以该机构在数据保护工程领域的活动为基础,并与ENISA 数据保护工程特设工作组合作完成。
本报告分为以下四个主要部分:
-
第1部分介绍了欧盟数据空间的背景,并强调了与数据驱动的创新、数据空间的设计原则和互操作性有关的主要考虑因素。 -
第2节阐述欧盟数据空间中具体的数据保护考虑因素。更具体地说,它涉及术语和作用、隐私的输入和输出问题以及数据保护工程在数据空间实施中的作用。本节还重点讨论了互操作性、问责制、效率、影响评估、隐私增强技术(PETS) 选择和数据主体权利等其他关键因素。 -
第3节通过说明两个具体的应用案例,为设想中的制药数据空间提供了数据保护工程方面的见解。每个使用案例都试图强调不同行为者如何部署特定的匿名化技术,为数据用户提供有用但受到充分保护的数据集。 -
第4章总结了有关欧盟数据空间个人数据保护工程的主要发现和考虑因素。
根据《数据保护法》的定义,欧盟数据空间由三个主要角色组成:数据持有者、数据中介和数据用户。下文简要介绍了《数据保护法》对三者的定义:
-
数据持有者是就特定数据而言并非数据主体的法人,但有权允许访问或共享某些个人数据或非个人数据;
-
数据中介是在数据持有者和数据使用者之间充当中介的实体。数据中介通过提供数据访问等服务,在促进安全和受控的数据共享方面发挥作用;
-
数据用户是合法访问某些个人或非个人数据的自然人或法人,有权将从中介获得的数据用于商业或非商业目的。
下文图 1举例说明了这三个行为者间的互动关系。DGA适用于"行为、事实或信息的任何数字表示",包括个人数据。当共享数据包括个人数据时,需要在以下三者之间建立映射关系
图1:欧盟数据空间主要行为者
DGA适用于"行为、事实或信息的任何数字表示",包括个人数据。当共享数据包括个人数据时,需要在《数据保护法》和《GDPR》之间建立角色(和相关责任)的映射关系。在《数据保护法》和《GDPR》的背景下,数据持有者负责确保合法、适当地收集、处理和存储数据,数据中介提供服务以促进受控数据共享、处理和存储,数据用户出于各种目的接收和使用数据,如分析、研究或其他合法利益。即使根据这些比较通用的描述,也无法确定谁是控制者,是否有一个以上的控制者作为共同控制者,是否有一个处理者,以及数据用户是否是数据接收者。即使GDPR规定了每个角色必须满足的具体要求,在通用模式下,也不清楚哪个实体单独或哪些实体共同"决定个人数据处理的目的和方式",哪个实体"代表数据控制者"行事,以及是否有实体"向其披露个人数据"。
本质上讲,DGA和GDPR创建了一个框架,数据持有者、数据中介机构和数据用户可在此框架内共同努力,确保以负责任和合规的方式共享、处理和使用数据。必须使自己的做法符合这两项法案中概述的原则和义务,以保护个人权利和隐私,同时促进创新和数据驱动型倡议。
在启动数据共享流程之前,我们需要考虑共享环境在处理过程中可能给数据主体带来的风险。可以确定两个主要挑战,如下所述:
-
输入隐私问题:目标是允许对已共享的数据进行处理,但同时确保共享环境无法返回到初始数据,因为这可能导致个人被挑出或识别。
图2:输入隐私问题
-
输出隐私问题:目的是在共享环境进行计算后,防止个人被挑出或识别。
图3:输出隐私问题
在欧盟数据空间等共享环境中,输入隐私和输出隐私都是数据隐私和安全的重要方面。确保个人数据从收集到共享结果的整个过程都受到保护,是此类共享框架获得信任的一个不可或缺的要素。应对这两种风险的方法是在遵守GDPR 原则的同时,部署相关的数据保护工程构件。
数据保护工程可以成为部署欧盟数据空间的一个非常重要的推动因素,在欧盟数据空间中,数据共享机会和个人数据保护可以富有成效地共存,而不是相互阻碍。不解决欧盟数据空间实施过程中固有的法律和技术数据保护要求限制,可能会成为阻碍采用数据共享模式的因素,并可能限制欧盟数据战略的范围。这一先决条件不仅在《数据保护法》中得到了强调,而且在AEPD 最近发布的一份报告中也得到了强调。
数据保护工程不仅仅是GDPR 的"合规工具"。通过实施适当的措施和必要的保障来加强数据保护原则,并使个人权利的行使成为可能,数据保护工程为数据控制者提供了数据共享的实际选择,同时最大限度地降低了信息滥用、数据泄露或其他安全威胁的风险。为安全、合法的数据共享开发令人信服的使用案例,是成功实施欧盟数据空间的最关键挑战之一。数据保护工程有可能在数据共享和数据保护之间取得平衡。使用新的、鲜为人知的措施所带来的风险可能会成为阻碍采用这些措施的因素。对于新兴技术而言,这一点尤为明显,因为这些技术可能还没有既定的最佳实践。制定标准并借鉴现有的良好实践,可以降低采用这些技术的复杂性和不确定性。这有助于增强对数据保护工程工具的信任和信心,并促进其广泛采用。
另一个非同小可的方面是数据中介机构在欧盟数据空间共享方案中的作用,因为它可能需要做出有关降低风险的决策。一旦数据控制者确定了计划中的数据处理活动的潜在风险,如何降低所确定的风险就成了一个突出的问题。降低风险的标准方法包括应用隐私增强技术(PET),或决定将处理活动分拆给多个独立的行为者。
数据中介可能是也可能不是决策者群体的一部分(基于是数据控制者还是数据处理者),但肯定是需要实际实施所选PET集的实体之一。如果(高级)数据假名化(或甚至匿名化)被确定为应对特定数据保护影响评估(DPIA)风险的最佳手段,则在所考虑的数据集中实施假名化应用的任务必须由专人执行。当然,数据中介也有可能将完整的非假名化数据集交给另一个数据处理者,由后者执行假名化,但这种设计实际上会引入一个新的风险矢量,因此并不能理想地减轻相关的数据披露风险。最好的情况是,数据集在数据中介本身(或在数据中介代理的数据存储位置)进行假名化。不过,采用这种方法后,从数据中介查询数据集的数据控制者需要告诉数据中介具体如何执行所考虑的特定假名化方案。随后,数据中介需要自己实例化和执行数据化名,只向查询数据用户提供化名数据集。
如上所述,按需降低风险的需求同样适用于所有其他降低风险的手段。如果决定利用联合学习作为(保护隐私的)手段来训练机器学习模型,那么数据控制者必须与提供数据存储位置访问权限的数据中介密切合作,实施并协调这一决定。如果要利用k匿名或差分隐私方案来保护数据不被泄露,则必须在数据存储地点实施上述技术。
可以看出,为了在数据空间场景中合理实施隐私增强技术,数据中介必须能够执行上述任务,即拥有可将这些技术部署到相关数据集的实施方案,并能够根据数据控制者的指示,在每个相关数据共享场景中动态部署这些实施方案。
数据保护工程有助于(半)自动收集和提供与数据控制者执行的DPIA 有关的必要信息。由于每项DPIA的关键活动都是收集和评估对相关数据主体的权利和自由造成的风险,数据中介机构可对其自身的系统和服务执行一次此类活动,并自动向数据控制者提供已识别的风险和相关信息。因此,数据控制者可在其DPIA 中纳入这份风险清单。
与建立信任有关的另一个方面是控制者的责任概念(原则)。控制者有责任并必须能够证明其遵守《个人数据保护条例》第5(1)条规定的个人数据处理原则。因此,控制者有义务采取必要措施,遵守GDPR的要求,并能随时证明遵守了这些要求,而无需监管机构在行使权力时进行具体查询和要求评估是否符合要求。
无论控制者或处理者是公共实体还是私营实体,所有愿意为社会和经济利益促进个人数据再利用的数据持有者,都必须酌情通过改进内部机制、数据共享协议和合理的隐私管理计划(PMPs),来证明自己的责任。
根据《数据共享法》关于欧盟数据空间的规定,实现问责制的主要基石如下:
1.明确数据持有者和数据使用者的责任和义务
数据持有者必须遵守其法律义务,如GDPR规定的义务,接收个人数据的数据用户也必须遵守其法律义务。
2.个人数据共享的有效内部管理
需要有效处理数据共享产生的责任和义务。这种管理模式应特别针对数据共享涉及与数据处理者和次级处理者共同监督数据处理的情况。
3.个人数据共享的外部合作管理
确定数据持有者如何在部门机构和主管当局内相互合作,以及如何与欧盟委员会、欧洲数据创新委员会(EDIB)和负责更好地构建数据再利用框架的任何利益相关者合作(例如,特别是在可能处理数据泄露方面)。
4.实施数据共享计划
确定政策、程序和其他措施,确保数据持有者在共享个人数据时始终负起责任,有效降低共享数据带来的风险。
5.设计有针对性的数据共享问责工具
降低个人数据共享带来的风险,包括临时访问和以数据再利用为中心的安全机制,以及对数据持有者或使用者实施的任何补充尽职调查。
平衡安全/风险缓解目标和对共享数据质量的充分需求 数据持有者和数据用户必须将数据保护纳入应用程序、设备和系统(即PETS)的设计中,同时确保这些措施不会剥夺数据用户使用定性、相关和相当可靠的数据的权利。在实践中,数据共享效率的评估应与数据安全和数据质量同等重要。
7.对设想数据共享进行道德评估
有针对性的评估应考虑与数据共享处理相关的风险,以及此类数据共享处理的益处。
8.数据持有者和数据使用者之间透明的信息共享
个人数据的接收者必须对数据处理的预期目的进行有针对性的风险评估,并向数据持有者说明。数据持有者必须考虑其可能希望对数据接收者施加的任何额外保障或控制,以确保数据的安全性、公平性和保密性。
9.通过以部门为基础或有针对性的数据共享协议,在欧盟数据空间内、从一个数据空间到另一个数据空间,以合同的形式确定数据共享的做法
数据持有者和数据使用者需要考虑各自的具体责任和义务,并以与已确定的风险相适应和相称的方式(逐案分析),明确界定这些责任和义务。界定各自的责任、设定有约束力的义务和确定责任框架对于建立信任至关重要。具体而言,协议可详细说明各方作为数据持有者、数据使用者、数据控制者、处理者、子处理者、中介或数据共享安排下的第三方的具体资格。也可选择通过提及保障措施的条款,如自愿和透明的数据使用限制或有针对性的合同保障措施,来确定尽职调查,以确保合法收集所有个人数据并提供透明信息。
10. 对个人的透明度
数据持有者和数据使用者都必须确保个人了解个人数据是如何被共享和再利用的,以及如何行使权力。这种"透明"义务可能取决于数据共享是法律规定的/公共部门决定的,还是临时或个案决定的。根据《数据法》承担这些角色的数据持有者和数据使用者同样承担问责义务,这些义务可通过实施上述构件加以解决。
问责计划和处理方式并不是在实践中为有效和可互操作的欧盟数据空间创建一个共同、一致和标准化的欧盟骨干网的唯一途径。毫无疑问,在制定数据共享项目之前,数据持有者应考虑是否需要与接收者签订数据共享协议,以履行其问责义务或减轻已确定的个人风险,特别是明确数据共享的目的、界定安全措施并确保各方清楚其角色和责任、各自的治理义务和责任规定。另外,数据中介机构,无论是"旨在帮助个人行使GDPR规定的权利",还是"促进大量相关数据的汇总和交换",以及加强"数据的有效汇集和促进双边数据共享",都将发挥至关重要的作用,即使其作用和义务仍有待在实践中进行微调和证明。中介的一个基本特征是"不将所交换的数据用于任何其他目的",因此必须商定技术和组织措施,并在实践中加以明确。
欧盟制药战略于2020年公布,旨在应对制药行业的各种挑战和机遇,以确保欧盟公民能 够获得可负担得起和可持续的药品。目前,欧盟的医药立法已使安全、有效和高质量的医药产品获得授权。然而,许多欧盟/欧洲经济区国家的医药产品短缺问题也日益严重,这一点在最近欧盟委员会关于人用医药产品指令提案的解释性备忘录中有所体现。此外,在未满足医疗需求的领域,也越来越需要科学支持、加速评估和授权可提供先进治疗的医药产品。
设想中的医药数据空间旨在为数据用户(此处为国家卫生局)的以下分析提供支持:
-
药品在市场上的供应情况:这项分析将根据过去几年的处方数据、制药公司的药品供应情况以及研究机构提供的指标来进行,以了解因特定疾病可能增加而产生的迫切需求。分析将在地理区域层面进行。
-
医药产品效率研究与分析:这项分析将根据处方数据和每种医疗诊断的处方药数据进行。
设想中的医药数据空间的预期用途之一是确保医药产品在市场上的可用性。假设存在三大类数据持有者,下文列出了每类数据持有者与数据中介共享的信息。除上述数据外,每个数据持有者还存储其他数据,但只有下列数据被认为是向数据用户提供服务所必需的。
-
共享药品处方相关信息的国家电子处方系统;
-
制药公司共享其向市场提供的每种药物的信息;
-
医疗服务提供者分享有关用于诊断病情的药物以及不同药物之间可能产生的不良反应的信息。
数据用户是国家监管机构,该机构试图收集的信息包括当前的药物处方情况、制药公司的 产品供应情况以及在不推荐特定组合的情况下对替代药品的需求。
在实施数据保护工程方面,设计目标之一是中介机构应能够响应数据用户(国家监管机 构)的要求,而不能识别或单独列出个人。为实现这一目标,数据持有者在共享数据时应采用特定的屏蔽数据保护工程技术,如下所示。
1.国家电子处方提供商根据只有数据持有者才知道的密钥k,用确定生成的假名替换特定字段,为每条共享记录创建一个标识符。相同的k 适用于所有记录。在当前情况下,社会安全号(SSN) 可用作标识符。
2.处方提供者共享的数据集不能被视为完全假名化,因为并非所有数据保护风险都已解决。由于存在所谓的准标识符,重新标识的风险仍然存在,因此数据持有者需要对其进行适当掩盖。在这方面,可以采用属性泛化等技术。在我们的使用案例中,此类准标识符(及其可能的概括)如下:
-
出生日期:改为年龄范围(即50-55 岁);
-
邮政编码:改为邮政编码的前三个字符;这三个数字足以提供更广泛的居住地信息;
-
处方日期:仅用年月日代替完整日期。
上述每种概括的程度取决于由此产生的输出的风险水平,即无法对个人进行再识别或单独识别。制药公司和医疗服务提供商不共享任何个人数据,因此,从数据保护工程的角度来看,不需要屏蔽。
上述用例设想的数据共享场景是在与数据中介共享数据集之前,由数据持有者进行屏蔽和泛化。然而,除了数据持有者要通过这些方式对实施强泛化负责之外,必须建立一种机制,确保不同的数据持有者在同一层面上实施通用化
设想中的医药数据空间的另一个可能用途是支持医药产品效率的研究和分析。为简单起见,假定只存在两种数据持有者类型,与上一个用例类似,下文列出了这两种数据持有者类型以及各自与数据中介共享的信息。除上述数据外,每个数据持有者还存储有其他数据;不过,只有下面列出的数据被认为是向数据用户提供服务所必需的。
-
共享药品处方相关信息的全国电子处方系统;
-
共享以下信息的医疗服务提供者
o 用于诊断病情的药物,以及不同药物之间可能产生的不良反应。
o接受治疗的病人的医疗诊断、化验和检查结果以及处方药。
数据用户是研究机构,旨在收集有关医药产品在治疗特定症状方面的有效性以及不必要的药 物相互作用对其有效性的影响的信息。
在本使用案例中,实施数据保护工程有两个设计目标。第一个目标是,中介机构应能对数据用户的请求做出回应,但不能识别或单独列出个人。第二个目标是,数据用户也不能识别或单独列出个人,但也不能关联数据。为实现这两个目标,数据持有者在共享数据时应采用特定的掩蔽数据保护工程技术。
1.国家电子处方提供者掩盖要共享的数据集的部分内容,与上一个用例类似。社会安全号(SSN)字段再次用确定生成的假名代替,该假名基于只有数据持有者才知道的密钥k,准标识符用范围代替。
2.医疗服务提供者还将数据集中的SSN部分与一个确定生成的假名进行屏蔽共享,该假名基于一个只有数据持有者才知道的密钥k。
由于同一字段将由不同的数据持有者用不同的密钥进行化名处理,数据中介将无法对从不同数据持有者收到的涉及同一SSN 的数据进行核心化处理。
3.将对传输给数据用户的数据集使用多态加密和假名化(PEP),并充当转加密器。每个数据集将为每个数据用户分配不同的假名,从而防止多个数据用户之间的假名链接。这里的中介即使掩盖已经化名/通用化的数据,也是一个可信的第三方化名实体。
上述用例设想的数据共享场景是,在与数据中介共享数据集之前,由数据持有者执行屏蔽和泛化,但由数据中介执行额外的屏蔽。除了前面用例中讨论的通用互操作性,中介的额外角色也带来了必须履行的额外责任。即使不分析中介应被视为控制者还是处理者,它也必须能够满足数据主体和数据用户的需求和权利,跟踪数据源和数据处理任务,并可能在整个数据处理生命周期的多个阶段评估和更新数据使用策略。
欧洲共同数据空间是一个新兴概念,由欧洲数据战略概述,旨在促进欧洲数据经济活动。数据空间是一个总括术语,与公共和私营部门实体之间可能的互动生态系统以及新的治理和业务流程相对应。这些能力必须遵循数据工程方法,以满足所有要求和法律义务。
数据保护工程不仅仅是GDPR 的"合规工具"。通过实施适当的措施和必要的保障措施来加强数据保护原则,并使个人权利得以行使,数据保护工程为数据控制者提供了一种切实可行的数据共享选择,同时最大限度地降低了信息滥用、数据泄露或其他安全威胁的风险。为安全、合法的数据共享开发令人信服的用例,是成功实施欧洲共同数据空间的最关键挑战之一。
在对欧盟数据空间的主要行为者和DGA条款进行定义的基础上,确定构件和要求是成功开发和部署的起点。尽管欧盟数据空间潜力巨大,但从数据保护和网络安全的角度来看,仍然需要考虑适当的技术和组织措施,以及如何将这些措施付诸实践。即使已经有很多隐私增强技术可以支持实现特定的数据保护目标,但仍需处理新的处理操作,而在这些操作中,角色和责任并非时刻明确界定。
天极智库聚焦网络安全相关领域,聚集网络安全职能部门、行业主管部门、科研院所、相关企业和专家学者的力量,组织开展政策研判、事件分析、技术研究、学术交流,为国家网络安全工作提供支撑,增强国家网络空间安全防御能力,提升国家关键信息基础设施安全保障能力和水平。
原文始发于微信公众号(天极智库):【国际视野】欧洲网络安全局发布《欧盟数据空间中的个人数据保护工程》
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论