AI 模型训练和部署场景下数据主体权利如何响应?(一)

admin 2024年6月25日16:15:26评论48 views字数 2410阅读8分2秒阅读模式

2024

AI 模型训练和部署场景下数据主体权利如何响应?(一)
在GDPR或者中国《个人信息保护法》中,个人对其个人数据享有多项权利。在AI领域,这些权利适用于AI系统开发和部署周期中任何涉及个人数据处理的环节。因此,可能涵盖了以下个人数据:
  • 包含在训练数据中的数据;

  • 用于模型部署期间进行测试的数据,以及模型预测结果本身;

  • 可能包含在模型本身中的数据。

本文参考英国ICO指南以及其他欧盟指南,讨论在开发和部署AI系统并遵守个人数据处理知情权、访问权、更正权、删除权、限制处理权、数据可携权和反对权时,可能需要考虑的事项和面临的挑战。

数据预处理+去标示化后的响应个人权利请求

众所周知,匿名化后的个人数据不能识别到个人,则不再是个人数据。如果说匿名化是一个目标,那么去标示化就是手段。不同去标示化的技术手段结合具体场景,达到不同程度的“去识别”效果,最终达到匿名化的目标。
在创建或使用AI模型时,通常需要利用个人数据进行训练,在将数据用于训练模型之前进行的数据转换过程通常被称为“预处理”。例如,基于消费者过去交易预测他们的购买行为的模型,需要对包含客户交易的大量数据集进行训练。例如,把购买详细时间转换为交易历史中的高峰和低谷的摘要。“预处理”的目的一般是提高训练数据质量,保证模型训练效果。如果此时“预处理”+去标示化技术手段达到匿名化效果——无法直接或间接地在训练数据中识别出某个人,且如果公司能证明这一点,那么GDPR第15至20条规定的个人权利就不适用了。
如果无法达到匿名化效果,即使数据缺乏关联标识符或关联信息(例如无法与客户姓名关联),并且通过预处理进行了转换,训练数据仍可能被视为个人数据。这是因为单独或与其他数据结合起来,“识别”出个人的可能性仍然存在。因此,在响应个人行使其权利的请求时,仍然需要考虑此类数据。尤其当个人可以提供相关数据证据识别到个人的时候。
ICO提出,在AI场景下,满足个人数据处理知情、访问、更正、删除、限制处理和通知等权利可能很困难。如果个人请求明显缺乏依据或过于繁琐,公司可以收取费用或拒绝处理请求。然而,如果仅仅因为这些数据请求在AI场景下可能更难实现,或者个人请求与通常收到的其他请求相比不够明确,公司不应该认为这些请求显然不合理或过分而拒绝响应。
如果无法做到匿名化,以下部分个人数据权利都需要根据情况予以响应。

知情权

如果将个人数据用于模型训练,则数据控制者应遵循透明性原则告知个人。按照GDPR的要求,首先应该在收集时告知个人;其次,如果数据最初是为了不同的目的而处理的,而后来决定将其用于训练AI系统的不同目的,则需要通知相关个人,并确保新目的与前一个目的兼容。关于目的兼容性原则的更多讨论可阅读生成式AI 场景下数据最小化和目的限制原则如何实现》。

如果是间接收集个人数据而没有机会通知个人。在这种情况下,应在合理期限内(最迟一个月)向个人提供GDPR第14条规定的信息,除非适用第14(5)条的相关豁免。
ICO提到,由于使用个人数据来训练人工智能系统通常不构成做出具有法律或类似重大影响的完全自动化决策,因此数据控制者只需要在做出这些决策时提供有关这些决策的信息。但是,仍然需要遵守主要的透明度要求。
数据控制者可能难以识别训练数据集的个人,并与个人取得沟通。例如,训练数据可能已经删除了任何个人标识符(但是仍然是个人数据)。在这种情况下,直接向个人提供信息可能是不可能的,或者需要付出不成比例的努力。此时,应该采取适当措施保护个人的权利和合法利益。例如,可以提供公开信息,解释从哪里获得用于训练AI系统的数据,以及个人如何提出反对。

更正权

数据控制者应该采取什么样的措施以应对个人数据更正请求,取决于数据的性质、范围、上下文和数据使用的目的。通常数据越敏感,越需要保证其准确性,相应的更正措施也应该更完备。关于数据准确性,在《AI模型训练数据准确性和输出统计精确度》中有讨论。
一般而言,单个个人的数据准确性对整体AI模型的结果精确性影响不大。如果个人以结果精确性受到影响为由要求修改训练数据,那可能这个理由不是很充分。但个人仍然有权利要求数据控制者修改存储记录,或者根据实际情况响应个人更正权。

删除权

如果仔细研读GDPR关于删除权的规定,就会了解个人行使删除权存在很多“例外”情形,很多情形的个人数据删除无法实现。如果训练数据中包含可以识别或者间接识别到个人的数据,且不在例外范围内。则数据处理者应删除请求者的个人数据。

从技术实现角度来看,从训练数据中删除某个人的个人数据不太可能影响AI系统训练效果。因此,数据处理者不太可能有理由不履行从训练数据中删除其个人数据的请求。另外,响应删除训练数据的请求并不意味着要删除基于应删除数据的所有训练模型,除非模型本身包含该数据或可以从中推断出该数据

数据可携权

基于GDPR,如果数据处理的合法基础是同意或合同。个人有权对他们“提供”给数据控制者的数据进行数据移植。“提供的数据”包括个人有意识地输入到表单中的数据,但也包括在使用服务的过程中收集的行为数据。在大多数情况下,用于训练模型的数据(例如,人口统计信息或消费习惯)被视为个人“提供”的数据。因此,数据可携权适用于基于同意或合同的数据处理场景。
然而,如上所述,训练数据通常采用“预处理”,将数据从原始形式转换为可以通过机器学习算法更有效地分析的内容。如果这种转换是显著的,结果数据可能不再被视为个人“提供的数据”。
在这种情况下,“预处理”后的数据不在数据携带权范围内,但是它仍然构成个人数据,适用其他数据保护权利(例如访问权)。同时,预处理数据的原始数据仍然受数据可携带权利的约束。(未完待续
— THE END —
--------------------------------------------------------

原文始发于微信公众号(数据合规与治理):AI 模型训练和部署场景下数据主体权利如何响应?(一)

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年6月25日16:15:26
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   AI 模型训练和部署场景下数据主体权利如何响应?(一)https://cn-sec.com/archives/2882746.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息