如何合规使用用户输入信息进行训练

admin

145958
文章

119
评论

2024年7月14日00:37:34评论88 views字数 2313阅读7分42秒阅读模式

今天简单聊聊使用用户输入的数据来训练和优化模型的事情。

不知道你在向大模型提问和聊天时，是否曾担心过自己输入的内容会被大模型用来做其他的处理？

比如作为模型训练和优化的养料。

对于这点，国家标准《生成式人工智能服务安全基本要求》有明确的规定：

用户输入的信息会因为关联性构成个人信息，但其敏感程度通常属于一般个人信息，因此原则上使用用户输入的信息直接进行模型训练也构成个人信息处理活动，需要取得用户的同意。这可能是5.1条要求企业具有使用者授权记录规定的原因。一般通过隐私政策进行统一地“告知-同意”即可满足要求。

而《生成式人工智能服务安全基本要求》还要求企业提供关闭方式（opt-out），这是附加的额外要求。好消息是，国标没有限制关闭的实现方式，因此最低水位来说，“在隐私政策里告知用户可以通过客服平台或发送行权邮件的形式来提出关闭请求”也是可以被接受的。

好了，纸上谈兵后，那么就看看实践中大伙们是怎么操作的。

实例

这次，我们选择了几个我使用过的To C的大模型对话类产品：通义千问、文心一言、豆包、腾讯元宝、智谱清言、讯飞星火、天工。

其中部分是互联网大厂的产品，揣测一下或许能代表目前的合规高水位。

但是看下来，仍与我们的理论分析结论存在着不小的差异。

【先叠个甲：仅出于个人学习（搞事）目的，不带任何主观色彩。但可能能力有限，若有遗漏、偏颇、错误的地方，欢迎指正。】

用户协议的告知

所有产品都会在“用户协议”中披露，且多数放在“知识产权（及其他权利）”章节中（其中智谱清言放在了“智谱清言的权利和义务”章节中，而讯飞星火放在了的“用户使用规范”章节）。披露的方式一般为：

“您确认并同意，上传、发布的全部信息内容，授权我们/关联公司一项全球范围、永久有效、免费的许可权，用于优化/改进/训练模型和服务……”

例如通义千问：

例如文心一言：

如果仅在用户协议中进行了披露，可能存在的问题是，能否以用户协议的签订来证明获得了使用者的授权同意呢？用户协议不是个人信息层面“告知-同意”履行的佐证材料，而从授权的角度看，互联网的用户协议还会涉及到格式条款效力的问题。

隐私政策的告知

多数产品在“隐私政策”也作出了相关的披露，有两家的隐私政策里找不到相关内容。多数产品在隐私政策中会做出如下披露：

“我们会对用户输入的信息进行去标识化/匿名化技术处理，无法识别特定个人，并使用处理后的信息进行……”

例如腾讯元宝：

又例如智谱清言：

又例如讯飞星火：

从隐私政策的披露来看，多数产品在训练和优化时会先对相关信息进行去标识化/匿名化处理，这能降低相关信息在后续处理过程中的风险。

但是去标识化并不能改变其个人信息的属性，还是需要遵循个人信息保护的有关规定（同意、单独同意、行权等）；若是进行匿名化处理，则可以使得处理后的信息不落入个人信息的范畴，但是目前并没有法律意义上被认可的匿名化处理方式。

因此，更适合将这部分描述理解为是企业在披露自己的安全保护措施，而非豁免义务的声明。

关闭方式

7款产品中，仅有豆包告知了用户关闭/拒绝的方式，并且在App客户端上提供了便捷的部分关闭功能。

豆包提供给用户两种关闭方式：

（1）用户可以通过发送邮件提出请求；

（2）对于语音信息，用户还可以通过关闭“设置”-“账号设置”-“改进语音服务”中的按钮来撤回授权。

可能有些小伙伴会说，本身用户就可以通过传统的个人信息行权路径来行使“撤回同意”权，因此无需特殊告知。但是既然国标有了明确的要求，在隐私政策里多写一句也是好的。

站在用户的角度，没要求大家提供关闭的按钮已经是对国货很宽容了。

域外参考

看完国内，再看看海外的产品是怎么做的。

谷歌的Gemini，OpenAI的ChatGPT，以及Anthropic的Claude在告知层面和用户行权层面能提供一些新的参考和思路。

Gemini

Gemini对用户数据的使用是：

在告知方面，Gemini在《Gemini 应用隐私信息中心》进行了较为详细的披露。

在关闭方面，Gemini提供了两步：1）关闭；2）删除活动记录。此外，在不关闭的情况下，Gemini允许用户选择活动记录的保存期限。

ChatGPT

ChatGPT会使用用户的数据来提高模型的性能。

在告知方面，ChatGPT不仅在隐私政策中进行了告知，也在Privacy FAQ中专门设置了针对使用用户数据训练模型的说明。

在关闭方面，ChatGPT提供了两种途径：

（1）用户可以在隐私保护平台上调整控制选项。用户需要先通过邮件验证身份，然后再提出请求。

【但是提出请求时必须提供居住的国家信息，有点奇怪哦】

（2）通过平台侧面的“设置”-“模型改进”路径来关闭。

Claude

Claude表示只有在三种情况下才会使用用户的输入/输出信息来进行训练：

（1）用户的对话被标记为进行信任和安全审查（在这种情况下，我们可能会使用或分析它们来提高我们检测和执行我们的使用政策的能力，包括供我们的信任与安全团队使用的培训模型），

（2）用户已向我们明确报告这些材料（例如通过我们的反馈机制），或

（3）通过其他方式明确选择加入训练。【opt-in？】

在告知方面，Claude在隐私政策和FAQ中都进行了披露：

在关闭方面，因为我的账号被Claude封了（它对于中国地区的识别比ChatGPT还要灵敏，哭了），所以暂时测不出来。也不确定它是否是真的Opt-in。

私货环节

反正不管训练用的素材是否构成个人信息，正大光明地跟大家说清楚，也不会有什么。

如果还有余力，做个关闭选项，或许能加分不少呢。

至于，躲躲藏藏但最后被其他人捅出来，那么可能会得不偿失，大概吧，hh。

原文始发于微信公众号（数据何规）：如何合规使用用户输入信息进行训练

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

如何合规使用用户输入信息进行训练

漏洞预警|多家主流蓝牙耳机曝出可被监视漏洞

印度 Max 金融公司数据泄露

韩国重拳出击！Kimsuky APT黑客团伙遭制裁，加密地址首度曝光，美日火速跟进！

澳航遭遇重大网络攻击数百万客户信息恐遭泄露

新的 FileFix 攻击可运行 JScript 并绕过 Windows MoTW 警报

澳航遭史诗级黑客入侵！百万客户信息遭泄露

俄罗斯大型国防承包商遭入侵，黑客声称海军机密文件外泄

近半数遭勒索软件攻击的企业选择支付赎金

MCP工具链首个严重漏洞？一个钓鱼网页，远程劫持开发者电脑

微软关停密码管理功能倒计时，医院勒索案已致两死——网络安全双重危机

发表评论

在线咨询

微信