近年来,随着人工智能领域的迅猛发展,各种AI语言模型如雨后春笋般涌现。这些模型通过学习海量数据,能够生成高质量的内容。用户只需要输入具体需求或提供参考性文档资料,即可一键生成所需的文章,这在一定程度上极大地提升了工作效率。然而,用户在处理组织敏感数据时,如果不正确使用或忽视数据安全的重要性,就有可能给组织的敏感数据带来严重的安全隐患。
从合规角度来看,AI语言模型应该严格遵守行业规范,按规定履行算法备案手续和合规义务,遵循合法性、公平性、透明度、目的限制、数据最小化、准确性、存储限制、完整性和保密性等原则,从而确保为用户提供高效服务的同时保障用户数据安全,避免违规收集或使用用户上传的数据。
尽管如此,当前AI语言模型种类繁多,其中难免会有某些模型存在违规收集用户输入数据的问题,这无疑给组织的数据安全带来了潜在风险。因此,在应用AI技术的同时,必须高度重视数据安全问题。
SUMMER 一、数据安全风险 (一) 个人原因造成数据泄露
因个人原因造成的数据泄露包括无意识的数据泄露和有意识的数据泄露,这两种情况都有可能给组织的敏感数据带来安全隐患。
无意识的数据泄露:用户在使用AI语言模型时,可能在不知道自己的操作存在风险的情况下,不经意间上传了敏感信息,如组织的敏感文档。
(二)
平台原因造成数据泄露
目前AI语言模型种类繁多,虽然人工智能相关的监管政策明确要求禁止违规收集和使用用户的输入数据,但目前AI语言模型良莠不齐,这其中不乏存在一些模型正在违规收集和使用用户上传的组织敏感数据,而用户对此状况并不知晓。这些模型在收集用户上传的组织敏感数据之后,可能因自身存在安全问题、不合规处理或系统漏洞,而导致这些数据的二次泄露。
模型自身安全:部分AI语言模型自身存在安全问题,可能将训练数据中的内容作为输出展示给使用模型的用户,即大模型的数据泄露问题。如果用户的输入被违规收集和使用,极有可能因上述原因造成所收集的数据的二次泄露。
不合规处理:部分AI语言模型可能存在不合规的处理,比如未经许可收集用户数据,并将其用于非法目的,从而损害用户的隐私和安全。
SUMMER
二、应对策略
(一)
技术措施
1.分类分级
为了妥善管理存储在工作机中的大量组织敏感数据,我们需要建立健全业务数据安全分类分级管理机制。首先,在梳理本机构业务数据资产目录的基础上,依据国家、行业相关的数据安全标准和最佳实践,制定覆盖全部业务数据的标准和数据安全分类分级清单,详细列出每种数据类型的重要性和敏感性水平,并明确区分敏感数据和非敏感数据。根据不同类别和级别,设定相应的访问权限和控制措施,明确规定哪些数据不应上传至AI语言模型或其他外部系统,以防止敏感信息被不当收集或使用。实施数据安全分类分级后,定期进行审查和更新,以防止数据泄露和越权使用。
为了进一步提高数据分类分级的效率和准确性,可采用基于国家、行业数据分类分级标准的敏感数据深度识别模型,利用先进的数据识别工具和技术,比如深度学习算法和自然语言处理技术,来识别和标记敏感信息,高效且准确地识别和管理敏感数据,形成一个完整的敏感数据资产目录清单,确保数据分类分级工作的准确性和全面性,并对文件内容、组织敏感信息等进行多维度快速检索。通过以上方法,更好地了解数据的分布情况,从而更加有效地管理和保护组织的数据资产。
2.风险监测
基于数据流动全程及数据全生命周期持续感知评估风险,对终端敏感数据运行过程进行无改造映射,自动标注敏感数据,并跟踪数据状态变化过程,持续监控数据传输的敏感度、分类分级、频率、数据的数量和目的地等,跟踪敏感数据在AI语言模型和终端之间的运行流转轨迹,完整追溯敏感数据流转过程,并快速识别敏感数据流出业务范围或越权上传等风险,通过实时监控和异常分析来及时发现是否存在向AI语言模型上传组织敏感数据的行为,并采取措施有效预防数据泄露。这意味着不仅要定期检查数据传输的日志,还要利用先进的深度数据内容识别技术、基于人工智能的数据安全风险分析技术来识别异常模式,例如敏感数据流向有风险的目的地的情况。一旦检测到可疑行为,应立即启动风险处置流程,包括但不限于告警、切断数据传输、隔离受影响的系统、调查事件原因等,从而有效减少数据泄露的风险,并确保组织的敏感信息得到妥善保护。
3.安全防护
(二)
组织管理措施
(三)
个人安全意识培养
(四)
AIPC方法
SUMMER
三、小 结
(本文作者:北京数安行科技有限公司 郭灵)
原文始发于微信公众号(CCIA数据安全工作委员会):深度分析 | AI语言模型应用中的数据安全挑战与应对策略
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论