2024
2024年9月9日,全国网络安全标准化技术委员会发布了《人工智能安全治理框架》1.0版(以下简称“《治理框架》”)。《治理框架》确定了人工智能的总体安全治理框架。按照“提出问题”到“解决问题”的逻辑:首先梳理人工智能技术本身及其在应用过程中面临的各种安全风险;之后针对前述安全风险点提出解决方案;最后还针对模型算法研发者、AI服务提供者、重点领域用户和社会公众用户给出了开发应用人工智能技术的若干安全指导规范。本文以《治理框架》为基础,继续用尽量简单易懂的例子解读风险和应对措施,以飨读者。
本文主要围绕模型算法安全风险和应对措施展开讨论。
1. 可解释性差的风险。以深度学习为代表的人工智能算法内部运行逻辑复杂,推理过程属黑灰盒模式,可能导致输出结果难以预测和确切归因,如有异常难以快速修正和溯源追责。
举个例子:银行使用一个贷款审批模型来决定是否批准贷款。如果模型拒绝了某人的申请,却无法提供解释,这不仅让用户感到困惑,也可能导致用户不信任这个决策。
可以采取的应对措施:
-
可解释性模型:使用更容易解释的模型或增加解释工具,帮助揭示模型做出某个决策的原因。
-
引入人工审查:对于某些高风险的自动决策系统,加入人工审查环节,确保重要决策不仅依赖机器判断。
2. 偏见、歧视风险。算法设计及训练过程中,个人偏见被有意、无意引入,
或者因训练数据集质量问题,导致算法设计目的、输出结果存在偏见或歧视,
甚至输出存在民族、宗教、国别、地域等歧视性内容。
也就是说,如果模型的训练数据存在偏差,模型的决策可能对某些群体不公平,甚至带有歧视。
例如:一个招聘系统模型通过学习历史数据来筛选简历。如果历史数据中大多数高层职位由男性占据,模型可能会倾向于选择男性求职者,而忽视了优秀的女性候选人。
可能的应对措施有:
-
数据多样性:确保模型训练数据涵盖多样化的群体和情况,减少偏见。
-
公平性算法:在模型设计时加入公平性约束,确保不同群体之间没有明显的偏见或歧视。
更多可以阅读:【干货】如何评估AI模型的公平性?
3. 鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点,人工智能易受复杂多变运行环境或恶意干扰、诱导的影响,可能带来性能下降、决策错误等诸多问题。
鲁棒性指的是模型在面对异常、噪声或非预期输入时,仍然能保持稳定和正确输出的能力。当一个模型鲁棒性不足时,它容易受到异常输入或攻击的影响,导致错误或不可靠的决策。
例如:一个图像识别模型能很好地识别清晰的照片,但如果照片有轻微的噪声/模糊,或者拍摄角度稍微变化,模型可能会做出完全错误的分类。比如,一张带有少量噪声的猫的照片被误认为是狗。
鲁棒性弱的应对措施:
4. 被窃取、篡改的风险。参数、结构、功能等算法核心信息,面临被逆向攻击窃取、修改,甚至嵌入后门的风险,可导致知识产权被侵犯、商业机密泄露,推理过程不可信、决策输出错误,甚至运行故障。
窃取风险是指攻击者通过与模型频繁交互,逐步推测出模型的内部结构和参数,进而窃取整个模型。例如某家公司开发了一个智能客服系统,竞争对手通过不断询问问题,分析系统的响应,逐渐复制了这个模型,并用来为自己的产品服务。
应对措施:
-
限制访问频率:通过限制用户访问模型的次数或速率,防止攻击者通过大量查询反复试探模型。
-
模糊化输出:将模型的输出结果进行模糊化处理,让攻击者无法通过简单的交互来推测出模型的内部结构。
篡改风险是指:攻击者篡改了模型的推理过程,使得模型输出的结果偏离原本的目标。比如在电商网站上,一个推荐系统本应该推荐最符合用户兴趣的商品,但被攻击者篡改后,它开始优先推荐某些特定商家的商品。
应对措施:
-
模型完整性检测:定期检查模型的行为和推理结果,确保模型没有被篡改或发生异常行为。
-
数字签名验证:为模型增加数字签名,每次使用时验证模型的签名,确保模型未被篡改。
5. 输出不可靠风险。生成式人工智能可能产生“幻觉”,即生成看似合理,实则不符常理的内容,造成知识偏见与误导。
幻觉(hallucination)只是是输出不可靠风险的一种体现,特别是在自然语言处理(NLP)领域和生成式AI模型中。过拟合、数据偏差以及鲁棒性差都可能导致输出不可靠。
更具体的来说,幻觉指的是模型在生成或输出信息时,生成了虚假、不存在或不符合现实的内容。即使输入数据是合理的,模型有时仍会输出错误的或完全虚构的结果。这通常发生在生成语言的模型中,例如在以下场景中:
攻击者可能通过微小的修改输入数据,使模型做出错误判断。这些修改可能不容易被人类察觉,但会让模型的判断产生偏差。例如,在图像识别系统中,攻击者可以在“停止”标志上添加一些几乎看不见的小噪音,结果模型将“停止”标志识别为“限速”,车辆未能及时停下,可能引发事故。
应对措施:
-
对抗训练:在训练过程中,使用一些攻击者可能用到的修改过的数据进行训练,这样模型能学会如何识别和应对对抗攻击。
-
输入数据校验:在模型使用前,增加一层验证机制,检查输入数据是否被篡改或添加了异常信息。
例如,一个垃圾邮件过滤系统在训练时加入了一些看似正常但实际上是精心设计的垃圾邮件样本。结果,模型在实际使用时无法识别这些恶意邮件,甚至把正常邮件标记为垃圾邮件,影响用户体验。
应对措施:
-
数据验证和清洗:在使用数据之前,进行严格的数据质量检查,确保数据没有被恶意篡改或污染。
-
还是对抗训练:在训练模型时加入“对抗样本”(恶意数据),让模型学会识别和防御类似的攻击。
在《治理框架》之外,补充一个不得不提的模型算法安全风险:过拟合与泛化能力不足。
它是指模型过于依赖训练数据的细节,导致它在处理新数据时表现不佳,这种现象被称为“过拟合”。
例如,一个电商平台的推荐系统在训练时学习了过去几个月的数据,但假设遇到一个全新流行的商品类别,由于模型没有见过类似的数据,它可能无法有效推荐这些新商品,导致错失销售机会。
应对措施:
-
正则化技术:通过在模型训练过程中加入正则化手段,减少模型对训练数据的依赖,增强其泛化能力。
-
交叉验证:在训练过程中对数据进行分组测试,确保模型不仅在训练集上表现良好,还能适应新的数据。
总结:每种风险都有其独特的挑战,但我们可以通过合理的技术手段来减轻这些风险。例如,通过对抗训练和输入验证抵御对抗攻击,增强模型的解释性和公平性确保其不带有偏见和不透明性。在实际应用中,合理的风险管理和安全措施是必不可少的。
— THE END —
---------------------------------------------------
原文始发于微信公众号(数据合规与治理):人工智能安全治理框架解读——模型算法安全风险及应对篇
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论