人工智能安全治理框架解读——模型算法安全风险及应对篇

2024年9月23日15:13:49评论80 views字数 3692阅读12分18秒阅读模式

2024

2024年9月9日，全国网络安全标准化技术委员会发布了《人工智能安全治理框架》1.0版（以下简称“《治理框架》”）。《治理框架》确定了人工智能的总体安全治理框架。按照“提出问题”到“解决问题”的逻辑：首先梳理人工智能技术本身及其在应用过程中面临的各种安全风险；之后针对前述安全风险点提出解决方案；最后还针对模型算法研发者、AI服务提供者、重点领域用户和社会公众用户给出了开发应用人工智能技术的若干安全指导规范。本文以《治理框架》为基础，继续用尽量简单易懂的例子解读风险和应对措施，以飨读者。

本文主要围绕模型算法安全风险和应对措施展开讨论。

1. 可解释性差的风险。以深度学习为代表的人工智能算法内部运行逻辑复杂，推理过程属黑灰盒模式，可能导致输出结果难以预测和确切归因，如有异常难以快速修正和溯源追责。

举个例子：银行使用一个贷款审批模型来决定是否批准贷款。如果模型拒绝了某人的申请，却无法提供解释，这不仅让用户感到困惑，也可能导致用户不信任这个决策。

可以采取的应对措施：

可解释性模型：使用更容易解释的模型或增加解释工具，帮助揭示模型做出某个决策的原因。
引入人工审查：对于某些高风险的自动决策系统，加入人工审查环节，确保重要决策不仅依赖机器判断。

2. 偏见、歧视风险。算法设计及训练过程中，个人偏见被有意、无意引入，

或者因训练数据集质量问题，导致算法设计目的、输出结果存在偏见或歧视，

甚至输出存在民族、宗教、国别、地域等歧视性内容。

也就是说，如果模型的训练数据存在偏差，模型的决策可能对某些群体不公平，甚至带有歧视。

例如：一个招聘系统模型通过学习历史数据来筛选简历。如果历史数据中大多数高层职位由男性占据，模型可能会倾向于选择男性求职者，而忽视了优秀的女性候选人。

可能的应对措施有：

数据多样性：确保模型训练数据涵盖多样化的群体和情况，减少偏见。
公平性算法：在模型设计时加入公平性约束，确保不同群体之间没有明显的偏见或歧视。

更多可以阅读：【干货】如何评估AI模型的公平性？

3. 鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点，人工智能易受复杂多变运行环境或恶意干扰、诱导的影响，可能带来性能下降、决策错误等诸多问题。

鲁棒性指的是模型在面对异常、噪声或非预期输入时，仍然能保持稳定和正确输出的能力。当一个模型鲁棒性不足时，它容易受到异常输入或攻击的影响，导致错误或不可靠的决策。

例如：一个图像识别模型能很好地识别清晰的照片，但如果照片有轻微的噪声／模糊，或者拍摄角度稍微变化，模型可能会做出完全错误的分类。比如，一张带有少量噪声的猫的照片被误认为是狗。

鲁棒性弱的应对措施：

（1）对抗训练：在训练模型时，故意引入一些带有噪声或对抗性干扰的输入，训练模型在遇到这些扰动时仍能正确预测。这种训练方式可以提升模型在面对攻击或意外输入时的稳定性。

（2）数据增强：通过在训练过程中增加更多样化的数据（例如改变角度、添加噪声、调整亮度等），可以提高模型对现实世界中各种不同情况的适应能力，减少其对特定输入的依赖。

（3）鲁棒性测试：定期对模型进行鲁棒性测试，包括模拟不同的恶意攻击或异常数据输入，查看模型是否能稳定表现。通过这些测试，可以找出模型在面对哪些情况时容易失败，从而有针对性地改进。

（4）使用简化模型：有时候，复杂的模型容易对数据中的微小细节过度敏感，而简化的模型可能更加稳定，因为它们不会被数据中的噪声或小变化所迷惑。

人工智能安全治理框架解读——模型算法安全风险及应对篇

4. 被窃取、篡改的风险。参数、结构、功能等算法核心信息，面临被逆向攻击窃取、修改，甚至嵌入后门的风险，可导致知识产权被侵犯、商业机密泄露，推理过程不可信、决策输出错误，甚至运行故障。

窃取风险是指攻击者通过与模型频繁交互，逐步推测出模型的内部结构和参数，进而窃取整个模型。例如某家公司开发了一个智能客服系统，竞争对手通过不断询问问题，分析系统的响应，逐渐复制了这个模型，并用来为自己的产品服务。

应对措施：

限制访问频率：通过限制用户访问模型的次数或速率，防止攻击者通过大量查询反复试探模型。
模糊化输出：将模型的输出结果进行模糊化处理，让攻击者无法通过简单的交互来推测出模型的内部结构。

篡改风险是指：攻击者篡改了模型的推理过程，使得模型输出的结果偏离原本的目标。比如在电商网站上，一个推荐系统本应该推荐最符合用户兴趣的商品，但被攻击者篡改后，它开始优先推荐某些特定商家的商品。

应对措施：

模型完整性检测：定期检查模型的行为和推理结果，确保模型没有被篡改或发生异常行为。
数字签名验证：为模型增加数字签名，每次使用时验证模型的签名，确保模型未被篡改。

5. 输出不可靠风险。生成式人工智能可能产生“幻觉”，即生成看似合理，实则不符常理的内容，造成知识偏见与误导。

幻觉（hallucination）只是是输出不可靠风险的一种体现，特别是在自然语言处理（NLP）领域和生成式AI模型中。过拟合、数据偏差以及鲁棒性差都可能导致输出不可靠。

更具体的来说，幻觉指的是模型在生成或输出信息时，生成了虚假、不存在或不符合现实的内容。即使输入数据是合理的，模型有时仍会输出错误的或完全虚构的结果。这通常发生在生成语言的模型中，例如在以下场景中：

（1）文本生成模型：模型生成看似合理但实际上错误或虚构的内容。例如，模型可能“编造”了某些事实、引用了不存在的文献，或生成了错误的解释。

（2）语言翻译：机器翻译系统有时可能会将原始文本错误翻译成不存在的内容，而不是准确的目标语言文本。

（3）对话系统：在与用户交互时，模型可能给出与事实不符的回答，甚至在用户查询一些不存在的概念或事件时，模型“幻觉”出一个虚构的回答。

幻觉的应对措施：

（1）知识图谱和事实验证：为模型引入外部的知识库或事实验证工具，确保生成的内容与真实的、已知的事实相一致。对于生成的回答或文本，可以通过交叉验证的方式来验证其真实性。

（2）限制模型的生成范围：对模型的生成进行约束，避免它在超出数据范围或缺乏明确数据支持的情况下生成内容。例如，限制模型只生成与训练数据相关的内容。

（3）输出后验证：使用自动化或人工方式对模型的输出进行验证，特别是在关键领域（如法律、医疗等）。模型可以标记不确定性较高的部分，交由人工审查。

（4）可解释性工具：使用可解释性工具对模型的输出进行分析，帮助理解为什么模型会产生幻觉。这样可以发现模型中可能存在的偏差或漏洞。

（5）透明度和警告：在应用生成式AI时，向用户提示模型的输出可能不完全准确，提醒用户进行核实。例如，模型可以在生成的文本后附加警告信息，提示用户输出内容需要进一步验证。

6. 对抗攻击风险。攻击者通过创建精心设计的对抗样本数据，隐蔽地误导、影响，以至操纵人工智能模型，使其产生错误的输出，甚至造成运行瘫痪。

攻击者可能通过微小的修改输入数据，使模型做出错误判断。这些修改可能不容易被人类察觉，但会让模型的判断产生偏差。例如，在图像识别系统中，攻击者可以在“停止”标志上添加一些几乎看不见的小噪音，结果模型将“停止”标志识别为“限速”，车辆未能及时停下，可能引发事故。

应对措施：

对抗训练：在训练过程中，使用一些攻击者可能用到的修改过的数据进行训练，这样模型能学会如何识别和应对对抗攻击。
输入数据校验：在模型使用前，增加一层验证机制，检查输入数据是否被篡改或添加了异常信息。

另一种攻击是模型中毒攻击，攻击者在模型的训练数据中引入恶意样本，导致模型在推理时表现异常，甚至做出错误决策。

例如，一个垃圾邮件过滤系统在训练时加入了一些看似正常但实际上是精心设计的垃圾邮件样本。结果，模型在实际使用时无法识别这些恶意邮件，甚至把正常邮件标记为垃圾邮件，影响用户体验。

应对措施：

数据验证和清洗：在使用数据之前，进行严格的数据质量检查，确保数据没有被恶意篡改或污染。
还是对抗训练：在训练模型时加入“对抗样本”（恶意数据），让模型学会识别和防御类似的攻击。

在《治理框架》之外，补充一个不得不提的模型算法安全风险：过拟合与泛化能力不足。

它是指模型过于依赖训练数据的细节，导致它在处理新数据时表现不佳，这种现象被称为“过拟合”。

例如，一个电商平台的推荐系统在训练时学习了过去几个月的数据，但假设遇到一个全新流行的商品类别，由于模型没有见过类似的数据，它可能无法有效推荐这些新商品，导致错失销售机会。

应对措施：

正则化技术：通过在模型训练过程中加入正则化手段，减少模型对训练数据的依赖，增强其泛化能力。
交叉验证：在训练过程中对数据进行分组测试，确保模型不仅在训练集上表现良好，还能适应新的数据。

总结：每种风险都有其独特的挑战，但我们可以通过合理的技术手段来减轻这些风险。例如，通过对抗训练和输入验证抵御对抗攻击，增强模型的解释性和公平性确保其不带有偏见和不透明性。在实际应用中，合理的风险管理和安全措施是必不可少的。

— THE END —

---------------------------------------------------

原文始发于微信公众号（数据合规与治理）：人工智能安全治理框架解读——模型算法安全风险及应对篇

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

人工智能安全治理框架解读——模型算法安全风险及应对篇

悟空Agent实战：LLaMA-Factory高危0day漏洞挖掘与修复

图神经网络系列六：GCN优化之GAT与lightGCN

关于AI系统的访问控制，看看权威观点

中山大学｜FORGE：驱动大语言模型自动化构建大规模智能合约漏洞数据集

当ChatGPT接入MCP，你的数据是如何被泄露的？

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

启明星辰发布大模型安全威胁框架（附下载链接）

当好的GPT变坏：如何利用受信任的AI工具进行攻击

专题·人工智能安全 | 政府部门DeepSeek私有化部署的安全管理策略研究

大模型注入攻击和防御

发表评论

在线咨询

微信