专题·人工智能安全 | 大模型安全风险分析与防护架构

admin

146330
文章

119
评论

2025年7月9日23:03:41评论0 views字数 4046阅读13分29秒阅读模式

扫码订阅《中国信息安全》

邮发代号 2-786

征订热线：010-82341063

文 | 绿盟科技集团股份有限公司张睿张智南叶晓虎

大模型作为新兴的IT应用技术，因其广泛的通用和专用业务场景，以及高效的智能分析、推理、生成能力，受到各行业的积极应用和推广。随着大模型应用业态的不断丰富，预计其技术影响范围将持续扩大。为了保障大模型的安全和合规使用，企业组织必须以全面的风险管控框架，进行风险分析及安全设计，从顶层进行规划，确保大模型技术在风险受控的前提下得以导入和应用。2025年2月19日，国务院国资委召开中央企业“AI+”专项行动深化部署会，强调大模型构建需加速追赶，推动人工智能关键领域取得一系列积极进展。当前，以国资企业为代表的各类组织机构迅速部署大模型，积极推动该领域业务与大模型的融合应用。受国家政策支持、激励及市场发展前景等多重因素驱动，以大模型为主体的各类技术、应用和产品呈现出百花齐放的发展态势，得到了极其广泛的拓展和行业应用。

作为大模型技术应用及发展的前提，安全问题必须从顶层进行全面规划。在风险可控的基础上导入并应用大模型，才能支撑业务健康有序发展。大模型安全风险总体上可以划分为安全合规风险、安全技术风险两大类别。基于两类风险，对应设计安全防护架构，可区分独立部署大模型、外联商业大模型两类关键场景。对于独立部署大模型，由于组织机构负责模型的开发建设与实施，因此需要以更全面的视角进行安全设计，综合考虑大模型安全基础（环境安全）、大模型技术安全、大模型管理安全和安全目标。而外联商业大模型场景的应用场景更为单一，风险类型相对较少，技术层面主要关注数据泄露防护。

一、大模型安全合规风险

大模型安全合规风险围绕满足国家和行业监管机构针对人工智能、大模型应用发布的规章制度及规范性文件要求，并将相关要求落实到管理和技术两个层面，防止因违规而引发行政处罚等风险。在梳理大模型应用的法律法规及规范标准过程中，可以从两个方向开展：纵向分析从法律法规效力层级逐层覆盖相关要求；横向分析区域性和行业性要求。

在法律及行政法规层面，2025年1月1日施行的《网络数据安全管理条例》第十九条规定，提供生成式人工智能服务的网络数据处理者，应加强对训练数据及其处理活动的安全管理，并采取有效措施防范和处置网络数据安全风险。第四十条规定了智能终端等设备生产者有关预装应用程序的关联义务。企业组织机构还需从场景及应用特殊人群方面进行分析：如前者分析是否涉及关键信息基础设施，以满足《关键信息基础设施安全保护条例》要求；后者分析是否涉及未成年人，以满足《未成年人网络保护条例》要求。

在部门规章层面，首先必须遵循2023年8月15日施行的《生成式人工智能服务管理暂行办法》，其次对于涉及人脸图像生成类的大模型，还需单独进行合规分析，确定满足2025年6月1日起施行的《人脸识别技术应用安全管理办法》要求。模型内容生成还应对暴力内容进行筛选过滤，以符合《网络暴力信息治理规定》第十二条的规定。对于特殊行业，如气象领域，还应进一步符合《人工智能气象应用服务办法》的相关规定。

目前，规范性文件、标准及技术文件的内容较多，且随着时间推移，这部分内容将持续充实和细化，因此需要持续关注和跟进。针对规范性文件，组织机构需要遵循国家互联网信息办公室联合其他三部委发布的《人工智能生成合成内容标识办法》，向下关联应用强制性国标《网络安全技术人工智能生成合成内容标识方法》（GB 45438-2025）以及技术性文件《生成式人工智能服务安全基本要求》（TC260-003）。同时，还需选择适用的推荐性国家标准，如《网络安全技术生成式人工智能数据标注安全规范》（GB/T 45674-2025）等。

在横向有关区域和行业性规范方面，当前针对人工智能和大模型技术的文件主要以鼓励发展的内容为主，这些文件涉及企业组织机构申报政府奖励、补贴、奖项等事宜。以合规为主题，主要需要引用国家和部门规章类要求，或根据本区域、本行业的网络和数据安全要求进行关联引用。

二、大模型安全技术风险

大模型安全技术风险需从两类应用场景分别分析，然后进行综合规划。大模型两类应用场景（如图1所示）分别为独立部署大模型场景和外联商业大模型场景。独立部署大型场景指企业组织机构自行部署大模型，能够控制模型的训练、部署、应用的部分或全部阶段；而外联商业大模型场景指企业组织机构通过互联网访问开放的商业模型，并对模型不具有控制权。

图1 大模型两类应用场景

在独立部署大模型场景中，可从时间和空间两个维度进行分析。在时间维度上，将模型训练、部署和应用划分为三个阶段；在空间维度上，按照基座安全、数据安全、模型安全、应用安全和身份安全五个关键技术领域进行划分，并进行风险矩阵映射（如图2所示）。通过该风险矩阵，组织能够全面考虑大模型的各类风险，既能支持前期项目可行性研究进行风险分析，也能在运营期阶段提供风险识别、登记、监控和处置的指导。该矩阵还可以帮助组织机构基于大模型的生命周期，从训练、部署和应用分阶段梳理安全风险，明确各角色的安全责任，从而进行全面的安全设计。例如，在模型应用阶段，对外发布大模型服务，技术层面需要满足五类安全要求，由安全部门主导相关的安全验证与测试，尤其是上线发布前的综合测试；合规层面则需要整合大模型的合规备案和算法备案内容，由业务部门主导，联合安全部门进行备案前的安全自查、测试和报告等。与此同时，以该风险矩阵为基础，机构还可以扩展第三维度，进行能力成熟度评估，以关联机构IT能力的持续管理，或可导入《人工智能大模型第3部分：服务能力成熟度评估》（GB/T 45288.3-2025），实现本机构的大模型服务能力成熟度自评或未来的第三方认证。

图2 大模型安全技术风险矩阵

在外联商业大模型场景中，由于大模型的所有权并不归属使用方，因此技术风险主要聚焦在数据安全和模型幻觉两大类，其他风险类别相对较少。特别是在数据安全方面，内部数据泄漏的风险尤为突出。由于互联网商业大模型的发展异常迅速，模型的互联能力和应用场景的丰富程度持续刷新，企业组织机构在外联商业模型时，通常有强烈的需求提升自身的业务能力和处理效率。因此，在该场景下，通常需要由安全部门进行总体设计，并区分API外联和WEB外联两类调用模式，尽速部署安全策略，防止组织内部的商业敏感数据、个人信息乃至涉密数据的外发和上传。

三、大模型防护架构

以大模型合规框架、技术风险矩阵为基础，大模型安全防护可以从三个层次展开。底层大模型运行环境，需保障基础设施安全，包括通信网络、区域边界、计算环境、云、容器涉及的安全设计与实现；中层需在技术上实现三类关键业务安全场景，即供应链安全、数据安全和运营安全，在管理上实现大模型合规评估备案，并将其纳入组织机构总体风险管理、安全监测预警和安全应急响应框架；顶层实现基座、模型、数据与算法、运行的安全技术目标，以及模型风险可控、合法合规的管理目标。

大模型供应链安全场景可以结合基础安全进行设计。首先，要对大模型部署网络与应用系统环境进行安全检测与加固，基于大模型部署环境，需对相关网络、操作系统、云和容器环境进行安全监测与防护；其次，大模型依赖开源组件，因此需要围绕大模型开源组件的安全检测、许可依赖和脆弱性继承关系进行有效安全防护，并将此能力纳入开发安全流程中，确保后续模型二次训练和微调过程中的代码安全；最后，基于大模型的生命周期，涉及模型开发环境、训练环境、运行环境的安全检测与防护，防止这三类环境中被植入恶意代码、数据投毒等，避免导致模型构建、压缩、微调及后续应用期间出现严重漏洞、数据泄露和违规输出等问题。

大模型数据安全场景必须从两个方面进行安全设计。首先是在大模型训练、微调、应用过程中，对输入至大模型的数据、文件进行风险检测，相关数据和文件还需进行敏感数据、商业涉知识产权数据、用户隐私信息的识别与风险评估，未加保护可导致数据和商业秘密泄露、逆向工程还原、个人数据违规等风险；其次是大模型输出内容的合规审核。由于大模型可能被滥用生成违规、虚假信息、恶意代码、仇恨言论等，需对大模型输出的内容进行审核。可利用关键词过滤、提示词分类、语义识别等方式，检测并控制大模型生成有害内容的风险，确保符合组织机构安全的法律法规和管理规定的要求。

大模型运营安全场景可从技术与管理两方面进行设计：在技术层面，安全运营需解决大模型运行期间的安全性和可用性问题。安全性涉及智能体调用安全、集成应用或数据源API接口安全、模型防越狱及防越权、提示词与思维链注入防护等内容，以及围绕不同层级的身份识别与授权等方面进行详细安全设计和防护；可用性则涉及大模型资源滥用和算力耗尽攻击防护，同时需要兼顾网络与操作系统层面DoS攻击防护。在管理层面，应完成大模型合规备案，涉及算法合规监管的，还需考虑算法合规备案流程。在此基础上，同步建设大模型的风险评估、安全监测预警和应急响应能力，并将这些功能整合进组织机构的信息安全管理体系，实现统一管理。

四、结语

大模型技术因其广阔的发展前景，受到了世界各国的关注和投入。同时，随着其不断融合智能体和智能应用相关技术，持续渗透行业各类业务应用，势必引发互联网产业的重大革新，助推传统行业的数字化转型，并加速芯片设计与制造、算力平台构建与应用的研发和升级。安全是技术发展的根本，需要统筹协调。以全面视角审视大模型安全风险，合理规划大模型应用，以应对合规要求和技术风险，已成为企业组织机构应用并推广大模型技术的科学方法。以安全为基，也为行业探索大模型应用新场景、发展大模型技术新业态提供了可行的路径。

（本文刊登于《中国信息安全》杂志2025年第3期）

分享网络安全知识强化网络安全意识

欢迎关注《中国信息安全》杂志官方抖音号

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图了解详情

原文始发于微信公众号（中国信息安全）：专题·人工智能安全 | 大模型安全风险分析与防护架构

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

专题·人工智能安全 | 大模型安全风险分析与防护架构

WhiteFox：由大型语言模型驱动的白盒编译器模糊测试

【论文速读】| CAVGAN：通过对内部表征进行生成对抗攻击，统一 LLM 的越狱和防御

人工智能大模型知识库建设通用要求标准共建计划

一文搞懂 | 大模型为什么出现幻觉？从成因到缓解方案

【论文速读】|大语言模型在渗透测试中的惊人有效性研究

大模型基础：模型量化概念与技术详解

安全AI生命周期管理框架：SAIL框架

机器学习常见算法【上】

机器学习在网络安全中的应用

多模态大语言模型｜SPP第139期

发表评论

在线咨询

微信