一、大模型安全概述
1.1 大模型安全定义与重要性
大模型安全是指确保大型人工智能模型(如大型语言模型、视觉模型等)在开发、训练、部署和应用过程中免受各种安全威胁和攻击的能力。大模型的安全性不仅关系到模型的可靠性和准确性,更直接影响到使用这些模型的组织和用户的信任与安全。
1.2 大模型面临的主要安全挑战
大模型在开发和应用过程中面临多种安全风险,主要包括:
- 对抗攻击:通过在输入数据中添加微小扰动,导致模型产生错误输出
- 模型投毒:通过污染训练数据,植入恶意代码或偏见
- 越狱攻击:通过设计狡猾的指令和提示,绕过大模型的内置安全措施,使其突破设计限制
- 数据泄露:模型可能在输出中泄露训练数据中的敏感信息
- 供应链攻击:通过污染模型依赖的库和框架,植入恶意代码
二、国内大模型安全技术框架
2.1 中国信通院与阿里云的“四层安全框架”
该框架涵盖大模型自身安全与大模型赋能安全两大维度,为行业提供了覆盖全生命周期的整体解决方案,推动大模型技术合规发展。
2.1.1 自身安全框架
包含安全目标(数据可信、模型可靠、平台稳定、应用可控)、安全属性(真实性、机密性、公平性等13项)、保护对象(系统、数据、用户)及安全措施(16项具体措施,如数据合规获取、模型鲁棒性增强、系统安全加固等)
2.1.2 赋能安全框架
聚焦网络安全(威胁识别、响应恢复)、数据安全(分类分级、违规检测)和内容安全(文本/图像/音频检测),强调大模型在安全领域的应用潜力。
2.2.1 设计思路
围绕安全性、可靠性、可控性三大维度,提出技术实施方案,应用模式支持端、边、云三种部署形态,适配不同场景需求。
- 安全性:构建防御体系,应对数据泄漏、模型篡改等风险。
- 可靠性:提升模型对抗鲁棒性、真实性及价值对齐能力。
- 可控性:通过可解释性、指令遵循等技术增强模型透明度。
- 数据安全:训练数据中可能包含敏感信息(如个人隐私、商业机密),存在泄露风险;数据标注偏差可能导致模型输出偏见。
- 算法安全:对抗性攻击(如 Prompt 注入、越狱攻击)可能绕过安全机制,诱导模型生成有害内容;模型参数泄露可能被恶意利用。
- 应用安全:在金融、医疗等关键领域,模型微小错误可能引发系统性风险;深度伪造技术滥用可能扰乱社会秩序。
- 研发阶段:通过自动化攻击样本生成、红蓝对抗演习等手段,提前发现潜在风险。例如,腾讯搭建了 Prompt 安全检测平台,模拟攻击者行为,在模型上线前收敛风险。
- 训练阶段:采用数据脱敏、差分隐私等技术保护数据隐私;通过正则化、对抗训练提升模型鲁棒性。
- 部署阶段:实施最小权限原则,隔离敏感数据访问;建立实时监控与应急响应机制,防范 API 滥用。
- 运营阶段:结合传统网络安全技术(如 API 安全防护、存储加密),构建 AI 原生安全体系。
2.4 奇安信政务大模型安全治理框架
奇安信发布的《政务大模型安全治理框架》是国内首个针对政务大模型的安全治理框架,旨在帮助政府机构在数字化转型过程中有效应对各类安全风险。
2.4.1 框架核心内容
该框架强调全面的安全治理需要满足合规要求、建立完善安全机制、提供安全技术保障。其核心内容包括:
- 基础安全保障:采用纵深防御、身份管理与授权等技术
- 数据安全:确保数据来源合规、内容安全合规、敏感数据识别过滤、训练数据标注安全,以及数据分类分级与保护
- 主要安全风险识别:识别了数据安全风险、训练语料安全风险、使用安全风险、应用安全风险、软件供应链安全风险和生成内容安全风险等七大类风险
2.4.2 应用价值
该框架能够帮助政府机构在数字化转型过程中,有效应对各类安全风险,为国家治理和公共服务提供坚实的技术支持。通过建立包容、审慎的大模型安全管理模式,推动政务大模型的安全、合规运行。
2.5 百度大模型安全框架
从大模型全生命周期视角出发,方案涵盖大模型训练/精调/推理、大模型部署、大模型业务运营等关键阶段所面临的安全风险与业务挑战,提供全套安全产品与服务, 助力企业构建平稳健康、可信可靠的大模型服务。
2.5.1 核心技术组件
百度的大模型安全框架主要包括:
- 大模型语料数据安全管理:提供整套语料数据安全管理方案,包括元数据管理、分类分级、流转审批、数据鉴权、行为审计等多项能力
- 大模型资产全流程保护:采用领先的Baidu AI技术,保护模型资产的安全
- 可信执行环境软硬一体机解决方案:通过完全硬件化的CPU+GPU保护方案,保障模型和数据安全,解决大模型在部署阶段面临的模型记忆泄露以及公有云场景下数据隐私保护问题
2.5.2 技术优势
百度安全的大模型安全框架具有多项技术优势:
- 构建覆盖政府网站/官媒/百科知识的信任域检索库,按官方口径准确回答涉政/热点舆情等安全范畴问题,避免大模型因幻觉引起的风险内容生成
- 内生安全增强,支持通过"大模型安全+小模型精调"的方式,提升模型的安全性
2.6 星云大模型安全框架(中兴通讯)
中兴通讯提出了星云大模型端到端安全防护框架,从多个层面保障大模型的安全性。
2.6.1 安全防护体系
该框架主要包括:
- 网络层面:部署防火墙、WAF、DDoS防护、漏洞扫描、主机入侵检测、主机防病毒等安全服务,实现网络隔离与访问控制
- 模型文件安全:采用模型文件加密、模型签名和完整性检测技术,防止攻击者在训推过程中注入有害代码、窃取或篡改模型
- 训练数据安全:确保训练数据的合法性和安全性,防止数据投毒攻击
2.6.2 技术创新点
星云大模型安全框架的创新点在于其端到端的安全防护理念,从网络、模型和数据等多个层面构建全方位的安全防护体系,确保大模型在训推过程中的安全性。
三、国际大模型安全技术框架
3.1 MITRE ATLAS框架
MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) 是一个全球可访问的、动态更新的知识库,专注于AI系统可能面临的对抗威胁。
3.1.1 框架结构与内容
MITRE ATLAS框架具有以下特点:
- 威胁分类:将AI系统的对抗性威胁划分为多个阶段,包括侦察、资源开发、初始访问、机器学习模型访问、执行、持久化、权限提升、防御规避等
- 技术知识库:包含机器学习(ML)系统的对抗策略、技术和案例研究,基于真实世界观察、ML红队和安全小组的演示
- 对抗威胁全景:提供AI系统可能面临威胁与攻击手法的全面梳理,概述了拒绝服务和模型投毒等场景
3.1.2 应用价值
MITRE ATLAS为网络安全研究人员和AI开发者提供了一个结构化的方式来理解和防御AI系统的威胁。它不仅帮助识别潜在的安全漏洞,还提供了具体的防御策略和最佳实践。
3.2 OWASP LLM TOP10
OWASP LLM Top 10 框架是由开放 Web 应用安全项目(OWASP)发布的针对大型语言模型(LLM)应用的十大安全风险指南,旨在帮助开发者、企业和安全团队系统性识别、评估和应对 LLM 应用中的关键安全威胁。
3.2.1 设计思路
OWASP Top 10 for LLM Applications建立在近500名专家的集体专业知识基础之上,其中包括125多名活跃贡献者。我们的贡献者来自多样的背景,包括AI公司、安全公司、独立软件供应商(ISVs)、云超级扩展商、硬件供应商和学术界。团队成员撰写了43种不同的威胁。通过多轮投票,我们将这些建议精炼为一个简洁的列表,列出了十个最严重的漏洞。专门的小组对每个漏洞进行了仔细审查,并通过公开审查对其进行了审查,确保了最终列表的全面性和可操作性。
这些漏洞中的每一个,连同示例、预防提示、攻击场景和参考资料,都由专门的小组进一步审查和精炼,并经过了公众审查,确保了最终列表的全面性和可操作性。
3.3 SafeBench评估框架
SafeBench是由北京航空航天大学、中国科学技术大学、新加坡国立大学与新加坡南洋理工大学等合作团队提出的一个多模态大型语言模型安全评估框架。
3.3.1 框架核心组件
SafeBench框架的核心由两个主要部分组成:
- 自动安全数据集生成管道:用于自动生成有害查询数据集
- 大模型裁判系统:用于识别和分类最具风险的场景
3.3.2 评估方法
SafeBench通过自动生成有害查询数据集和陪审团审议评估协议,评估多模态大型语言模型的安全性。在SafeBench框架下,研究团队生成了2300对多模态有害查询对,涵盖非法行为、隐私侵犯、仇恨言论等23种风险场景。
四、大模型安全技术未来展望
4.1 技术框架发展趋势
- 从单一防护到全生命周期安全:大模型安全框架正从单一的防护措施向覆盖数据、训练、部署、应用全生命周期的安全体系演进
- 从通用框架到垂直领域定制:安全框架正向政务、金融、医疗等垂直领域定制化发展,如奇安信的政务大模型安全治理框架
- 评估与防护并重:安全评估框架(如SafeBench)与防护框架协同发展,形成"检测-防护-评估"的闭环
- 安全与性能平衡:安全框架更加注重在保障安全的同时,尽量减少对模型性能的影响
4.2 安全理念发展趋势
- 安全与效率的平衡:未来的安全框架将更加注重在保障安全的同时,提高模型的运行效率
- 可解释性增强:安全框架将提供更多的可解释性功能,帮助用户理解安全决策的依据
- 自动化安全响应:实现自动化安全监测和响应,减少人工干预
- 跨模态安全防护:针对多模态大模型的安全防护技术将得到发展
4.3 政策与标准建议
- 建立统一的安全评估标准:制定大模型安全评估的统一标准和方法
- 推动安全框架开源共享:鼓励企业和研究机构开源其安全框架,促进技术交流和创新
- 加强国际合作:推动国际间在大模型安全领域的合作,共同应对全球性安全挑战
- 完善法律法规:建立健全与大模型安全相关的法律法规,明确各方责任和义务
五、结论与建议
大模型安全是人工智能发展过程中不可忽视的重要问题。这些框架从不同角度为大模型的安全防护提供了技术支持和理论指导,涵盖了威胁分析、安全评估、对抗防御、数据安全等多个方面。随着大模型技术的不断发展,安全框架也将不断演进,向着全生命周期、垂直领域定制、评估与防护并重的方向发展。
对于大模型的开发者和使用者,建议:
-
采用多层次的安全防护策略,结合多种安全框架和技术 -
定期进行安全评估和测试,及时发现和修复安全漏洞 -
加强安全监控和应急响应能力,确保在安全事件发生时能够快速响应 -
重视安全人才培养,提升团队的安全意识和技术能力
通过综合应用各种安全技术框架和最佳实践,可以有效提升大模型的安全性,为AI技术的健康发展提供安全保障。
部分参考文献
[1] 大模型安全解决方案 - 百度安全-有AI更安全. https://anquan.baidu.com/product/llmsec.
[2] [PDF] 大模型安全漏洞报告. https://pub1-bjyt.s3.360.cn/bcms/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%AE%89%E5%85%A8%E6%BC%8F%E6%B4%9E%E6%8A%A5%E5%91%8A.pdf.
[3] [PDF] 大模型安全实践(2024) - 信息资源系统. https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAg_vvntQYogK7G1gM.pdf.
[4] TensorFlow模型安全攻防战:对抗样本生成与防御实战指南-CSDN博客. https://blog.csdn.net/tombosky/article/details/145999914.
[5] 如何在七代安全增强型实例中部署PyTorch深度学习模型- 云服务器ECS. https://www.alibabacloud.com/help/zh/ecs/user-guide/deploy-a-pytorch-deep-learning-model-on-a-security-enhanced-instance.
[6] AI供应链安全:Hugging Face恶意ML模型事件分析. https://www.secrss.com/articles/64126.
[7] 2025 AI大模型安全防护:AI安全部署实战指南 - 安全内参. https://www.secrss.com/articles/76678.
[8] MITRE ATLAS™. https://atlas.mitre.org/.
[9] 提供治理路径,奇安信发布首个《政务大模型安全治理框架》. https://www.qianxin.com/news/detail?news_id=12675.
[10] [奇安信]:2024政务大模型安全治理框架- 发现报告. https://www.fxbaogao.com/detail/4626270.
[11] 政务大模型安全治理框架 - 奇安信. https://www.qianxin.com/threat/reportdetail?report_id=323.
[12] 政务大模型安全治理框架(附PDF下载) 原创 - CSDN博客. https://blog.csdn.net/qq_46094651/article/details/146014489.
[13] SafeBench:多模态大模型安全评估框架,揭示MLLM安全隐患. https://www.mittrchina.com/news/detail/13945.
[14] SafeBench:揭示多模态大模型安全隐患的评估新工具 - 搜狐. https://www.sohu.com/a/820552642_121798711.
[15] 大模型内容安全平台 - 百度智能云. https://cloud.baidu.com/product/AIGCSEC/platform.html.
[16] 2025 AI大模型安全防护:AI安全部署实战指南 - 安全内参. https://www.secrss.com/articles/76678.
[17] 星云大模型端到端安全防护及创新 - ZTE. https://www.zte.com.cn/content/zte-site/www-zte-com-cn/china/about/magazine/zte-technologies/20230/10-cn/3/11.html.
[18] 加强安全防护,守护大模型安全 - 飞书文档. https://docs.feishu.cn/v/wiki/QfDEwaH0riARXakdqCXcHLrAnwN/a8.
[19] 「大模型评测平台」发布,让AI安全看得见、管得住 - 网易易盾. https://dun.163.com/news/p/911f23ae31c74491b0e0c33100bdb5cd.
[20] 2025 AI大模型安全防护:AI安全部署实战指南 - 安全内参. https://www.secrss.com/articles/76678.
[21] 大模型安全解决方案 - 百度安全-有AI更安全. https://anquan.baidu.com/product/llmsec.
[22] 对抗样本库之cleverhans-CSDN博客. https://blog.csdn.net/weixin_41466575/article/details/119326724.
[23] 大模型安全挑战与攻击测试研究. https://www.secrss.com/articles/76119.
原文始发于微信公众号(数据安全矩阵):国内外大模型安全技术框架汇总
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论