2025年6月30日,全国网络安全标准化技术委员会公布了《网络安全技术 生成式人工智能服务安全基本要求》(GB/T45654-2025),并将于11月1日起实施。这份由30余家产学研机构联合起草的国家标准,为国内生成式AI服务套上了全面的安全“紧箍咒”。作为AI安全领域的从业者,今天我们就从技术角度深度解读这份规范的核心要求与实践意义。
在文章最后的合规建议中,提供了基于开源项目搭建大模型安全评估平台、以及搭建开源AI安全防火墙的历史文章链接,可应对《规范》中的部分要求,供参考。
GB/T45654-2025《网络安全技术 生成式人工智能服务安全基本要求》原文下载链接:
https://www.tc260.org.cn/front/postDetail.html?id=20250630122232&sessionid=-971035832
《规范》适用对象聚焦于向公众提供生成文本、图片、音频、视频等内容的生成式AI服务提供者,既包括以交互界面提供服务的企业,也涵盖通过可编程接口服务的技术供应商。《规范》适用于服务提供者开展生成式人工智能服务相关活动,也为相关主管部门以及第三方评估机构开展大模型备案管理、安全测评提供技术参考。
从结构上看,《规范》构建了“数据-模型-措施”三位一体的安全框架。第4章聚焦训练数据安全,从来源选择到标注管理形成全流程管控 。第5章针对模型安全,覆盖训练过程到输出结果的全生命周期。第6章提出安全措施要求,关注服务透明度与用户权益保护 。
特别值得注意的是,《规范》附录A从5个方面提出了训练数据及生成内容的31种安全风险。2023年5月多部委联合发布的《生成式人工智能服务管理暂行办法》第十七条 提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。《规范》附录A的31种安全风险为备案提供了支撑。附录B提供了可落地的评估方法,使抽象要求转化为可操作的技术指标。
训练数据的安全性直接决定模型输出质量。《规范》在这部分提出了多项量化指标。
《规范》4.1.1条明确规定了两个关键阈值:采集前抽样评估,违法不良信息超过5%的来源不得采集 。采集后安全核验,超过5%违法不良信息的来源数据不得用于训练 。这里的“违法不良信息”涵盖附录A中A.1-A.4的29种风险,包括危害国家安全、歧视性内容、商业违规等。评估方式可采用人工抽检、关键词匹配或分类模型自动检测,企业需根据数据规模选择合适方案。例如,对千万级文本数据,可先用分类模型初筛,再对高风险样本人工复核。
《规范》要求每种语言、每种类型的训练数据必须有多个来源,避免单一来源导致的偏见风险。对境外数据,明确要求“合理搭配境内外来源”,这一规定在技术上可通过数据分布分析实现,例如中文训练数据中境内来源占比不低于一定比例。
标注环节最易被忽视却至关重要。《规范》4.3条要求:标注人员需经安全培训并考核上岗,实行“标注执行与审核分离” 。功能性标注需人工抽检,发现违法信息立即作废整批数据。安全性标注需每条至少一名审核人员通过。 建议对安全性标注数据进行隔离存储。某头部AI企业实践表明,这种机制可使标注错误率降低70%以上,尤其能有效防范隐性歧视性内容的标注偏差。
从训练到输出的全链路防护 ,模型作为生成式AI的“大脑”,其安全性需要贯穿训练、输出、更新全流程。
《规范》5.1提出两项核心技术措施:建立安全风险测试题库,持续优化模型并在更新后复测。定期进行后门检测,发现风险后通过微调或遗忘学习处置,安全微调数据集需满足4.3的标注要求,企业可构建包含各类风险prompt的测试集,例如针对“生成暴力内容”的诱导性提问,通过强化学习使模型学会拒答。
《规范》5.2.1规定模型生成内容合格率不低于90%,即不含31种安全风险的样本比例。测试方法在附录B.2.2.2中明确:人工与技术抽检各1000条,均需达标。 在准确性方面,规范要求减少错误内容,技术上可通过知识图谱校验、事实一致性检测等方式实现。例如,对生成的医疗信息,与权威医学数据库比对验证。
《规范》5.5条要求训练环境与推理环境隔离,可采用物理隔离(独立服务器)或逻辑隔离(虚拟机、容器隔离)。对模型更新,要求重要升级后必须重新安全评估,这需要企业建立模型版本管理系统,自动记录更新内容并触发评估流程。
“用户权益与服务透明度这部分要求体现了“以用户为中心”的安全理念,多项条款直指当前行业痛点。
针对未成年人使用场景,规范要求:提供防沉迷设置,如使用时间限制(可通过账号年龄认证+计时器实现) ;付费服务需与民事行为能力匹配;不适用于未成年人的服务需部署年龄验证机制,某教育类AI产品已落地相关功能,家长可通过小程序设置每日使用时长,系统自动在超时后锁定服务。
《规范》6.2要求公开服务局限性、模型概要、数据用途等信息。对交互界面服务,需在首页显著位置展示;API服务则在文档中说明。技术上可通过API元数据接口,向调用方动态返回模型版本、训练数据分布等信息。
《规范》6.3是对用户知情权的重要保障,必须提供关闭输入信息用于训练的选项,从主界面到关闭选项的操作不超过4次点击,显著告知用户当前状态及关闭方式 这在技术上可通过用户偏好设置模块实现,同时需确保关闭后的数据链路断开,避免“明关暗用”。
整合关键词库(不少于10000个)、测试题库(覆盖31种风险)、分类模型等工具,实现自动化评估 。下面的链接是前期发布的基于开源项目搭建大模型安全平台平台、以及搭建开源AI安全防火墙的文章,供参考:
将规范要求嵌入数据采集、模型训练、服务部署各环节,例如数据入库前强制经过安全过滤 。
参照附录B的评估方法,定期进行全流程测试,重点关注合格率、拒答率等量化指标 。建议优先完成高风险项整改:数据来源合规性审查、模型输出安全测试、用户数据控制机制。
原文始发于微信公众号(安全有术):安全新规 | GB/T45654-2025《网络安全技术 生成式人工智能服务安全基本要求》
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
点赞
http://cn-sec.com/archives/4216618.html
复制链接
复制链接
-
左青龙
- 微信扫一扫
-
-
右白虎
- 微信扫一扫
-
评论