今日分享|GB/T 45652-2025网络安全技术 生成式人工智能预训练和优化训练数据安全规范

admin 2025年6月4日10:18:45评论18 views字数 2022阅读6分44秒阅读模式

点点关注~不迷路!

       回复“45652”获取该标准pdf版资料。   

标准

分享

GB/T 45652-2025网络安全技术 

生成式人工智能预训练和优化训练数据安全规范

今日分享|GB/T 45652-2025网络安全技术 生成式人工智能预训练和优化训练数据安全规范

本文件规定了生成式人工智能预训练和优化训练数据及其处理活动的安全要求,描述了相应的评价方法。

适用于生成式人工智能服务提供者开展预训练和优化训练数据处理活动以及安全自评估,也适用于第三方机构对预训练和优化训练数据进行安全性评估。

(注:以下文本分析含AI识别分析内容,注意甄别!)

 一、标准速览

标准名称:GB/T 45652-2025网络安全技术 生成式人工智能预训练和优化训练数据安全规范

实施时间:2025年11月01日

标准概述:随着生成式人工智能(AIGC)的爆发式发展,预训练和优化训练数据的安全问题成为行业关注的焦点。2025 年 4 月 25 日发布的 GB/T 45652-2025《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》,首次系统性规范了 AI 训练数据全生命周期的安全要求,为保障 AI 数据安全、防范生成式 AI 风险提供了国家标准依据。

生成式 AI 的核心竞争力依赖高质量数据,但数据收集、使用中的安全隐患(如数据偏见、隐私泄露、知识产权侵权)日益突出。本标准针对预训练和优化训练数据的处理活动,从收集、预处理到使用各环节提出安全要求及评价方法,适用于 AI 服务提供者、第三方评估机构及监管部门,旨在:

规范数据处理行为:遏制违法不良信息、隐私数据滥用等乱象;

提升模型安全性:通过数据源头治理降低 AI 生成有害内容的风险;

促进产业合规发展:为 AI 企业提供可落地的安全操作指南。

二、核心内容:全生命周期安全管控

标准将 AI 训练数据分为预训练数据(通用知识训练)和优化训练数据(领域能力优化),分别制定安全要求,并覆盖数据收集、预处理、使用全流程。

1. 通用安全要求:全场景基础防护

管理策略:需制定数据安全管理策略,涵盖分类分级、应急响应等,明确安全岗位职责(如设立数据安全团队)。

技术措施:

传输存储加密:采用 HTTPS、加密存储等技术,防范数据泄露;

安全隔离与追溯:按批次隔离训练数据,建立数据标识确保可追溯;

个人信息保护:涉及个人信息需去标识化,敏感信息需单独同意(符合 GB/T 35273)。

合规要求:系统需满足等保三级要求,定期开展安全评估与培训,防范投毒数据和知识产权侵权。

2. 预训练数据处理:从源头把控质量与合规

数据收集

合法性:

违法不良信息占比≤5%,禁止采集他人明确禁止的数据;

开源数据需遵循许可协议,跨境数据需符合跨境法规;

个人信息需获授权,敏感信息需单独同意。

多样性:同类型数据需来自≥2 个来源,单个来源比例≥1%,避免数据单一化风险。

数据预处理

安全核验:违法不良信息超 5% 的数据源禁止使用;

元数据管理:记录数据来源(如网页 URL、数据集名称),确保可溯源;

模态处理:

文本:建立敏感词库和分类模型过滤风险内容;

图像 / 音频 / 视频:设立识别机制,过滤违法不良信息和侵权内容;

多语言数据:评估语义一致性,防范跨语言歧义风险。

数据使用

风险过滤:通过关键词、分类模型等过滤含安全风险的数据;

境内数据优先:使用境外数据时需搭配合理比例境内数据,降低地缘风险。

3. 优化训练数据处理:聚焦领域合规与模型对齐

垂直领域要求:

收集医疗、金融等领域数据需符合行业规范,建立领域数据检查机制;

优先使用经行业认证的权威数据,确保专业性和可信度。

价值对齐:

过滤不符合人类价值观或伦理道德的数据(如提示词、标注数据);

识别生成内容的幻觉风险(如错误知识、误导性表述),避免模型输出偏差。

质量评价:建立数据质量评价机制,确保优化目标与领域需求一致。

三、评价方法:全流程可验证的安全评估

标准提供通用安全评价与分阶段专项评价方法,通过文档审查、数据抽检、技术测试等手段验证合规性:

预训练数据评价:

抽样检查违法不良信息比例(人工抽检≥10% 样本,技术抽检≥10% 总量);

验证元数据完整性、知识产权审核记录、多语言处理机制有效性。

优化训练数据评价:

核查领域数据合规性(如医疗数据的患者授权);

测试价值对齐机制,确保模型输出符合伦理要求。

四、行业影响:推动 AI 安全与创新平衡

1.对企业的合规指引

数据收集:明确授权流程,避免 “野蛮爬取”,如金融领域需获用户单独同意采集交易数据;

技术升级:部署敏感数据过滤、去标识化工具,如使用 NLP 模型识别文本中的隐私信息;

管理落地:建立数据安全团队,定期开展风险评估与应急演练,如模拟投毒数据入侵场景。

2.对产业的长期价值

降低伦理风险:通过数据源头治理,减少 AI 生成虚假信息、偏见内容的概率;

促进数据流通:标准化的数据处理流程可提升跨机构数据合作的信任度(如医疗数据共享研究);

支撑政策落地:为《生成式人工智能服务管理暂行办法》等政策提供技术落地支撑。

原文始发于微信公众号(网络安全等保与关保):今日分享|GB/T 45652-2025网络安全技术 生成式人工智能预训练和优化训练数据安全规范

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年6月4日10:18:45
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   今日分享|GB/T 45652-2025网络安全技术 生成式人工智能预训练和优化训练数据安全规范https://cn-sec.com/archives/4130294.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息