AIGC安全评估

admin

146004
文章

119
评论

2024年11月1日17:01:36评论53 views字数 1677阅读5分35秒阅读模式

背景介绍

AIGC安全评估

最近有朋友问到AIGC安全评估的一些问题，最近做了一些调研，因为博主视野有限，文章不足之处请谅解。

根据国家网信办、国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局七部门的要求，提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估。

评估政策依据

基本法规

《中华人民共和国网络安全法》
《中华人民共和国科学技术进步法》
《中华人民共和国数据安全法》
《中华人民共和国个人信息保护法》

AIGC相关法规

《互联网信息服务算法推荐管理规定》
《互联网信息服务深度合成管理规定》
《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》
《生成式人工智能服务安全基本要求》
《信息安全技术生成式人工智能人工标注安全规范》
《信息安全技术生成式人工智能预训练和优化训练数据安全规范》
《生成式人工智能（大语言模型）上线备案表》
《生成式人工智能服务管理暂行办法》

评估内容

语料安全

语料来源管理

建立完整的语料获取审核机制
确保语料来源合法合规
实施多源语料协同管理
建立语料溯源机制

语料安全

内容过滤机制

建立多层次过滤体系
实时监控和更新过滤规则
保留过滤记录

知识产权保护

建立版权检测机制
实施著作权审核
建立授权使用追踪系统

个人信息保护

实施个人信息脱敏
建立隐私保护机制
确保数据使用合规

语料标注

标注人员要求

专业资质认证
保密协议签署
定期培训考核

标注规则制定

建立统一标准
实施质量控制
定期更新优化

标注准确性保障

多重交叉验证
定期抽检复核
建立纠错机制

模型安全

模型生成内容安全

在训练过程中，应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一；

在每次对话中，应对使用者输入信息进行安全性检测，引导模型生成积极正向内容；
对提供服务过程中以及定期检测时发现的安全问题，应通过针对性的指令微调、强化学习等方式优化模型。

服务透明度

以交互界面提供服务的，应在网站首页等显著位置向社会公开以下信息：服务适用的人群、场合、用途、服务的局限性等信息。

生成内容准确性

生成内容应准确响应使用者输入意图，所包含的数据及表述应符合科学常识或主流认知、不含错误内容。

生成内容可靠性

服务按照使用者指令给出的回复，应格式框架合理、有效内容含量高，应能够有效帮助使用者解答问题。

安全措施

明确适用范围限制,模型适用人群、场合、用途
建立个人信息保护机制，完善个人信息处理
实施数据使用管理，合法合规收集使用者输入信息用于训练
建立内容标识系统，对图片、视频等内容标识
接受公众或使用者投诉举报
向使用者提供生成内容
建立升级维护体系，方便模型更新、升级

安全评估

训练语料

AIGC安全评估

训练语料

首先，训练语料通过四个主要的关键词库进行筛选，这些关键词库分别涵盖了意识形态和国家主权、个人隐私及名誉权、知识产权和商业秘密、以及民族、信仰和性别等方面的关键概念。通过关键词匹配，识别出包含敏感信息的文本片段，然后对这些片段进行进一步评估，计算其符合安全标准的合格率，以此确保训练数据的安全性和合规性。

生成内容

AIGC安全评估

生成内容评估

首先，通过单一问题、诱导问题和伪装问题等方法生成内容，并通过AIGC API接口提交给系统。接着，系统会根据意识形态、国家主权、个人隐私、肖像权、名誉权、知识产权、商业秘密、民族、信仰、性别等相关关键词库进行内容审查。最后，系统将生成的内容与关键词进行比对，得出涉及关键词的生成内容，并计算合格率。这一流程旨在确保AIGC生成的内容符合安全标准，避免敏感信息的泄露和不当言论的传播。

问题拒答

AIGC安全评估

问题拒答

应拒答测试题和非拒答测试题被输入到AIGC的API接口中。经过处理后，输出结果会被用来计算模型的拒答率。

参考

https://www.lexology.com/library/detail.aspx?g=a54d9239-1c18-4416-a0be-fc0b77fd20e4
https://www.aliyun.com/activity/security/secAIGC
https://www.aigclab.cn/algorithmEvaluation

原文始发于微信公众号（代码审计SDL）：AIGC安全评估

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

AIGC安全评估

背景介绍

评估政策依据

基本法规

AIGC相关法规

评估内容

语料安全

语料来源管理

语料安全

语料标注

模型安全

模型生成内容安全

服务透明度

生成内容准确性

生成内容可靠性

安全措施

安全评估

训练语料

生成内容

问题拒答

参考

插件前台任意文件读取漏洞复现与分析 (CVE-2025-2294)

JavaWeb代码审计实战开源系统学习心得

实战某凤网站导致的代码审计

【0day】泛微OA前台登录绕过+后台组合拳RCE

广联达远程代码执行代码审计

java agent 学习

KYXSCMS 灰盒测试

【代码审计】某产品UserCreateService存在任意用户添加漏洞分析

记一次难忘的net直播审计

Java 安全 | JBossInterceptors1 & JavassistWeld1 链

发表评论

在线咨询

微信