复旦白泽为你解读《生成式人工智能服务安全基本要求》

2024年4月10日22:33:34评论8 views字数 4534阅读15分6秒阅读模式

随着 OpenAI ChatGPT、Sora 为代表的 AI 大模型正加速发展，复旦白泽高度关注 AI 大模型安全，持续自研大模型靶向安全评测技术，生成海量高危诱导问题，高效挖掘 AI 大模型高风险生成行为，对标《生成式人工智能服务安全基本要求》发布面向中文大模型多等级安全的 JADE 安全合规评测平台与数据集（白泽智能团队研发，详见https://github.com/whitzard-ai/jade-db），获得包括华为、百度、阿里、字节等在内众多大模型头部厂商的合作意向。此外，还形成多项决咨建议，得到中央和上海市相关部门高度认可。

同时，复旦白泽也在持续发力大模型安全防护解决方案，以图灵奖得主 Yann LeCun 所倡导的世界模型观点为启发，探索构建符合社会主义核心价值观的内在安全观念模型，实现大语言模型安全泛化能力自主增强，护航 AI 大模型规模化应用健康发展。作为核心编制成员，复旦白泽深度参与全国信安标委《生成式人工智能服务安全基本要求》、《人工智能安全标准化白皮书》、《网络安全标准实践指南—生成式人工智能服务内容标识方法》等重要技术文件研发工作，为我国人工智能治理贡献复旦智慧。

后续复旦白泽将陆续发布最新研究进展，敬请期待~

以下为实验室受邀撰写的《安全基本要求》解读：

当前，生成式人工智能正加速发展，不断催生新行业、新赛道、新模式，是发展新质生产力、布局未来产业的重要抓手。党的二十大报告强调，“健全网络综合治理体系，推动形成良好网络生态”。习近平总书记在主持召开中共中央政治局会议时指出：“要重视通用人工智能发展，营造创新生态，重视防范风险。”为促进我国生成式人工智能健康发展和规范应用，国家网信办联合有关部门公布了《生成式人工智能服务管理暂行办法》（以下称“《办法》”），围绕鼓励人工智能创新发展的主旋律，坚守舆论引导、文化建设和国家安全底线。近日，全国网络安全标准化技术委员会组织全国多家龙头企业和科研院所，编制发布全球首个清晰、具体、可操作的安全评估要求--《生成式人工智能服务安全基本要求》（以下称“《要求》”），从语料安全、模型安全、安全措施等方面提出了服务提供者需遵循的安全标准，通过系统性、规范性、创新性制度设计，首次回应了对生成式人工智能服务的安全管理要求，为生成式人工智能服务的规范发展提供了基本技术遵循和评估依据，是支撑《办法》有效落地的关键性技术文件。为全力抓好生成式人工智能产业布局深化、生态优化、系统支撑，加快推动我国人工智能发展高地建设取得新的更大突破奠定坚实基础。

在《网络安全法》《数据安全法》《个人信息保护法》《互联网信息服务管理办法》等上位法框架下，《要求》有效支撑了《办法》中关于生成式人工智能模型管理、模型安全评估、生成内容管理、备案管理等制度规定，对生成式人工智能服务管理机制、责任范围等作出了具体技术安排。《要求》立足于促进生成式人工智能健康发展和规范应用，在总体撰写中落实了国家坚持发展和安全并重、促进创新和依法治理相结合的原则。

一、源头治理，

严控人工智能训练语料安全

生成式人工智能依赖海量数据构建，此类数据来源广泛，面临违法不良、知识产权侵权、个人隐私侵权等多维度安全风险，直接影响大模型有用性、可靠性和安全性。《要求》关注数据源头治理，围绕训练数据生命周期提出全方位安全要求，从源头上保证生成式人工智能服务生成内容合法合规。一是强调语料来源的安全合规。《要求》明确对特定语料来源实施采集前评估、采集后核验、使用后追溯的安全要求，严格控制语料内容中违法不良信息比例，构建可追溯、可检验的语料合规闭环。二是明确语料内容安全的多元内涵。《要求》从违法不良信息、知识产权、个人信息三方面明确语料内容安全的具体维度，对服务提供者提出违法不良信息过滤、知识产权风险识别、个人隐私信息授权等数据合规要求。三是明确语料标注安全要求。为保障标注过程切实产生有助于生成式人工智能发展的训练数据，坚持发展和安全并重的主基调，从功能性和安全性两方面分别明确标注规则制定原则。

二、夯实地基，

保障基础模型有序向善发展

基础模型是提供生成式人工智能服务的核心部件，然而，其底层所采用深度学习技术在可靠性、鲁棒性、透明性等方面存在风险，受攻击后容易产生包括违反核心价值观、违法犯罪、歧视偏见、隐私侵权等在内的多种风险内容，对舆论引导、文化建设乃至国家安全产生重大威胁。《要求》面向模型安全这一薄弱环节精准施策，提出解决方案。一是强调第三方基础模型使用的合规性。《要求》明确规定服务提供者在基于第三方基础模型提供服务时，必须采用已通过主管部门审核备案的基础模型，确保底层技术资源的安全合法。二是突出模型生成内容的安全控制机制。《要求》提出在模型训练环节，须将生成内容的安全性纳入评价生成结果的关键指标体系之外，《要求》还强调了动态监控和评测的重要性，要求服务提供者建立健全常态化的监测机制，对服务过程中发现的安全问题能够迅速响应,以消除潜在风险，引导生成式人工智能模型自主向善发展。三是明确生成内容准确性的技术保障措施。《要求》规定服务提供者采取有效技术手段，着力提升模型响应用户输入意图的精准度。

三、坚守底线，

审慎开展大模型安全评估备案

生成内容安全逐渐成为基础模型应用生态安全的重中之重：当生成式大模型产生的自主行为规划在物理世界中具象执行，原本停留于屏幕的歧视偏见、违法犯罪乃至反人类的违规内容将对社会生活造成实际严重安全风险。《要求》高度强调安全评估的重要性，细致阐述了生成式人工智能服务安全评估方法多个关键环节的标准操作程序，为大模型备案制度有序执行提供了可量化的明确要求。一是关注生成式人工智能服务安全评估的动态持续性特点。《要求》要求规范模型更新升级过程中的安全评估举措，需面向大模型迭代特性建立安全管理策略，在关键更新升级后重新进行内部安全评估。二是确立全面而细致的安全评估覆盖范围。安全评估过程必须囊括语料安全、模型安全、安全措施和基础设施相关条款，覆盖违反社会主义核心价值观、歧视性内容、商业违法违规、侵犯他人合法权益、无法满足特定服务类型等主要安全风险。三是压实安全评估结论的主体责任，体现了坚守生成内容安全底线的基本原则。此外，《要求》编制过程中组织一线工作者对各类评估内容指标进行细化和反复论证，针对具体的评估内容，对所需的关键词库、生成内容测试题库、拒答测试题库和分类模型等安全评估基础设施提出具体清晰的建设规范，形成了清晰、具体、可操作的安全评估标准。

四、多方协作，

共促生成式人工智能服务安全透明

此外，《要求》还对生成式人工智能服务应用范围、系统安全、流程安全和服务透明度提出了明确治理要求，与《办法》"鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管"的治理方针同频共振。一是生成式人工智能应用分级分类管理。生成式人工智能服务提供者，既是新技术新应用的创造者、受益者，也应是控制技术风险、引导技术向善的责任践行者。《要求》强调，服务提供者必须审慎评估并确保在其服务所涉各领域应用生成式人工智能的必要性、适用性和安全性。对于关键信息基础设施及其他重要领域，服务提供者应采取与风险水平及应用场景相适应的保护措施，并对未成年人用户提出多项保护要求。二是加强系统安全保障。《要求》提出，服务提供者需评估并确保生成式人工智能系统运行在安全环境中，隔离训练与推理环境以防止数据泄露，持续监测输入内容防御恶意攻击，定期开展安全审计保障智能系统供应链安全漏洞，构建完整的数据、模型、框架备份与恢复体系，保障服务稳定性和连续性。三是细化服务提供环节安全管控，须借助关键词过滤、内容分类、监看人员等对用户输入进行实时监测，对连续违规、诱导生成不良信息、明显偏激和违法诱导内容依法依规采取限制服务等措施。四是提升服务透明度和健全投诉举报机制。《要求》提出服务提供者在网站主页等显著位置公示服务适用对象、场景及用途，并建议披露基础模型使用详情、服务局限性、个人信息采集与使用情况等，并为用户数据是否参与训练的灵活选择机制和多元化的公众及用户投诉举报渠道和反馈方式。

五、守正创新，

贡献生成式人工智能服务治理中国方案

习近平总书记指出：“要深度参与全球科技治理，贡献中国智慧，塑造科技向善的文化理念，让科技更好增进人类福祉，让中国科技为推动构建人类命运共同体作出更大贡献！”近年来，我国加快推进新行业新技术新赛道创新发展，并对技术发展过程中带来的挑战及时回应，针对新兴技术领域加速出台相关立法，为保障网络强国高质量发展、提升我国网络强国治理能力提供了法治保障。

针对生成式人工智能技术带来的颠覆性风险挑战，多个国家和地区不断探索生成式人工智能服务的治理路径：2023年10月，美国总统拜登签署《安全、稳定、可信的人工智能行政令》，同年12月，欧洲议会、欧盟成员国和欧盟委员会三方就人工智能领域的全面监管法规《人工智能法案》达成协议。尽管如此，当前尚未有国家就生成式人工智能服务管理层面推出切实可行的安全评估标准。《要求》作为世界上首个针对生成式人工智能给出清晰、具体、可操作的安全评估的技术参考，在总体撰写中始终坚持国家坚持发展和安全并重、促进创新和依法治理相结合的原则，编制过程始终遵循"务实功、求实效"的原则，汇聚众多行业专家智慧和前沿实践经验，为服务提供方持续提升安全水平提供重要技术遵循，为相关主管部门监管生成式人工智能服务提供技术支撑，必将成为我国人工智能治理体系中的标杆性技术蓝本。

《要求》是我国对新兴领域立法后展开技术评估的又一次探索。《要求》充分协调发展与安全之间的关系，构建生成式人工智能精细化治理体系，有利于推动生成式人工智能健康有序发展，为世界贡献人工智能治理的中国理念和中国方案。

研究团队简介

白泽智能负责人为张谧教授，该团队主要研究方向为AI系统安全，包括AI供应链安全、数据隐私与模型保护、模型测试与优化、AI赋能安全等研究方向，在网络安全与AI领域顶会顶刊发表论文数十篇，曾获网安顶会ACM CCS最佳论文提名奖。主持科技部重点研发计划课题等，并主持奇安信、阿里、华为、百度等企业项目，获CCF科学技术奖自然科学二等奖、华为优秀技术成果奖、CNVD国家最具价值漏洞等荣誉。深度参与信安标委《生成式人工智能服务安全基本要求》、《人工智能安全标准化白皮书》等多项国家/行业标准编制/建议工作。

张谧教授个人主页：https://mi-zhang-fdu.github.io/index.chn.html

白泽智能（Whizard AI）：https://whitzard-ai.github.io/

供稿：系统软件与安全实验室

戳“阅读原文”即可查看官方网站哦~

复旦白泽战队

一个有情怀的安全团队

还没有关注复旦白泽战队？

公众号、知乎、微博搜索：复旦白泽战队也能找到我们哦~

原文始发于微信公众号（复旦白泽战队）：复旦白泽为你解读《生成式人工智能服务安全基本要求》

左青龙
微信扫一扫

右白虎
微信扫一扫

复旦白泽为你解读《生成式人工智能服务安全基本要求》

owasp大模型应用威胁视图理解大模型应用目前所面临的主要安全威胁

《生成式人工智能数据应用合规指南》正式发布，5月1日实施

如何利用关键 Ray 框架漏洞来入侵全球 AI 机器？

[译文] LLM安全：1.黑客如何读取您与ChatGPT或微软Copilot的聊天内容

实战解读：Llama 3 安全性对抗分析

观点 | 视频生成人工智能Sora的法律问题研究

Google如何利用生成式AI加速事件响应流程

技术实践｜大模型内容安全蓝军的道与术

【论文速读】|理解基于大语言模型的模糊测试驱动程序生成

基于ChatGPT大语言模型，通过聊天机器人自动创建vulhub的漏洞靶机环境

发表评论