导读
人工智能不仅深刻改变了科技发展的轨迹,更成为推动社会进步的关键力量,正积极影响着经济、社会、生活的各方各面。习近平总书记在十九届中央政治局第九次集体学习时的讲话中指出,“人工智能是引领这一轮科技革命和产业变革的战略性技术,是新一轮科技革命和产业变革的重要驱动力量,具有溢出带动性很强的‘头雁’效应”。2024年2月8日,美国商务部部长雷蒙多宣布成立美国人工智能安全研究所联盟,该联盟汇集包括谷歌、英伟达、美国银行、麻省理工学院、兰德公司等200多家企业、大学和政府机构,旨在支持安全可信的AI的开发和部署。我国“十四五”规划和2035年远景目标纲要明确指出,建设数字中国需要“加强网络安全关键技术研发,加快人工智能安全技术创新”,彰显出国家对人工智能安全发展的极高重视与坚定决心。人工智能安全已成为全球机构竞相追逐的技术热点,是我国的重要科技发展战略组成之一,其在国防军事、交通运输、医疗健康等诸多领域均发挥着至关重要的作用。
人工智能系统在快速发展的同时,面临数据、模型、算法等多个层面的安全威胁,诸如对抗性样本、训练数据毒化、模型后门植入以及开发框架与系统漏洞等安全问题层出不穷。这些问题不仅直接威胁到模型的安全使用与运行效能,还可能侵犯数据隐私,更是可能导致模型在价值观、公平性、认知正确性方面出现偏差,进而对网络生态、社会稳定、意识形态安全产生深远的负面影响。这些复杂且严峻的威胁共同构成了人工智能的系统性安全风险与重大挑战。因此,亟需一个人工智能系统多个层面全方位覆盖的全栈安全评测平台,为人工智能应用的稳定运行提供安全技术底座。
一、人工智能安全评测平台AIcert
人工智能安全评测平台AIcert是浙江大学区块链与数据安全全国重点实验室人工智能数据安全团队在科技部科技创新2030-“新一代人工智能”重大项目、国家重点研发计划青年科学家项目、国家自然科学基金委区域创新发展联合基金重点项目、浙江省领雁计划项目等多个国家级/省部级项目以及浙江大学区块链与数据安全全国重点实验室的共同支持下研发的基于AI系统行为安全验证理论、模型自动建模开发、六维综合量化评估等先进技术实现的多层面全方位全栈安全评测平台。
“理论验证”+“安全开发”+“多维分析”
三重优势让AI系统更加安全可靠
可视化、形式化的理论验证:针对主流评测工具如A**、R*******等缺乏安全理论验证的现状,AIcert平台提供了形式化安全验证功能,确保AI系统在复杂情况下的可验证正确性,并在此基础上进一步实现了对多个系统安全特性的快速可视化验证功能。 形式化验证功能支持数据样本上传,模型选择以及形式化验证算法与参数输入,实现了模型特征安全性验证、知识特征一致性验证以及输出空间可达性验证的在线结果输出。
AIcert 支持可视化的形式化理论验证
高效率、自动化的安全开发:AIcert支持高效率、自动化的安全开发技术,从源头上保障人工智能系统的安全。平台集成AI模型模块化开发功能、开发框架安全度量、开发环境分析等功能。如下图所示,AIcert从数据处理、模型构建、运行环境安全检测等环节保障开发过程安全,AI系统模块化开发功能基于组件式系统建模实现了安全开发环境的自动化配置。
AIcert 安全开发流程示意图
AIcert的模块化开发功能在保证输出模型性能不降低的同时,开发代码量比官方公开的模型定义中统计到的最小开发代码行数少70%。此外,AIcert提供多框架转换技术,支持一键转换并下载Pytorch、Tensorflow、百度飞浆等3种开发框架下的模型。
多维度、系统化的量化分析:AIcert平台提出人工智能系统的“六维综合量化体系”,展示AI系统安全属性评分。六维系统化的评分相对单一攻击方法(如CleverHans、RobustBench等)得到的测试结果更加全面、客观。如下图所示,AIcert对ResNet18、ResNet34、ResNet50进行测试,从公平性、完整性、可靠性、可解释性、可验证性六维进行评分,直观展示出ResNet在鲁棒性上存在短板。
AIcert平台对ResNet系列系统量化评分
实现AI系统全栈安全评测
AIcert拓展了AI的安全边界
现有的AI系统评测系统大多局限于数据与模型安全层面。相较其他SOTA AI安全评测平台,AIcert解决了从数据到系统、从算法开发到系统部署的多层面全方位安全检测技术覆盖,实现了包括数据质量评估、算法安全验证、模型安全评测、框架安全度量、系统安全检测在内的五大核心层面的AI系统全栈安全评测体系与技术平台。
AIcert实现AI系统全栈安全评测体系
数据质量评估模块主要提供多模态智能数据的质量评估服务。目前已支持异常数据检测、公平性评估与提升功能。
异常数据检测功能基于置信学习进行异常数据的检测与清洗,避免毒化数据污染从而导致AI模型正常功能受到影响,并在修复后,通过修复率和修复前后样例对比展示可视化修复效果。异常数据检测功能覆盖低维表格、文本语料、图像3种数据类型(如下图),提供离群值、编码格式异常以及毒化标签异常等6种异常数据检测,检测的数据量级超过10万。
异常数据检测三种异常数据检测的结果
数据公平性评估与提升功能从数据群体和数据个体两个角度对数据进行评估和提升,减少数据偏见导致模型的歧视性行为,并通过数据可视化给到公平性评测报告,涵盖数据集分布和属性相关系数等基础统计分析、群体和个体公平性评分等。公平性评估与提升功能覆盖有益率差异、有益率比率、标签一致性3种评估算法,公平表征学习和数据重赋权2种提升算法。
模型安全评测模块为用户提供AI模型安全评估服务,如模型鲁棒性评估、模型公平性评估、攻击机理分析等功能。
模型鲁棒性评估功能支持白盒对抗攻击(如FGSM、BIM、PGD)、黑盒对抗攻击(如ZOO、SimBA、Fastdrop)以及后门攻击(如BadNet、Adversial Embedding、CleanLabel)3个类型共60余种攻击算法,实现对对抗攻击和后门攻击的高效感知。下图展示的是AIcert平台使用CIFAR10数据集对ResNet18模型进行攻击评估的结果,其中FGSM、GeoDA、DeepFool等攻击算法攻击成功率超过了90%,有效评估了模型的鲁棒性。
AIcert平台使用CIFAR10数据集对ResNet18模型进行鲁棒性评测的结果
模型公平性评估功能对用户选择或上传的模型与数据集按配置参数进行运算,统计分析模型的输出信息,可视化展示模型公平性评估结果。下图是模型公平性评估功能的示意图。在模型公平性评估功能中,平台根据群体公平性与个体公平性准则集成了影响差异、统计均等、预测均等、机会均等、预测一致性等30种指标,全面评估模型公平性。
AIcert平台模型公平性评估结果示意图
攻击机理分析功能集成了特征归因可视化、数据分布降维可视化、模型内部特征分析可视化等8种可解释性方法。平台通过多角度的解释方法深入分析模型的决策过程,并通过可视化的方法展示模型在决策时的注意力焦点。
水蛇图像在可解释性算法LRP、Grad-CAM、IG下的可视化结果
上图展示了水蛇图像及其对抗样本图像在不同可解释性算法下的显著性图,结果显示,模型的注意力焦点在对抗样本的影响下发生了显著变化:从蛇身转移至地面。通过这种方法,研究人员和开发者可以更好地理解模型的行为,并采取措施来提高模型的鲁棒性和可靠性。
算法安全验证模块为用户提供形式化验证功能,支持模型特征安全性验证、模型一致性验证以及输出空间可达性验证。AIcert平台通过数学建模和逻辑推理的方式对算法模型的潜在行为空间进行理论分析,例如,通过向AI模型输入不同扰动大小的图片,检测模型输出是否能够稳定在预期范围内,从而验证模型预测结果是否可信。
卡车样本在攻击强度0.2时的模型安全性验证结果
上图展示了模型对卡车图片的可验证性输出结果,当攻击强度(即对原始图像的扰动大小)为0.2时,通过形式化模拟方法,AIcert平台随机生成扰动样本,验证模型的输出变化情况:模型输出卡车标签与其他标签的置信区间存在较大重叠,表明在当前扰动大小下,模型有较大概率将卡车图片错误地预测为其他标签。
框架安全度量为用户提供主流AI开发框架安全度量服务。用户选择所需度量的开发框架,平台基于多AI开发框架交叉验证等核心技术,给出开发框架安全度量报告,涵盖存在漏洞的开发框架、漏洞具体在模型的层级等可视化分析结果。平台提供的框架安全度量首个支持国产框架的AI开发框架安全度量功能,首次实现参数级别的漏洞精准定位与验证,支持PyTorch、TensorFlow、百度飞桨、CNTK、Theano等主流开发框架。
Pytorch、TensoFlow等框架开发团队已发布漏洞修复公告
目前,平台在这些AI开发框架上挖掘出数十个框架漏洞,其中7个已得到框架开发团队的确认与修复,如上图所示,Pytorch、TensorFlow等多个框架开发团队已确认修复了由AIcert平台挖掘出的漏洞,并发布公告。
系统安全检测为用户提供开发环境的安全分析服务,为AI系统提供漏洞检测和框架适配版本兼容性检测功能。平台基于开发环境分析技术,对系统架构信息、依赖库版本等关键信息进行分析,使用严格匹配、松散匹配以及兼容性分析等方法深入挖掘漏洞,预警操作系统节点上的安全威胁。基于多种开发框架适配方法,对用户指定版本的开发框架依赖与版本进行分析,判断当前环境是否可以适配该框架。平台给出开发环境分析和框架适配报告,涵盖检测到的操作系统漏洞和框架适配结果。
开发环境分析报告:报告表明系统存在3个CVE漏洞
上图展示了平台对Ubuntu20.04系统进行检测的结果,报告罗列了操作系统存在的多种CVE漏洞,同时给出当前系统与AI开发框架版本适配的结论。
AIcert平台全景
综上所述,AIcert平台的评测范围广泛,覆盖了数据、算法、模型、框架和系统等多个关键层面,可全面评估AI系统安全状况,显著提升传统AI系统的威胁监测、预警和响应能力。如平台全景图所示,AIcert围绕AI系统数据收集、模型训练、测试与防御以及落地部署各阶段核心技术,制定了人工智能全栈安全评测方案,可高效应对AI系统各层面安全威胁,适用于智轨交通、智慧医疗、智能安防、智能养老等人工智能场景,为这些领域的AI系统提供了坚实的安全保障。
二、平台应用
AIcert平台已在淘宝网、杭州城市大脑、湖南四方天箭、山东计算中心(国家超级计算济南中心)和中车株洲所等8个企业中成功部署示范性应用,服务于千万级用户数据,取得了广泛的学术和产业界认可。这些部署不仅显著提升了人工智能安全技术在产业领域的安全性,也为监管机构提供了人工智能安全治理的典型范例。
AIcert平台在淘宝网应用情况
在淘宝网的直播电商平台上,出现虚假宣传、敏感话题和低俗内容的问题日益突出。淘宝网作为电商行业巨头对其风控算法提出了更高的监管标准,但又面临着图像数据、语音数据和结构化数据形态多元复杂和现有技术误检率高的挑战。为解决这些问题,如上图所示,AIcert平台提出了多模态内容风险感知技术和风控模型自监督训练技术,集成数据安全评估、模型安全评估、系统安全评估等功能,有效提升了实时风险评估和监管能力。目前,AIcert平台在淘宝网直播风控模型中的应用效果显著,非法图片分类准确率达到了85%,语音识别错误率降低了10%,商品类目预测准确率达到93%。
AIcert平台在中车株洲所应用情况
中车株洲所广泛应用人工智能技术于列车无障碍检测、矿卡无人驾驶、智轨交通系统等领域,但面临着攻击数据获取困难、安全漏洞多样性和算法鲁棒性差等安全挑战。为了解决上述挑战,如上图所示,AIcert平台提出了轨道测试样本自动生成、轨道系统漏洞挖掘以及智轨算法鲁棒性测试等技术。平台运用旋转、模糊、加噪和动态符号生成等技术扩充物理样本库,并采用全栈安全分析和异构软硬件安全适配技术来发掘轨道系统漏洞。此外,平台还实施了智轨算法模型的对抗性鲁棒性测试和群智化安全防御策略,从而显著提高了模型的鲁棒性。目前,AIcert平台已经对所提出的解决方案进行了初步验证,并且正在加速推动这些技术在其业务流程中的实际部署和应用。
三、应对大模型安全挑战
主流开源大模型及其参数
2022年以来,以GPT-4、Llama、PaLM 2等为代表的大模型席卷全球,这些大模型的发展已经深刻地影响了人类的生活和生产方式,例如在文段总结、回复邮件和机器翻译等方面的应用。大模型与传统模型的本质差异在于模型参数量、模型复杂度和模型容量。大模型具有更多的参数和更高的模型复杂度,因此可以处理更复杂的任务,具有更强的表示能力。然而,它们同时遭遇了前所未有的安全挑战。相较于传统人工智能算法,大模型安全维度更广泛,除了传统的人工智能内生安全之外,还涉及越狱风险、模型幻觉和提示语注入等使用安全问题。此外,大模型对异常数据的鲁棒性较弱,更容易受到输入数据中微小变化的影响。例如,提示词顺序或拼写的修改,或文本中的噪声添加,均可能引发模型输出错误或不稳定结果。这归因于模型可能过分依赖预训练数据,缺少对特定任务或领域的自适应能力。
大模型安全评测情况
AIcert平台从字符级别、单词级别、句子级别3个攻击维度,采用TextBugger等4种对抗攻击方法对17个主流开源大语言模型在初等数学、逻辑运算等57个主题任务上进行了全面的鲁棒性评估,模型规模超百亿级。评估结果如上表所示,这些大模型的准确率平均下降了8.8%,反映出大模型在不同程度上存在鲁棒性不足和对微小输入变化的敏感性较强的问题。展望未来,团队计划进一步完善大模型多维度的安全性评估能力,特别是针对大模型的越狱风险、模型幻觉和提示语注入等关键安全问题,将进行更深入的分析和评估。
四、未来计划
随着人工智能技术逐渐应用到社会的各个领域,其安全性正受到前所未有的关注。在这个背景下,浙江大学区块链与数据安全全国重点实验室人工智能安全团队聚焦AI系统全栈安全,牵头研发了人工智能安全评测平台AIcert。AIcert平台对AI系统的数据、模型、算法、框架、系统等层面实现全栈安全评测,从鲁棒性、可用性、可解释性等六大维度对系统安全进行评估,并在此基础上实现基于群体智能的动态安全防御增强。AIcert平台作为一个综合性的解决方案,具备“理论验证”、“安全开发”、“多维分析”三重优势,有效地弥补了现有安全评估工具在面对复杂AI系统时的不足,显著提升了传统人工智能系统以及大模型人工智能系统的威胁监测、预警和响应能力,为AI安全领域的研究和应用提供一个坚实可靠的基础。
在下一阶段的工作中,团队将继续聚焦人工智能安全技术发展前沿,从平台维护、开源生态、产业应用等方面推动AI安全技术进步。AIcert平台将定期更新/加入新的安全功能,进行主流AI模型的安全性能评测以应对快速更新迭代的AI系统和层出不穷的新型AI攻击技术,协助构建适用于不同场景的AI安全评测工具,为开源AI模型提供可供参考的安全性能评测结果。与此同时,AIcert平台将积极参与开源生态建设,定期发AI安全技术分析报告与相应组件源码,举办相关AI安全评测教程、研讨会和各类竞赛,促进行业交流和技术创新,与开源社区共同推动人工智能安全测评开源工具、软件、平台以及技术标准的建设,为实现我国人工智能安全的自主可控贡献力量。进一步地,AIcert平台把“促进人工智能安全发展”、实现人工智能的“安全左移”作为长期目标,依托区块链与数据安全全重实验室这一国家科研力量平台,通过对主流模型的三方安全评测与AIcert平台的开源与工具化,扩大对产业界头部与中小厂商的影响力,推动将AI模型的安全研发与检测嵌入到开发流程的早期步骤,提高AI安全防护效率、降低风控与修复成本,实现人工智能安全技术为产业的赋能,为监管机构提供人工智能安全治理的典型示范应用。
开源生态系统不仅是推动人工智能领域持续发展的核心动力,对于激发技术共享与创新交流也具有不可或缺的作用。特别是在网络空间安全这一关键领域,开放的知识和技术资源可以极大地促进人工智能安全防护措施的更新和进步。基于这样的理念,团队将人工智能安全理论及验证平台AIcert的代码开源,供科研人员和开发者使用和参与改进。感兴趣的组织和个人可以通过下方提供的Gitee和GitHub开源地址访问和下载相关代码。
代码开源
Gitee地址
https://gitee.com/aisecurity/AIcert
GitHub地址
https://github.com/ZJUICSR/AIcert
本平台特别鸣谢科技部科技创新2030-“新一代人工智能”重大项目(项目号:2020AAA0107700)、国家重点研发计划青年科学家项目(项目号:2021YFB3100300)、国家自然科学基金委区域创新发展联合基金重点项目(项目号:U20A20178)、浙江省领雁计划项目(项目号:2024C01169、2024C01164)和浙江大学区块链与数据安全全国重点实验室的支持
原文始发于微信公众号(安全研究GoSSIP):G.O.S.S.I.P 成果推荐 2024-03-26 AIcert人工智能安全评测平台
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论