更多安全资讯和分析文章请关注启明星辰ADLab微信公众号及官方网站(adlab.venustech.com.cn)
2022年11月30日,OpenAI正式发布了基于大语言模型(LLM)的对话式人工智能系统ChatGPT。ChatGPT凭借卓越的文本理解与逻辑处理能力,在对话系统领域展现出显著优势。ChatGPT发布后,迅速吸引了全球用户的广泛关注,成为历史上用户增长速度最快的消费级应用,其普及速度刷新了科技产品领域的多项纪录。ChatGPT的推出不仅进一步推动了人工智能技术的发展,还引发了新一轮全球范围内的AI技术热潮。各国政府、企业以及研究机构纷纷加大对AI技术的研究与开发投入,试图把握这一技术浪潮带来的新机遇。与此同时,越来越多的企业和个人用户开始将AI技术应用于日常工作中,以优化业务流程、提升工作效率,并推动创新。
根据全球知名战略咨询公司麦肯锡的最新统计数据,如下图所示。在2018年至2023年间,日常业务中采用AI技术的企业比例整体保持稳定。然而,2023年ChatGP 的问世却带来了显著的转变。数据显示,2023年使用AI技术的企业比例飙升至72%,较此前有明显增长。这表明,以ChatGPT为代表的大模型(LLM)技术正迅速重塑企业运营模式与个人工作方式,成为推动数字化转型的重要力量。麦肯锡进一步预测,未来几年内,采用AI技术的企业数量将持续增长,AI技术的普及将对全球经济、产业结构以及工作模式产生深远的影响。
大语言模型(LLM)技术的出现标志着人工智能领域的重大突破,显著推动了AI技术的发展。然而,与此形成鲜明对比的是,AI安全领域的研究进展却相对滞后。为了更加清晰地揭示这一现象,我们对全球核心学术研究论文数据库Web of Science中与AI技术发展及AI安全相关的研究论文进行了系统性统计与分析,如下图所示。分析结果显示,自2012年以来,AI技术发展相关论文数量呈现出持续增长的趋势,尤其在2017年以后,这一增长更为显著。这可能与 2017年Transforme 模型的发布密切相关,因为这一技术为大模型的广泛应用奠定了基础,带动了学术界和产业界对AI技术的研究热情。相比之下,尽管 AI 安全研究相关论文的数量也在增长,但其增速远不及AI技术发展研究。具体而言,自Transformer模型问世以来,这种差距不仅没有缩小,反而进一步扩大。这一现象表明,AI 技术的发展速度远远超出了安全研究的推进速度,导致了AI安全领域的研究与实际需求之间的明显脱节。
2023年,ChatGPT横空出世,其突破性的文本处理与逻辑分析能力震撼全球,为以大模型(LLM)为代表的人工智能技术研究注入了新的活力。ChatGPT的成功进一步加速了大模型技术的发展,促使更多研究者和企业投身于相关领域的探索。为了量化大模型技术与安全研究的现状,我们对全球最大公开论文发布平台arXiv中近两年来与大模型技术发展及大模型安全技术研究相关的论文数量进行了统计分析,如下图所示。统计结果显示,大模型技术研究在近年来热度持续攀升,呈现出快速增长的态势;与之相比,大模型安全技术研究虽然也有所增加,但其增长幅度和关注度明显滞后于技术本身的快速发展。这种趋势表明,大模型技术的快速突破并未改变AI安全研究的滞后局面,技术与安全研究之间的严重不平衡问题依然突出。这种安全研究滞后的现象可能引发一系列隐患,如果安全研究无法跟上技术发展的步伐,相关系统可能会面临更高的安全风险甚至重大安全事件。
由于大模型安全研究相较其技术发展的迅猛步伐仍显滞后,各大企业和组织在大模型系统的安全防护方面普遍处于初级阶段。当前,大多数企业尚未构建起系统化的大模型系统安全防护体系,难以全面掌握大模型系统安全的整体架构。此外,对针对大模型系统的多样化攻击技术,企业的认知和应对能力也十分有限。这种技术和防护能力的错位,使得与大模型相关的网络安全事件频发,并呈现出攻击手段复杂化、影响范围扩大化、后果严重化的趋势。
大模型系统因其独特的功能和广泛的应用场景,带来了显著的技术突破,但同时也存在显而易见的安全风险。其复杂性和决策特性使得一旦出现安全漏洞,可能直接导致错误决策或违规操作,从而引发严重后果。例如,智能车机系统可能引发错误的驾驶操作,引发交通事故,造成人员伤亡;智能医疗系统可能造成错误诊断,影响患者健康;如果涉及军事、能源等特殊领域或敏感行业,还可能会危害国家安全,造成不可逆的损失。此外,大模型技术以海量数据为基础,涉及多个复杂的数据处理环节,包括数据传输、清洗、转换和存储等;同时,相关的AI系统会收集和使用用户的信息和数据,也需要向用户展示数据,这些数据处理的过程如果存在安全风险,也将造成非常严重的敏感信息或机密数据泄露。
近来,频繁发生的大模型安全事件为我们敲响了警钟。这些事件中,部分导致了大量敏感信息泄露,例如用户隐私数据、商业机密和关键基础设施运行数据等被攻击者窃取并非法利用。而另一些事件,则直接针对大规模计算基础设施,造成服务器被大面积入侵、计算资源被滥用甚至瘫痪的严重后果。在更为极端的情况下,大模型的误操作或被恶意利用还引发了物理世界的风险,间接导致财产损失甚至人员伤亡。这些现实案例表明,当前的大模型技术不仅具有巨大的应用潜力,同时也隐藏着复杂而危险的安全隐患,大模型系统的安全隐患不再是理论上的可能性,而是已经对现实世界构成威胁。
3.1 安全事件回顾
自大模型技术兴起以来,特别是生成式预训练模型(如GPT系列、Claude和其他类似技术)的广泛应用,全球范围内与大模型相关的网络安全事件呈现出明显的增长和多样化的趋势。这些安全事件的范围广泛,涵盖了信息泄露、数据泄露、模型文件投毒攻击、大模型供应链攻击以及对抗样本攻击等方面,其影响不仅威胁到个人隐私和企业机密,还延伸至社会稳定、经济安全和国家信息安全,甚至在某些情境下对全球科技生态和国际安全格局产生了深远影响。
这些安全事件在规模和复杂性上均有所提升,部分事件因其影响之广和后果之严重而备受关注。例如,研究人员首次披露黑客利用大模型文件作为攻击载体,在AI开源社区中广泛传播恶意代码;大模型系统供应链中的Ray框架漏洞则引发了迄今为止公开信息中规模最大的供应链攻击事件,导致大范围服务瘫痪和敏感数据外泄;国内首次公开披露的“大模型文件投毒攻击”事件,揭示了攻击者通过篡改模型文件实施隐蔽攻击的可能性。这些事件不仅对大模型的技术应用和用户信任造成冲击,还促使技术研发者、政策制定者和企业进一步思考如何在大模型技术应用的同时强化安全防护。为了深入理解大模型安全风险的具体表现,本章节将以时间线为主线,对近期部分典型的大模型安全事件进行回顾和分析。我们将通过梳理这些事件的关键节点、深入分析其产生的原因及其对用户和社会的广泛影响:
-
2023年3月20日,部分海外用户在社交平台Reddit和X(原Twitter)上发帖,声称能够看到其他用户在ChatGPT上的对话记录,并附上了相关截图以佐证其说法。这一情况迅速引起了广泛关注,部分用户对ChatGPT的隐私保护机制提出了质疑。2023年3月22日,OpenAI创始人Sam Altman在社交媒体平台X(原Twitter)发布声明,承认ChatGPT网站确实出现了一个安全漏洞(bug)。这一漏洞导致部分用户能够看到其他用户历史对话记录的标题。Altman同时表示,OpenAI已对该漏洞进行了快速修复,并采取了相应措施以防止类似事件再次发生。
-
自2022年11月ChatGPT推出以来,用户不断尝试绕过OpenAI设置的安全保护措施,以突破其内置的内容限制。尽管相关尝试频繁发生,OpenAI对此长期保持沉默,并通过定期更 ChatGPT来应对这一问题。然而,2023 年 3月27日,OpenAI首席执行官Sam Altman首次公开回应了用户破解行为。他表示:“我们希望用户拥有更大的控制权,让模型在一定范围内按照他们的意图运行。 -
2023年7月19日,安全公司Flare的研究团队发布了一份安全报告,指出 OpenAI的访问凭证正逐渐成为暗网交易市场中的热门商品。报告显示,截至事件披露时,已有超过 20 万个OpenAI的访问凭证以日志形式在暗网上进行出售。这些凭证可能包括用户的API密钥、登录凭证或其他敏感信息,能够使不法分子非法访问OpenAI提供的服务。 -
TorchServe是一款由Meta和Amazon联合开发和维护的人工智能模型服务框架,专为PyTorch模型的生产环境部署和扩展而设计。作为一种高效、可扩展的服务工具,TorchServe被广泛应用于各类AI模型的训练和部署,其用户涵盖了诸多知名企业,包括亚马逊、OpenAI、特斯拉、Azure、谷歌和英特尔等,并成为各企业支撑其核心业务的重要基础设施之一。2023年10月3日,著名的 Oligo 安全研究团队发布了一份报告,披露了TorchServe 中存在的一个高危漏洞。根据报告,该漏洞允许攻击者通过未授权的方式访问服务器资源,并在受害主机上执行远程代码(Remote Code Execution, RCE)。 -
2023年11月30日,谷歌旗下人工智能研究团队DeepMind联合华盛顿大学、康奈尔大学等多所知名高校发布研究报告,揭示了ChatGPT在特定情况下可能泄露其原始训练数据中敏感信息的安全隐患。研究表明,通过精心设计的查询,攻击者可以从模型中提取诸如个人姓名、工作地址、职位、邮箱、电话以及私人网站等敏感信息。
-
2024年1月17日,安全研究人员披露了一个名为“LeftoverLocals”的新型漏洞,该漏洞影响了包括AMD、苹果、高通和Imagination Technologies等公司生产的图形处理单元(GPU)。LeftoverLocals漏洞允许攻击者在特定条件下恢复GPU中残留的数据,尤其是在大语言模型和机器学习模型训练过程中产生的敏感信息。研究人员同时发布了漏洞的概念验证(PoC)代码,以进一步展示其潜在危害。 -
2024年2月14日,微软和OpenAI发布研究报告称,部分国家的黑客组织正在使用GPT来提高它们的网络入侵能力,同时为网络间谍活动寻找新的目标。
-
2024年3月4日,安全公司JFrog在全球最大的AI模型开源平台HuggingFace中发现了超过100个恶意的AI大模型,当用户下载并运行这些恶意AI模型时,攻击者可以完全控制受害者的主机。
-
Ray是由Anyscale开发的开源框架,用于跨机器集群扩展AI和Python应用程序,以高效处理分布式计算工作负载。在GitHub上,Ray拥有超过30,500 颗星,并被众多全球知名组织广泛使用,包括亚马逊、Spotify、LinkedIn、Instacart、Netflix、Uber 和 OpenAI,后者甚至利用Ray来支持ChatGPT的训练。然而,2024年3月2日,一场名为“影子之路”(ShadowWray)的黑客活动曝光。此次活动利用Ray框架中未修补的漏洞,导致数千台AI系统工作负载服务器及网络服务器遭到入侵。据调查,这次攻击至少持续了7个月,表明攻击者已对目标进行了长期渗透和高强度利用。
-
2024年4月4日,Bitdefender的研究人员揭露了一项新的黑客攻击手段,黑客利用Facebook广告和被劫持的页面推广虚假的人工智能服务,包括 MidJourney、OpenAI 的SORA 和 ChatGPT-5 以及 DALL-E。黑客通过在Facebook平台上发布与AI服务优惠相关的虚假信息,诱导用户点击链接并下载恶意软件。该恶意软件一旦被下载,将窃取用户设备中的敏感信息,并将这些信息在暗网平台上进行出售。 -
2024年5月9日,Sysdig威胁研究团队(TRT)发布了一项研究,揭示了一种名为“LLMjacking”的新型网络攻击方式。该攻击利用窃取的云凭证对云托管的大型语言模型(LLM)服务发起攻击。通过这一手段,攻击者能够窃取用户的大模型访问凭证或云账户,从而获得对受害者大模型资源的完全控制。这使得攻击者能够不受限制地使用受害者的计算资源,可能导致资源滥用、机密数据泄露或其他形式的恶意操作。 -
2024年5月11日,网络安全研究团队Checkmarx在与Hackread.com共享的一份报告中揭示了人工智能大模型存在的隐藏后门威胁。报告指出,名为llama_cpp_python的大模型软件包存在严重漏洞,该漏洞允许攻击者通过执行大模型来执行任意代码并窃取数据。该漏洞目前已影响了超过6000个AI模型,涵盖了多个大型AI平台,其中包括全球最大的AI模型平台HuggingFace。
-
2024年6月2日,人工智能平台Hugging Face公开宣布其Space项目遭遇黑客入侵。该项目是Hugging Face社区用户创建并上传的人工智能应用程序管理库,攻击者在未授权的情况下成功访问了部分项目的机密数据,具体包括用户的身份认证文件。该安全事件表明,尽管Hugging Face提供了用户身份认证机制,但由于安全漏洞,黑客能够绕过保护措施获取敏感信息。对此,Hugging Face已迅速采取行动,撤销了所有受影响的认证令牌,并通过电子邮件通知了所有受影响的用户。 -
2024年8月19日,网络安全研究国际学术论坛联合主办的“AI+Security”论坛中,安全研究人员揭示了Hugging Face平台中存在的严重安全漏洞。研究表明,多个仓库通过冒用知名公司名称(如Meta、Visa等)伪造其模型文件,试图诱导用户下载并运行带有恶意代码的模型文件(如.pth文件)。这些恶意代码在用户加载模型时会悄无声息地收集用户主机的敏感信息,并将数据上传至攻击者指定的服务器。特别是在冒充Meta Llama的仓库中,研究人员发现了恶意代码利用trust_remote_code参数,从远程服务器下载并执行恶意代码的手段,进一步扩大了安全隐患。 -
2024年8月28日,Legit安全研究人员通过网络扫描,发现了两类存在潜在安全风险的开源大模型AI服务:矢量数据库(用于为AI工具提供数据存储)和大模型应用程序构建器,特别是开源程序Flowise。研究人员在这些服务中发现了大量企业和公司的敏感数据,这些数据未经加密或防护,被开发人员错误地暴露在公网中。
-
2024年9月2日,英国AI图像处理公司remove.AI遭到了勒索组织RansomHub的攻击。RansomHub宣称已成功获取该公司客户的敏感数据,包括支付信息、操作系统地址(OP地址)、完整个人信息、电子邮件、API令牌、密码以及其他私人数据,涉及超过1400万用户和7000条数据。该组织进一步威胁,公开了部分用户的敏感数据,并将其展示在remove.AI官网首页。
-
2024年10月,字节跳动发布公告,确认其公司大模型训练项目遭遇了一起“投毒”事件。据悉,字节跳动一名博士实习生在公司商业化技术团队实习期间,由于对团队资源分配的不满,使用攻击代码破坏了大模型训练任务。该实习生通过利用大模型开源平台Hugging Face的漏洞,向训练中的大模型插入恶意代码,导致模型训练效果严重偏离正常轨道,严重影响了团队的工作进度。字节跳动随后解雇了该实习生,并决定起诉其并索赔800万元人民币的损失。
-
2024年10月23日,著名大模型企业Character.AI在其官方账号发布通告,悼念一位用户的离世。据逝者亲属描述,来自美国佛罗里达州的男孩长期与该公司的AI机器人进行聊天,逐渐沉迷于虚拟对话中,导致他与现实生活疏远,最终深陷其中。长期的沉浸在虚拟交流中让他产生了无法与现实生活对接的情感困扰,最终选择自杀。
近期的安全事件表明,大模型系统在数据保护、访问权限管理、恶意代码防御、供应链完整性和平台安全方面的存在显著脆弱性。首先,数据泄露和隐私侵犯是大模型安全研究中最为关键的问题之一。模型训练过程中涉及大量个人数据和敏感信息,任何安全漏洞都可能导致大规模的数据泄露。其次,访问控制和身份验证问题导致攻击者能够获得非法访问权限,从而窃取凭证、滥用服务或进行其他恶意操作。再者,恶意代码和后门攻击也是大模型面临的一个严峻挑战,黑客可以利用模型漏洞注入恶意代码,通过下载恶意模型或破解模型后门来实施攻击,危及用户和系统安全。此外,供应链攻击和内部威胁也是大模型安全研究的重要方向,例如,字节跳动的实习生“大模型文件投毒”事件和开源平台中的恶意代码传播,进一步表明了模型训练和部署过程中可能存在的安全漏洞。同时,大模型内容安全问题也逐渐突显,大模型可能绕过其内置的安全和伦理约束,生成不符合原有使用规范的内容或执行未经授权的行为,甚至生成有害、虚假、偏见或非法的内容,甚至泄露敏感信息,带来潜在的安全和道德风险。
本章将深入分析若干典型的大型语言模型(LLM)攻击案例,重点探讨黑客在实施攻击过程中所采用的技术手段及其背后的原理。通过对这些案例的详细剖析,旨在揭示攻击者如何利用模型系统或文件格式的脆弱性开展网络攻击活动,同时阐明这些攻击背后的技术逻辑和潜在风险。
4.1 大模型文件投毒
4.1.1 大模型文件携带后门
图15 恶意大模型文件在VT平台的检测率
图21 大模型文件携带二进制恶意代码
4.1.2 大模型文件攻击链
图22 黑客攻击流程图
图23 恶意大模型文件反编译后的数据
图24 下载h5文件
图25 恶意代码片段
图26 下载其他资源
图27 修改受害主机壁纸
图28 下载txt资源
图29 txt资源内容
图30 txt资源解密
图31 恶意程序被运行
图32 修改受害主机壁纸
图33 被修改后的主机壁纸
图34 下载其他资源并写入dll文件中
图35 调用下载的资源
经过分析,另外一个h5文件为正常的大模型文件,也就是说攻击者在执行恶意代码时还会保证大模型功能的正常实现。值得注意的是,此恶意项目中只有一个大模型文件被HuggingFace平台标记为恶意文件,而其他的大模型文件和其他恶意文件均未被HuggingFace平台标记为恶意文件,这也从侧面反映了HuggingFace平台对用户上传数据的安全检测的缺陷。
4.2 大模型隐藏恶意代码
图36 单精度浮点数位数表示
图37 模型参数浮点数据中插入恶意数据
4.3 大模型内容安全
图39 安全测试内容
图40 国内某流行“商用大模型1”存在“越狱攻击”风险
图41 国内某流行“商用大模型2”存在“越狱攻击”风险
图42 国内某流行“商用大模型3”存在“越狱攻击”风险
图43 国内某流行“商用大模型3”存在“越狱攻击”风险
图44 国外某主流商用大模型存在“越狱攻击”风险
5.1 用户端安全风险
5.1.1 虚假信息
首先,从用户的角度来看,互联网中充斥着大量与大模型服务相关的广告和链接,用户往往很难从中识别出真正的AI服务接口或安全软件。稍不留意,用户就可能掉入黑客精心布置的陷阱,将自己的设备或敏感信息置于不安全的境地。因虚假链接或恶意软件引发的网络攻击已经成为常见现象,且受影响的用户数量巨大。例如,在前述的Facebook平台案例中,仅通过一个Facebook账户发布的恶意链接就影响了超过120万个用户,这充分显示了这一问题的严重性。
造成这一现象的原因主要有两个方面:
(1)AI大模型的热度:随着大模型技术的快速发展和广泛应用,用户在网络上浏览相关信息时,往往将注意力集中在大模型服务的效果和技术上,而忽视了所点击链接的可信度和下载软件的安全性。这使得用户容易误入黑客设置的假冒服务陷阱。
(2)用户安全意识的缺乏:许多普通用户缺乏大模型和网络安全领域的专业知识,难以辨别虚假AI大模型服务链接的真实性,也没有足够的意识去对点击的链接或下载的软件进行安全扫描,从而使得他们更容易成为网络攻击的受害者。
这些因素共同加剧了大模型安全风险,提醒用户在获取或使用AI大模型技术时,必须增强用户的安全意识,并加强对虚假链接和恶意软件的防范措施。
5.1.2 信息泄露
同时,用户在使用大模型AI服务时,必须关注隐私安全和个人敏感信息泄露的问题。一方面,在使用AI服务时,AI服务提供商通常通过聊天窗口或API接口与用户交互。用户需要将待处理的信息发送给AI服务提供商,这些信息可能涉及敏感数据。如果AI服务提供商未能为用户提供充分的账户安全保障,就可能导致用户在使用服务时输入的敏感信息泄露。例如,OpenAI在初期向用户提供ChatGPT服务时,曾发生过一起安全事件:部分用户在自己的聊天窗口中能够看到其他用户的历史对话记录,这显然存在严重的隐私安全隐患。
另一方面,AI服务商通常会默认用户同意其收集在使用大模型服务时产生的数据,用于模型的训练、微调和优化。然而,在大模型与用户的正常交互过程中,模型可能发生“失控”或受到攻击者的恶意攻击,从而泄露本应保密的原始训练数据。这些数据中可能包含其他用户的隐私或敏感信息。例如,ChatGPT曾被安全研究人员揭示存在此类安全风险,用户通过合法输入能够诱导模型泄露其训练数据中的敏感信息,如个人姓名、工作地址、职位、邮箱地址、电话、私人网站等。
这种情况凸显了大模型AI服务在隐私保护方面的严重挑战,提醒用户需提高安全意识,谨慎提供敏感信息。
5.1.3 大模型文件投毒
此外,对于那些热衷于大模型技术研究或开发的用户来说,他们还面临着恶意大模型文件带来的安全威胁。大模型技术能够迅速且广泛应用于各大领域,得益于开源社区的强大支持,越来越多的大模型被开源发布到各大平台,这吸引了全球大模型技术爱好者积极参与其研究与应用。然而,正是在这些大模型开源社区中,潜藏着大量的恶意大模型文件。黑客通过向正常的大模型文件中插入恶意代码,并将这些恶意大模型文件发布到开源平台,利用开源社区的传播效应进行恶意代码的扩散,正如我们前面分析的案例一样。当用户下载并加载这些带有恶意代码的大模型文件时,恶意代码将被执行,可能在用户主机上发起各种恶意操作,造成数据泄露、系统损坏、或进一步的网络攻击。这种安全隐患提醒用户,在大模型技术的研究和开发过程中,必须高度警惕恶意文件的传播风险,并加强对开源大模型文件的安全审查与验证。
5.1.4 大模型信任
5.2 厂商端安全风险
5.2.1 系统与硬件安全
对于AI大模型服务商而言,大模型服务系统面临着多种安全风险。首先,与传统应用系统类似,大模型服务系统同样面临来自硬件和系统的安全风险,这些风险主要源于CPU、内存、网卡等硬件设备或操作系统中的缺陷和漏洞。除了这些常见的系统安全风险外,AI大模型系统还必须特别关注GPU的安全问题。由于AI大模型依赖GPU提供强大的计算资源以支持大规模数据处理和模型推理,如果GPU硬件存在缺陷或漏洞,将可能直接影响整个系统的运行,甚至导致服务中断或数据泄露。2024年1月17日,研究人员揭示了多家科技公司GPU硬件存在安全漏洞,攻击者利用这些漏洞能够恢复服务器中GPU上运行的大模型数据。这一发现突显了GPU作为关键硬件资源的安全性问题,如果不及时修复或强化,可能为攻击者提供了绕过常规安全机制的途径,严重威胁到AI大模型系统的整体安全性。大模型服务商需要时刻关注大模型基础框架和依赖包的安全情况,及时进行系统补丁和漏洞修复,避免因基础框架和依赖包的漏洞而影响企业大模型服务的正常运行。因此,AI大模型服务商不仅需要解决传统硬件和系统的安全隐患,还必须加强对GPU硬件等大模型特有硬件安全性的关注,确保在硬件层面上消除潜在的安全漏洞,从而保障整个大模型服务系统的稳定运行和数据安全。
5.2.2 基础供应链安全
其次,大模型基础供应链的安全问题是大模型服务商需要面对的主要外部安全风险之一。具体而言,涉及大模型运行和训练的基础框架及依赖包(如TensorFlow、PyTorch、NumPy等)的安全性尤为重要。这些基础框架和依赖包的安全漏洞可能直接影响到上层应用的稳定性和安全性,并在短时间内引发大规模的网络安全事件。例如,正如前述提到的,今年5月,大模型软件包llama_cpp_python被曝存在漏洞,该漏洞允许攻击者通过执行大模型代码来运行任意命令并窃取数据,导致多个大模型平台上的超过6000个AI大模型受到影响。这一事件凸显了基础框架和依赖包的漏洞对整个大模型服务体系的潜在威胁。因此,大模型服务商必须时刻关注和监控大模型基础框架及其依赖包的安全状态,确保及时进行系统补丁和漏洞修复。通过加强基础设施的安全性,可以有效避免因基础框架和依赖包的漏洞而影响企业的大模型服务的正常运行,降低外部攻击的风险。
5.2.3 模型训练安全
此外,大模型训练过程中的安全风险同样是大模型厂商无法忽视的重要问题。在大模型训练过程中,各大厂商通常需要进行大量的数据操作,包括数据清洗、数据转换、数据标签化、数据编码等。如果这些操作中存在漏洞或其他安全隐患,将直接影响到训练结果的质量和大模型的安全性。与此同时,大模型训练过程中生成的大量中间文件同样存在潜在的安全风险。由于大模型训练通常经历数千甚至上万次迭代,每次训练产生的中间文件都需要进行严格的安全检测和校验,以防止恶意代码被插入这些文件,进而影响最终的大模型训练结果。
今年10月,字节跳动就发生了类似的安全事件。该公司的实习生在训练的大模型中间文件中插入了恶意代码,导致该公司某部门近一个月的大模型训练成果全部作废。该事件暴露出大模型训练过程中对中间文件安全管理的漏洞,提醒厂商必须加强对大模型训练过程中的每一个环节的安全审查,确保中间文件的安全性,避免因内部安全管理不到位而造成训练资源的浪费甚至更严重的安全风险。
5.2.4 大模型应用供应链安全
此外,大模型应用供应链的安全问题同样需要各大模型厂商的高度重视。随着AI大模型技术的快速发展,相关的应用组件和扩展框架(如AutoGPT、LangChain等)也得到了迅速普及。这些框架和组件通过简化大模型的使用流程,提供了更加便捷的应用方式,逐渐成为大模型服务商广泛采用的后台服务工具。然而,开发者在构建这些AI大模型相关框架或组件时,通常会将产品的可行性和可用性放在首位,以便迅速实现功能并满足市场需求。这种优先考虑功能实现的开发方式,常常导致安全性问题的滞后,从而增加了潜在的安全风险。例如,2023年10月,由Meta和Amazon维护的人工智能模型服务工具TorchServe被曝存在漏洞,影响了数万台暴露在互联网上的服务器;今年3月29日,包括亚马逊和OpenAI在内的多家大型企业使用的Ray大模型框架也被发现存在漏洞,攻击者通过该漏洞入侵了数千台AI系统的工作负载服务器。
因此,大模型服务商必须定期对这些应用组件和扩展框架进行安全检查,及时修复已知漏洞,防范潜在的安全威胁。只有加强对大模型应用供应链的安全管理,才能有效避免由于组件和框架的安全问题而引发的安全事件,保障整个大模型服务系统的稳定与安全。
5.2.5 大模型内容安全
最后,大模型内容安全是大模型服务商必须解决的关键安全问题。AI大模型在文本处理、图像生成和逻辑分析等领域已经展现出卓越的能力,能够为用户生成指定的文本、图片和视频等内容。然而,这些由大模型生成的文件可能包含歧视性言论、违反道德伦理或法律的内容(如制造炸弹、毒药的教程、实施谋杀的步骤等)。这些违规内容可能是用户通过特定输入引导模型生成的,此时大模型服务商需要对用户的输入进行有效分析和监控,以防止大模型在用户的引导下生成不当内容;另一方面,违规内容也可能是在用户没有明确引导的情况下,模型自主生成的。对于这种情况,大模型服务商需要加强在模型训练和微调阶段的内容安全技术研究,确保模型本身在生成过程中能够有效规避不当内容的输出。无论是用户引导模型生成违规内容,还是模型在无引导的情况下自动生成违规内容,大模型服务商都需要对生成的内容进行严格的安全审查和处理。这不仅是为了确保模型的道德性和法律合规性,更是为了避免因违规内容的传播而引发社会事件,造成严重的公共安全和法律后果。因此,内容安全应成为大模型服务商在提供服务时的核心任务之一。
当基于大模型的应用越来越广泛时,大模型系统的各类安全问题也不断暴露出来,相关的网络安全事件也频频发生,由于大模型技术安全研究相对滞后,相关安全事件造成了不小的影响。从近期的相关网络安全事件来看,不论是大模型用户,还是大模型厂商,都面临诸多安全风险,如系统硬件安全风险,大模型供应链安全风险和大模型自身安全风险。在近期研究中,我们发现大模型开源社区/平台存在文件安全检测的缺陷,部分大模型文件携带恶意代码,但是并未被平台检测出,部分恶意文件还被标记为安全文件,某些黑客的恶意文件已经在开源社区被广泛传播。同时,经过我们对大模型的专业安全检测,发现部分在线商用大模型仍然存在严重的内容安全问题,在某些特定的输出下依旧会生成违法或违规的内容,影响极为严重。
任何新兴的技术都是一把双刃剑,大模型技术也不例外。各大企业或研究机构在研究和发展大模型技术的同时,同样需要加强对大模型技术的安全研究,这样才能将大模型技术这把利剑为自己所用,而又不被其所伤。同时,大模型用户同样需要加强安全意识,在使用大模型时需要确认网站的合法性和可靠性,并且避免向大模型输入敏感或上传机密文件;此外,在下载开源大模型时需要对相关的大模型文件进行安全检查,避免在主机上加载大模型文件时被黑客入侵,造成经济损失。
启明星辰积极防御实验室(ADLab)
ADLab成立于1999年,是中国安全行业最早成立的攻防技术研究实验室之一,微软MAPP计划核心成员,“黑雀攻击”概念首推者。截至目前,ADLab已通过 CNVD/CNNVD/NVDB/CVE累计发布安全漏洞5000余个,持续保持国际网络安全领域一流水准。实验室研究方向涵盖基础安全研究、数据安全研究、5G安全研究、人工智能安全研究、移动安全研究、物联网安全研究、车联网安全研究、工控安全研究、信创安全研究、云安全研究、无线安全研究、高级威胁研究、攻防体系建设。研究成果应用于产品核心技术研究、国家重点科技项目攻关、专业安全服务等。
原文始发于微信公众号(ADLab):【ADLab】以大模型为目标的威胁攻击与安全思考
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论