一. 概述
作为本系列的第四篇,本文聚焦大模型推理软件的安全风险。 随着大模型上云趋势加速,尽管推理框架通常被视为底层基础设施(负责模型运行的资源调度与计算优化),但经我们的研究发现,部分开源推理框架,如Fastchat、Ollama、llama.cpp因配置缺陷或N Day漏洞暴露于公网,形成新型攻击面。例如:
-
Fastchat Web服务器被曝出有SSRF漏洞,攻击者可以访问原本无法访问的内部服务器资源数据,例如AWS的元数据凭证。
-
Ollama默认开放的11434端口导致攻击者可进行API未授权访问从而导致模型参数、训练数据被窃取;
-
llama.cpp的RPC-server历史漏洞(如CVE-2024-42479)允许攻击者通过内存破坏实现远程代码执行,进而控制分布式集群节点;
-
llama.cpp的服务状态监控接口暴露可能泄露模型加载信息、实时推理请求等敏感数据。
本文从攻击链视角出发,系统分析大模型推理软件的关键风险环节、实际危害及缓解措施,旨在推动行业重视大模型生态中的数据安全与基础设施防护。
二.开源大模型推理软件介绍
根据我们的调研,目前主流的开源大模型推理软件如表1所示,这些框架因其性能、易用性和社区支持度在开发者中广受欢迎:
表1 - 开源大模型推理软件基本信息
LLM应用 |
Github链接 |
Star数 |
API |
Ollama |
139k |
不支持 |
|
vllm |
https://github.com/vllm-project/vllm |
45.9k |
支持 |
LightLLM |
https://github.com/ModelTC/lightllm |
3.2k |
支持 |
OpenLLM |
https://github.com/bentoml/OpenLLM |
11.2k |
支持 |
llama.cpp |
https://github.com/ggml-org/llama.cpp |
78.9k |
支持 |
HuggingFace TGI |
https://github.com/huggingface/text-generation-inference |
10.1k |
支持 |
GPT4ALL |
https://github.com/nomic-ai/gpt4all |
73.2k |
支持 |
Fastchat |
https://github.com/lm-sys/FastChat |
38.6k |
支持 |
三.开源大模型推理软件暴露面分析
我们针对上述小节中常见的大模型推理软件进行了测绘分析,重点为地区分布情况和所属云厂商两个维度,如下所示:
Ollama
Ollama是一个轻量级开源框架,专注于简化大型语言模型(LLM)的本地化运行与管理,支持用户一键部署、交互和定制主流开源模型(如llama、Mistral等),无需复杂配置即可实现高性能本地推理。
Github链接:https://github.com/ollama/ollama
图1展示了Ollama服务的全球区域分布与云厂商部署特征。Ollama全球暴露面总量达302748个实例,区域分布呈现明显梯队化:美国以92943例(30.7%)居首,中国(21204例,7.0%)、德国(19160例,6.3%)分列二三位,前五大市场合计贡献全球部署量的55.3%。云服务部署呈现高度集中化趋势,亚马逊云以199383例独占65.8%的绝对份额,与其他云厂商形成显著差距 —其余厂商中占比最高的阿里云(3960例)仅占1.3%,而"其他"云平台以94511例(31.2%)成为第二大部署选择。数据表明,Ollama的云生态呈现"一超多弱"格局,但开发者对非主流云平台仍保有相当程度的使用偏好,这与头部云厂商的技术锁定效应形成有趣对比。
图1 Ollama全球区域分布与云厂商分布情况
Fastchat
FastChat 是一款专为大型语言模型(LLM)设计的开源框架,支持聊天机器人的全流程开发(训练、部署、评估),兼容主流开源模型与OpenAI API,提供高效推理工具和交互界面,降低智能对话服务开发门槛。
Github链接:https://github.com/lm-sys/FastChat
图2展示了Fastchat服务的全球部署情况及云平台分布特征。 Fastchat全球暴露量共计6450个实例,区域分布呈现明显分化:中国(2403例,37.3%)和美国(1941例,30.1%)占据主导地位,合计贡献近70%的部署量,而德国、韩国、日本等市场占比均不足5%,呈现“中美双核”格局。云服务部署方面,亚马逊云(1418例,22.0%)位列第一,谷歌云(413例,6.4%)和阿里云(675例,10.5%)分列二三位,而腾讯云(326例,5.1%)与微软云(145例,2.2%)占比相对有限。值得注意的是,“其他”云平台(3,420例,53.0%)占比过半,表明Fastchat开发者更倾向于选择非主流云服务商或私有化部署方案,与Ollama的集中化趋势形成鲜明对比。数据表明,Fastchat的云生态呈现多元化特征,头部云厂商尚未形成绝对垄断,开发者对中小云服务商或自建基础设施的依赖度较高。
图2 Fastchat全球区域分布与云厂商分布情况
llama.cpp
llama.cpp 是一个高性能的 C/C++ 推理框架,专为在 CPU/边缘设备 上高效运行 Llama、Mistral 等开源大模型 而设计,支持量化(4-bit/5-bit/8-bit)和轻量化部署,实现低资源消耗下的快速推理。
Github链接:https://github.com/ggml-org/llama.cpp
图3展示了llama.cpp服务的全球部署情况及云平台分布特征。 全球暴露量共计 3,880个实例,区域分布呈现 “美中德主导、长尾分散” 的特点:美国(1118例,28.8%) 位居第一,中国(629例,16.2%) 和 德国(395例,10.2%) 紧随其后,前三大市场合计占比 55.2%,而日本、英国等地区占比均不足 5%,剩余 35.7% 的实例分布于全球其他区域。
在云服务部署方面,llama.cpp展现出极强的去中心化趋势:
-
“其他”类别(3183例,82.0%) 占据绝对主导,远超主流云厂商,表明开发者更倾向于使用 私有化部署、本地服务器或中小型云服务商。
-
主流云平台,亚马逊云(310例,8.0%) 占比最高,但份额远低于行业平均水平;谷歌云(128例,3.3%) 和 微软云(128例,3.3%) 并列第二,而 阿里云(67例,1.7%) 和 腾讯云(59例,1.5%) 占比极低,华为云(5例,0.1%) 几乎可忽略不计。
数据表明,llama.cpp的部署模式与 Fastchat、Ollama存在显著差异:
-
云依赖度低:82%的实例运行在非主流云平台,说明其用户群体更偏好本地或自托管方案,而非公有云。
-
亚马逊云影响力减弱:仅占8%,远低于Ollama(65.8%)和Fastchat(22%),反映 llama.cpp的技术栈可能更适配轻量化、离线或边缘计算场景。
图3 llama.cpp全球区域分布与云厂商分布情况
四.开源大模型推理软件模型泄露攻击面分析
我们对当前市场主流开源大模型推理软件研究后发现模型推理框架普遍存在API未授权访问风险、大模型推理软件与模型应用基本一致,在用户交互层与框架服务间普遍采用API通信机制。并且存在接口鉴权机制缺失或配置缺陷,导致攻击者可绕过身份验证直接访问核心API接口。此类脆弱性配置将会导致模型推理框架中的模型基础架构信息、运行时信息、内部资源等敏感资产泄露。攻击者利用大模型推理软件的N Day漏洞,如SSRF、目录穿越等漏洞可实施服务器内部资源窃取等高危操作,下文我们将围绕以上风险对开源大模型推理软件的数据泄露攻击面进行分析。
4.1
模型基础信息泄露风险
经我们调研发现,部分大模型推理软件存在未授权API接口默认开放的安全隐患。这些接口可被任意访问并返回模型系统的基础信息,包括所用模型配置详情及参数规模等敏感数据,这些API接口已显露多重安全风险,如攻击者可利用获取的版本信息查询相关CVE漏洞数据库,精准定位已知漏洞进行渗透测试
图4 通过API未授权访问Ollama使用模型基本信息
图5 通过API未授权访问Ollama的版本信息
4.2
模型运行时信息泄露风险
我们的安全研究表明,开源大模型推理软件llama.cpp在其服务器模式的Restful API实现中存在安全缺陷。该框架采用Slots(槽位)机制作为并行处理能力的核心支撑,每个槽位对应独立的推理上下文,可同时服务多个用户请求并实现细粒度监控。然而,其API接口未配置身份认证及权限控制模块,攻击者可借此进行未授权访问,进而引发敏感数据泄露攻击,如通过非法调用/slots监控接口,攻击者可完整获取槽位运行状态、推理任务队列、用户提问记录等敏感数据。结合历史请求中的企业知识库问答记录,可实施训练数据窃取。
图6 通过API未授权访问llama.cpp的slots信息
4.3
模型服务器内部资源和数据泄露风险
我们调研到, 开源大模型推理软件如OpenLLM与 FastChat都不同程度存在目录遍历、SSRF等N Day漏洞,进而导致服务器可能存在以下风险点:
-
本地敏感文件暴露(OpenLLM CVE-2024-8982):通过LFI漏洞的目录遍历,攻击者可读取服务器本地的配置文件(如/etc/passwd、/proc/self/environ)、密钥文件(如SSH私钥)、日志文件等;此外,若模型文件存储路径暴露,攻击者可通过LFE漏洞窃取专有模型参数。
-
内部网络探测与横向渗透:利用FastChat CVE-2024-12376 SSRF漏洞,攻击者可构造恶意请求访问内部服务(如数据库管理接口、Kubernetes API Server、云服务元数据接口),从而获取云厂商临时凭证、容器集群配置或内网服务漏洞,为横向移动提供跳板。
五.建议防护措施
-
强制严格进行用户鉴权
标准化认证:使用OAuth 2.0/JWT,禁用匿名访问,默认拒绝未认证请求。精细权限控制:基于RBAC/ABAC限制API访问范围。
-
输入验证与路径限制:对用户输入进行严格正则匹配,禁止../等目录遍历字符;使用白名单机制限制文件访问范围。
-
网络隔离与访问控制:将模型服务器部署于私有子网,禁用对外部元数据服务的访问;实施最小权限原则,限制服务账户权限。
-
日志监控与威胁检测:部署AI驱动的异常行为分析系统,实时监控LFI/SSRF攻击特征,并联动WAF拦截恶意请求。
-
漏洞响应与修复:参考OWASP LLM Top 10安全指南,定期进行红队演练,及时修复框架漏洞。
六.绿盟科技创新研究院云上风险发现研究成果
绿盟科技创新研究院在云上风险发现和数据泄漏领域已经开展了多年的研究。借助Fusion数据泄露侦察平台,我们已监测到数万个云端暴露资产存在未授权访问的情况,包括但不限于自建仓库、公有云对象存储、云盘、OLAP/OLTP数据库、大模型组件,以及各类存储中间件等,具体研究内容可参考包括但不限于DevSecOps组件,自建仓库、公有云对象存储、云盘、OLAP/OLTP数据库,大模型组件以及各类存储中间件等,具体研究内容可参考《2023公有云安全风险分析报告》[1],《2024上半年全球云数据泄露风险分析报告》[2],《全球云上数据泄露风险分析简报》第一期至第五期[3-7],云上LLM数据泄露风险研究系列[8-10]。
Fusion是由绿盟科技创新研究院研发的一款面向数据泄露测绘的创新产品,集探测、识别、泄露数据侦察于一体,针对互联网中暴露的泛云组件进行测绘,识别组件关联的组织机构和组件风险的影响面,实现自动化的资产探测、风险发现、泄露数据分析、责任主体识别、数据泄露侦察全生命周期流程。
图7 Fusion能力全景图
Fusion的云上风险事件发现组件具有如下主要特色能力:
资产扫描探测:通过多个分布式节点对目标网段/资产进行分布式扫描探测,同时获取外部平台相关资产进行融合,利用本地指纹知识库,实现目标区域云上资产探测与指纹标记;
资产风险发现:通过分布式任务管理机制对目标资产进行静态版本匹配和动态PoC验证的方式,实现快速获取目标资产的脆弱性暴露情况;
风险资产组织定位:利用网络资产信息定位其所属地区、行业以及责任主体,进而挖掘主体间存在的隐藏供应链关系及相关风险。
资产泄露数据分析:针对不同组件资产的泄露文件,结合大模型相关技术对泄露数据进行分析与挖掘,实现目标资产的敏感信息获取;
当今数字化迅速发展的时代,数据安全问题越来越受到广泛关注。与此同时,随着云计算技术的普及和应用,企业也不可避免面临着云上数据泄露事件的频繁发生,为了提供公众和相关行业对数据安全的认知,我们计划定期发布有关云上数据泄露的分析报告,这些报告将以月报或双月报的形式呈现,内容涵盖最新的云上数据泄露案例分析、趋势洞察、数据保护最佳实践以及专家建议等。
如果读者对本文有任何意见或疑问,欢迎批评指正。如有合作意向请联系我们(邮箱[email protected])。
原文始发于微信公众号(绿盟科技研究通讯):开源大模型推理软件的攻击面分析:云上LLM数据泄露风险研究系列(四)
原文始发于微信公众号(绿盟科技研究通讯):开源大模型推理软件的攻击面分析:云上LLM数据泄露风险研究系列(四)
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论