不要停，继续说下去！——针对大语言模型的推理成本攻击：Engorgio

2025年4月25日00:27:09评论37 views字数 2880阅读9分36秒阅读模式

随着 ChatGPT 等大语言模型（LLMs）在各类任务中大放异彩，越来越多的场景开始依赖它们来提供服务。然而，由于 LLM 在推理阶段对算力的需求极为显著，一个潜在但被忽视的安全威胁也悄然浮现：恶意用户能否通过构造一些特殊输入，显著提高单次请求的推理成本？针对这一问题，我们提出Engorgio攻击方法，该成果发布在 ICLR 2025 上：《An Engorgio Prompt Makes Large Language Model Babble on》。Engorgio 来源于哈利波特咒语，意为“膨胀术”，寓意模型响应“膨胀变长”。

问题背景

当前主流的大语言模型大多采用自回归架构，即一个接一个逐token生成文本。虽然该机制赋予了模型强大的生成能力，但也带来了极高的推理成本。每生成一个 token 都需进行一次模型前向计算，且随着已生成 token 数量的增加，由于注意力机制的特性，单步推理成本也会逐渐上升。在实际部署中，尤其是资源受限的终端设备或中小企业服务器上，推理效率往往成为关键瓶颈。

更值得注意的是，LLM 的上下文窗口正在迅速扩展，从最初的 2K token 到如今的 128K，未来甚至可能突破百万级。这意味着推理成本的挑战将愈加严峻。

从安全角度出发，我们提出一个新的问题：在正常交互中，LLM 通常会生成适度长度的响应。但如果攻击者故意引导模型生成超长回复，会不会拖慢系统性能、影响整体服务？我们的研究表明，答案是肯定的，且攻击效果极其显著。

图1 正常样本和Engorgio prompts导致的模型回复分布

方案设计

这项研究聚焦“推理成本攻击”（Inference Cost Attack），提出了一种基于优化的对抗样本构造方法——Engorgio。其核心目标是：构造能诱导模型持续生成文本的特殊提示，从而大幅度增加单次请求的推理时间与计算资源消耗，影响服务可用性。

研究设定在白盒场景下，即攻击者可访问模型结构、参数及预测分布等内部信息。在开源模型广泛部署的背景下，白盒假设具有现实基础。此外，资源受限的服务提供者他们可能无法承受训练成本而更倾向于使用开源模型。这样部署开源模型向用户提供LLM服务的模式在HuggingChat、Chatbot Arena以及Huggingface Spaces上十分常见。

Engorgio分为两个阶段：生成阶段（Generation Stage）和测试阶段（Testing Stage）。

图2 构造Engorgio prompts的完整流程，包括生成阶段和测试阶段

在生成阶段，由于 LLM 的输入为离散 token，传统梯度优化难以直接应用。为此，我们使用一个重参数技巧，引入“代理分布”（proxy distribution）+ Gumbel-Softmax 来追踪特定位置的token选择并充分利用梯度信息。简言之，我们为每个位置构建一个“软化”的 token 分布，并通过梯度更新该分布，最后在测试阶段提取出最优 token 组合。

图3 将Proxy distribution转换为LLM输入的示意图

为优化上述代理分布，我们设计了新颖的损失函数以建模模型“喋喋不休”的生成行为。其中，我们观察到模型生成过程的持续受两个因素的影响：一个是maximal context，这通常受制于模型能力和服务提供者的设定；另一个是<EOS> token的出现，这是由模型自身决定的，给我们引导模型生成长回复提供了契机。该工作引入<EOS> escape loss，通过在训练阶段惩罚模型在任意位置预测<EOS>的概率，鼓励模型延迟预测休止符来延长输出。

考虑到 LLM 的自回归生成过程极度依赖前一步的输出，若某个 token 出现偏差，可能导致整体输出偏离长文本轨迹。为了尽可能更稳定地诱导大模型能在大多数采样都能输出长文本，还引入Self-mentor loss来引导代理分布朝向更自洽的 token 序列，使模型在大多数采样中更稳定地产生期望的长回复。

不要停，继续说下去！——针对大语言模型的推理成本攻击：Engorgio

实验结果

我们在 13 个主流开源模型上进行了系统测试，涵盖 125M 至 30B 参数规模。使用 Avg-len（平均输出长度）与 Avg-rate（达到最大输出长度的比例）两项指标，结果显示 Engorgio Prompt 可将生成长度稳定提升为正常提示词的 2 至 13 倍。

图4 测试Engorgio prompts和基线输入在LLM上的效果

此外，我们还设计了真实场景的能耗攻击实验。在不违反伦理的前提下，利用 Hugging Face 的推理服务（https://ui.endpoints.Huggingface.co/）部署一个StableLM模型作为后端LLM，并控制请求中 Engorgio prompt的比例。实验发现，仅通过注入少量恶意提示，便可显著降低系统吞吐率，对服务性能造成实质性影响。

图5 Engorgio prompts降低LLM系统吞吐量（“MU”：恶意用户，“NU”：正常用户）

总结与思考

该研究系统性地提出了专门针对大语言模型推理成本的对抗攻击方法，并提出了简单却有效的技术方案，填补了当前 LLM 安全研究领域中“推理效率攻击”的空白：相比传统关注“模型输出内容”的攻击（如越狱、指令注入等），Engorgio 提出了一个全新的攻击视角：通过诱导模型“喋喋不休”，从而显著提升单次请求消耗的计算资源，拖垮服务能力。

早期我们思考这个安全问题时，模型的上下文长度普遍只有1-2K，但如今谷歌的Gemini-2.5-pro和GPT-4.1等新模型已经支持百万级别的超长上下文。与此同时，用户对LLM推理服务的依赖日益增强，例如OpenRouter平台单日就可消耗数万亿tokens，推理消耗的资源远超训练——在这种发展趋势下，今天LLM推理的能耗开销已经是一个天文数字且依旧呈现非线性增长。在这一背景下，通过构造特殊提示词诱导模型生成冗长回复，将有可能成为新型DDoS LLM推理服务的攻击手段，也有可能给能耗开销造成巨额的浪费。从安全测试视角来看，服务提供者也可反过来利用 Engorgio prompts进行压力测试，以验证系统是否具备应对极端请求情况的能力。

当AI服务走向大规模部署时，我们不仅要构建“聪明”的模型，更要建立“节能、安全”的推理生态。令人欣喜的是，在我们的工作之后，越来越多团队关注推理成本问题。例如，研究者发现此类攻击在 DeepSeek-R1 等推理优化模型中更为显著（参考：https://github.com/PKU-YuanGroup/Reasoning-Attack）。

在未来的工作中，我们将进一步聚焦于更复杂的 LLM 推理系统，提升当前样本构造方法的通用性和鲁棒性。此外，我们还计划针对推理成本攻击设计有效的防御机制，并探索新的训练策略，以增强模型对推理成本的敏感程度。

论文链接：

https://arxiv.org/abs/2412.19394

代码链接：

https://github.com/jianshuod/Engorgio-prompt

原文始发于微信公众号（赛博新经济）：“不要停，继续说下去！”——针对大语言模型的推理成本攻击：Engorgio

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

不要停，继续说下去！——针对大语言模型的推理成本攻击：Engorgio

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

启明星辰发布大模型安全威胁框架（附下载链接）

当好的GPT变坏：如何利用受信任的AI工具进行攻击

专题·人工智能安全 | 政府部门DeepSeek私有化部署的安全管理策略研究

大模型注入攻击和防御

ChatGPT官方网络安全类GPTs推荐清单，及提示词破解

让主流大模型集体破防的回音室攻击

人工智能（AI）在城镇作战中的应用及对我启示

AI产业的版权危机：Meta大模型完整记忆了《哈利·波特》

【论文速读】|LLM vs. SAST：GPT4 代码缺陷检测技术分析——高级数据分析

发表评论

在线咨询

微信