模型研究｜扩散模型，颠覆自回归LLM，一种LLM新范式崛起？

2025年3月12日21:19:09评论30 views字数 2545阅读8分29秒阅读模式

LLM领域的现状与挑战

大型语言模型（LLM）近年来在自然语言处理中占据主导地位，代表如DeepSeek系列、OpenAI的GPT系列和Anthropic的Claude系列。这些模型主要基于自回归（autoregressive）架构，逐个生成文本，每个token的生成依赖于前文。这种顺序生成方式在长序列生成中效率较低，尤其在实时应用和复杂推理任务中，存在显著的延迟和计算成本瓶颈。

扩散模型的引入：从图像到文本

扩散模型最初在图像生成领域崭露头角，如Stable Diffusion和DALL-E，通过从随机噪声逐步精炼生成高质量图像。其核心思想是学习一个反向过程，从高噪声状态逐步“去噪”到清晰数据。

对于文本这种离散数据，扩散模型的适应成为研究热点。扩散语言模型（dLLM）尝试将这一技术应用于文本生成，通常从掩盖或噪声化的文本序列开始，通过多次迭代生成最终结果。

MDLM：研究型dLLM的突破

MDLM（Masked Diffusion Language Models）是扩散语言模型的一种研究实现，由Subham Sekhar Sahoo等研究者提出，发表于2024年的NeurIPS会议《Simple and Effective Masked Diffusion Language Models》。其核心是基于掩盖的离散扩散模型，采用紧凑的Rao-Blackwellized目标函数，无需复杂的CTMC理论。

训练与性能：MDLM使用现代工程技术，包括关键的tokenization（如避免D3PM的8k小词汇表）、数值稳定的实现，采用Diffusion Transformer（DiT，Diffusion Transformers）并结合旋转位置嵌入。训练数据规模达327B tokens时，其在LM1B数据集上的困惑度（PPL）≤23.00，接近自回归 Transformer 的20.86（327B tokens时为20.86）。

以下是关键性能对比表：

泛化能力：MDLM在零样本困惑度上表现优于SEDD，在PTB、Wikitext、LM1B等数据集上表现出色，有时甚至优于自回归模型（如Lambada和科学论文数据集），得益于其基于解掩盖的目标函数的鲁棒性。

以下是零样本困惑度的对比：

相关工作：MDLM与D3PM（Score-Based Generative Modeling through Stochastic Differential Equations）和SEDD（Sequence-to-Sequence Denoising Diffusion）等模型相比，表现出更高的效率和性能。

Mercury：商业化dLLM的里程碑

2025年2月26日，Inception Labs发布了Mercury Coder，宣称是首个商业化规模的dLLM。Inception Labs由斯坦福教授Stefano Ermon等创立，其团队包括MDLM论文作者Volodymyr Kuleshov，显示出研究与商业化的紧密联系。

性能亮点：Mercury Coder采用粗到细（coarse-to-fine）的生成方式，与自回归模型的左到右顺序生成不同。其生成速度可达每秒1000个token，在NVIDIA H100 GPU上比传统LLM快5-10倍。早期基准测试显示，其质量可与GPT-4o Mini和Claude 3.5 Haiku相当，同时成本更低。

应用场景：Mercury支持API访问和本地部署，适用于实时生成任务，如AI代理、复杂推理和可控生成。Inception Labs表示，dLLM可提升代理效率、减少幻觉（hallucinations）并支持非顺序token生成。

技术细节：Mercury的扩散模型从纯噪声开始，通过几次精炼步骤生成文本，减少了自回归模型所需的多次推理步骤。与传统自回归模型（如GPT系列）依赖从左到右的顺序生成不同，Mercury采用并行处理方式，显著减少了生成完整文本所需的推理步骤。

扩散语言模型的优势与争议

dLLM的并行生成能力显著降低了推理延迟和计算成本，这对实时应用（如聊天机器人、代码生成）尤为重要。MDLM的研究结果和Mercury的商业化表明，dLLM在速度和效率上具有潜力，但争议在于其长期质量和鲁棒性是否能持续超越自回归模型。

Mercury在速度和成本方面展现出显著优势，其声称比现有模型快10倍，尤其适合高并发场景，同时通过降低计算资源需求，有效减少了企业的部署成本。此外，Mercury还引入了支持非顺序生成和错误修正的新能力，这提升了模型的推理能力和可控性，为实际应用带来了更多可能性。

然而，Mercury在实际应用中的生成质量仍存在争议，尽管其在困惑度指标上接近自回归模型，但在连贯性和上下文理解等方面的表现仍需进一步验证。同时，关于其是否适用于所有任务，如长文生成和复杂对话，目前尚不明确，这需要更多的研究和实践来探索其适用性边界。

未来展望：新范式的可能性

扩散语言模型的崛起可能标志着LLM领域的新范式转变，其潜在影响包括：更快的用户体验，减少等待时间；更低的运营成本，扩大AI应用的普及；新型应用场景，如实时多模态任务（结合图像和文本）。

然而，当前证据仍需更多实际应用数据支持。Inception Labs的Mercury只是第一步，未来可能会有更多dLLM产品进入市场，竞争将推动技术进步。

文献：

Simple and Effective Masked Diffusion Language Models

Score-Based Generative Modeling through Stochastic Differential Equations

Sequence-to-Sequence Denoising Diffusion

图源：

Diffusion Models: A Comprehensive Survey of Methods and Applications

https://s-sahoo.com/mdlm/

https://www.inceptionlabs.ai/news

阅读更多：

扩散模型——生成式AI领域的热门，呈现从噪声到现实的魔法世界

原文始发于微信公众号（安全极客）：模型研究｜扩散模型，颠覆自回归LLM，一种LLM新范式崛起？

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

模型研究｜扩散模型，颠覆自回归LLM，一种LLM新范式崛起？

专题·人工智能安全 | 大模型联网的风险分析与应对举措

从0到1大模型MCP自动化漏洞挖掘实践

网络安全分析人员的生成式AI辅助指南

优秀论文 | 生成式人工智能在侦查讯问中的应用——基础、尝试、风险及对策建议

悟空Agent实战：LLaMA-Factory高危0day漏洞挖掘与修复

图神经网络系列六：GCN优化之GAT与lightGCN

关于AI系统的访问控制，看看权威观点

中山大学｜FORGE：驱动大语言模型自动化构建大规模智能合约漏洞数据集

当ChatGPT接入MCP，你的数据是如何被泄露的？

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

发表评论

在线咨询

微信