模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?

admin 2025年3月12日21:19:09评论15 views字数 2545阅读8分29秒阅读模式

LLM领域的现状与挑战

大型语言模型(LLM)近年来在自然语言处理中占据主导地位,代表如DeepSeek系列、OpenAI的GPT系列和Anthropic的Claude系列。这些模型主要基于自回归(autoregressive)架构,逐个生成文本,每个token的生成依赖于前文。这种顺序生成方式在长序列生成中效率较低,尤其在实时应用和复杂推理任务中,存在显著的延迟和计算成本瓶颈

扩散模型的引入:从图像到文本

扩散模型最初在图像生成领域崭露头角,如Stable Diffusion和DALL-E,通过从随机噪声逐步精炼生成高质量图像。其核心思想是学习一个反向过程,从高噪声状态逐步“去噪”到清晰数据。
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
对于文本这种离散数据,扩散模型的适应成为研究热点。扩散语言模型(dLLM)尝试将这一技术应用于文本生成,通常从掩盖或噪声化的文本序列开始,通过多次迭代生成最终结果。

MDLM:研究型dLLM的突破

MDLM(Masked Diffusion Language Models)是扩散语言模型的一种研究实现,由Subham Sekhar Sahoo等研究者提出,发表于2024年的NeurIPS会议《Simple and Effective Masked Diffusion Language Models》。其核心是基于掩盖的离散扩散模型,采用紧凑的Rao-Blackwellized目标函数,无需复杂的CTMC理论。
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
训练与性能:MDLM使用现代工程技术,包括关键的tokenization(如避免D3PM的8k小词汇表)、数值稳定的实现,采用Diffusion Transformer(DiT,Diffusion Transformers)并结合旋转位置嵌入。训练数据规模达327B tokens时,其在LM1B数据集上的困惑度(PPL)≤23.00,接近自回归 Transformer 的20.86(327B tokens时为20.86)。
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
以下是关键性能对比表:
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
泛化能力:MDLM在零样本困惑度上表现优于SEDD,在PTB、Wikitext、LM1B等数据集上表现出色,有时甚至优于自回归模型(如Lambada和科学论文数据集),得益于其基于解掩盖的目标函数的鲁棒性。
以下是零样本困惑度的对比:
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
相关工作:MDLM与D3PM(Score-Based Generative Modeling through Stochastic Differential Equations)和SEDD(Sequence-to-Sequence Denoising Diffusion)等模型相比,表现出更高的效率和性能。

Mercury:商业化dLLM的里程碑

模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
2025年2月26日,Inception Labs发布了Mercury Coder,宣称是首个商业化规模的dLLM。Inception Labs由斯坦福教授Stefano Ermon等创立,其团队包括MDLM论文作者Volodymyr Kuleshov,显示出研究与商业化的紧密联系。
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
性能亮点:Mercury Coder采用粗到细(coarse-to-fine)的生成方式,与自回归模型的左到右顺序生成不同。其生成速度可达每秒1000个token,在NVIDIA H100 GPU上比传统LLM快5-10倍。早期基准测试显示,其质量可与GPT-4o MiniClaude 3.5 Haiku相当,同时成本更低
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
应用场景:Mercury支持API访问和本地部署,适用于实时生成任务,如AI代理、复杂推理和可控生成。Inception Labs表示,dLLM可提升代理效率、减少幻觉(hallucinations)并支持非顺序token生成。
技术细节:Mercury的扩散模型从纯噪声开始,通过几次精炼步骤生成文本,减少了自回归模型所需的多次推理步骤。与传统自回归模型(如GPT系列)依赖从左到右的顺序生成不同,Mercury采用并行处理方式,显著减少了生成完整文本所需的推理步骤。

扩散语言模型的优势与争议

dLLM的并行生成能力显著降低了推理延迟和计算成本,这对实时应用(如聊天机器人、代码生成)尤为重要。MDLM的研究结果和Mercury的商业化表明,dLLM在速度和效率上具有潜力,但争议在于其长期质量和鲁棒性是否能持续超越自回归模型。
Mercury在速度和成本方面展现出显著优势,其声称比现有模型快10倍,尤其适合高并发场景,同时通过降低计算资源需求,有效减少了企业的部署成本。此外,Mercury还引入了支持非顺序生成和错误修正的新能力,这提升了模型的推理能力和可控性,为实际应用带来了更多可能性。
然而,Mercury在实际应用中的生成质量仍存在争议,尽管其在困惑度指标上接近自回归模型,但在连贯性和上下文理解等方面的表现仍需进一步验证。同时,关于其是否适用于所有任务,如长文生成和复杂对话,目前尚不明确,这需要更多的研究和实践来探索其适用性边界。

未来展望:新范式的可能性

扩散语言模型的崛起可能标志着LLM领域的新范式转变,其潜在影响包括:更快的用户体验,减少等待时间;更低的运营成本,扩大AI应用的普及;新型应用场景,如实时多模态任务(结合图像和文本)。
然而,当前证据仍需更多实际应用数据支持。Inception Labs的Mercury只是第一步,未来可能会有更多dLLM产品进入市场,竞争将推动技术进步。

文献:

Simple and Effective Masked Diffusion Language Models

Score-Based Generative Modeling through Stochastic Differential Equations

Sequence-to-Sequence Denoising Diffusion

图源:

Diffusion Models: A Comprehensive Survey of Methods and Applications

https://s-sahoo.com/mdlm/

https://www.inceptionlabs.ai/news

阅读更多:
扩散模型——生成式AI领域的热门,呈现从噪声到现实的魔法世界
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?

原文始发于微信公众号(安全极客):模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年3月12日21:19:09
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?https://cn-sec.com/archives/3834065.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息