大型语言模型(LLM)近年来在自然语言处理中占据主导地位,代表如DeepSeek系列、OpenAI的GPT系列和Anthropic的Claude系列。这些模型主要基于自回归(autoregressive)架构,逐个生成文本,每个token的生成依赖于前文。这种顺序生成方式在长序列生成中效率较低,尤其在实时应用和复杂推理任务中,存在显著的延迟和计算成本瓶颈。
扩散模型最初在图像生成领域崭露头角,如Stable Diffusion和DALL-E,通过从随机噪声逐步精炼生成高质量图像。其核心思想是学习一个反向过程,从高噪声状态逐步“去噪”到清晰数据。
对于文本这种离散数据,扩散模型的适应成为研究热点。扩散语言模型(dLLM)尝试将这一技术应用于文本生成,通常从掩盖或噪声化的文本序列开始,通过多次迭代生成最终结果。
MDLM(Masked Diffusion Language Models)是扩散语言模型的一种研究实现,由Subham Sekhar Sahoo等研究者提出,发表于2024年的NeurIPS会议《Simple and Effective Masked Diffusion Language Models》。其核心是基于掩盖的离散扩散模型,采用紧凑的Rao-Blackwellized目标函数,无需复杂的CTMC理论。
训练与性能:MDLM使用现代工程技术,包括关键的tokenization(如避免D3PM的8k小词汇表)、数值稳定的实现,采用Diffusion Transformer(DiT,Diffusion Transformers)并结合旋转位置嵌入。训练数据规模达327B tokens时,其在LM1B数据集上的困惑度(PPL)≤23.00,接近自回归 Transformer 的20.86(327B tokens时为20.86)。
泛化能力:MDLM在零样本困惑度上表现优于SEDD,在PTB、Wikitext、LM1B等数据集上表现出色,有时甚至优于自回归模型(如Lambada和科学论文数据集),得益于其基于解掩盖的目标函数的鲁棒性。
相关工作:MDLM与D3PM(Score-Based Generative Modeling through Stochastic Differential Equations)和SEDD(Sequence-to-Sequence Denoising Diffusion)等模型相比,表现出更高的效率和性能。
2025年2月26日,Inception Labs发布了Mercury Coder,宣称是首个商业化规模的dLLM。Inception Labs由斯坦福教授Stefano Ermon等创立,其团队包括MDLM论文作者Volodymyr Kuleshov,显示出研究与商业化的紧密联系。
性能亮点:Mercury Coder采用粗到细(coarse-to-fine)的生成方式,与自回归模型的左到右顺序生成不同。其生成速度可达每秒1000个token,在NVIDIA H100 GPU上比传统LLM快5-10倍。早期基准测试显示,其质量可与GPT-4o Mini和Claude 3.5 Haiku相当,同时成本更低。
应用场景:Mercury支持API访问和本地部署,适用于实时生成任务,如AI代理、复杂推理和可控生成。Inception Labs表示,dLLM可提升代理效率、减少幻觉(hallucinations)并支持非顺序token生成。
技术细节:Mercury的扩散模型从纯噪声开始,通过几次精炼步骤生成文本,减少了自回归模型所需的多次推理步骤。与传统自回归模型(如GPT系列)依赖从左到右的顺序生成不同,Mercury采用并行处理方式,显著减少了生成完整文本所需的推理步骤。
dLLM的并行生成能力显著降低了推理延迟和计算成本,这对实时应用(如聊天机器人、代码生成)尤为重要。MDLM的研究结果和Mercury的商业化表明,dLLM在速度和效率上具有潜力,但争议在于其长期质量和鲁棒性是否能持续超越自回归模型。
Mercury在速度和成本方面展现出显著优势,其声称比现有模型快10倍,尤其适合高并发场景,同时通过降低计算资源需求,有效减少了企业的部署成本。此外,Mercury还引入了支持非顺序生成和错误修正的新能力,这提升了模型的推理能力和可控性,为实际应用带来了更多可能性。
然而,Mercury在实际应用中的生成质量仍存在争议,尽管其在困惑度指标上接近自回归模型,但在连贯性和上下文理解等方面的表现仍需进一步验证。同时,关于其是否适用于所有任务,如长文生成和复杂对话,目前尚不明确,这需要更多的研究和实践来探索其适用性边界。
扩散语言模型的崛起可能标志着LLM领域的新范式转变,其潜在影响包括:更快的用户体验,减少等待时间;更低的运营成本,扩大AI应用的普及;新型应用场景,如实时多模态任务(结合图像和文本)。
然而,当前证据仍需更多实际应用数据支持。Inception Labs的Mercury只是第一步,未来可能会有更多dLLM产品进入市场,竞争将推动技术进步。
文献:
Simple and Effective Masked Diffusion Language Models
Score-Based Generative Modeling through Stochastic Differential Equations
Sequence-to-Sequence Denoising Diffusion
图源:
Diffusion Models: A Comprehensive Survey of Methods and Applications
https://s-sahoo.com/mdlm/
https://www.inceptionlabs.ai/news
原文始发于微信公众号(安全极客):模型研究|扩散模型,颠覆自回归LLM,一种LLM新范式崛起?
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
点赞
https://cn-sec.com/archives/3834065.html
复制链接
复制链接
-
左青龙
- 微信扫一扫
-
-
右白虎
- 微信扫一扫
-
评论