2024年政府工作报告提出深化大数据、人工智能等研发应用,开展“人工智能+”行动,如何推进大模型在各行业、各场景的应用落地成为各方关注的重点,对大模型的需求也达到了空前的高度。在美方严格限制对华芯片输出的情况下,DeepSeek能够以较低的成本比肩甚至超越世界顶尖级别的模型性能,通过大量的技术创新,在节约显存和计算资源方面表现出色,DeepSeek的开源也极大地促进了AI技术的普惠化,增强了我国在全球人工智能领域的影响力和话语权。此文旨在针对各方感兴趣的问题对DeepSeek的能力和优势进行解读,并对其在大模型应用侧的影响进行简要分析,供各方参考。
DeepSeek(深度求索)是一家专注于人工智能技术的中国公司,致力于大模型及相关应用工具的研发。
-
全称:杭州深度求索人工智能基础技术研究有限公司
-
成立时间:2023年7月17日
-
总部地点:浙江省杭州市
-
注册资本:1000万元人民币
-
母公司:幻方量化,知名私募量化投资公司
-
创始人:梁文峰,幻方量化的联合创始人
-
融资情况:半年内完成数亿元融资,投资方包括红杉资本、高瓴资本等
深度求索创始团队已在人工智能领域深耕多年,在2016年左右的大数据/机器学习的浪潮中即开始为幻方量化提供AI能力支撑,在该领域具备着丰富的积累。
DeepSeek备受关注的是DeepSeek-V3(通用模型)、DeepSeek-R1(推理模型)两款MoE大模型,R1在V3基础上开发,两者参数量均为671B;在各项benchmark中均达到国际先进水平,在数学、代码开发等方面的能力更是超过OpenAI同类型产品。其它产品还有Deepseek-coder、Deepseek-math、Janus-Pro等,适用于编码、数学、文生图等场景。
DeepSeek-V3:
DeepSeek-V3为快速响应模型,基于概率预测给出答案。在通用NLP任务(如MMLU、GPQA)中表现优异,适合内容创作、长文本生成等场景,推理成本相较于R1更底。
DeepSeek-R1:
DeepSeek-R1为慢速思考模型,基于思维链推导最终生成答案,推导过程透明且具备一定参考意义。在推理任务中表现比V3更为突出,在AIME2024、MATH-500等测试中超越了OpenAI的o1模型,在科研、数据分析、代码生成等复杂的设计、推理密集型场景具备广阔的应用空间;推理成本相较于V3高;此外还开源1.5B-70B蒸馏模型,适合轻量化部署,这些轻量化模型也具备不错的性能,比肩甚至超越OpenAI-o1-mini等轻量化模型。
除了国际领先的性能外,DeepSeek-V3/R1两款大模型有着诸多架构及技术创新,形成了诸多优势,引起国内外关注,可总结为以下三点。
训练成本低、效率高
和国内外同类型产品相比,DeepSeek的训练成本大幅降低,V3训练成本仅为557.6万美元,仅使用2048张H800 GPU卡,相较Llama3节省了80%的GPU资源
这得益于模型研发团队的技术创新以及对AI领域前沿技术的实现与整合:
-
HAI-LLM训练框架:DeepSeek自研训练框架,支持数据并行、张量并行、流水线并行、序列并行等多种并行方式,使训练集群能够更加充分的利用算力资源,增强了训练集群的可扩展性。针对荧火集群的特性,HAI-LLM自研了高性能算子(haiscale),能够极大优化大模型训练的显存效率和计算效率。
-
FP8混合精度训练:DeepSeek首次在超大规模模型上成功应用了FP8混合精度训练技术,通过块量化和高精度累加技术,显著降低了GPU的显存占用。
-
DualPipe算法:通过重叠计算和通信阶段、采用双向流水线调度以及优化跨节点通信,该算法显著提高了大规模分布式训练的效率,降低了通信开销,并支持模型的进一步扩展。
-
强化学习训练:DeepSeek-R1系列模型通过大规模强化学习显著提升了推理能力,无需依赖传统的监督微调(SFT)作为初步步骤,而是让模型通过试错和奖励机制自我演化,从而发展出强大的推理能力。强化学习的创新应用减少了训练数据量的需求,降低了训练用数据的获取成本。
-
无辅助损失负载均衡策略:引入了无辅助损失的负载均衡策略,动态调整架构中的专家负载,提高集群效率。
推理成本低、效率高
和国内外同类型产品相比,DeepSeek大模型也有着较低的使用成本,官方公布的DeepSeek-V3的API服务每百万输出tokens 8元,DeepSeek-R1的API服务每百万输出tokens 16 元,约为OpenAI同类型大模型(o1)的1/25。这得益于以下技术的应用创新:
-
基于MoE的无辅助损失负载均衡:MoE架构使模型每次推理仅需激活约1/10的专家网络,而不需要激活所有参数,节省了推理算力消耗,无辅助损失负载均衡策略也能在推理过程中平衡MoE架构中的专家负载,提高整体效率。
-
多头潜在注意力(MLA):通过对注意力机制中的键和值进行低秩联合压缩,使GPU显存的利用更加充分,减少了推理过程中的显存占用。
-
多Token预测(MTP):模型在每次推理时同时预测多个后续词元(token),而不是逐个预测,在生成回答更连贯的同时也大大提升了推理速度。
普惠性强、自主可控
DeepSeek-V3、DeepSeek-R1均为开源、国产化大模型,R1更是支持知识蒸馏,并开源1.5B-70B蒸馏版本的小模型;从目前的各方实践来看,对信创环境兼容良好。
-
全面开源:DeepSeek-V3/DeepSeek-R1均为基于MIT协议开源模型参数权重和推理代码,开发者可自由使用、修改或商用。
-
自主可控:目前各方面性能最好的国产开源大模型,满足自主可控的要求。通过各方实践来看,国产显卡、一体机等AI硬件设备足以支撑其本地化部署并有着不错的效果。同国内大模型生态切合度较高,DeepSeek在短时间内已吸引了大量的合作伙伴,包括华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、浪潮信息、中科曙光、神州数码、新华三、联想等芯片及硬件设备厂商,各大软件及云服务厂商也纷纷推出兼容DeepSeek的大模型产品及服务。DeepSeek的出现将极大地促进我国AI生态的发展,实现真正意义上的自主可控。
-
开放的知识蒸馏能力:DeepSeek-R1开放知识蒸馏能力,可以将其能力迁移到更小型的模型中,以更低的成本、更灵活的部署方式应用落地;也可直接使用DS开源的1.5B-70B蒸馏模型,这些蒸馏模型对硬件设备的需求较低,但在推理方面仍具备不错的性能,对比o1-mini具备优势。
DeepSeek-V3/DeepSeek-R1大模型具备着国际领先的性能,以及较低的训推成本、开源、国产等诸多优势,对大模型应用侧实践有着诸多潜在影响,下面从算力、数据、算法、应用四个层面进行阐述。
算力层面:
AI算力成本将有望继续降低,更多的企业和业务团队将具备落地AI大模型应用的能力。
成本降低、对高端算力的需求减少:短期来看DeepSeek的推广普及将减少对国外高端硬件的依赖,有利于国产AI硬件的发展。企业能以更低的成本建设自主可控的国产AI算力平台。
AI算力架构将更加多元化:DeepSeek训推效能较高,且支持知识蒸馏至更小的模型,使得在一些应用场景可以尝试考虑本地部署、边缘部署、一体机等多元化解决方案,而不必依赖集约化的智算中心,部署更灵活。
数据层面:
可通过DeepSeek构建合成数据集,DeepSeek模型也适合被应用与数据相关的工作场景。
可通过DeepSeek构筑高质量合成数据集:通过有针对性的准备问题,DeepSeek-R1输出推理轨迹和答案构筑合成数据集。可用于其他大模型的有监督微调,提升推理能力。参考李飞飞团队2月6号推出的s1K数据集。
可参考DeepSeek强化学习的训练模式,降低数据标注的需求:DeepSeek-R1系列模型通过大规模强化学习显著提升了推理能力,无需依赖传统的监督微调(SFT)作为初步步骤,而是让模型通过试错和奖励机制自我演化。这些创新实践可供大模型训练方参考,通过高质量的小型数据集结合强化学习的模式来降低对数据标注的需求。
DeepSeek将更加适用于数据密集型场景:相较于现有的开源模型,DeepSeek在数学、代码方面的突出表现使其在数据管理、分析、开发等方面具备更高的潜力,提升企业数据分析应用能力。
算法层面:
企业可以通过较低的成本引入DeepSeek,并通过DeepSeek优化原有的行业大模型。
可尝试引入DeepSeek-V3/DeepSeek-R1:可考虑以较低的成本引入DeepSeek-V3/DeepSeek-R1,在一些场景中进行试点,验证其实际效果后进行推广。
可通过知识蒸馏对原有的行业大模型进行优化:对于一些已具备行业大模型的企业可尝试利用DeepSeek-R1提升原有大模型的推理能力,DeepSeek-R1开放知识蒸馏能力,可以将其能力迁移到其他模型中;2月7日,吉利汽车宣布其自研的星睿大模型与DeepSeek-R1已完成深度融合,将通过DeepSeek-R1对原有模型进行蒸馏训练。
应用层面:
企业可通过更低的成本构筑并使用大模型应用;考虑到其在数学、代码等领域的顶尖表现,推理密集型场景将更多地获益于DeepSeek的应用落地;推理效能的提升也将使大模型的端侧应用将更加普遍。
大模型应用的成本将继续降低:DeepSeek使国产化大模型应用生态更加完备,大模型应用的研发和使用成本将进一步降低。
推理密集型场景的大模型应用效果将进一步优化:DeepSeek在各类通用场景中均有良好的表现,科研、数据分析、代码生成等推理密集型场景中,可通过DeepSeek-R1突出的推理能力得到进一步优化,ChatBI、代码助手等应用有望通过引入DeepSeek得到生成能力的提升。
端侧大模型应用将更加普遍:DeepSeek开放知识蒸馏能力,且蒸馏模型具备不错的性能,这些小参数量模型为端侧应用和轻量化大模型应用提供了更大的发展空间。
由于时间仓促,文章如有不足之处欢迎探讨!
参考资料:
https://arxiv.org/pdf/2412.19437
https://arxiv.org/pdf/2501.12948
https://arxiv.org/pdf/2405.04434
https://github.com/deepseek-ai
中国通信标准化协会大数据技术标准推进委员会(CCSA TC601,简称:数标委/BDC),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。欢迎加入我们的行列!
入会咨询:白老师 13520285502
原文始发于微信公众号(大数据技术标准推进委员会):DeepSeek能力解读&应用侧影响分析
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论