DeepSeek发布R1模型引全球人工智能热潮,其低成本高效率且率先开源。文章探讨它在市场、技术、资本等方面影响,以及为金融行业带来的机遇与挑战。
2025年1月20日,深度求索(以下简称“DeepSeek”)正式发布了DeepSeek-R1模型,同步发布R1模型研究论文并开源模型权重。在生成式人工智能市场沉寂近半年后,DeepSeek-R1再次引发了新一轮人工智能热潮。全球互联网DeepSeek应用搜索下载量暴增。在资本市场上,美股科技股快速下行,全球市值最大上市公司、人工智能明星企业英伟达股价一日暴跌近17%,市值蒸发近6000亿美元。
DeepSeek本身也是大语言模型(LLM)的一种,分析其对金融行业的影响实际上与GPT等先前模型别无二致。然而DeepSeek“低成本高效率”以及在一众能力相等模型中率先开源的特质,对人工智能的资本支出以及在其他行业的更广泛应用都产生了深远影响,从这个维度单独研究DeepSeek的启示与影响是十分必要的。
DeepSeek在发布R1模型前的一个月,即2024年12月26日,开源了新一代预训练混合专家(MoE)大模型DeepSeek-V3,彼时引起的讨论主要集中在人工智能领域和开源社区。引入链式推理(Chainof-Thought,CoT),着重于强化推理与逻辑能力的DeepSeek-R1展现了对问题的精准理解与强大的思考能力,热度迅速在全球C端市场引爆。2025年1月27日,面向C端的DeepSeek移动应用在IOS美区下载榜上超越ChatGPT,登顶中国和美国的AppStore免费应用榜。SimilarWeb的数据显示,1月DeepSeek网站访问量环比增长22倍,月访问量达2.78亿次。DeepSeek在Google上的搜索量现已达到ChatGPT在美国搜索量的39%,以及ChatGPT全球相对搜索量的21%。根据QusetMobile发布的最新数据,在DeepSeek-R1发布的一周后,其活跃用户数据首次超越中国活跃用户最多的大模型——豆包。2月1日,DeepSeek中国活跃用户突破3000万。
DeepSeek-R1大火的一个重要原因就是增强推理能力后的能力跃迁,“思考过程比答案还要精准”“水平可以与专业人士媲美”是用户对DeepSeek的普遍看法。在DeepSeek官方发布的技术报告中,DeepSeek-R1对标的是OpenAI在2024年12月17日发布的最新推理模型o1,其在多个测试集上的数据达到甚至超越了o1模型。比起测试集数据,由用户进行对比测试形成的机器人竞技场排行榜(Chatbot Arena LLM Leaderboard)更客观公正,DeepSeek的得分也超过了o1。在2月9日最新的机器人竞技场排名中,DeepSeek-R1得分位于全球大模型第二名,超过o1,低于谷歌发布的Gemini(见表1)。值得一提的是,DeepSeek-R1是榜单前十中唯一的开源模型,同时DeepSeek-R1面向所有C端用户免费提供,相比之下,如果想使用o1模型,需要开通ChatGPT Plus会员使用,价格为20美元/月。
表1 机器人竞技场模型排名(截至2025年2月20日)
与一年前“百模大战”中,各家模型厂商均标榜其模型的能力达到甚至超越ChatGPT不同,DeepSeek-R1经受住了C端和B端以及专业用户的多重考验。R1发布当天,多家全球科技公司均开展了模型测试和复现工作。据外媒报道,Meta内部组织了多个团队复现R1,并对其开发的LLaMA模型进行升级。Meta CEO扎克伯格在电话会上表示,DeepSeek做了一些“新奇的事情”,公司“仍在消化DeepSeek的一些成果”,团队希望能够将其中一些进步应用到自己的AI项目中。
全球人工智能科技公司也在第一时间上线部署了DeepSeek-V3、R1模型。全球最大的AI搜索引擎Perplexity第一时间上线了R1模型,采用本地化部署的方案。其创始人在接受媒体采访时表示R1模型可以让Perplexity以同样的成本完成更多工作。云服务方面,令人意外的是,国际市场的反应更快,微软云在1月29日宣布将DeepSeek-R1上线Azure模型库,并准备将DeepSeek-R1引入Windows系统的Copilot。亚马逊、谷歌云服务在两天后也上线了DeepSeek-R1模型。2月,阿里云、腾讯云以及三大运营商陆续接入DeepSeek系列模型。作为最直接的竞争对手,OpenAI选择提前放出了在2024年12月发布会中预发布的o3系列模型,包含快速进行进阶推理的o3-mini和更加擅长编程的o3-mini-high,大幅提前于此前公布的路线图,同时o3系列两款模型还同时向付费用户开放网页版使用权限。
资本市场的反应更加激烈。当地时间2025年1月27日,美股科技股开盘后出现大幅下跌,被称为AI时代的“基础设施”的GPU制造商英伟达(NVIDIA)当日股价暴跌约17%,创下美股单日市值蒸发记录。博通公司股价下跌17%,超威半导体公司(AMD)股价下跌6%,微软股价下跌2%。GPU产业链上,台积电下跌11.7%、ASML下跌5.7%。DeepSeek使用更少的成本、更短的时间达到了花费是其十倍的大模型的输出效果,引爆了资本市场一直以来对人工智能相关资本开支以及资本回报率的质疑。
在大语言模型领域,“规模化法则(Scaling Law)”是金科玉律般的存在。“规模化法则”是指随着模型参数数量的增加,语言模型的性能通常会以幂律方式改善。如果将模型规模扩大若干倍,其性能提升虽然呈现递减边际效应,但依然可以预测性地获得更低的困惑度和更好的生成质量。在GPT-4以前历代的GPT更新中,参数数量的不断扩展也被认为是模型性能提升的重要手段,GPT-3拥有1750亿参数,据传GPT-4的参数量达到了1.8万亿。
巨大的参数对算力提出了更高需求,大型科技公司纷纷投入数十亿美元的资本支出用以支持模型训练和推理,支持大语言模型训练的GPU也因此成为全球最紧缺的“战略资源”。大型科技公司将自身拥有的GPU数量作为人工智能竞争的重要指标,马斯克成立的x.AI还在美国构建了全球最大的由10万个NVIDIA Hopper GPU组成的Colossus超级计算机集群。根据斯坦福大学李飞飞团队发布的《2024年人工智能指数报告》,GPT-4的训练成本超过7800万美元。而DeepSeek官方公布的数据中,DeepSeek-V3的训练成本仅为557万美元,是GPT-4的7.1%。
在DeepSeek-V3的技术文档中,DeepSeek这样描述计算成本:“最后,我们再次强调DeepSeek-V3的训练成本。通过对算法、架构和硬件的优化协同设计实现了更加经济的效果。在预训练阶段,训练DeepSeek-V3每万亿token只需要18万个H800GPU小时,即在我们2048个H800GPU集群上训练3.7天。因此,我们的预训练阶段在不到两个月的时间里就完成了,花费了266万个GPU小时。此外还有11万GPU小时用于上下文长度扩展和5千GPU小时用于后训练,DeepSeek-V3的完整训练成本仅为278万GPU小时。假设H800GPU的租赁价格为2美元每GPU小时,我们全部的训练成本为557万美元(不包含先前对算法、架构、数据进行实验的费用)。”
DeepSeek是如何做到的呢?一是对数据处理方式的改进。DeepSeek-V3集成了多头潜在注意力(Multi-Head Latent Attention,MLA),在推理过程中能够高效处理海量数据,并使用的显存约为同类技术的一半。MLA降低了每次查询所需的KV缓存量,从而减少了所需硬件资源及相应成本。二是DeepSeek-V3采用了混合专家(Mixture-of-Experts,MoE)模型架构。MoE架构首次在OpenAI发布的GPT-4中应用,此后成为下一代LLM训练的主要架构。在MoE模型中,系统被划分为多个称为“专家”的模块,在推理过程中,一个路由模型会选择部分专家来预测下一个token。这避免了每次推理中进行全模型计算。DeepSeek-V3的技术文档中提到,在每次函数调用或向前传播时会调用的参数量为370亿(37B)。三是DeepSeek-V3首次实现了在低位精度(FP8)下进行超大规模模型训练,并通过通信、负载均衡优化确保了在大规模分布式训练中能够最大化利用算力。四是在DeepSeek-R1的训练中,引入了一种称为群组相对策略优化(Group Relative Policy Optimization,GRPO)的强化学习环节(RL)优化算法。在训练R1模型时,通过GRPO实现了对生成结果的自动化评估和强化学习,相较于传统强化学习中直接偏好优化(DPO)依靠人工调整模型输出方向,在很大程度上减少了对昂贵人工标注数据的依赖。
DeepSeek对算力市场和人工智能资本投入的影响
DeepSeek引发的科技地震很大程度上也是资本市场对科技公司巨额资本支出质疑的爆发。此前,亚马逊、微软、谷歌等云服务厂商纷纷表示2025年将持续增大人工智能(主要是GPU)采购支出。而产业界对当前生成式人工智能究竟能产生多大价值始终存在争议。以高盛为代表的看多派认为生成式人工智能将拉动10%以上的GDP增长,而2024年诺贝尔经济学奖获得者阿西莫格鲁(Acemoglu)则认为人工智能带来的生产力增长仅为0.5%。
“高性价比”一直是DeepSeek进行模型训练的重点,早在2024年DeepSeek发布V2模型之际,就以GPT-4百分之一的价格引发了年中“AI价格战”。
经济学中的杰文斯悖论(Jevons paradox)指技术进步提高了使用资源的效率,但因为成本下降导致需求增加,结果导致资源消耗的速度上升,而非减少。从实际效果上看也确实如此,在DeepSeek官网的API定价中DeepSeekR1的输入定价为0.6美元/百万token,是o1-mini的20%,o1的4%;输出价格为2.2美元/百万token,是o1-mini的18%,o1的3.6%(见图1)。面向开发者的超低价格以及对C端用户免费的策略在春节期间吸引了大量用户使用其API和客户端,DeepSeek官网应用持续因线路繁忙无法使用,国内DeepSeek的讨论度也远超2023年初ChatGPT发布之时。从这个意义上说,DeepSeek开启了国内普通用户的人工智能“启蒙”时代。
DeepSeek重新分配了人工智能产业链中的价值,也为人工智能提供了一条可持续发展之路。在应用端,企业需要在技术创新和商业可持续间找到一条平衡道路,不一定会选择“最好的模型”,而是要选择“更经济、合适”的模型。
从长远看,人们对生成式人工智能的期待在于早日实现通用人工智能(Artificial General Intelligence,AGI)。通过在实体产业中应用生成式人工智能提高生产效率,乃至AIforScience(在诸如小分子药物研发、合成材料等易出现生产力飞跃领域的人工智能应用),是资本市场给出人工智能如此高估值的核心原因。材料学和生物学一直是人工智能应用的前沿领域,在1月美国政府与OpenAI、软银、甲骨文共同发布的星际之门(Stargate)项目中明确提到要使用人工智能提供个性化医疗,用以研发mRNA疫苗及定制癌症疫苗。
随着大语言模型能力的进步,其应用在实际生产中的场景已开始逐渐增多,对生产关系的影响也开始显现。微软表示由于LLM提高了软件工程师的工作效率,微软在2025年招聘中将不再新招软件工程师。瑞银正在使用人工智能通过即时信贷模式为中小企业提供贷款。汇丰和纽约梅隆银行将生成式人工智能应用于反欺诈领域。
“规模化法则”依旧是提高大模型性能的最有效方法。DeepSeek实现的是更高效率,而非挑战“规模化法则”。因此在未来一段时间内,市场对算力的需求将依旧保持强劲,科技公司的资本投入也将持续。在经历暴跌后,英伟达股价也开始回调,至当地时间2月10日收盘,英伟达股价为133.5美元,较1月27日上涨12.8%。
开源闭源一直是生成式人工智能发展争论的焦点问题。科技厂商方面,开源阵营主要有Meta(LLaMA)、xAI(Grok)、阿里(千问)、DeepSeek;闭源阵营则包括OpenAI(GPT)、Google(Gemini)、Anthropic(Claude)、字节跳动(豆包)、智谱(GLM)等企业。OpenAI在成立之初,坚持开源路线,但自发布ChatGPT以来,OpenAI就开始了闭源道路,被戏称为“CloseAI”。在发布o3mini时,OpenAI CEO Sam Altman在线上回复问题时首次承认OpenAI过去在开源方面一直站在“历史错误的一边”,并表示需要想出一个不同的开源策略。
DeepSeek在开源模型中使用了最“大方”的MIT许可协议,允许用户自由修改、定制、分发以及商业化使用DeepSeek源码,并明确开发者可以进行模型蒸馏。在Github的R1项目页面中,DeepSeek还放出了使用R1蒸馏的基于LLaMA、Qwen等开源模型的小模型,我们在实测中发现相较于原模型,提供CoT的模型输出能力明显强于原模型。
与其说是技术路线之争,更不如说开源闭源是人工智能公司盈利的商业模式之争。闭源模型通过对个人客户实行会员制收费、对开发者或中小企业API进行收费以及与大型集团合作开发等模式盈利。开源模型则对开发者更加友好,通过免费吸引更多开发者和用户参与到自主构建的人工智能生态中,未来通过云服务等方式获取利益。
此前,开源阵营一度陷入沉寂。相较闭源的盈利模式,开源模型在商业盈利方面周期更长且更具有不确定性,尤其是初创公司都难以承受来自投资人的压力。国内最早开展LLM研究的智谱AI在早年也坚持开源路线,其在开源社区发布的GLM-3模型一度是中文开源LLM的明星项目。不过随着2024年“AI价格战”的打响,越来越多的开源AI模型开始退场,能力也逐渐与闭源模型拉开差距,一般认为,闭源模型相较开源模型有12个月左右的技术领先。DeepSeek的出现给开源社区注入了一针“强心剂”,大大缩短了开源和闭源模型间的差距。英伟达高级科学家Jim Fan这样评价:“我们生活在这样一个时代:由非美国公司保持OpenAI最初的使命——做真正开放的前沿研究、为所有人赋能。这似乎讲不通,但戏剧性的往往最有可能发生。”截至2月10日,DeepSeekV3和R1项目分别在Github上收获了72k和80k的星标,R1模型在Hugging Face的下载量达294万。
加快生成式人工智能应用部署,推动人力资本向智能化时代转型升级。部分大型金融机构已开始应用生成式人工智能应用,主要集中在文本内容摘要、辅助文字生成修改、企业知识库等领域。然而,因为本地算力限制、企业内部培训不足、应用场景集中在后台管理部门等原因,金融行业生成式人工智能应用使用比例仍处在较低水平,尤其是占金融从业人员比重最大的银行、保险业应用严重不足。应抓住DeepSeek的新系列模型降低模型推理成本的机遇,加快部署生成式人工智能应用,增强对一线员工的人工智能提示词、使用场景等方面的培训,推动金融企业人力资源转型升级,培养适应于智能时代的金融人才。
由内部赋能扩展至面客应用,提升行业劳动生产率。当前,金融机构主要应用生成式人工智能的场景集中在内部员工赋能,并无面客场景。面客是检验生成式人工智能价值创造、提升行业劳动生产率的“考场”。DeepSeek推理的价格已处于大规模面客应用的成本可控范围内,推理能力结合检索增强生成(RAG)等技术也可有效防止大模型幻觉等问题。因此可尽快推出面向B端客户的人工智能基础设施(AI as a Service)或面向C端客户的智能客服、智能客户关系管理、线上营销等服务。
以金融信创工程为契机,共同构建国产算力生态圈。2025年1月13日,拜登政府发布《先进人工智能技术负责任传播的监管框架》。进一步限制了从美国到世界各地的尖端人工智能技术的出口。未来,我国全行业应用人工智能都将受到算力限制。多家国产算力已实现DeepSeek系列模型适配,目前国产算力部署的主要问题在于没有形成类似于英伟达CUDA的完整生态。CUDA经历10余年的发展,在全球人工智能领域几乎是所有开发者都在使用的“底层基础设施”,也是英伟达“最深的护城河”。金融企业作为人工智能应用的前沿行业,应发挥构建国产算力生态需求侧“头雁”作用,效仿CUDA建立之初的经验。在CUDA推广初期,英伟达广泛派遣工程师前往科研机构、企业帮助部署、共同解决CUDA部署中存在的问题。建立国产算力的底层软件,亦需要算力厂商、大模型厂商与应用企业一道的合作构建。
建设金融行业算力基础设施,保障金融数据安全,提升算力使用效率。相较大型金融机构,中小金融机构科技研发支出较少,缺乏生成式人工智能应用工具研发和本地化部署能力。不少中小金融机构员工通过使用云计算厂商API或人工智能厂商应用的方式获取相关服务,敏感金融数据上传至云服务器,形成了金融数据安全隐患。另一方面,人工智能数据中心建设成本高昂,大型金融机构本地部署、重复开发的模式也导致算力和研发资源使用相对低效。可效仿“东数西算”和“超算中心”模式,由金融机构共同出资建立行业算力基础设施,各机构按需付费使用,提升算力使用和研发效率。
智探AI应用交流群,有兴趣的朋友请添加群主:cosmic-walker 备注:公司+姓名+职务+AI入群。
原文始发于微信公众号(智探AI应用):DeepSeek对生成式AI应用的影响与启示
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
点赞
https://cn-sec.com/archives/3936036.html
复制链接
复制链接
-
左青龙
- 微信扫一扫
-
-
右白虎
- 微信扫一扫
-
评论