这些其实思考很久了,一直没时间写,现在看可能有些也不赶趟,有的也马后炮也谈不上预测,但还是决定记录下。
首先是Deepseek为什么能成功?
总结一下就是聚集了通常认为的小公司的各种优点,但又很有钱,有不输于大公司的资金做研发投入。
当然这里也不是说要简单归因,只是从我的视角进行对比,觉得主要是以下几点可能是领先其他一众公司的主要原因。
1.专注:
不搞花里胡哨的,基本只专注于基础底层模型的研发,而且从现在的成果看,重点也是在做文本方面的生成,其他视频语音图像之类的,不能说没有,但不像其他厂商那么多。而且,基本很少做上层应用的开发。
从一个侧面看,到现在app也只有简单的聊天功能,甚至爆火的初期连个简单的联网搜索功能都没有,真可谓朴素。
对比其他家,不管是大厂小厂,各种功能全面开花。又是语音又是图像视频的,甚至还有硬件,花里胡哨,一边要搞底层模型能力的突破,一边又在搞各种花里胡哨的产品应用,应用的复杂度,再叠加内部团队的复杂程度,会对管理能力提出很大的挑战。
但这个事大家都知道,复杂度高的结果,绝大部分情况就是引入大量草台班子,最终的结果也是有目共睹。
其实也不难理解,一种是上下一心攻克难题,另一种是各种团队各有各的算盘明争暗斗抢资源,高下立判。
2.有钱:
这点可能是成功的最重要的因素之一。
由于deepseek脱胎于国内知名量化基金公司,而且每年业绩稳定,所以有大量现金可投入研发,也是国内少有的很早就布局,自主拥有超过万卡平台的公司。可以说,有钱任性就是做任何事的底气。而且有钱不用看各种投资人的脸色,可以大胆试错,不受任何制约,也不用费劲心思找钱,能够省下很多精力,也是能够专注做研发的本钱。同时也不会急功近利去着急变现,或者追逐其他玩家,让自己动作变形。
3.创始人懂行,扁平管理:
没有大公司那种复杂的层级,直接创始人上手亲自管理,效率会高不止一点点。需要什么资源,直接老板自己就能拍板,而且老板本身也很懂行,也是业界大牛,能给予团队明确的发展方向,对路线进行科学的规划,又不容易被下属瞎忽悠,造成不必要的浪费和内耗。
上过班的都知道,很多公司之所以加班严重,其实多半不是真正在做的有效果工作,大部分都是无用功,要么是因为领导瞎指挥,要么是各团队明争暗斗扯皮,要么是复杂的流程和沟通协调,各种在过程中的消耗,可以说是公司越大越严重。
4.小公司没有包袱,也分得清主次:
当你的资源没那么丰富,手里的牌没那么多时,出牌的顺序就很重要。如果说专注是集中精力做好一件事,那么分主次就是知道先做什么后做什么了,如果面面俱到,什么都想做,最终分散精力做出来的可能什么都不是。
这点其实也需要创始人懂行,有前瞻性,只要技术方向没有太大问题,有效去攻克重点的难题,可以很快追平技术差距。
这也需要创始人有很高的决策水平,比如,先搞基础训练质量的提升,还是先做安全对齐,先做模型研发,还是先做产品…这都是要决策的事,而且小公司不需要那么多包袱,不需要优先考虑太多像社会影响,成功手段等等。
比如安全性这点,网传deepseek的模型比其他模型要更容易越狱,输出一些不那么合适的内容。
这虽说是个瑕疵,但比起基础的模型能力,对齐社会规范,其实并不是一个优先要解决的问题。对齐是需要成本的,也会影响模型的能力,虽说是一个需要解决的问题,但优先级并不是那么高。
而很多大公司,天天思考的是怎么合规怎么对齐,最终模型能力一塌糊涂。一个上不了台面的产品,天天想着合规,这就是很多大公司的弊病,不求有功,但求无过。
在这个问题上,国外很多公司也很严重,要政治正确,要法律约束,不然就是口诛笔伐舆论危机。
但速度和质量往往不可兼得,包袱越重跑的越慢,后续可能也是意识到了这点,比如Grok的模型现在彻底放飞,甚至有专门的nsfw模式,可能也是后续为什么能快速提升模型能力的原因之一。
还有比如要不要很早就着手做模型应用。一直在关注大模型发展的朋友会发现,模型进步的速度,其实是快于模型应用的发展的。很多人怕错过风口,很早期就杀入去做应用,一种基于模型能力做应用,但前期模型能力跟不上,效果不好或者成本太高,似乎除了AI编程方向,其他杀手级的应用并不多。另一类是去做模型相关生态的补充,比如一些开发框架(langchain之类的),但后续模型自身的一些能力比如mcp的支持就已经能实现了这些工具的能力,也逐渐失去了追捧。所以过早去做各种应用,目前看成功的公司并不多,deepseek也显然没有掉入这个急功近利的陷阱。
5.开源策略:
在软件这个领域,一个众所周知的现象就是开源的软件如果做的好,基本对闭源的软件都是降维打击。就比如Linux,k8s等等,尤其是物美价廉的产品,通常都能引起病毒式传播。
而且这一策略,对于大模型这个赛道的后来者,可以说是一招非常厉害的策略,以至于OpenAI后,似乎大多数这个领域的玩家都走了开源策略,为什么厉害,这里稍展开一下。
想要理解这个手段,就可以先思考这个问题,为什么花这么多钱训练出来的模型,要开源出来免费给大家使用?
一方面,其实是和各种互联网平台之间的补贴花大价钱补贴吸引用户有异曲同工之处。在AI这个赛道,已经有国外的各种玩家获得了先发优势。作为后来者,如何才能与之竞争,价格战永远都不过时,谁能拒绝一个效果相差不大,但又便宜好用的产品呢。每月500刀,谁用谁韭菜,免费下载免费用,即便效果差那么一丢丢人们也会觉得香。结果也可知,deepseek直接引发了病毒式传播,甚至倒逼OpenAI等先发玩家也免费开放了部分服务。
而且虽说开源,其实也并没有开放所有技术细节,只是把最终训练好的模型权重和一些推理代码进行了公开。但模型的细节,比如如何进行的训练,用了什么训练集,大家是无法知道的,而这些核心的技术壁垒也得到了很好的保留。
相应的,免费也并不是所有的服务,你在聊天框用的好,想要提高生产力是不是得用API,这得要钱。想要自行部署,这可以给你提供服务与合作。部署完想要效果更好,可以帮你精调,这也可以收费。只要你成为我的用户,后续就有一系列可以赚钱的机会。
当然,还有另一个更牛逼的作用,后面会提到,这里先埋个伏笔。
Deepseek成为黑马,AI下半场会如何发展?
首先,Deepseek收获巨大的流量和关注,从而更容易去赚钱(虽然人家本身就是一直盈利的),但后续能赚到的会远比之前的更多,最重要的是,赚的多,就可以把更多的资本投入到研发,继而继续提高产品能力,这样走向良性循环后,能让他们跑的越来快,把其他玩家都甩到身后。
再往后,也是前面提到的开源策略的另一个作用,就是就是引起其他厂商的裁军。
由于AI这个领域也算是个资本密集型行业了,想要训练出一个好用的大模型,投入不亚于造车,造飞机。
当有玩家把这个游戏打通,再把成果开源出来,其他玩家是没有动力花着天量的金钱自己再摸索一遍的。
这就会形成分化,有理想且有钱的玩家可能会继续自主研发觉得自己有一天也能行。只有钱,没那么强烈信念自研的玩家也可能去跟进,主要是怕被技术卡脖子。没钱的,基本就微调套壳,甚至直接就拿来用了。对,只要是没钱的,不管有没有理想,基本就会放弃。
最终,简单预测下,这个市场上就形成了赢家通吃和技术垄断,到最后整个市场中能做基础模型研发的,可能就不超过十个玩家,剩下的都只能去做上层的应用。
目前看,已经有一定这样的趋势,很多之前所谓的AI几小龙几小虎,部分已经退出模型的研发了。甚至一些大厂,也是打不过就不如直接拿来用。
当然,再往下一步,有能力做模型研发的厂商也不会止步于此,会争夺其他的领域,就是生态和协议的建设。
当模型能力到达一定瓶颈,后续的就是与之相应的生态建设,比如现在出来的a2a、mcp,虽然现在很多国内外厂商都在积极拥抱这些协议,但这不一定是最终的生态,因为模型能力还有很多值得突破的空间,过早去布局生态,可能会赶不上变化。
不过一流的厂商,迟早都会去布局生态制定规则的,曾经有个说法不就是,一流玩家是制定规则的,放在这里也是适用,如果只依赖别人的框架别人的协议,很难有本质上的突破,自己的模型和训练也都要被别人的协议牵着鼻子走,也会很难受。
回顾这一系列过程也可以发现一些端倪,首先是deepseek爆火,然后是manus火出圈,现在到了MCP,实际上MCP去年就被提出,但今天引发关注,说明背后已经注意到了一定的趋势。
而且在中美对抗的背景下,MCP这类的协议可能演化出自主可控版,就看哪个玩家能有这个实力了。
原文始发于微信公众号(黑极客hijackY):从deepseek成功后到AI下半场的一些推演和随想
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论