说人话,大模型领域黑话解读

admin 2024年4月19日02:51:31评论2 views字数 1658阅读5分31秒阅读模式

说人话,大模型领域黑话解读

大模型与相关技术在一年之内纷纷涌现,各种专业词汇、缩写词层出不穷,让很多人迷惑,也包括我。在经过一段时间的学习之后,对相关领域有了一定的了解。决定将目前的各个技术名词,缩写词进行一次人话翻译,让更多的人了解大模型里面的这些名词代表的技术到底是干嘛的。如果翻译的不好,请给您自己的解读,欢迎留言区见。如果有其他的词想让我帮忙翻译,也欢迎留言。

大模型,你可以理解为他就是一个打工人。替代人来打工的。这个打工人因为能力不同可以做很多之前人做的工作。比如设计师,客服,文员,基本上知识工作者他都能替代,顶多是没有创意。体力工作者他也能替代,但是需要一副好身体(机器人硬件)。

从头训练、自训练,从零训练大模型,你可以理解为他爸他妈自己在家教出来的小孩,没上过正经大学。学的好不好全看命。也就是他爸他妈的经济水平和智力水平。但是基本上上限有限,顶天到初中水平,再强也就中专毕业(因为他爸他妈肯定有专业性倾向)。

预训练基座模型,你可以理解为正经大学毕业,经过了三年,四年的正统教育,算是经历了全面的素质教育培养。不管后面用到哪,起码学起来还挺快。

开源大模型,你可以理解为大学毕业后自己找工作,会投简历说自己会啥,实际上懂行的老员工也知道怎么带。以后在哪里用,全靠老板安排。

闭源/商用大模型,你可以理解为自认为很强,不需要人带的员工。人家也不找工作,只做项目。

Llama, Qwen,这些大模型的名字,是开发者对他们的产品名字的缩写或者取名更直观的人话,你可以理解这是哪个学校毕业的。是谷歌大学,还是阿里大学或者百度大学。基本上学校会对人有一些加成光环,真正干活还是得看工作经验,所以还要看后面的参数量。也就是工资或者职级。

2.7B7B, 32B,这些带数字和B的词,就是参数量,在数字基础上乘以10亿。你可以理解为是2.7B是一个员工,要求的最低工资2700,。有些天赋好的2.7B也就可以干到7B,工资7000员工的活。反正他们的最低工资要求在这里,没这个待遇,他就不干活。比如32B,那就最少一台32000的电脑才能跑起来。差不多的理解。

FT/SFT微调/监督微调大模型,你可以理解为大学毕业生为了深造,又去上了两年研究生,有导师带着,系统的学习了相关领域的知识,甚至还做过某些项目,在某些领域可以发挥出比大学毕业生更强的水平。

RAG检索增强知识库,你可以理解为大学毕业生到了工作岗位,单位有一个师傅手把手教了一段时间,把师傅会的能力教给了这个大学毕业生。但是能力水平也就在这个师傅的上下浮动。除非这个大学毕业生天赋更高(参数更多,当然工资也要得高),名校毕业(预训练更好),

垂直训练大模型,你可以理解为定向培养的大专生,在自己的领域还是有点基础。但是天赋(参数量)一般来说不高,能力也就培养的方向上有积累。希望用来干别的事情基本没戏。

本地大模型,你可以理解为公司雇佣的,全职工作,使用公司的电脑办公的公司员工,基本上不会外泄公司机密(如果不受到网络攻击)。

云端大模型,你可以理解为公司雇佣的咨询顾问或者外包。自己带电脑办公。外不外泄公司机密全凭良心(他自己所属公司的意愿)

多模态大模型,你可以理解为一个模态是这个员工的一个技能,比如说读写文档,画图,做视频,翻译。多模态就是会多一个技能,比如能输入文字制作图片,简称文生图,就是一个2模态的大模型。

Agent智能体,你可以理解为他是好几个员工组成的小团队或者小部门。一个大模型做小团队leader,下面几个打杂小弟,一个agent智能体就是一个打杂小弟。通过多个员工的分工合作来完成一个具体的项目。

Prompt提示词,你可以理解为他拿到的员工手册和岗位职责,他基本上是按照员工手册和岗位职责干活。

推理,你可以理解为上级交代了一个任务给他,他会根据自己的知识和领导的要求去做事情。领导要求的越有逻辑,越明确,他就干的越好。

幻觉,你可以理解为他虽然不会,但是可以编,反正把事情糊弄过去就行了。如果被发现了他就道歉。

原文始发于微信公众号(开源安全研究院):说人话,大模型领域黑话解读

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年4月19日02:51:31
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   说人话,大模型领域黑话解读https://cn-sec.com/archives/2669472.html

发表评论

匿名网友 填写信息