随着市面上模型越来越多,自己想部署一套玩玩,但各种命名的后缀也让人逐渐眼花缭乱,这篇就尝试盘点梳理一下常见的后缀,看看不一样模型的名字都有啥区别。
类型1:主版本号标识
-
• GPT 3.5 → GPT 4: 表示重大改进,通常数字越大表示版本越新,通常能力有重大提升。 -
• 日期编码:比如 claude-3-5-sonnet-20241022 末尾日期表示2024年10月22日更新,通常来说会比原来好用一点。
类型2:表示参数规模
参数规模一定程度代表模型的"智商"水平,通常一个系列批次的模型参数越多模型能力越强(不同模型就完全不一定了,也和训练的质量密切相关),但需要更多计算资源。参数规模与推理速度成反比。
-
• B = Billion(十亿):如“70B”就表示模型有700亿参数(例:DeepSeek-R1-Distill-Llama-70B) -
• T = Trillion(万亿):如“1T”表示模型拥有1万亿参数(例:Google PaLM-2-1T) -
• Small/Base/Large:表示某一系列模型的不同参数规模,参数量只是相对的多少,类似于小杯、中杯、大杯,如:7B→13B→70B(例:deepseek-vl2-small)
推理硬件配置参考
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
类型3:功能定位
不同后缀代表模型的专项能力,选择合适的功能类型可提升任务表现3-5倍。
-
• Base:基础通用模型,能够处理绝大部分的NLP任务,如文本生成、机器翻译、问答等。通常也比较适用于二次的精调(例:Mistral-Small-24B-Base) -
• Instruct:通常专注于执行指令型的任务,确定性高,如查询解析、自动化工具、指令问答等(例:Qwen2.5-14B-Instruct-1M) -
• Chat:通常擅长于模拟人类之间的自然对话,更加自然,比如客服、聊天、多轮对话等(例:DeepSeek-Chat-32B) -
• Coder:擅长代码的生成、解释等等(例:Qwen2.5-Coder) -
• Math:擅长于数学方面的逻辑推理(例:Qwen2.5-Math)
类型4:标识技术类型
训练参数
-
• 4e1t:4个训练周期+1万亿token(例:Llama-3-8B-4e1t) -
• 1M:支持百万token上下文(例:Qwen2.5-14B-1M)
权重量化
权重量化是通过降低数值精度来压缩模型体积及推理开销的手段。如同将高清照片转换为压缩格式,在可接受的画质损失下大幅减小文件体积。可以让更大参数模型能在更低硬件设备上运行。通常后面的数字位数越高,意味着精度越高,硬件开销也越大,能力也越强。
-
• FP(浮点精度):保留完整小数精度,适合训练和高精度推理 -
• 常见类型:FP32 > BF16 > FP16 > FP8(精度递减) -
• INT(整数量化):通过缩放因子将权重转换为整数,牺牲精度换取效率,INT8 > INT4
大概参考,具体场景可能不一致:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
特殊技术标识
-
• GPTQ:针对LLM优化的后训练量化方法(例: Llama-2-7B-GPTQ
) -
• AWQ:激活感知权重量化(例: Qwen1.5-14B-AWQ
) -
• GGUF:优化推理格式,变成 GGUF 格式可以更快地被载入使用 -
• MoE:混合专家架构(例:Mixtral-8x7B) -
• Distill:知识蒸馏技术(例:DeepSeek-R1-Distill-Qwen-32B)
训练方法
-
• SFT:监督微调(例:Claude-3-70B-SFT) -
• RLHF:人类反馈强化学习(例:GPT-4-RLHF)
原文始发于微信公众号(hijackY):盘点各种大模型命名
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论