盘点各种大模型命名

admin

139168
文章

114
评论

2025年2月19日18:56:07评论16 views字数 1702阅读5分40秒阅读模式

随着市面上模型越来越多，自己想部署一套玩玩，但各种命名的后缀也让人逐渐眼花缭乱，这篇就尝试盘点梳理一下常见的后缀，看看不一样模型的名字都有啥区别。

类型1：主版本号标识

• GPT 3.5 → GPT 4: 表示重大改进，通常数字越大表示版本越新，通常能力有重大提升。
• 日期编码：比如 claude-3-5-sonnet-20241022 末尾日期表示2024年10月22日更新，通常来说会比原来好用一点。

类型2：表示参数规模

参数规模一定程度代表模型的"智商"水平，通常一个系列批次的模型参数越多模型能力越强（不同模型就完全不一定了，也和训练的质量密切相关），但需要更多计算资源。参数规模与推理速度成反比。

• B = Billion（十亿）：如“70B”就表示模型有700亿参数（例：DeepSeek-R1-Distill-Llama-70B）
• T = Trillion（万亿）：如“1T”表示模型拥有1万亿参数（例：Google PaLM-2-1T）
• Small/Base/Large：表示某一系列模型的不同参数规模，参数量只是相对的多少，类似于小杯、中杯、大杯，如：7B→13B→70B（例：deepseek-vl2-small）

推理硬件配置参考

模型规模	显存需求	推荐配置	推理速度
7B	16GB	RTX 4090	50 token/s
13B	32GB	2*RTX 4090	30 token/s
70B	320GB	8*A100 80G	15 token/s
1T	分布式	TPU Pod集群	需定制

类型3：功能定位

不同后缀代表模型的专项能力，选择合适的功能类型可提升任务表现3-5倍。

• Base：基础通用模型，能够处理绝大部分的NLP任务，如文本生成、机器翻译、问答等。通常也比较适用于二次的精调（例：Mistral-Small-24B-Base）
• Instruct：通常专注于执行指令型的任务，确定性高，如查询解析、自动化工具、指令问答等（例：Qwen2.5-14B-Instruct-1M）
• Chat：通常擅长于模拟人类之间的自然对话，更加自然，比如客服、聊天、多轮对话等（例：DeepSeek-Chat-32B）
• Coder：擅长代码的生成、解释等等（例：Qwen2.5-Coder）
• Math：擅长于数学方面的逻辑推理（例：Qwen2.5-Math）

类型4：标识技术类型

训练参数

• 4e1t：4个训练周期+1万亿token（例：Llama-3-8B-4e1t）
• 1M：支持百万token上下文（例：Qwen2.5-14B-1M）

权重量化

权重量化是通过降低数值精度来压缩模型体积及推理开销的手段。如同将高清照片转换为压缩格式，在可接受的画质损失下大幅减小文件体积。可以让更大参数模型能在更低硬件设备上运行。通常后面的数字位数越高，意味着精度越高，硬件开销也越大，能力也越强。

• FP（浮点精度）：保留完整小数精度，适合训练和高精度推理

• 常见类型：FP32 > BF16 > FP16 > FP8（精度递减）

• INT（整数量化）：通过缩放因子将权重转换为整数，牺牲精度换取效率，INT8 > INT4

大概参考，具体场景可能不一致：

量化类型	位数	内存占比	精度保持	典型应用场景
FP32	32	100%	100%	科研训练
BF16	16	50%	99%	新一代AI加速器训练
FP16	16	50%	98%	通用推理
FP8	8	25%	95%	边缘计算
INT8	8	25%	92%	企业级服务器部署
INT4	4	12.5%	85%	PC/移动端/物联网设备

特殊技术标识

• GPTQ：针对LLM优化的后训练量化方法（例：Llama-2-7B-GPTQ）
• AWQ：激活感知权重量化（例：Qwen1.5-14B-AWQ）
• GGUF：优化推理格式，变成 GGUF 格式可以更快地被载入使用
• MoE：混合专家架构（例：Mixtral-8x7B）
• Distill：知识蒸馏技术（例：DeepSeek-R1-Distill-Qwen-32B）

训练方法

• SFT：监督微调（例：Claude-3-70B-SFT）
• RLHF：人类反馈强化学习（例：GPT-4-RLHF）

原文始发于微信公众号（hijackY）：盘点各种大模型命名

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

盘点各种大模型命名

类型1：主版本号标识

类型2：表示参数规模

推理硬件配置参考

类型3：功能定位

类型4：标识技术类型

训练参数

权重量化

特殊技术标识

训练方法

MCP TPA漏洞复现，及Deepseek的诡异表现

对抗性机器学习-攻击和缓解的分类和术语（二）

关于人工智能钓鱼攻击的分析

MCP安全检查清单：AI⼯具⽣态系统安全指南

USENIX Sec 2025：大模型越狱防御框架——JBShield

玩转MCP | 一文看懂如何在 Trae IDE 中解锁 MCP

deepseek帮你分析为什么挖不到洞

Copilot 帮助你快速创建 Forms 随机测验

用Claude3.7辅助3D建模

利用MCP对本地数据库进行资金分析

发表评论

在线咨询

微信