盘点各种大模型命名

admin 2025年2月19日18:56:07评论15 views字数 1702阅读5分40秒阅读模式

随着市面上模型越来越多,自己想部署一套玩玩,但各种命名的后缀也让人逐渐眼花缭乱,这篇就尝试盘点梳理一下常见的后缀,看看不一样模型的名字都有啥区别。

类型1:主版本号标识

  • • GPT 3.5 → GPT 4: 表示重大改进,通常数字越大表示版本越新,通常能力有重大提升。
  • • 日期编码:比如 claude-3-5-sonnet-20241022 末尾日期表示2024年10月22日更新,通常来说会比原来好用一点。

类型2:表示参数规模

参数规模一定程度代表模型的"智商"水平,通常一个系列批次的模型参数越多模型能力越强(不同模型就完全不一定了,也和训练的质量密切相关),但需要更多计算资源。参数规模与推理速度成反比。

  • • B = Billion(十亿):如“70B”就表示模型有700亿参数(例:DeepSeek-R1-Distill-Llama-70B)
  • • T = Trillion(万亿):如“1T”表示模型拥有1万亿参数(例:Google PaLM-2-1T)
  • • Small/Base/Large:表示某一系列模型的不同参数规模,参数量只是相对的多少,类似于小杯、中杯、大杯,如:7B→13B→70B(例:deepseek-vl2-small)

推理硬件配置参考

模型规模
显存需求
推荐配置
推理速度
7B
16GB
RTX 4090
50 token/s
13B
32GB
2*RTX 4090
30 token/s
70B
320GB
8*A100 80G
15 token/s
1T
分布式
TPU Pod集群
需定制

类型3:功能定位

不同后缀代表模型的专项能力,选择合适的功能类型可提升任务表现3-5倍。

  • • Base:基础通用模型,能够处理绝大部分的NLP任务,如文本生成、机器翻译、问答等。通常也比较适用于二次的精调(例:Mistral-Small-24B-Base)
  • • Instruct:通常专注于执行指令型的任务,确定性高,如查询解析、自动化工具、指令问答等(例:Qwen2.5-14B-Instruct-1M)
  • • Chat:通常擅长于模拟人类之间的自然对话,更加自然,比如客服、聊天、多轮对话等(例:DeepSeek-Chat-32B)
  • • Coder:擅长代码的生成、解释等等(例:Qwen2.5-Coder)
  • • Math:擅长于数学方面的逻辑推理(例:Qwen2.5-Math)

类型4:标识技术类型

训练参数

  • • 4e1t:4个训练周期+1万亿token(例:Llama-3-8B-4e1t)
  • • 1M:支持百万token上下文(例:Qwen2.5-14B-1M)

权重量化

权重量化是通过降低数值精度来压缩模型体积及推理开销的手段。如同将高清照片转换为压缩格式,在可接受的画质损失下大幅减小文件体积。可以让更大参数模型能在更低硬件设备上运行。通常后面的数字位数越高,意味着精度越高,硬件开销也越大,能力也越强。

  • • FP(浮点精度):保留完整小数精度,适合训练和高精度推理
    • • 常见类型:FP32 > BF16 > FP16 > FP8(精度递减)
  • • INT(整数量化):通过缩放因子将权重转换为整数,牺牲精度换取效率,INT8 > INT4

大概参考,具体场景可能不一致:

量化类型
位数
内存占比
精度保持
典型应用场景
FP32
32
100%
100%
科研训练
BF16
16
50%
99%
新一代AI加速器训练
FP16
16
50%
98%
通用推理
FP8
8
25%
95%
边缘计算
INT8
8
25%
92%
企业级服务器部署
INT4
4
12.5%
85%
PC/移动端/物联网设备

特殊技术标识

  • • GPTQ:针对LLM优化的后训练量化方法(例:Llama-2-7B-GPTQ
  • • AWQ:激活感知权重量化(例:Qwen1.5-14B-AWQ
  • • GGUF:优化推理格式,变成 GGUF 格式可以更快地被载入使用
  • • MoE:混合专家架构(例:Mixtral-8x7B)
  • • Distill:知识蒸馏技术(例:DeepSeek-R1-Distill-Qwen-32B)

训练方法

  • • SFT:监督微调(例:Claude-3-70B-SFT)
  • • RLHF:人类反馈强化学习(例:GPT-4-RLHF)

原文始发于微信公众号(hijackY):盘点各种大模型命名

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年2月19日18:56:07
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   盘点各种大模型命名http://cn-sec.com/archives/3762145.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息