主流大语言模型的技术原理细节

admin 2023年9月12日19:59:03评论108 views字数 817阅读2分43秒阅读模式

主流大语言模型的技术原理细节

主流大语言模型的技术原理细节

作者:spring

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。3. 大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

主流大语言模型的技术原理细节

1. 大语言模型的细节

1.0 transformer 与 LLM

主流大语言模型的技术原理细节

1.1 模型结构

主流大语言模型的技术原理细节

1.2 训练目标

主流大语言模型的技术原理细节

1.3 tokenizer

主流大语言模型的技术原理细节

1.4 位置编码

主流大语言模型的技术原理细节

1.5 层归一化

主流大语言模型的技术原理细节

1.6 激活函数

主流大语言模型的技术原理细节

1.7 Multi-query Attention 与 Grouped-query Attention

主流大语言模型的技术原理细节

1.8 并行 transformer block

主流大语言模型的技术原理细节

1.9 总结-训练稳定性

主流大语言模型的技术原理细节

2. LLM 的分布式预训练

主流大语言模型的技术原理细节

2.0 点对点通信与集体通信

主流大语言模型的技术原理细节

2.1 数据并行

主流大语言模型的技术原理细节

2.2 张量并行

主流大语言模型的技术原理细节
主流大语言模型的技术原理细节

2.3 流水线并行

主流大语言模型的技术原理细节

2.4 3D 并行

主流大语言模型的技术原理细节

2.5 混合精度训练

主流大语言模型的技术原理细节

2.6 激活重计算

主流大语言模型的技术原理细节

2.7 ZeRO,零冗余优化器

主流大语言模型的技术原理细节

2.8 CPU-offload,ZeRO-offload

主流大语言模型的技术原理细节

2.9 Flash Attention

主流大语言模型的技术原理细节

2.10 vLLM: Paged Attention

主流大语言模型的技术原理细节

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?

主流大语言模型的技术原理细节

3.1 prompt tuning

主流大语言模型的技术原理细节

3.2 prefix tuning

主流大语言模型的技术原理细节

3.3 adapter

主流大语言模型的技术原理细节

3.4 LLaMA adapter

主流大语言模型的技术原理细节

3.5 LoRA

主流大语言模型的技术原理细节

3.6 实验比较

主流大语言模型的技术原理细节

4. 参考文献

主流大语言模型的技术原理细节
  1. 分析 transformer 模型的参数量、计算量、中间激活、KV cache
  2. 【万字长文】LLaMA, ChatGLM, BLOOM 的高效参数微调实践
  3. FlashAttention:加速计算,节省显存, IO 感知的精确注意力

主流大语言模型的技术原理细节

原文始发于微信公众号(腾讯技术工程):主流大语言模型的技术原理细节

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年9月12日19:59:03
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   主流大语言模型的技术原理细节https://cn-sec.com/archives/2030568.html

发表评论

匿名网友 填写信息