-
语言模型的基本任务是计算词序列成为一句话的概率。报告从早期的统计方法(如N-gram)到基于神经网络的LSTM/GRU,再到Transformer架构的演进进行了详细讲解。
-
Word Embedding:通过低维词向量表示单词,使得语义相近的单词在向量空间中距离相近。报告还介绍了One-hot Encoding的局限性,并展示了Word Embedding如何解决这些问题。
-
Transformer是当前大模型的技术基座,其核心创新在于自注意力机制(Self-Attention)和多头注意力机制(Multi-Head Attention),这些机制使得模型能够并行计算并捕捉全局上下文信息。
-
报告详细解释了Transformer的训练机制,特别是如何通过Query、Key、Value的机制来实现对文本的理解和处理。
-
ChatGPT是基于GPT-3.5的模型,通过人类反馈的强化学习(RLHF)进行微调,使其能够生成翔实、公正的回应,并拒绝不当问题。
-
报告还介绍了ChatGPT的技术演进路径,从GPT-3到GPT-3.5,再到ChatGPT的推出,展示了其在生成、创造和上下文学习方面的强大能力。
-
DeepSeek是浙江大学自主研发的大模型技术,报告详细介绍了其技术演进路径,从DeepSeek-V3到DeepSeek-R1,再到DeepSeek-R1-Distill。
-
DeepSeek-V3对标GPT-4,采用了混合专家模型(MoE)和极致的工程优化,显著提升了模型的推理能力和训练效率。
-
DeepSeek-R1则通过强化学习和规则奖励机制,进一步提升了模型的推理能力,特别是在数学和编程任务上的表现。
报告探讨了从大语言模型(LLM)到智能体(Agent)的演进,强调了智能体的核心能力是逻辑推理(系统2),并介绍了智能体在任务规划、工具使用和记忆管理方面的能力。
据统计,99%的数智大咖都关注了这个公众号
👇
原文始发于微信公众号(谈数据):浙江大学:DeepSeek技术溯源及前沿探索
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论