本文授权转载自学术平台 PaperWeekly,公众号ID:paperweekly。这是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。不...
DeepSeek-R1技术剖析:没有强化学习基础也能看懂的PPO & GRPO
本文授权转载自学术平台 PaperWeekly,公众号ID:paperweekly。这是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。©...
EMNLP 2023 | SAMP:基于自适应混合精度的训练后量化模型推理库
©PaperWeekly 原创 · 作者 | 田荣单位 | 快手 本文内容源自发表于计算机人工智能领域顶会 EMNLP 2023(The 2023 Conference on Empirical Me...