下面我将对原文中涉及的技术点进行一步步的技术解读和梳理,使内容条理化,并给出更系统、深入的分析。
原文核心主题:
文中谈论的是一种基于Reasoning Fine-Tuning(ReFT)的方法,对比传统微调(FT)的不足,以及ReFT在解决泛化性差等问题上的策略。整个讨论围绕如何从传统微调走向带有显式Reasoning和强化学习(RL)机制的微调过程,从而提升模型在广义问题上的回答质量和泛化能力。
背景与动机
1.传统微调(FT)的问题:
在传统的微调过程中,我们对一个预训练语言模型进行有监督微调。具体做法是给定(x,y)对,即输入问题x和期望答案y,让模型去最小化预测y的损失(Loss = y’ - y的距离)。
问题:
•拟合过强,泛化不足:只要给定(x,y)对,模型会倾向于死记硬背。对与x非常接近的问题可能还能答对,但稍有变化就表现不好。这是因为模型并未真正学到“背后的推理逻辑”,而只是适应了狭窄的训练数据分布。
•数据质量与分布限制:如果原始数据分布不佳、数据太少或数据不够通用,模型无法真正泛化。增加数据量或进行数据增强很难。
•对超参数和训练细节理解不深:很多人不理解FT过程的数学和算法原理,导致调优效果不理想。这倒是可通过研究和调参得到一定缓解。
在这三个问题中,第2点(数据与分布问题)很难从根本上解决,第3点是个人努力问题,可通过深入理解与实验来改进。而第1点——“为什么FT泛化性差”——是ReFT及类似方法主要关注的点。
2.ReFT提出的概念:
ReFT方法来自于字节跳动的一篇论文(ReFT:见文中链接)。它的思想是通过引入显式的中间推理步骤(COT:Chain-of-Thought)和强化学习(RL)机制,来改进传统的FT。
ReFT与传统微调的区别与原理
1.基本思路:
ReFT将微调分为两个阶段:
•阶段1:Warm-up (FT 阶段)
在这个阶段,不仅仅是用(x,y)进行训练,而是(x, e, y),即在训练数据中引入reasoning过程e(COT)。
举例:
•x:“地球为什么是圆的?”
•e:COT推理过程,例如:“因为引力使物质聚集朝中心方向收缩,从而达到能量最低状态,自然形成近似球形的结构。”
•y:最终答案,比如:“稳定性最高。”(一个简短结论性回答)
有了e,模型不再仅仅学习从x直接到y的映射,而是学习在回答过程中尝试推理。当阶段1完成后,模型对COT风格的推理已具备一定潜意识的理解能力,为后续RL阶段做准备。
•阶段2:RL优化 (Reinforcement Learning 阶段)
在有了COT的基础后,通过RL方法(如PPO)对模型进行进一步的优化。在此阶段,模型会根据自己的COT推理产出多个可能的解答路径,对这些路径进行打分和奖励分配,从而逼近更合理、更泛化的推理结果。
2.为什么这样做有用?
传统FT只关心输入和最终输出。ReFT则要求模型先生成可解释的推理过程e,然后再评估该过程是否能产生正确的可提取答案y。
这等于给模型提供了中间思考步骤,让模型更像是在”思考后”再给答案。进而,当模型面临新问题时,不再只能机械套用已知的模式,而是可以基于已有的推理能力进行更好的泛化。
奖励机制设计与RL训练细节
1.奖励设计(Reward):
ReFT引入了一套特殊的奖励机制,叫EXTRACT函数,对生成的推理步骤(e)进行答案提取:
•如果能从COT推理中清晰提取出正确答案(与ground-truth一致),奖励为1。
•如果能提取出一个答案但不完全正确,给部分奖励0.1。
•如果完全提取不到明确答案,奖励为0。
意义:
•部分奖励机制缓解了RL中的稀疏奖励问题,使得即使不完美的解答也能对模型的参数更新产生正向激励,从而鼓励模型探索更多解答路径和更好的泛化能力。
•部分奖励有助于稳定训练,减少训练中奖励梯度剧烈变化的情况。
2.分布式决策与PPO:
与传统PPO类似,ReFT在RL阶段会给模型输出分配策略梯度,以在参数更新时考虑KL散度等正则项,保证模型不会在RL阶段严重偏离Warm-up(FT)阶段的初始策略分布。
简单来说:
•模型先用COT方式生成一系列可能回答路径(tokens)。
•对每条路径用EXTRACT函数提取答案,计算奖励。
•使用PPO或类似的RL算法,对模型参数进行更新,使下次生成的COT更趋向于高奖励的推理路径。
3.与马尔科夫决策过程(MDP)的关系:
整个过程可建模为MDP:
•状态:模型已经生成的COT步骤
•动作:生成下一个token(COT步骤的下一个环节)
•奖励:最终提取答案的正确性和可提取性所赋予的分值
RL过程会让模型尝试不同的推理步骤序列,以期在最终回答时获得更高奖励。
与O1-pro和其他新技术的比较
文中提到了OpenAI最近的o1-pro(200美金的那个版本)以及一些RLHF相关进展。
•O1-pro看起来可能是OpenAI高阶微调策略的成果,而ReFT属于上一代、较为“取巧”的方法。
•O1方法论可能对每个推理步骤进行更精细的控制和数据增强(PRM等方法),从而比ReFT更加昂贵和复杂,但也可能获得更好的泛化和性能提升。
结论:
•ReFT是介于传统FT和真正全面RL流程间的一个中间方法。它通过在FT阶段加入Reasoning步骤(e)并在后续RL训练中利用这条中间信息实现奖励分配,使模型在回答问题时不只记住直接映射答案,还学到如何推理。这能提升模型的泛化能力,但要达到O1等高级方法级别的性能仍有差距。
•高阶方法(比如O1纯血版)可能将COT步骤进一步细粒度化,用更精细的RL范式(如PRM)进行训练,代价是成本和复杂度的大幅增加。
总体总结
1.传统FT的问题:过度拟合、泛化性差、数据和分布难题。
2.ReFT解决思路:
•在微调数据中加入Reasoning (COT)阶段,让模型学习思考过程,而不仅是输入到输出的映射。
•利用RL(如PPO)和奖励机制对模型的推理过程进行评价和引导,从而提升模型的推理质量和泛化性能。
3.奖励设计的精妙之处:部分奖励机制能提高探索性和稳定性,缓解稀疏奖励问题。
4.与更先进方案的关系:ReFT是较上一代的解决方案,而O1及PRM等更高级方法能进一步将推理粒度加细并进行更昂贵的数据增强与RL优化。
通过上述技术层面的解读,可以更好地理解文中所述ReFT的方法论、实施步骤与背后原理。
原文始发于微信公众号(xsser的博客):OpenAI Reft原理
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论