OpenAI Reft原理

2024年12月9日14:55:43评论30 views字数 2613阅读8分42秒阅读模式

下面我将对原文中涉及的技术点进行一步步的技术解读和梳理，使内容条理化，并给出更系统、深入的分析。

原文核心主题：

文中谈论的是一种基于Reasoning Fine-Tuning（ReFT）的方法，对比传统微调（FT）的不足，以及ReFT在解决泛化性差等问题上的策略。整个讨论围绕如何从传统微调走向带有显式Reasoning和强化学习（RL）机制的微调过程，从而提升模型在广义问题上的回答质量和泛化能力。

背景与动机

1.传统微调(FT)的问题：

在传统的微调过程中，我们对一个预训练语言模型进行有监督微调。具体做法是给定(x,y)对，即输入问题x和期望答案y，让模型去最小化预测y的损失（Loss = y’ - y的距离）。

问题：

•拟合过强，泛化不足：只要给定(x,y)对，模型会倾向于死记硬背。对与x非常接近的问题可能还能答对，但稍有变化就表现不好。这是因为模型并未真正学到“背后的推理逻辑”，而只是适应了狭窄的训练数据分布。

•数据质量与分布限制：如果原始数据分布不佳、数据太少或数据不够通用，模型无法真正泛化。增加数据量或进行数据增强很难。

•对超参数和训练细节理解不深：很多人不理解FT过程的数学和算法原理，导致调优效果不理想。这倒是可通过研究和调参得到一定缓解。

在这三个问题中，第2点（数据与分布问题）很难从根本上解决，第3点是个人努力问题，可通过深入理解与实验来改进。而第1点——“为什么FT泛化性差”——是ReFT及类似方法主要关注的点。

2.ReFT提出的概念：

ReFT方法来自于字节跳动的一篇论文（ReFT:见文中链接）。它的思想是通过引入显式的中间推理步骤（COT：Chain-of-Thought）和强化学习（RL）机制，来改进传统的FT。

ReFT与传统微调的区别与原理

1.基本思路：

ReFT将微调分为两个阶段：

•阶段1：Warm-up (FT 阶段)

在这个阶段，不仅仅是用(x,y)进行训练，而是(x, e, y)，即在训练数据中引入reasoning过程e（COT）。

举例：

•x：“地球为什么是圆的？”

•e：COT推理过程，例如：“因为引力使物质聚集朝中心方向收缩，从而达到能量最低状态，自然形成近似球形的结构。”

•y：最终答案，比如：“稳定性最高。”（一个简短结论性回答）

有了e，模型不再仅仅学习从x直接到y的映射，而是学习在回答过程中尝试推理。当阶段1完成后，模型对COT风格的推理已具备一定潜意识的理解能力，为后续RL阶段做准备。

•阶段2：RL优化 (Reinforcement Learning 阶段)

在有了COT的基础后，通过RL方法（如PPO）对模型进行进一步的优化。在此阶段，模型会根据自己的COT推理产出多个可能的解答路径，对这些路径进行打分和奖励分配，从而逼近更合理、更泛化的推理结果。

2.为什么这样做有用？

传统FT只关心输入和最终输出。ReFT则要求模型先生成可解释的推理过程e，然后再评估该过程是否能产生正确的可提取答案y。

这等于给模型提供了中间思考步骤，让模型更像是在”思考后”再给答案。进而，当模型面临新问题时，不再只能机械套用已知的模式，而是可以基于已有的推理能力进行更好的泛化。

奖励机制设计与RL训练细节

1.奖励设计(Reward)：

ReFT引入了一套特殊的奖励机制，叫EXTRACT函数，对生成的推理步骤(e)进行答案提取：

•如果能从COT推理中清晰提取出正确答案(与ground-truth一致)，奖励为1。

•如果能提取出一个答案但不完全正确，给部分奖励0.1。

•如果完全提取不到明确答案，奖励为0。

意义：

•部分奖励机制缓解了RL中的稀疏奖励问题，使得即使不完美的解答也能对模型的参数更新产生正向激励，从而鼓励模型探索更多解答路径和更好的泛化能力。

•部分奖励有助于稳定训练，减少训练中奖励梯度剧烈变化的情况。

2.分布式决策与PPO：

与传统PPO类似，ReFT在RL阶段会给模型输出分配策略梯度，以在参数更新时考虑KL散度等正则项，保证模型不会在RL阶段严重偏离Warm-up（FT）阶段的初始策略分布。

简单来说：

•模型先用COT方式生成一系列可能回答路径（tokens）。

•对每条路径用EXTRACT函数提取答案，计算奖励。

•使用PPO或类似的RL算法，对模型参数进行更新，使下次生成的COT更趋向于高奖励的推理路径。

3.与马尔科夫决策过程(MDP)的关系：

整个过程可建模为MDP：

•状态：模型已经生成的COT步骤

•动作：生成下一个token（COT步骤的下一个环节）

•奖励：最终提取答案的正确性和可提取性所赋予的分值

RL过程会让模型尝试不同的推理步骤序列，以期在最终回答时获得更高奖励。

与O1-pro和其他新技术的比较

文中提到了OpenAI最近的o1-pro（200美金的那个版本）以及一些RLHF相关进展。

•O1-pro看起来可能是OpenAI高阶微调策略的成果，而ReFT属于上一代、较为“取巧”的方法。

•O1方法论可能对每个推理步骤进行更精细的控制和数据增强（PRM等方法），从而比ReFT更加昂贵和复杂，但也可能获得更好的泛化和性能提升。

结论：

•ReFT是介于传统FT和真正全面RL流程间的一个中间方法。它通过在FT阶段加入Reasoning步骤(e)并在后续RL训练中利用这条中间信息实现奖励分配，使模型在回答问题时不只记住直接映射答案，还学到如何推理。这能提升模型的泛化能力，但要达到O1等高级方法级别的性能仍有差距。

•高阶方法（比如O1纯血版）可能将COT步骤进一步细粒度化，用更精细的RL范式（如PRM）进行训练，代价是成本和复杂度的大幅增加。

总体总结

1.传统FT的问题：过度拟合、泛化性差、数据和分布难题。

2.ReFT解决思路：

•在微调数据中加入Reasoning (COT)阶段，让模型学习思考过程，而不仅是输入到输出的映射。

•利用RL（如PPO）和奖励机制对模型的推理过程进行评价和引导，从而提升模型的推理质量和泛化性能。

3.奖励设计的精妙之处：部分奖励机制能提高探索性和稳定性，缓解稀疏奖励问题。

4.与更先进方案的关系：ReFT是较上一代的解决方案，而O1及PRM等更高级方法能进一步将推理粒度加细并进行更昂贵的数据增强与RL优化。

通过上述技术层面的解读，可以更好地理解文中所述ReFT的方法论、实施步骤与背后原理。

原文始发于微信公众号（xsser的博客）：OpenAI Reft原理

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

OpenAI Reft原理

勒索USDT稳定币的新型勒索病毒分析与解密

【内网突破】记一次域渗透从打点到内网

网络安全对抗演练：扫描器 Nmap 的设备指纹算法

域渗透-横向移动手法总结

云原生网络利器 Cilium 总览

实战 | 记一次几乎不可能成功的文件上传利用

Five86-1靶机渗透记录

渗透测试-条件竞争漏洞小结

深入浅出云原生环境信息收集技术（二）

httpx+naabu+nuclei大量资产极速漏扫

发表评论

在线咨询

微信