跳转至

Train Stages: Pretrain, Mid-Train(CT), SFT, RL

导言

模型训练,为什么需要这么多阶段,每个阶段的独特职责和意义是什么。

预训练、中训练、后训练

大语言模型(LLM)的训练通常分为三个主要阶段:预训练(Pre-training)、中训练(Mid-training)和后训练(Post-training)。

  • 预训练阶段赋予模型通用的语言能力、世界知识和基础的推理能力。就像让孩子泛读海量的书籍,目标是掌握基本的语言和常识。这个阶段学的知识很广,但不够精深。
  • 中训练阶段则向模型注入特定领域的知识,例如代码、医学文献或公司内部文档。Continued Training (CT) 这是一个新发现的、很重要的阶段。就像在孩子泛读之后,让他精读一些高质量的科普文章或数学应用题,为后面的专项学习打下更好的基础。
  • 最后的后训练阶段,旨在引导模型产生符合期望的特定行为,如遵循指令、解决数学问题或进行对话。(SFT、RL、Distillation )

Mid-train的重要性

Mid-train位于Pre-train和Post-train之间,用于弥合预训练数据分布和后训练目标的差距。通过通过使用更高质量、更具针对性的数据(例如指令格式的数据)+预训练阶段相同的训练目标,来强化模型在特定领域的推理先验知识,稳定优化过程,并为后续的强化学习(RL)做好准备。

这篇论文发现1,在计算资源有限的前提下,将一部分计算资源从RL分配给中期训练,最终的整体效果会比全部资源用于RL更好。特别是对于难度适中的任务,“大量中期训练 + 少量RL” 的方案是最优的。中期训练奠定了坚实的“能力基石”,RL则负责最后的“冲刺和优化”。

后训练/微调/RL的必要性

大型语言模型(Large Language Models, LLMs)的出现是人工智能领域的一个重要里程碑。这些模型通过在海量的文本语料库上进行自监督预训练,掌握了强大的语言理解和生成能力。2

然而,预训练的目标(如“下一个词预测”)本质上是模仿数据分布,这并不足以保证模型生成的内容完全符合人类的价值观和期望。未经对齐的LLM可能会产生不准确、有偏见、有害甚至虚构的内容。

因此,模型对齐(Alignment)应运而生。其核心目标是微调预训练模型,使其行为与人类的意图、偏好和价值观(如有帮助性、诚实性、无害性,即“3H”原则)保持一致。这是确保LLM安全、可靠地部署于现实世界的关键步骤。

为了应对对齐挑战,研究界探索了多种方法,其中基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)迅速成为主导范式。RLHF的核心思想是将人类的偏好数据转化为一个数值奖励信号,然后利用强化学习算法优化语言模型的策略(即其生成文本的方式),以最大化期望奖励。

在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。

  1. 一种是基于强化学习的PPO,它将经典的RL框架引入LLM微调,通过复杂的系统协调实现了强大的性能;
  2. 另一种是DPO,它通过深刻的理论洞见,将对齐问题转化为一个更简洁的监督学习问题,显著提升了训练的稳定性和效率。

为什么需要后训练?

想象一下,我们辛辛苦苦训练出了一个拥有海量知识的基础大模型。它能记住无数事实、理解复杂的语法结构,甚至具备潜在的推理能力。但这还不够!就像一个学富五车的学者,如果他不了解如何有效地与人沟通、不明白你的具体需求,或者无法根据情境调整自己的表达方式,他的学识就难以充分发挥价值。[^6]

大语言模型(LLMs)的基础模型(Base Model)在海量数据上预训练后,虽然掌握了基础能力,但它们并不能直接理解和遵循人类的复杂指令,也无法自然地与人互动,更不用说根据用户的偏好或特定任务需求来调整行为。它们可能不知道何时需要一步步推理(思维),何时需要直接给出答案(非思维),也不知道如何生成符合特定格式、长度或风格的文本。

后训练的目标是将基础模型与人类偏好和下游应用更好地对齐。简单来说,就是教模型“读懂人心”,让它知道我们想要什么,并以我们希望的方式来回应。

Qwen3的后训练尤其强调两大目标:

  1. 思维控制,让模型能选择是否推理以及控制推理深度;
  2. 以及强到弱蒸馏,利用大模型的知识高效地训练小模型。

RL定义、流程

强化学习是智能体(Agent)通过试错与环境(Environment)进行交互,学习如何做出最优决策以最大化累积奖励(Cumulative Reward)的过程。

其常规流程是一个迭代的循环:

  • 感知状态(State, \(S\)): 智能体感知环境的当前状态 \(S_t\)
  • 决策动作(Action, \(A\)): 智能体根据其策略(Policy, \(\pi\)),基于当前状态 \(S_t\) 选择一个动作 \(A_t\)
  • 环境反馈: 动作 \(A_t\) 在环境中执行,环境会产生两个反馈:
    • 即时奖励(Reward, \(R\)): 智能体获得一个即时奖励 \(R_{t+1}\),用于衡量动作的好坏。
    • 新状态(New State, \(S'\)): 环境转移到新的状态 \(S_{t+1}\)
  • 策略更新(Update): 智能体利用获得的奖励 \(R_{t+1}\) 和状态序列 \((S_t, A_t, R_{t+1}, S_{t+1})\) 来更新其策略 \(\pi\)(以及可能的值函数 \(V\)\(Q\)),目的是让策略在未来能获得更高的累积奖励。
  • 重复: 智能体在新状态 \(S_{t+1}\) 继续下一个时间步的交互。

核心要素:

  • 策略 (\(\pi\)): 定义了智能体在特定状态下选择动作的规则。
  • 奖励信号 (\(R\)): 定义了RL的目标,即最大化累积奖励。
  • 价值函数 (\(V\)\(Q\)): 预测一个状态或状态-动作对的长期期望累积奖励,用于指导策略的改进。

Agent in RL和Agentic RL

Agentic RL 的核心目标是决策(Decision-making)。它旨在优化LLM 在一系列连续的交互步骤中完成复杂任务的能力。

RL 如何提效

难度是数据边缘

外推泛化(Depth Generalization)指看模型能不能把学到的简单技能组合起来,解决更复杂的问题。

  • 对于太简单的题目,RL是无效的,只是机械刷题、1
  • 对于太难的,RL也是无效的,因为模型根本学不会;
  • 只有正好在模型能力边界的题目,通过合理的奖励机制,RL能够引导模型探索正确的解题路径,实现了能力边界的拓展。

核心魅力:自动化处理 Corner Case

相较于 SFT(监督微调),RL 真正的价值在于其对 OOD(分布外数据) 的处理能力:

  • 无脑梭哈:只需定义好环境与 Question,利用 GRPO 等算法让模型在探索中自发碰撞出 Corner Cases 并学习。
  • 正样本质量:RL 极其依赖正样本的规模与多样性,但获取高质量正样本的路径存在技术陷阱。

泛化需要有锚点

上下文泛化(Contextual Generalization)是指模型能否实现举一反三的能力:比如模型在“动物园”的场景下学会了加法,那么它能不能把加法应用到“学校”的场景中?1

研究发现:如果预训练数据中完全没有“学校”场景的题目,那么后续无论怎么用RL训练,模型都无法把加法技能迁移到“学校”场景。但是,只要在预训练中掺入极少量的“学校”场景基础题(比如只占1%),这就好像在心里埋下了一颗“种子”。

一旦有了这颗“种子”,后续的RL训练就能像浇水施肥一样,极大地激发模型的迁移能力。模型可以轻松地将从“动物园”中学到的复杂推理技能,应用到“学校”场景中。

RL阶段的扩展定律

研究2通过对 Qwen2.5 全系列模型的详尽实证分析,确立了 RL 后训练在数学推理任务上的扩展定律。

关键启示:

  • 大模型不仅起步高,学得也快:在相同数据/计算下,大模型效率更高。
  • 效率有天花板:不能指望通过无限扩大模型来线性获得效率收益,必须考虑饱和效应。
  • 数据复用是实用的:在数据匮乏时,多跑几个 Epoch 没问题,总步数到位就行。
  • 专业化的代价:数学能力的增强可能以逻辑推理能力的退化为代价,且难以直接迁移到代码或科学领域。

小模型RL的优劣

优势: 迭代快;劣势:效果差(不稳定)

但是 JustRL 一文做实验却发现不一定是这样的(结论的泛化性有待怀疑)

RL的悲观观点

强化学习相对于监督学习比我们想象的要更加低效

RL 只在推理的one-step准确率越高时越高效34

当然为了更高效,RL领域一方面设计的复杂reward、课程学习、和分段reward;另一方面加速推理,简化流程来产出早期可评估信号。

RL越强,AGI越远

知名科技博主Dwarkesh Patel犀利在视频中指出,各大实验室通过RL(强化学习),耗资数十亿美元让大模型“排练”Excel、网页操作等技能,恰恰暴露其距真正AGI仍远。若AI真接近类人智能,就该像人类一样从经验中自主学习,而非依赖“可验证奖励训练”。而真正突破在于“持续学习”能力,这一过程或需5-10年才能完善。

Offline RL vs Online RL

在线强化学习(Online RL)和离线强化学习(Offline RL,也称 Batch RL)的主要区别在于智能体(Agent)获取数据的方式以及是否能在训练过程中与环境进行交互

以下是它们的核心区别对比:

1. 核心定义与交互方式

  • 在线强化学习 (Online RL): 智能体处于一个“试错”的循环中。它在环境中采取行动,观察结果(奖励和下一个状态),并立即利用这些新数据来改进自己的策略。
  • 流程: 交互 收集数据 更新策略 再次交互。

  • 离线强化学习 (Offline RL): 智能体不再与环境直接交互,而是从一个预先收集好的、固定的数据集中学习。这个数据集通常由其他策略(可能是人类操作员或其他算法)产生的历史记录组成。

  • 流程: 预收集数据 静态学习 部署。

2. 关键维度对比

维度 在线强化学习 (Online RL) 离线强化学习 (Offline RL)
数据来源 实时交互产生的数据 静态的历史数据集(日志)
探索能力 主动探索:可以尝试新动作来发现更好的策略 被动学习:无法探索数据集之外的可能
反馈机制 封闭环路:策略改变后能立即看到反馈 开放环路:无法验证新策略在真实环境中的效果
安全性 较低:探索过程中可能采取危险动作(如撞车) 较高:训练过程不涉及实体操作,非常安全
成本/可行性 高:需要实时运行环境或高精度模拟器 低:利用现有存储数据,无需昂贵的实时交互
主要挑战 样本效率(需要大量交互) 分布偏移 (Distribution Shift)

3. 应用场景示例

  • 在线强化学习:

    • 游戏 AI(如 AlphaZero、星际争霸):可以在模拟器中进行数亿次低成本尝试。
    • 机器人实验室环境:在受控条件下进行实机训练。
  • 离线强化学习:

    • 医疗推荐: 无法在患者身上随机试验不同的药物,只能通过历史病历数据学习最优方案。
    • 自动驾驶: 在真实道路上随机“探索”太危险,通常利用数百万英里的行驶日志进行学习。
    • 推荐系统: 利用用户的历史点击日志进行策略优化,避免频繁打扰用户。

总结:

  • Online RL 像是一个在操场上边跑边学、不断摔跤总结经验的学生。
  • Offline RL 像是一个坐在图书馆里,通过查阅学长们留下的实验记录来学习的学生。

4. 为什么离线强化学习更难?—— 分布偏移问题

这是 Offline RL 面临的最致命问题。 在训练过程中,智能体可能会预测某个在数据集中从未出现过的动作(Out-of-Distribution, OOD)具有极高的回报。由于无法去真实环境中验证,智能体容易产生“过度自信”的错误估计,导致学出的策略在实际部署时表现极差。

而在 Online RL 中,如果智能体高估了某个动作,它只需要去尝试一下,发现回报并不高,就会自动修正这个估计。

DPO解释分布偏移问题

虽然 DPO 常被看作一种有监督微调(SFT)的变体,但它的核心逻辑依然是离线策略优化。为了让你理解为什么它比在线学习(如带奖励模型的 PPO)更难,我们可以通过一个形象的对比来看:


1. 核心矛盾:你没见过的,“脑补”出来的就是对的吗?

在 DPO 中,我们拥有的数据是固定的:{问题 x, 好的回答 yw, 坏的回答 yl}

在线 RL (类似 PPO):有“教练”实时纠错

  • 过程: 模型生成了一个它认为“绝妙”但实际上很离谱的回答(例如一串乱码,但正好触发了奖励模型的漏洞)。
  • 结果: 奖励模型(或真人)会立即给这串乱码打低分。
  • 反馈: 模型立刻知道:“哦,这招不行”,然后修正自己的认知。

离线 RL (类似 DPO):只能“死记硬背”

  • 过程: DPO 试图推导出一个概率分布,使得 yw 的概率远大于 yl
  • 风险: 优化过程中,模型可能会发现某些单词组合(在数据集中从未出现过)在数学公式推导下能获得极高的分值。
  • 致命点: 因为是离线的,没有“教练”告诉你这串新组合是错的。模型会顺着这个“数学漏洞”疯狂漂移,最终生成一堆看似逻辑合理但人类完全无法理解的内容。

2. DPO 中的“分布偏移”具体长什么样?

在 DPO 中,分布偏移主要体现在模型策略 ()参考策略 () 以及 原始数据分布 之间的脱节。

A. 过度拟合与“奖励黑客” (Reward Hacking)

DPO 的损失函数中包含一个隐含的奖励函数。如果模型发现某种特定的说话风格(比如总是以“好的”开头)在数据集里普遍被选为 yw,它可能会在离线训练中不断强化这种风格,直到它生成的每一句话都变得极其机械化。

B. 缺乏负面反馈的边界

在离线数据里,我们只告诉了模型:A 比 B 好。 但是,如果模型想尝试 C(一个全新的回答方向),离线数据里没有关于 C 的任何信息。

  • 如果 C 其实很烂,但模型“脑补”出 C 应该比 A 更好。
  • 在离线状态下,没有任何力量能拉回这个错误的认知。

3. DPO 是如何“勉强”应对这个问题的?

为了防止模型“跑偏”太远(即缓解分布偏移),DPO 在公式里内置了一个约束:KL 散度

  • ** 的作用:** 它像一根“安全绳”。它告诉模型:“你优化的方向可以偏向 ,但你的整体分布不能离最初的那个模型(SFT 模型)太远。”
  • 局限性: 即使有这根绳子,如果 (惩罚系数)设得太小,或者训练步数太多,模型依然会挣脱约束,走向崩溃(即性能突然大幅下降)。这就是为什么离线训练调参极其痛苦。

4. 总结对比:为什么 DPO(离线)更难?

特性 在线学习 (PPO) 离线学习 (DPO)
数据动态性 活的。模型自己生成,自己领悟。 死的。只能从历史偏好中抠细节。
错误的代价 没关系,试错(Explore)是学习的一部分。 致命。一旦产生错误认知的偏离,会越跑越远。
稳定性 训练复杂,但有奖励模型兜底。 训练简单,但极易因为数据分布偏移导致模型“变傻”。

简单来说: 离线强化学习(如 DPO)就像是看着去年的考试卷子和标准答案复习。如果你自作聪明总结出了一些卷子里没考到的“歪理”,考试时(部署时)没人能提醒你,你就会直接挂科。而在线强化学习是有老师带着你做模拟题,你一想歪,老师就敲你教鞭。

参考文献


  1. On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models RL不是“许愿池”:CMU研究揭示大模型推理能力的真正来源 

  2. 从 0.5B 到 72B:揭秘 RL Post-Training 中的计算、数据与模型规模权衡 

  3. https://www.dwarkesh.com/p/bits-per-sample 

  4. https://www.tobyord.com/writing/inefficiency-of-reinforcement-learning 

评论