RL Weekly News
导言
RL 相关的洞察: 算法趋势、热点模型策略、框架优化、实验规律、流派观点
260107¶
- [算法趋势]: Bottom-up Policy Optimization (BuPO): 由中科院自动化所与腾讯AI Lab联合完成,首次揭示了大语言模型(LLM)内部存在多级可优化的“内部策略”,并据此提出自底向上策略优化(BuPO)方法,通过分阶段优化底层策略与全局策略,在数学推理等复杂任务上显著提升模型性能(如Qwen3-4B的AIME24得分提升4.69%)。参考文档
- 其最重要特点是 RL算法不再是和模型分离的概念,而是将奖励的获取深入到模型结构里,这对RL框架的设计是很大的挑战。
251231¶
- [模型策略] Kling-Omni 快手:RL 只使用 DPO,嫌弃GRPO慢
- [模型策略] NextStep1.1 阶跃星辰: 没有技术报告,但是github readme提到使用了Flow-based RL
- [模型策略] QwenLong-L1.5 通义文档智能团队:基于 Qwen3-30B-A3B 打造,通过三大技术创新(“数据合成 + RL 优化 + 记忆管理” )解决长文本推理的核心难题;RL部分使用1. 任务均衡采样:强制混合多领域任务数据,避免批次内分布偏移。 2. 自适应熵控制(AEPO):动态屏蔽高熵状态下的错误惩罚,保护探索行为,解决长文本信用分配难题。AEPO实现了超过GRPO更好的效果。
- [实验规律]: Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning 论文揭示了许多 基于 Qwen2.5 全系列模型(0.5B 至 72B)的系统性实验,研究团队得出了以下核心结论:1. 学习效率与模型规模正相关:大模型在计算(Compute)和数据(Data)指标上均表现出更高的学习效率。2. 幂律关系显著:测试损失(Test Loss)、计算量与数据量之间遵循可预测的幂律关系,该规律在 Base 模型和 Instruct 模型中均成立。3. 效率饱和效应:虽然大模型效率更高,但学习效率系数 随模型增大呈现饱和趋势,不会无限增长。4. 数据复用的有效性:在数据受限场景下,对高质量数据的重复使用(Data Reuse)是有效的。最终性能主要取决于优化总步数,而非样本的唯一性。
- [流派观点]: RL越强,AGI越远: 知名科技博主Dwarkesh Patel犀利在视频中指出,各大实验室通过RL(强化学习),耗资数十亿美元让大模型“排练”Excel、网页操作等技能,恰恰暴露其距真正AGI仍远。若AI真接近类人智能,就该像人类一样从经验中自主学习,而非依赖“可验证奖励训练”。而真正突破在于“持续学习”能力,这一过程或需5-10年才能完善。