跳转至

笔记

VeRL Async

导言

异步 RL 的核心不是简单“并行化 PPO”,而是把 rollout、reward / logprob、训练更新和参数同步之间的同步屏障拆成可控队列与版本语义。它用 bounded staleness 换取更高 E2E throughput,但必须同时回答 old logprob 一致性、policy lag、partial rollout、样本丢弃和复现实验的问题。

VeRL Checkpoint

导言

RL checkpoint 比普通 SFT checkpoint 更复杂,因为它不仅要保存模型参数,还要保存 optimizer、scheduler、global step、采样状态,以及在异步模式下可能存在的队列和策略版本状态。

VeRL Feature Matrix

导言

这篇文章作为索引页,专门回答每个特性:怎么开、代码在哪、逻辑是什么、实践效果怎样、为什么默认不开、对 MFU / SMA 有什么作用。

VeRL Performance Optimization

导言

MFU / SMA 低不一定说明 kernel 慢,也可能是 rollout、reward、checkpoint、通信、异步队列或 token 分布造成的等待。性能优化的第一步不是开特性,而是建立 E2E 性能模型。

VeRL Rollout Inference

导言

RL 中的 rollout 不是普通离线推理。它不仅要生成 response,还要和训练阶段共享策略版本、返回 token 级信息,并参与后续 logprob、reward 和 advantage 计算。

因此 vLLM 图模式也不能只写成“开不开 CUDA Graph”。在 verl rollout 里,enforce_eagercompilation_config.cudagraph_modecudagraph_capture_sizes 共同决定性能、显存、capture 成本和兼容性。

VeRL Training Flow

导言

这篇文章聚焦 verl 的训练链路:RayPPOTrainer.fit() 如何组织 rollout、reward、logprob、ref 和 actor update,以及这些阶段如何通过 worker 和 DataProto 串起来。

RL Infra Series

导言

这个目录不是单篇文章,而是一条从 数据流 出发,逐步展开到 训练、推理、异步、checkpoint、性能优化和特性矩阵 的写作路线图。

Work Reporting

核心观点

汇报不是把做过的事情机械罗列给别人看,而是把 目标、交付件、进展、风险、下一步行动 压缩成可决策的信息。好的汇报既帮助上级及时掌握项目状态,也帮助自己理清工作思路、暴露错误路线,并为后续复盘留下材料。

RL: xPU Mismatch - metrics

导言

RL 模型迁移后的精度比对,相较于 SFT 模型迁移的精度比对,难了很多。

经常出现一个难解问题,前20步reward等指标两者差异较小,但是之后就偏移很大。

叠加

  • 指标繁琐,但不解决问题:虽然指标多,但都是表象/结果指标,难以说明差异来源。
  • 耗时长:RL单步1h+,SFT 20s;慢两个数量级,迭代缓慢。
  • 流程更复杂:涉及到推理和权重转换;
  • 资源压力大:训推+评测模型权重,RL的显存和机器资源压力更大。