笔记¶

2026年5月19日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

VeRL Async

导言

异步 RL 的核心不是简单“并行化 PPO”，而是把 rollout、reward / logprob、训练更新和参数同步之间的同步屏障拆成可控队列与版本语义。它用 bounded staleness 换取更高 E2E throughput，但必须同时回答 old logprob 一致性、policy lag、partial rollout、样本丢弃和复现实验的问题。

2026年5月19日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

VeRL Checkpoint

导言

RL checkpoint 比普通 SFT checkpoint 更复杂，因为它不仅要保存模型参数，还要保存 optimizer、scheduler、global step、采样状态，以及在异步模式下可能存在的队列和策略版本状态。

2026年5月19日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

VeRL Feature Matrix

导言

这篇文章作为索引页，专门回答每个特性：怎么开、代码在哪、逻辑是什么、实践效果怎样、为什么默认不开、对 MFU / SMA 有什么作用。

2026年5月19日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

VeRL Performance Optimization

导言

MFU / SMA 低不一定说明 kernel 慢，也可能是 rollout、reward、checkpoint、通信、异步队列或 token 分布造成的等待。性能优化的第一步不是开特性，而是建立 E2E 性能模型。

2026年5月19日
分类于 Artificial Intelligence
需要 3 分钟阅读时间

VeRL Rollout Inference

导言

RL 中的 rollout 不是普通离线推理。它不仅要生成 response，还要和训练阶段共享策略版本、返回 token 级信息，并参与后续 logprob、reward 和 advantage 计算。

因此 vLLM 图模式也不能只写成“开不开 CUDA Graph”。在 verl rollout 里，enforce_eager、compilation_config.cudagraph_mode 和 cudagraph_capture_sizes 共同决定性能、显存、capture 成本和兼容性。

2026年5月19日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

VeRL Training Flow

导言

这篇文章聚焦 verl 的训练链路：RayPPOTrainer.fit() 如何组织 rollout、reward、logprob、ref 和 actor update，以及这些阶段如何通过 worker 和 DataProto 串起来。

2026年5月19日
分类于 Artificial Intelligence
需要 2 分钟阅读时间

RL Infra Series

导言

这个目录不是单篇文章，而是一条从 数据流 出发，逐步展开到 训练、推理、异步、checkpoint、性能优化和特性矩阵 的写作路线图。

2026年5月18日
分类于 Thinking
需要 3 分钟阅读时间

Work Reporting

核心观点

汇报不是把做过的事情机械罗列给别人看，而是把 目标、交付件、进展、风险、下一步行动 压缩成可决策的信息。好的汇报既帮助上级及时掌握项目状态，也帮助自己理清工作思路、暴露错误路线，并为后续复盘留下材料。

2026年5月14日
分类于 toLearn
需要 1 分钟阅读时间

Search, Ads, and Recommendation

导言

搜广推是很多大厂的核心业务，除了马斯克的X开源了算法核心，其余公司也在AI化。

2026年5月7日
分类于 Artificial Intelligence
需要 7 分钟阅读时间

RL: xPU Mismatch - metrics

导言

RL 模型迁移后的精度比对，相较于 SFT 模型迁移的精度比对，难了很多。

经常出现一个难解问题，前20步reward等指标两者差异较小，但是之后就偏移很大。

叠加

指标繁琐，但不解决问题：虽然指标多，但都是表象/结果指标，难以说明差异来源。
耗时长：RL单步1h+，SFT 20s；慢两个数量级，迭代缓慢。
流程更复杂：涉及到推理和权重转换；
资源压力大：训推+评测模型权重，RL的显存和机器资源压力更大。