Artificial Intelligence¶

VeRL Local Debug on Mac

导言

最近一直在出差，现实问题很直接：远端服务器连不上、GPU 不稳定、集群排队慢，但 SE 的核心工作并不会因此消失——还是要读代码、跑代码、改设计、做验证。

这篇系列草稿要解决的，不是“在 Mac 上替代生产集群”，而是一个更现实的问题：能不能在本地 Mac M4 16GB 的约束下，把 VeRL 的关键路径跑起来，做最小功能验证、快速 debug 和设计迭代。

如果这条路能走通，它不仅能改善出差场景下的开发效率，也会让后续的 AI 接管式功能开发 更容易落地：本地可复现、日志可追踪、入口可脚本化、失败可定位。

导言

RL 训练的指标不能只看 reward、loss 和 throughput。真正可用的 DFX 体系，需要同时解释 正确性、稳定性、显存、性能、负载均衡和数据质量。

导言

这篇文章只回答一个问题：一条 RL 样本从 prompt 进入系统，到 rollout、reward、logprob、advantage、loss、backward，最后回到下一轮训练时，数据到底怎么流、shape 怎么变、显存为什么涨。

导言

这篇文章解释为什么 RL 训练需要异步：同步流程中 rollout、reward、logprob、ref 和 actor update 互相等待，容易导致设备空闲；异步机制的目标是减少 stage bubble，提高 E2E throughput 和硬件利用率。

导言

RL checkpoint 比普通 SFT checkpoint 更复杂，因为它不仅要保存模型参数，还要保存 optimizer、scheduler、global step、采样状态，以及在异步模式下可能存在的队列和策略版本状态。

导言

这篇文章作为索引页，专门回答每个特性：怎么开、代码在哪、逻辑是什么、实践效果怎样、为什么默认不开、对 MFU / SMA 有什么作用。

导言

MFU / SMA 低不一定说明 kernel 慢，也可能是 rollout、reward、checkpoint、通信、异步队列或 token 分布造成的等待。性能优化的第一步不是开特性，而是建立 E2E 性能模型。

导言

RL 中的 rollout 不是普通离线推理。它不仅要生成 response，还要和训练阶段共享策略版本、返回 token 级信息，并参与后续 logprob、reward 和 advantage 计算。

导言

这篇文章聚焦 verl 的训练链路：RayPPOTrainer.fit() 如何组织 rollout、reward、logprob、ref 和 actor update，以及这些阶段如何通过 worker 和 DataProto 串起来。

导言

这个目录不是单篇文章，而是一条从 数据流 出发，逐步展开到 训练、推理、异步、checkpoint、性能优化和特性矩阵 的写作路线图。