跳转至

Artificial Intelligence

VeRL Local Debug on Mac

导言

最近一直在出差,现实问题很直接:远端服务器连不上、GPU 不稳定、集群排队慢,但 SE 的核心工作并不会因此消失——还是要读代码、跑代码、改设计、做验证。

这篇系列草稿要解决的,不是“在 Mac 上替代生产集群”,而是一个更现实的问题:能不能在本地 Mac M4 16GB 的约束下,把 VeRL 的关键路径跑起来,做最小功能验证、快速 debug 和设计迭代。

如果这条路能走通,它不仅能改善出差场景下的开发效率,也会让后续的 AI 接管式功能开发 更容易落地:本地可复现、日志可追踪、入口可脚本化、失败可定位。

RL DFX Metrics

导言

RL 训练的指标不能只看 reward、loss 和 throughput。真正可用的 DFX 体系,需要同时解释 正确性、稳定性、显存、性能、负载均衡和数据质量

RL Data Flow

导言

这篇文章只回答一个问题:一条 RL 样本从 prompt 进入系统,到 rollout、reward、logprob、advantage、loss、backward,最后回到下一轮训练时,数据到底怎么流、shape 怎么变、显存为什么涨。

VeRL Async

导言

这篇文章解释为什么 RL 训练需要异步:同步流程中 rollout、reward、logprob、ref 和 actor update 互相等待,容易导致设备空闲;异步机制的目标是减少 stage bubble,提高 E2E throughput 和硬件利用率。

VeRL Checkpoint

导言

RL checkpoint 比普通 SFT checkpoint 更复杂,因为它不仅要保存模型参数,还要保存 optimizer、scheduler、global step、采样状态,以及在异步模式下可能存在的队列和策略版本状态。

VeRL Feature Matrix

导言

这篇文章作为索引页,专门回答每个特性:怎么开、代码在哪、逻辑是什么、实践效果怎样、为什么默认不开、对 MFU / SMA 有什么作用。

VeRL Performance Optimization

导言

MFU / SMA 低不一定说明 kernel 慢,也可能是 rollout、reward、checkpoint、通信、异步队列或 token 分布造成的等待。性能优化的第一步不是开特性,而是建立 E2E 性能模型。

VeRL Rollout Inference

导言

RL 中的 rollout 不是普通离线推理。它不仅要生成 response,还要和训练阶段共享策略版本、返回 token 级信息,并参与后续 logprob、reward 和 advantage 计算。

VeRL Training Flow

导言

这篇文章聚焦 verl 的训练链路:RayPPOTrainer.fit() 如何组织 rollout、reward、logprob、ref 和 actor update,以及这些阶段如何通过 worker 和 DataProto 串起来。

RL Infra Series

导言

这个目录不是单篇文章,而是一条从 数据流 出发,逐步展开到 训练、推理、异步、checkpoint、性能优化和特性矩阵 的写作路线图。