Business Trip: 2601-2602 verl + DanceGRPO
导言
ZJ内部出差,从0到1完成verl + MindSpeed MM + DanceGRPO算法的 t2v RL,达成reward快速持续上升。
时间线/里程碑¶
260109 - 260215
1.首周:了解现场客户的组织架构,对齐各部分进度,合作代码。 2.功能打通(2人合作): 1. 首周: 1. 0114: Dataloader整改以支持推理输入; 2. 0115-0116: 整合ZJ现场环境,接入MM Model支持初始化; 2. 第二周: 1. 0119-0122: 单卡/减层/不加载RM RL流程通,但是推理出乱码; 2. 0122-0124: 权重转化、推理接入权重转化后权重、全层遇到CANN报错。 3. 第三周 1. 0126-0126: 更新模型最新结构、正常加载权重,修改推理逻辑分支,能正常推理出图片信息。 2. 0127-0128: 依据DanceGRPO算法更新, 3. ...
反思和总结¶
汇报表达
- 主导字节猛犸3生成模型的RL联创,首创DanceGRPO算法迁移到verl框架,复用框架能力,打破verl只支持LLM/VLM场景的局限;verl接入MindSpeed MM高性能后端,复用diffusion等模块优化,打通SFT-RL到后训练全链路;两周快速在verl t2i任务上实现reward上涨;识别并适配推理decode模块chunk计算、异步RM动态加载打分等优化点,RL单步效率翻倍;主导精度定位,定位并修复CFG、clip和统一noise等导致的长跑崩溃问题,并通过FSDP2同精度训推实现训推一致性,避免长跑崩溃,最终实现春节64卡,14天长跑,reward从0.4到0.9的持续上升;率先在verl的LLM为主的RL框架上,首先实现多模态生成模型的RL有效实践闭环。
- 支持北京抖音审核UniVL理解模型适配AnyRes,Packing负载均衡,Temporal Encoding等关键特性,有效保障客户UniVL模型顺利落地。在版本面做好Qwen3VL等模型的版本能力,交付小艺、字节电商等场景;主导verl接入MindSpeed MM/VeOmni后端,实现后训练快速衔接;作为SE主导多模态RL趋势洞察,并在部门内等场合汇报多次。