RL: xPU Mismatch - metrics
导言
RL 模型迁移后的精度比对,相较于 SFT 模型迁移的精度比对,难了很多。
经常出现一个难解问题,前20步reward等指标两者差异较小,但是之后就偏移很大。
叠加
- 指标繁琐,但不解决问题:虽然指标多,但都是表象/结果指标,难以说明差异来源。
- 耗时长:RL单步1h+,SFT 20s;慢两个数量级,迭代缓慢。
- 流程更复杂:涉及到推理和权重转换;
- 资源压力大:训推+评测模型权重,RL的显存和机器资源压力更大。
导言
RL 模型迁移后的精度比对,相较于 SFT 模型迁移的精度比对,难了很多。
经常出现一个难解问题,前20步reward等指标两者差异较小,但是之后就偏移很大。
叠加
导言
随着AI模型的能力越来越强,我们要做的就是像SE一样描述清楚需求边界,然后让AI去干就行了。
但是由于安全保密,或者不同公司开发软件的历史原因,如何搭建一个AI Coding的环境直接第一步就难住了:
导言
导言
在AI训练流程中,明明一个tensor就是一个shape下的数值,但是竟然有一堆指标来处理和解释其含义:
这些指标代表什么,用途为何?如何计算(标量?什么shape),计算前后值域/shape变化如何,在比较精度的场景下是否为合适的典型指标(有代表性,且能比较)
导言
之前将megatron GPU实现迁移到NPU时,对齐精度,通过打印hook+小算子,只是打印 hash、l1_norm、mean、sum实现,能实现tensor hash值一模一样。
但是后来为了性能不得不上融合算子,就不能实现hash值相同;
到现在RL训推一致性,需要对齐训练和推理的精度,有两个问题: 1. 由于激活值在通过attention,mlp moe等模块时,激活值的shape和值域都会变化,如何判断对比两者的在哪个模块有明显的变化。需要不同模块能通过norm类似的操作来统一误差标准,然后我能拉一个每个不同模块的误差曲线,能通过可视化发现误差陡增的位置就是问题所在。 2. 主要我不希望dump每个模块的输出来进行位数的对比,这样太耗时和消耗空间,但是统计值l1_norm、mean、sum、min和max好像已经不够了,是不是需要加上p95等分位值,或者对于tensor变量一些metrics:kl loss才能更好的对比两个比较两个tensor的差异,且是数值可比较的。
导言