跳转至

笔记

RL Infra Series

导言

这个目录不是单篇文章,而是一条从 数据流 出发,逐步展开到 训练、推理、异步、checkpoint、性能优化和特性矩阵 的写作路线图。

Work Reporting

核心观点

汇报不是把做过的事情机械罗列给别人看,而是把 目标、交付件、进展、风险、下一步行动 压缩成可决策的信息。好的汇报既帮助上级及时掌握项目状态,也帮助自己理清工作思路、暴露错误路线,并为后续复盘留下材料。

RL: xPU Mismatch - metrics

导言

RL 模型迁移后的精度比对,相较于 SFT 模型迁移的精度比对,难了很多。

经常出现一个难解问题,前20步reward等指标两者差异较小,但是之后就偏移很大。

叠加

  • 指标繁琐,但不解决问题:虽然指标多,但都是表象/结果指标,难以说明差异来源。
  • 耗时长:RL单步1h+,SFT 20s;慢两个数量级,迭代缓慢。
  • 流程更复杂:涉及到推理和权重转换;
  • 资源压力大:训推+评测模型权重,RL的显存和机器资源压力更大。

My Digital Worker : New Coding Way Part0 —— Building AI-Coding Env

导言

随着AI模型的能力越来越强,我们要做的就是像SE一样描述清楚需求边界,然后让AI去干就行了。

但是由于安全保密,或者不同公司开发软件的历史原因,如何搭建一个AI Coding的环境直接第一步就难住了:

  1. 问题场景:黄区开发,根本连不上外网;
    1. 解决方法:允许蓝区开发
  2. 问题场景:客户都是k8s集群调度机器,都是虚拟出来的机器,只提供一个web的terminal调试界面。代码是在跳板机上修改,然后挂载同步到实际申请到虚拟机上。

AutoFuse

导言

  • DeepSeek V4 加大了与Ascend的合作;
  • 在华为稼先上的技术报告,除了Ascend C对attention有算子优化;
  • 通过pytorch的算子自动融合 AutoFuse 处理一些非常规的计算,可以实现E2E加速31%。并且说可以修改一行之间开启。

故了解相关概念,但是实际上 AutoFuse只适合非常规计算特别多,又没有人力投入的情况,可以考虑AutoFuse。但是对于Qwen3.5 这种优化后就只有一半Matmul/GMM,一半GDN的情况,AutoFuse接入的收益就不足了。

TileLang & Mega-kernel

导言

  • triton 虽然主流,大部分硬件都支持,虽然能快速拿到一部分收益,但是却较难极致性能。
  • 但是Ascend C / PyPTO 又过于Ascend定制化,(学了怎么跳槽啊)
  • 寻找一种更底层,支持极致性能的通用算子编程语言,是极致性能优化里不可或缺的一环。

Tensor Metrics

导言

在AI训练流程中,明明一个tensor就是一个shape下的数值,但是竟然有一堆指标来处理和解释其含义:

  • l1 norm
  • entropy
  • log_prob
  • logistics

这些指标代表什么,用途为何?如何计算(标量?什么shape),计算前后值域/shape变化如何,在比较精度的场景下是否为合适的典型指标(有代表性,且能比较)

  • KL divergence
  • JS divergence
  • argmax agreement
  • top-k agreement