跳转至

2026

Work Reporting

核心观点

汇报不是把做过的事情机械罗列给别人看,而是把 目标、交付件、进展、风险、下一步行动 压缩成可决策的信息。好的汇报既帮助上级及时掌握项目状态,也帮助自己理清工作思路、暴露错误路线,并为后续复盘留下材料。

RL: xPU Mismatch - metrics

导言

RL 模型迁移后的精度比对,相较于 SFT 模型迁移的精度比对,难了很多。

经常出现一个难解问题,前20步reward等指标两者差异较小,但是之后就偏移很大。

叠加

  • 指标繁琐,但不解决问题:虽然指标多,但都是表象/结果指标,难以说明差异来源。
  • 耗时长:RL单步1h+,SFT 20s;慢两个数量级,迭代缓慢。
  • 流程更复杂:涉及到推理和权重转换;
  • 资源压力大:训推+评测模型权重,RL的显存和机器资源压力更大。

My Digital Worker : New Coding Way Part0 —— Building AI-Coding Env

导言

随着AI模型的能力越来越强,我们要做的就是像SE一样描述清楚需求边界,然后让AI去干就行了。

但是由于安全保密,或者不同公司开发软件的历史原因,如何搭建一个AI Coding的环境直接第一步就难住了:

  1. 问题场景:黄区开发,根本连不上外网;
    1. 解决方法:允许蓝区开发
  2. 问题场景:客户都是k8s集群调度机器,都是虚拟出来的机器,只提供一个web的terminal调试界面。代码是在跳板机上修改,然后挂载同步到实际申请到虚拟机上。

AutoFuse

导言

  • DeepSeek V4 加大了与Ascend的合作;
  • 在华为稼先上的技术报告,除了Ascend C对attention有算子优化;
  • 通过pytorch的算子自动融合 AutoFuse 处理一些非常规的计算,可以实现E2E加速31%。并且说可以修改一行之间开启。

故了解相关概念,但是实际上 AutoFuse只适合非常规计算特别多,又没有人力投入的情况,可以考虑AutoFuse。但是对于Qwen3.5 这种优化后就只有一半Matmul/GMM,一半GDN的情况,AutoFuse接入的收益就不足了。

TileLang & Mega-kernel

导言

  • triton 虽然主流,大部分硬件都支持,虽然能快速拿到一部分收益,但是却较难极致性能。
  • 但是Ascend C / PyPTO 又过于Ascend定制化,(学了怎么跳槽啊)
  • 寻找一种更底层,支持极致性能的通用算子编程语言,是极致性能优化里不可或缺的一环。

Tensor Metrics

导言

在AI训练流程中,明明一个tensor就是一个shape下的数值,但是竟然有一堆指标来处理和解释其含义:

  • l1 norm
  • entropy
  • log_prob
  • logistics

这些指标代表什么,用途为何?如何计算(标量?什么shape),计算前后值域/shape变化如何,在比较精度的场景下是否为合适的典型指标(有代表性,且能比较)

  • KL divergence
  • JS divergence
  • argmax agreement
  • top-k agreement

Model Migrate Accuracy

导言

之前将megatron GPU实现迁移到NPU时,对齐精度,通过打印hook+小算子,只是打印 hash、l1_norm、mean、sum实现,能实现tensor hash值一模一样。

但是后来为了性能不得不上融合算子,就不能实现hash值相同;

到现在RL训推一致性,需要对齐训练和推理的精度,有两个问题: 1. 由于激活值在通过attention,mlp moe等模块时,激活值的shape和值域都会变化,如何判断对比两者的在哪个模块有明显的变化。需要不同模块能通过norm类似的操作来统一误差标准,然后我能拉一个每个不同模块的误差曲线,能通过可视化发现误差陡增的位置就是问题所在。 2. 主要我不希望dump每个模块的输出来进行位数的对比,这样太耗时和消耗空间,但是统计值l1_norm、mean、sum、min和max好像已经不够了,是不是需要加上p95等分位值,或者对于tensor变量一些metrics:kl loss才能更好的对比两个比较两个tensor的差异,且是数值可比较的。