跳转至

笔记

Model Migrate Accuracy

导言

之前将megatron GPU实现迁移到NPU时,对齐精度,通过打印hook+小算子,只是打印 hash、l1_norm、mean、sum实现,能实现tensor hash值一模一样。

但是后来为了性能不得不上融合算子,就不能实现hash值相同;

到现在RL训推一致性,需要对齐训练和推理的精度,有两个问题: 1. 由于激活值在通过attention,mlp moe等模块时,激活值的shape和值域都会变化,如何判断对比两者的在哪个模块有明显的变化。需要不同模块能通过norm类似的操作来统一误差标准,然后我能拉一个每个不同模块的误差曲线,能通过可视化发现误差陡增的位置就是问题所在。 2. 主要我不希望dump每个模块的输出来进行位数的对比,这样太耗时和消耗空间,但是统计值l1_norm、mean、sum、min和max好像已经不够了,是不是需要加上p95等分位值,或者对于tensor变量一些metrics:kl loss才能更好的对比两个比较两个tensor的差异,且是数值可比较的。

PyPTO

导言

  • 浦江现场性能优化时,原始 triton 的 GDN性能相对于H200的triton性能很差;
  • 接入了 Ascend C的若干GDN算子实现,提速了一倍;
  • 接入 mojo_opset 的 casual_conv1d; 或者 huawei-csl的 sglang的高性能 solve_tril 。性能又提升一波,但和竞品还是有差异。
  • 2012实验室对 PyPTO 有精细调优,现在想接入

Triton & Triton Ascend

导言

  • Ascend上训练编译成全图有功能问题,导致下发问题并不能像GPU一样完全解决;
  • 在浦江实验室的经验是,triton确实能快速拿到2~3倍的收益,如果算子还有问题就能考虑

RL: Training Inference Mismatch

导言

  • 25年,RL训练崩溃归因于训推不一致;
  • 为此提出了很多方法,TIS,Router Replay,FP16训推,batch一致性...
  • 如何判断 模型当前训推不一致,并找到不一致实现处,是实践的要点。

My Digital Worker : New Coding Way

导言

AI浪潮下,一开始是代码补全,之后是Vibe Coding,现在是Agent(规范驱动开发(Spec-driven Development)),后续趋势是Agent Team/Swarm。核心LLM上层的 逻辑编排层 愈发的重要。Harness Coding等

作为一个程序员,应当以什么姿势拥抱AI时代的代码编程,是需要持续关注的问题。

My Digital Worker : AutoMoneyMaker - AutoTrader

导言

量化交易一直是最火的自动赚钱的途径:

  • 经过调研,个人量化从技术上是可行的。
  • 加上现在agent coding能力起来了。
  • 原本是自己在写AQTP仓,但是发现了 zvt 这个偏个人的研究策略仓,和更关注实盘高频模拟的 vnpy
  • 现在把精力转移到开源仓的使用
    • zvt 仓的使用和二次开发上;(思路、可视化、数据库、策略拓展性都感觉OK)
    • QUANTAXIS 通过 Rust 加速;
    • AI 向 Qbot 和 microsoft/qlib 方法尝试。Qbot还支持接入飞书。