跳转至

2025

Vllm Basic

导言

HW24年狠抓了训练,但是推理性能稍微落下,dsv3的出现,强化学习的爆火,反过来对推理性能提出了很高的要求。为此高性能的vllm推理框架变成了hw首先适配的目标。

  1. 一方面我需要大致了解vllm框架的设计,
  2. 另一方面,我主要需要关注vllm-ascend实现了哪些接口。

Code Project Reading

导言

来hw的这小半年成,从PTA到MM又来到DeepseekV3,接触了很多代码,但是却还是常陷入代码细节阅读困境,难以理解如天书般的垃圾代码。往往陷入代码细节,一读读几天,并且经常难以产出阶段性成果。

如何快速代码上手,

  1. 通过代码外资料(LLM介绍,流程结构图,开源完善实现),
    1. 快速理解代码背后的概念,。e.g.,MOE,EP
    2. 简单了解开源代码实现思路,亮点。
  2. 跑通最小样例,通过执行调用栈(类似VizTrace),从整体和上层来理解当前代码框架。
  3. 聚焦没有实现的代码部分,或者性能瓶颈,递归仔细分析。

Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工, 目标是将昇腾的底层算力与上层多模态应用需求精准对接,释放昇腾AI算力,让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。

AI Post Traning: RL & RHLF & DPO

导言

Deepseek 的 GRPO 方法展示了强化学习的潜能。

RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。而DPO 采用了更直接的方法,直接运用人的偏好来影响模型的调整。

Step-Video论文介绍了Video-DPO, 这类训练中最后通过人工标注优化的方法。

宛如泥潭的大型项目开发困境

导言

当时我选择一线的原因是决定能最解决客户,每个工作能产生最大的价值。

通过一段时间的开发,我感觉在一线开发就像在泥潭里前进:走得越快越远,泥潭陷得越深,前进阻力越大。

困境为何而来,如何解决困境,是我想讨论的重点。

Continuous Integration, CI

导言

在交付PTA需求的时候,发现需求在测试人员的更大的测试规模下出现了问题:

在增多了不同的测试样例,和不同的测试设备(910A,910B,310P)时;程序是否可执行,性能是否达标,精度是不是正常;都有待监控。

说明在开发过程中,我构建个人的每日测试框架,持续监控开发的测试和性能。

集成 windmill-labs / windmill。