2026¶

2026年7月8日
分类于 AI
需要 7 分钟阅读时间

vLLM Inference Profiling

导言

训练 profiling 通常围绕 forward、backward、optimizer 和通信几类稳定阶段展开；推理 profiling 则更像一条被压扁的多层时间带：prefill、decode、spec decode、采样、图模式、host 同步、调度空隙和特殊融合算子会叠在同一个 step 里。

这篇文章用一次 vLLM-Ascend trace 作为样本，先把 Free、vllm::gdn_attention_core、FusedInferAttentionScore、GemmaRmsNorm、fused_sigmoid_gating_delta_rule_update_kernel_0、aclnnInplaceUniform_DSARandomUniform_DSARandomUniform 这些名字拆开，再总结一套以后跟踪新模型融合算子的 checklist。

2026年7月7日
分类于 Work
需要 5 分钟阅读时间

Ascend 950 A5 Multimodal Quantization

导言

截至 2026-07-07，Ascend 950 A5 对多模态生成的公开支持已经不是零，但它更像三层拼图：vLLM-Omni 已把 Ascend NPU、Wan2.2/Qwen-Image 等 diffusion 量化路径写进文档；vLLM-Ascend 主分支出现 A5/950 与 MXFP/W8A8 等后端代码；VeRL-Omni 已能用 vLLM-Omni 做 Ascend NPU rollout，但量化默认仍是空配置，公开 recipe 还没有给出 A5 量化 RL 的性能和精度结论。本文只写可追溯来源，尤其区分“文档支持”“代码路径”“验证效果”和“仍需实测”。

2026年7月7日
分类于 Artificial Intelligence
需要 10 分钟阅读时间

ClusterHealthDetect A3 Performance

导言

这篇文章记录一次从“pod4 比 pod8 跑 Qwen3.5 397B SFT 慢约 10%”出发的集群健康定位。普通 allgather 打流没有复现差异，并不等于训练链路健康；真实慢点可能在 CPU 绑核、H2D、固定两卡 D2D、背景设备负载、rank-to-core 放置和框架调度之间。ClusterHealthDetect 的作用，是把这些变量拆成可复现实验矩阵，成为训练性能模型里的校准账本。

2026年7月3日
分类于 Artificial Intelligence
需要 6 分钟阅读时间

Training Performance Model

导言

模型训练建模不是先问“MFU 有多高”，而是先把模型结构、硬件账本、并行切分、调度路径和实测校准放到同一个估算器里。MFU 是其中最干净的计算口径：它把模型理论必需 FLOPs、设备峰值和实测步时连在一起；但显存能不能放下、通信会不会卡住、padding 是否浪费、EP/TP/SP 是否合适，必须另算。

2026年7月3日
分类于 Artificial Intelligence
需要 7 分钟阅读时间

Scaling Law

导言

Scaling Law 不只是“模型越大越好”的经验总结，而是一套算力预算分配语言：在固定训练预算下，参数量、训练数据、序列长度和训练时长互相竞争；在固定推理预算下，模型大小、生成 token、采样策略、工具调用和 agent rollout 也互相竞争。本文只记录论文中可追溯的公开披露；没有披露的数据明确标为“未披露”，不从参数规模反推训练成本。

2026年7月3日
分类于 Artificial Intelligence
需要 6 分钟阅读时间

BSND TND Operator Layout

导言

讨论 BSND/TND 时，最容易误判的是把 推理 prefill 支持 当成 训练全链路支持。对 Qwen3.5 这类含 Gated Delta Net 的模型，TND 不只是把 [B, S, N, D] reshape 成 [T, N, D]：训练还要覆盖 backward、recurrent state、cu_seqlens、label / loss mask、old logprob、ref logprob、actor update 和框架并行契约。

本文的结论是：推理 TND 是中等工程量，训练 TND 是大工程量；verl 已经支持 Qwen3.5 RL，但具体 layout 支持取决于 FSDP/Megatron/MindSpeed/vLLM 路径，不能一概而论。

2026年7月3日
分类于 Artificial Intelligence
需要 17 分钟阅读时间

AI Infra Daily Radar

导言

这篇文章记录 AI infra、post-training 和 multimodal serving 方向的每日 PR / issue 雷达。每轮只深入少量 P0/P1 项：优先性能、多模态、调度、attention、padding、KV cache、MTP、NPU / Ascend 相关变化。

2026年7月2日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

Personal Advantage Workflow

导言

多局点、多任务、多角色同时推进时，真正稀缺的不是勤奋，而是 判断力、取舍能力和可复用记录。均匀响应所有任务只能保证不出明显纰漏，却很难形成个人优势；优势通常来自少数高风险、高杠杆、高不确定、强依赖的局点。

本文把工作链路整理成一个可执行系统：先识别重点风险局点，再拒绝低优先级任务；先快穿刺关键假设，再并行派活和紧跟踪；先用原理、显存、性能 MFU 和投产约束做建模，再用实践验证、详细记录和持续修正形成历史；最后把优势进展、后续风险和必要求助稳定汇报出去。

2026年7月1日
分类于 Artificial Intelligence
需要 4 分钟阅读时间

AI Documentation Workflow

导言

这篇文章记录我当前的 Work with AI 文档工作流：不是把一段 prompt 扔给模型、得到一篇孤立文章，而是把调研、来源管理、论文图表、正文插图、图片上传、Hugo 写作规范、可复用 skill 和 git 发布串成一个可验证的流水线。

这条流水线的关键变化来自 Karpathy 的 LLM Wiki 思路：把知识库视作一个由 LLM 维护的 Markdown 代码库。原始资料进入 raw 层，结构化理解进入 wiki 层，Hugo 文章只是最终发布层。这样每次写作都会沉淀可复用记忆，而不是从聊天记录里重新发明一次。

2026年7月1日
分类于 Artificial Intelligence
需要 9 分钟阅读时间

VeRL Async Policy

导言

VeRL async 的核心问题不是“开异步就一定更快”，而是把 rollout 长尾、训练更新、参数同步和旧样本容忍度放到同一个队列系统里调参。这篇笔记梳理 VeRL 老版 one_step_off_policy / fully_async_policy 与新版 trainer v1 的关系，解释 staleness 的真实语义，并给出 64P、128P NPU 场景下选择训推资源比例的第一轮计算方法。