2026¶

2026年7月23日
分类于 1-AI Systems
需要 10 分钟阅读时间

XTuner Memory Optimization

导言

“降低显存”不是一种动作。它可能是在减少对象大小、限制同时在途的对象数量、把对象搬到 CPU、缩短对象生命周期，也可能只是把 allocator 中未占用的缓存块归还给驱动。

本文固定到 XTuner 397b 分支 commit e949653，从一个第一次接触训练显存优化的读者视角，拆解原始清单中的 13 个技术点。每项都回答：大对象是什么、为什么形成峰值、执行时序怎样、数据流经过哪里、伪代码如何写、适用于什么条件，以及效果边界在哪里。

2026年7月23日
分类于 1-AI Systems
需要 3 分钟阅读时间

DeepSpeed Observability and Autotuning

导言

DeepSpeed 的五个观测工具不是重复功能：FLOPs Profiler 回答“理论计算在哪”，PyTorch Profiler 回答“时间实际花在哪”，Communication Logging 回答“哪类 collective 在拖慢”，Autotuning 回答“哪个配置在当前目标上更好”，Monitor 回答“实验长期发生了什么”。

2026年7月23日
分类于 1-AI Systems
需要 3 分钟阅读时间

DeepSpeed MoE and Model Compression

导言

MoE 和模型压缩看似方向相反：前者扩大总参数，后者缩小部署对象。它们实际都在重写“每个 token 访问哪些参数”。DeepSpeed-MoE/MoE Inference 管理稀疏路由和专家放置；Model Compression/MoQ 管理层、权重和精度的删减。

2026年7月23日
分类于 1-AI Systems
需要 3 分钟阅读时间

DeepSpeed I/O, Offload, and Asynchrony

导言

“异步”只说明调用可以提前返回，不说明后台工作一定能被隐藏。DeepNVMe、Ulysses-Offload、ZenFlow 和 DataStates 分别搬运参数/状态、Attention 工作集、优化器更新与 checkpoint；判断它们是否有效，必须同时检查前台关键路径和后台队列是否稳定。

2026年7月23日
分类于 1-Distributed Parallelism
需要 3 分钟阅读时间

DeepSpeed Communication Compression and Hiding

导言

通信优化只有两条基本路线：少传，或让传输不再暴露在关键路径。1-bit Adam/LAMB 与 0/1 Adam 属于前者，Domino 属于后者。前者改变数值算法，后者改变调度；两者的正确性风险和验收方式完全不同。

2026年7月23日
分类于 1-Distributed Parallelism
需要 11 分钟阅读时间

Attention Cache and Sequence Parallelism

导言

KV cache 最容易造成的误解，是把所有名为 K/V 或 state 的张量都看成同一种“缓存”。事实上，训练时为反向传播保留的 K/V activation、推理时跨 decode step 存活的 KV cache、GDN 跨 token 改写的固定状态，生命周期和分布式处理都不同。

本文从一次 token 生成开始，逐对象解释 MHA、DSA 与 GDN 保存什么，再讨论 CP、USP 切开长序列后，临时 activation 和持久 cache 分别需要怎样的通信。

2026年7月23日
分类于 1-Distributed Parallelism
需要 3 分钟阅读时间

DeepSpeed Memory and Parallelism

导言

“显存不够”不是一个足够精确的诊断。可能是优化器状态常驻 GPU，可能是 ZeRO-3 跨节点通信暴露，也可能是单层矩阵本身无法放进一张卡。ZeRO-Offload、ZeRO++、MixZ++ 和 AutoTP 分别处理这四类问题，不能把它们当成同一开关的不同档位。

2026年7月21日
分类于 1-Agent Workflow
需要 4 分钟阅读时间

单个 Codex 或 Claude Code 窗口的问题，不只是“subagent 开得少”，而是人无法稳定回答四个问题：派了谁、做到哪、交了什么、谁验收。调研后的结论是：AutoResearch 已经拥有最重也最重要的持久控制面；下一步不应重写一个多智能体平台，而应补齐人工 UAT，把 Archon 限定为可选的阶段工作流，把 Pi、Codex 和 Claude 作为可替换 worker。

2026年7月21日
分类于 1-AI Model Architecture
需要 14 分钟阅读时间

Attention Architecture Evolution

导言

Attention 的发展并不是从 Full Attention 排成一条单向淘汰链。更准确的结构是三条并行路线：共享或压缩 KV cache、把历史压入固定状态、对历史 token 做稀疏选择。MQA、GQA 与 MLA 仍然读取全部历史；GDN 与 KDA 改写了记忆算法；DSA 则在 MLA 前增加轻量索引器，只让主注意力读取 top-k。

本文以首个公开论文或官方发布日为时间点，并把每种结构落到版本固定的开源代码：Q/K/V 从哪里产生、什么对象进入 cache、score 如何形成、复杂度到底被搬到了哪里。

2026年7月20日
分类于 1-Distributed Parallelism
需要 10 分钟阅读时间

Kimi K3 NPU Training

导言

Kimi K3 的 NPU 适配不是给现有 MLA-MoE 模型换一组配置。它同时引入 Kimi Delta Attention（KDA）、Block Attention Residuals（AttnRes）和 Stable LatentMoE，分别改变层内状态、跨层残差和专家通信。

截至 2026 年 7 月 20 日，官方已确认 K3 是 2.8T 参数、原生多模态、1M 上下文、896 专家激活 16 个，并采用 3× KDA + 1× Gated MLA；但完整权重、精确 config 和技术报告仍待发布。因此本文严格区分 已确认事实、组件证据、工程推导和发布后必验项，目标是形成可执行的 NPU bring-up 与性能优化计划，而不是制造一份猜测配置。