笔记¶

AI 辅助写作与幻觉风险

本站大部分博客和笔记会借助 GPT 等先进模型辅助撰写，包括但不限于资料整理、结构梳理、表达润色和草稿生成。AI 能降低写作成本，但也可能引入事实错误、概念混淆、引用缺失和看似合理的幻觉内容。

因此，除非特别标注，我不保证文中内容完全准确。如果你将这些内容用于学习、工作或决策，请务必自行查证原始资料，并结合上下文判断其可靠性。

劝退指南：不是博客，而是笔记，甚至是草稿

写笔记是为了让自己看懂，写博客是为了让别人看懂，不一样的，认真做好后者对自己各方面能力的提升会非常大（比如表达能力），其实很多时候记笔记就是写几段自己能看懂的表达，很随性，但写博客更像是写一篇论文，需要自己先彻底搞明白一个东西后才能输出¹

我一直努力将内容写成博客。但是后来发现，根本没有时间和心思，来为别人解释很多事情。我的想法最多是解释给多年后忘记一切的自己听，让我还能快速看懂。能达到这点，这些内容的意义对于我就已经足够。

现在拥抱 AI 之后，我更愿意把这些内容理解为 AI 时代的阶段性理解产出。AI 降低了知识获取、信息筛选和文本生成的门槛，但它并不会自动替代人的理解：一个概念为什么重要、如何与已有知识连接、在哪些边界条件下成立，仍然需要自己反复判断、实践和修正。

所以，我仍然会继续更新这些文档。它们不是面向所有读者的完整教程，而是我在某个阶段借助 AI、资料阅读和个人实践，对相关概念形成的理解快照。未来的我可能会推翻、重写或补充其中很多内容，这也是笔记存在的意义。

从读者的角度，我并不会推荐任何人阅读这个网站的内容：因为你会遇到以下令人烦躁的场景

完整性差：某些笔记写着写着就没有了，内容是残缺的。甚至只有一个标题。（这是因为我没有时间填充内容，或者我的研究和注意力转变方向了，弃坑了弃坑了~）
可读性一般：很少有起承转合的解释语句，笔记的内容逻辑几乎全部靠多级标题维持.
笔记间关联性低：从读者的角度是看不到本人是如何使用多级文件夹，来组织划分笔记间的内容逻辑。如果你在搜索栏找不到你想要的关键词，那大概率我没接触到这方面的内容。

知识是自然聚类和融合的，但需要两级的文档来过滤内容和撰写正文。小而全、无懈可击的内容应该是所追求的

导致这种情况，其实和我对知识产出过程的理解有关，我认为过程是 知识是自然聚类和融合的：

接触到领域对象(新建文件夹)
阅读各种文献网站(零散的知识进行简单的聚类)
上手实践和研究(踩了许多坑，有或多或少的感悟)。

而且三者的占比是前面远大于后面，~~这样看来我这网站大部分的内容岂不是都是笔记的草稿~~。

我以这样的方式撰写我的正式的毕业论文时，发现这样的处理有利有弊：

优势：
1. 速度？：能快速的罗列出内容，填充了大量垃圾内容
2. 完备性：保留所有必要的相关信息，
劣势：
1. 对工作进度的误判：罗列的大量页数迷惑了自己，以为进度很快。其实仔细思路内容的有效性、逻辑关联性。核心观点的提炼。遣词造句都极其耗费时间。
  1. 最重要是导致只看页数的领导对你工作速度的误判导致的嫌弃：一周前就看见里论文写了60页了，怎么两周了还没写完。或者你都60页了快结束了，来帮帮我弄这个_{~阿米诺斯}~
2. 需要返工：重新整理罗列的垃圾内容，至少需要三倍以上的时间才能整理好。

总结：知识是自然聚类和融合的思想是没错的，但是在实际生产应用时需要两级的信息筛选过滤体系：区分出正文内的todo内容和未整理的archived信息。通过将罗列的完备信息初步分类归档(有基础的逻辑)以待后续使用，正文精心撰写每一句话保证不需要大量返工。

你们坚持写 blog 的原因是什么？ ↩

2027年3月16日
分类于 Overview
需要 2 分钟阅读时间

Building Large-Scale AI Systems on Ascend: Training, Inference, and Multimodal Optimization

导言

谭邵杰，中国科学技术大学本硕毕业，现任华为昇腾训练开发工程师，专注于 Ascend NPU 上的大模型训练推理框架优化、多模态模型迁移、分布式并行训练、RL 优化与量化推理加速。

AI 训练推理框架与异构加速优化工程师，长期聚焦 Ascend NPU 生态下的大模型训练、推理、多模态迁移、分布式并行、RL 训练与量化优化。

2026年7月31日
分类于 1-AI Systems, 0-TOP
需要 7 分钟阅读时间

Computing Systems Optimization

导言

我的长期职业目标可以收束为一句话：理解软件计算逻辑，把它映射到计算、通信、存储和容量受限的硬件上，通过拆分、掩盖、流水和协同设计提高有效利用率；再把这套理解变成可扩展的性能模型、硬件建议与团队分工。

这不是“会调几个 Kernel”或“熟悉某个训练框架”的目标。我要培养的是从工作负载、系统、软件到硬件的完整判断力：知道数据从哪里来、何时产生、在哪里停留、被谁消费、为什么等待，以及增加哪一种资源才真正缩短端到端关键路径。

2026年7月31日
分类于 1-Agent Workflow, 0-TOP
需要 5 分钟阅读时间

Evidence-Driven Goal Loop

导言

我曾把一个看起来很明确的任务交给 AI：阅读 verl 代码，参考已有 GRPO 脚本适配 Kimi3 的减层训练，并在 NPU 上跑通第一个强化学习优化步。两天后，AI 仍在换软件版本、调整层数和重跑 OOM。真正棘手的不是“还没成功”，而是我无法回答领导接下来一定会问的问题：卡在哪里、解决过什么、时间花在哪里、还能不能解决、还要多久、代码是否上仓、中文设计文档在哪里？

这促使我把 Goal 从一句终点描述改造成一个工程控制面：用 goal-definition 先与用户签订任务合同，再让每个 Goal 强制携带 goal-execution，按证据等级执行有界循环。最终目标仍然重要，但每一轮都必须留下新的事实、排除一个原因，或形成一个可交付成果。

2026年7月31日
分类于 1-AI Systems
需要 9 分钟阅读时间

AI Optimization Stack

导言

“模型优化”“框架优化”“算子优化”和“软硬协同”经常出现在同一段讨论里，却不一定在回答同一个问题。本文建立一张七层诊断地图：先确认被控制的对象、真正变化的物理量和最后采用的验收指标，再判断优化属于哪一层。这个分层不是唯一的行业标准，而是一套避免跨层归因错误的工作方法。

2026年7月29日
分类于 1-AI Systems
需要 7 分钟阅读时间

AI Technology Value Stack

导言

最近我对应该长期研究什么技术产生了迷茫。我不喜欢人员管理：每个人的诉求和心思不同，统一理解、共情和换位思考会持续消耗精力。我更希望别人因为我的技术判断、工程能力和解决方案付费。

但“越底层越关键”“越难越值钱”“卖价越高工资越高”都不是可靠规律。AI 应用背后横跨算法、训练系统、推理服务、框架、操作系统、驱动、芯片、封装和晶圆制造；每一层的交易单位、商业模式、资本强度和劳动议价方式完全不同。本文用截至 2026 年 7 月 29 日可公开核验的价格、收入和工资数据，回答两个问题：钱在技术栈中如何流动，以及我应该站在哪个位置积累长期能力。

2026年7月29日
分类于 1-AI Systems
需要 9 分钟阅读时间

科技初创公司的 offer 往往把现金、成长和期权包装成一个总数，但三者面对的是完全不同的风险。本文先澄清国内初创公司融资、退出与失败数据的统计边界，再梳理智谱、MiniMax、月之暗面、阶跃星辰和上海人工智能实验室的融资、模型与上市事件，并以科大讯飞星火 X1、智谱、MiniMax、商汤和第四范式的公开披露区分研发工资与算力单位成本，最后拆解一份 月薪 68,000 元、两年 160 万元期权、模型 Infra 优化、11-10-6 的阶跃星辰 offer。结论不把媒体估值、内部价格或上市计划冒充现金，而是给出可复查的事实、主观情景区间和签约前问题清单。

2026年7月29日
分类于 Thinking
需要 6 分钟阅读时间

Multi-Objective Decision Making

导言

找工作时，工资、通勤、城市成本、稳定性、技术成长和市场热度都很重要。最让人困扰的却不是指标多，而是不知道各项应该多重要，也不知道许多事实究竟是什么。给每项随手打一个 1–10 分，会制造精确感；把所有问题都调研到底，又可能永远无法做决定。

更合适的做法不是在“粗糙打分”和“无限调研”之间二选一，而是建立一套分层流程：先用底线淘汰不可接受项，再用区间和情景保留未知，用敏感性分析定位会改变选择的变量，只深入调查这些变量，并在新增信息不再值得其成本时停止。

2026年7月28日
分类于 1-AI Model Architecture
需要 53 分钟阅读时间

Kimi K3 Report

导言

Kimi K3 是一个面向长时程智能体任务的原生多模态混合专家模型：总参数量 2.78T，每个词元激活 104.2B 参数，训练上下文最长 100 万词元。它把 Kimi Delta Attention（KDA）、Block Attention Residuals（AttnRes）和 Stable LatentMoE 放进同一套训练系统，并进一步连接原生多模态预训练、分档推理投入强化学习、量化感知后训练与大规模并行基础设施。

本文按照论文的段落和小段落顺序进行逐句翻译，保留全部 16 幅图、5 张表、编号公式、交叉引用和技术附录。为帮助第一次接触相关概念的读者，额外说明均放在明确标记的“小白提示”中，不与原论文观点混写。

2026年7月28日
分类于 1-AI Systems
需要 9 分钟阅读时间

Inference Quantization Formats

导言

W8A8、W8A4、W16A8 看似只差两个数字，实际可能对应完全不同的对象、尺度粒度、在线流程和硬件 kernel；FP8 与 MXFP8 都是八位元素，却又因块尺度而具有不同的数据布局。更容易误解的是，量化位宽、检查点大小和最低运行显存是三个不同问题。

本文先建立一套可复用的阅读方法，再用物理结构、实现逻辑、流程、时序和张量数据流解释常见路径，最后核对截至 2026-07-28 的 Qwen3.5、Kimi K3 和 GLM-5.2 开放权重。所有“多大”均来自当前 Hugging Face 仓库中 .safetensors 文件的实际字节和，而不是用参数量乘标称位宽反推。

2026年7月27日
分类于 1-AI Systems
需要 8 分钟阅读时间

UB-Mesh Architecture

导言

训练万亿参数模型时，几千甚至上万张 NPU/GPU 不是各算各的。每一步训练都会反复交换梯度、激活和专家 token，网络就像一座每秒要分拣海量包裹的城市：包裹搬得慢，昂贵的计算卡只能停下来等路。

UB-Mesh 的关键想法不是发明一条“无限快”的网线，而是承认通信具有局部性：把最频繁、最大量的通信放到近处的短链路，把较少的远程通信留给远层网络，再让路由、集合通信和容错都理解这张不对称的地图。