Next of My Ascend Career

导言

作为卖NPU AI加速卡的软件员工，目标是将昇腾的底层算力与上层多模态应用需求精准对接，释放昇腾AI算力，让客户看到NPU的性能、性价比、易用性、客户自身业务的使用需求。

MindSpeed-MM¶

根据主体模块的效果，预埋其模块实现（比如FlashAttention、DPO能不能实现）

各模块的局部计算加速策略。

你的工作定位在昇腾软件栈中处于“技术桥梁”的关键位置，既需要理解昇腾底层硬件特性与软件工具链能力，又要深入对接客户实际模型需求，最终实现从GPU到NPU的高效迁移与性能突破。以下从技术架构、工作价值、能力要求三个维度展开分析：

昇腾技术体系可划分为硬件层-使能层-框架层-工具链层-应用层五个层级，而你的工作集中在工具链层与客户模型的结合点：

硬件层（NPU）：Ascend 910/310等芯片提供底层算力，但客户无法直接利用其硬件特性。
使能层（CANN）：对标CUDA+cuDNN，提供算子加速库（如BLAS、NN库）、自动并行切分、模型编译优化等能力。例如CANN 7.0的分布式切分编译可将LLM模型拆解到昇腾集群。
框架层（MindSpore）：华为自研框架，支持动态图/静态图混合编程，但需兼容客户使用的PyTorch/TensorFlow生态。
工具链层（MindSpeed系列）：
MindSpeed-Core：分布式训练加速库（TP/CP/PP策略优化、内存管理）
MindSpeed-MM：多模态场景专用套件，支持长序列处理、动态Shape分桶、异构流水线并行。例如为视频生成模型实现非对齐序列切分，解决传统GPU集群无法处理超长帧的痛点。
应用层：客户自研模型（如Open-Sora Plan、InternVL 2.0）。

你的核心价值：作为MindSpeed-MM的实践者，你处于“向上理解客户模型架构，向下对齐昇腾软硬协同优化”的关键环节。例如客户使用PyTorch开发的视频生成模型（如Sora类架构），你需要通过以下流程完成迁移：

客户选择昇腾NPU的核心诉求不仅是硬件性能，更看重全流程解决方案的成熟度。你的工作需聚焦以下三个方向的落地验证：

迁移效率提升
利用CANN的ATC工具实现PyTorch模型到OM格式的一键转换，并通过MindSpeed-MM的兼容层减少代码改动量（如仅需修改5%的Dataloader代码）。
案例参考：Open-Sora Plan团队通过昇腾适配实现代码零修改迁移，训练速度提升10.7%。
分布式能力突破
对千亿参数模型，采用3D混合并行策略（如TP+PP+ZeRO-3），通过CANN的HCCL库优化AllReduce通信效率。
对长视频生成场景，应用非对称流水线并行：将VAE编码器切分到4卡，UNet模块切分到8卡，实现负载均衡。
端到端性能指标
显存优化：通过CANN的KV Cache压缩技术，将70B参数模型的显存占用从320GB降至240GB；
计算加速：利用TBE编译器生成融合算子（如将Conv+BN+ReLU合并为单算子），使ResNet50推理速度提升100%。

若要进一步提升工作价值，可围绕以下方向深化能力：

你的工作本质是将客户的前沿模型需求转化为昇腾软硬件的最优配置方案。例如当客户提出“支持10分钟4K视频生成”的需求时，你需要：

这种技术穿透力，正是昇腾生态区别于传统GPU供应商的核心竞争力。