笔记¶

2025年12月20日
分类于 Artificial Intelligence
需要 1 分钟阅读时间

AI Model Memory

导言

大语言模型、多模态模型是如何设计来实现高效Mem机制。

2025年12月15日
分类于 Overview
需要 1 分钟阅读时间

QCC：Quality Control Circle

导言

QCC（Quality Control Circle, 质量控制小组）：由一小群员工组成的团队，定期开会以识别、分析和解决与工作相关的质量问题。起源于日本，广泛应用于制造业、医疗保健和服务行业。

也被用在华为的开发流程中，用于发现问题，分析、设计并解决问题，最后落回版本能力。

2025年12月15日
分类于 Overview
需要 1 分钟阅读时间

DFX: Design for X

导言

DFX：常常是穿刺完功能后，的补充设计和代码重构，

2025年12月11日
分类于 AI
需要 1 分钟阅读时间

SGLang

导言

SGLang ， 24年1月开源，这是一个由 LMSYS Org 团队开发的、面向大语言模型（LLM）和视觉语言模型（VLM）的高性能、开源通用服务引擎。
性能更加惊艳。在运行 Llama 3.1 405B 时，它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM，甚至能达到 TensorRT-LLM 的 2.1 倍，vLLm 的 3.8 倍。
业界 xAI 的 Grok2 目前已采用 SGLang 作为其 LLM 推理引擎，显著提升了分析信息和输出响应速度。Microsoft Azure 使用 SGLang。

2025年12月10日
分类于 AI
需要 1 分钟阅读时间

DiffSynth-Studio 是由魔搭社区（ModelScope, 阿里2022年11月开源的模型社区）算法工程师段忠杰主导开发的开源扩散模型引擎，致力于构建统一的 Diffusion 模型生态。该项目支持多种主流文生图/文生视频模型（如 Stable Diffusion、可图、CogVideoX），并兼容 ControlNet、LoRA、IP-Adapter 等生态模型，显著提升中文场景下的生成能力。¹

ms-swift³是魔搭社区提供的大模型与多模态大模型微调部署框架，现已支持600+纯文本大模型与300+多模态大模型的训练（预训练、微调、人类对齐）、推理、评测、量化与部署。

其中大模型包括：Qwen3、Qwen3-Next、InternLM3、GLM4.5、Mistral、DeepSeek-R1、Llama4等模型，
多模态大模型包括：Qwen3-VL、Qwen3-Omni、Llava、InternVL3.5、MiniCPM-V-4、Ovis2.5、GLM4.5-V、DeepSeek-VL2等模型。

除此之外，ms-swift汇集了最新的训练技术，包括集成

Megatron并行技术，包括TP、PP、CP、EP等为训练提供加速，
以及众多GRPO算法族强化学习的算法，包括：GRPO、DAPO、GSPO、SAPO、CISPO、RLOO、Reinforce++等提升模型智能。
DPO、KTO、RM、CPO、SimPO、ORPO等偏好学习算法，
以及Embedding、Reranker、序列分类任务。

ms-swift提供了大模型训练全链路的支持，包括使用

vLLM、SGLang和LMDeploy对推理、评测、部署模块提供加速，
以及使用GPTQ、AWQ、BNB、FP8技术对大模型进行量化。

2025年12月10日
分类于 AI
需要 1 分钟阅读时间

VeOmni

导言

VeOmni 是字节跳动与火山引擎联合研发的 统一多模态训练框架，核心目标是解决多模态模型（如 DiT、LLM、VLM、视频生成模型）训练中的碎片化问题，实现 “统一多模态、统一并行策略、统一算力底座”。其经过千卡级真实训练任务验证，支持从百亿级语言模型到 720P 视频生成模型的全流程训练。¹

2025年12月9日
分类于 Tutorials
需要 7 分钟阅读时间

Pip Cache

导言

VeRL场景开发时，安装包特别多和复杂：

CANN
torch\torch_npu
vllm\vllm_ascend
MindSpeed\megatron
transformer

开发时还要pip install -e . 还要修改代码。

传统的思路是docker镜像或者conda打大包，但是这种包一个就是20GB+，但是这是商发时的策略，开发时即使只是修改一行，但是还是要重新出一个20GB大包。

思路是借助并加速pip的原子化构建：

在内网服务器上建立一个pip包缓存站，
不仅能缓存官方包，
自己修改的代码包也能提交。
最终实现，除了CANN安装，其余pip包，一行pip intall -r requirements.txt就行。

2025年12月6日
分类于 toLearn
需要 1 分钟阅读时间

Training Data Usage

导言

论文中提及的数据训练，分数上涨和饱和的描述总结

2025年12月5日
分类于 Artificial Intelligence
需要 6 分钟阅读时间

导言

视觉领域的GPT moment要来了吗？⁴

World Model: (e.g., Emu3.5)
Unified Foundation Models, UFMs，强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
Omni 强调交互能力的闭环。证明模型能像真人一样，具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)

当前多模态设计中AR和DiT的组合关系，单独学习一下

2025年12月4日
分类于 AI
需要 3 分钟阅读时间

vllm-omni & DiT Inference Accelerate

导言

vllm专门为了多模态单独推出了推理框架vllm-omni，调研一下