2025¶
QCC:Quality Control Circle
导言
QCC(Quality Control Circle, 质量控制小组):由一小群员工组成的团队,定期开会以识别、分析和解决与工作相关的质量问题。起源于日本,广泛应用于制造业、医疗保健和服务行业。
也被用在华为的开发流程中,用于发现问题,分析、设计并解决问题,最后落回版本能力。
DiffSynth & ms-swift
导言
DiffSynth-Studio 是由魔搭社区(ModelScope, 阿里2022年11月开源的模型社区)算法工程师段忠杰主导开发的开源扩散模型引擎,致力于构建统一的 Diffusion 模型生态。该项目支持多种主流文生图/文生视频模型(如 Stable Diffusion、可图、CogVideoX),并兼容 ControlNet、LoRA、IP-Adapter 等生态模型,显著提升中文场景下的生成能力。1
ms-swift3是魔搭社区提供的大模型与多模态大模型微调部署框架,现已支持600+纯文本大模型与300+多模态大模型的训练(预训练、微调、人类对齐)、推理、评测、量化与部署。
- 其中大模型包括:Qwen3、Qwen3-Next、InternLM3、GLM4.5、Mistral、DeepSeek-R1、Llama4等模型,
- 多模态大模型包括:Qwen3-VL、Qwen3-Omni、Llava、InternVL3.5、MiniCPM-V-4、Ovis2.5、GLM4.5-V、DeepSeek-VL2等模型。
除此之外,ms-swift汇集了最新的训练技术,包括集成
- Megatron并行技术,包括TP、PP、CP、EP等为训练提供加速,
- 以及众多GRPO算法族强化学习的算法,包括:GRPO、DAPO、GSPO、SAPO、CISPO、RLOO、Reinforce++等提升模型智能。
- DPO、KTO、RM、CPO、SimPO、ORPO等偏好学习算法,
- 以及Embedding、Reranker、序列分类任务。
ms-swift提供了大模型训练全链路的支持,包括使用
- vLLM、SGLang和LMDeploy对推理、评测、部署模块提供加速,
- 以及使用GPTQ、AWQ、BNB、FP8技术对大模型进行量化。
Pip Cache
导言
VeRL场景开发时,安装包特别多和复杂:
- CANN
- torch\torch_npu
- vllm\vllm_ascend
- MindSpeed\megatron
- transformer
开发时还要pip install -e . 还要修改代码。
传统的思路是docker镜像或者conda打大包,但是这种包一个就是20GB+,但是这是商发时的策略,开发时即使只是修改一行,但是还是要重新出一个20GB大包。
思路是借助并加速pip的原子化构建:
- 在内网服务器上建立一个pip包缓存站,
- 不仅能缓存官方包,
- 自己修改的代码包也能提交。
- 最终实现,除了CANN安装,其余pip包,一行
pip intall -r requirements.txt就行。
World Model/UFMs/Omni-Modal: AR vs DiT
导言
- World Model: (e.g., Emu3.5)
- Unified Foundation Models, UFMs,强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
- Omni 强调交互能力的闭环。证明模型能像真人一样,具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)
当前多模态设计中AR和DiT的组合关系,单独学习一下