跳转至

笔记

RL Weekly News

导言

RL 相关的洞察: 算法趋势、热点模型策略、框架优化、实验规律、流派观点

Agile Governance: Balancing IPD and AI Innovation

导言

厚重的 IPD 流程 和 AI 创新,如何平衡?

两种范式的对垒

  • IPD (集成产品开发 - 华为/IBM): 强调“确定性”。通过跨部门协同和严格的阶段评审,将研发视为一项低风险的投资,追求一次把事情做对,适合硬件和大型系统。
  • 字节跳动模式: 强调“演化性”。依托强大的技术中台和 A/B 测试,通过极致的敏捷迭代和数据驱动决策,在不确定性中快速筛选胜者。

AI 开发的特殊挑战

AI 研发具有高不确定性、高算力成本和极快的技术更迭周期。这导致传统的 IPD 流程在 AI 领域显得过重,而纯粹的敏捷模式在面对大额算力投资时又显得缺乏战略定力。

IPD Q&A

导言

  • IPD 流程在 AI 里过于厚重和低效,所以华为AI产品线的IPD流程已经进化了:工作内容和方向已经支持灵活的随时变化了,但是需求只落小范围的,确定的,快做完的东西,来应付人力分配说明流程。
  • IPD流程貌似更强调流程,弱化个人影响。甚至还有三个臭皮匠顶个诸葛亮的说法。在AI研究领域或者其他领域这方法对吗?公司应该花大价钱招一个强人,还是招多个能力稍差的人
  • IPD关于培养人才梯队还有独特的观点:高手的能力是可以被拆解复制的,被下面的人继承。但是这一方面涉及到老师愿不愿意教、会不会教;也涉及到学生愿不愿意学,学得会吗?就好像清华毕业生也不是能量产一班的清华高考生。

Money Maker ideas

导言

工作之后,技术其实不是最重要的,如何商业变现才是最重要的(如何多赚钱,持续赚钱,健康增长赚钱),设计好的商业模式是最重要的。

例如,Ascend做什么开源仓,除了考虑社区技术趋势,只要客户买卡,哪怕客户的框架是自娱自乐,我们也会无条件支持。

QCC:Quality Control Circle

导言

QCC(Quality Control Circle, 质量控制小组):由一小群员工组成的团队,定期开会以识别、分析和解决与工作相关的质量问题。起源于日本,广泛应用于制造业、医疗保健和服务行业。

也被用在华为的开发流程中,用于发现问题,分析、设计并解决问题,最后落回版本能力。

SGLang

导言

  • SGLang , 24年1月开源,这是一个由 LMSYS Org 团队开发的、面向大语言模型(LLM)和视觉语言模型(VLM)的高性能、开源通用服务引擎。
  • 性能更加惊艳。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM,甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。
  • 业界 xAI 的 Grok2 目前已采用 SGLang 作为其 LLM 推理引擎, 显著提升了分析信息和输出响应速度。Microsoft Azure 使用 SGLang。

DiffSynth & ms-swift

导言

DiffSynth-Studio 是由魔搭社区(ModelScope, 阿里2022年11月开源的模型社区)算法工程师段忠杰主导开发的开源扩散模型引擎,致力于构建统一的 Diffusion 模型生态。该项目支持多种主流文生图/文生视频模型(如 Stable Diffusion、可图、CogVideoX),并兼容 ControlNet、LoRA、IP-Adapter 等生态模型,显著提升中文场景下的生成能力。1

ms-swift3是魔搭社区提供的大模型与多模态大模型微调部署框架,现已支持600+纯文本大模型与300+多模态大模型的训练(预训练、微调、人类对齐)、推理、评测、量化与部署。

  • 其中大模型包括:Qwen3、Qwen3-Next、InternLM3、GLM4.5、Mistral、DeepSeek-R1、Llama4等模型,
  • 多模态大模型包括:Qwen3-VL、Qwen3-Omni、Llava、InternVL3.5、MiniCPM-V-4、Ovis2.5、GLM4.5-V、DeepSeek-VL2等模型。

除此之外,ms-swift汇集了最新的训练技术,包括集成

  • Megatron并行技术,包括TP、PP、CP、EP等为训练提供加速,
  • 以及众多GRPO算法族强化学习的算法,包括:GRPO、DAPO、GSPO、SAPO、CISPO、RLOO、Reinforce++等提升模型智能。
  • DPO、KTO、RM、CPO、SimPO、ORPO等偏好学习算法,
  • 以及Embedding、Reranker、序列分类任务。

ms-swift提供了大模型训练全链路的支持,包括使用

  • vLLM、SGLang和LMDeploy对推理、评测、部署模块提供加速,
  • 以及使用GPTQ、AWQ、BNB、FP8技术对大模型进行量化。