2026年1月27日 分类于 Artificial Intelligence 需要 5 分钟阅读时间 AI Post Traning: DanceGRPO 导言 DanceGRPO是25年5月发表的论文,把GRPO的方法引入到了生成领域。(类似的有flowGRPO)。字节客户基于此魔改,故学习。 继续阅读
2026年1月8日 分类于 Artificial Intelligence 需要 1 分钟阅读时间 Where Do AI Ideas Come From? A Deeper Look 导言 如果想要写AI论文,就需要总结论文核心观点的来源。 继续阅读
2025年12月20日 分类于 Artificial Intelligence 需要 1 分钟阅读时间 AI Model Memory 导言 大语言模型、多模态模型是如何设计来实现高效Mem机制。 继续阅读
2025年12月5日 分类于 Artificial Intelligence 需要 6 分钟阅读时间 World Model/UFMs/Omni-Modal: AR vs DiT 导言 视觉领域的GPT moment要来了吗?4 World Model: (e.g., Emu3.5) Unified Foundation Models, UFMs,强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5) Omni 强调交互能力的闭环。证明模型能像真人一样,具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni) 当前多模态设计中AR和DiT的组合关系,单独学习一下 继续阅读
2025年12月2日 分类于 Artificial Intelligence 需要 2 分钟阅读时间 Fast Debug: VeRL example 导言 VeRL 基于ray的多进程管理,并结合 推理、训练等多个阶段。其E2E时间组成和如何加速都是待研究的课题。 继续阅读
2025年11月25日 分类于 Artificial Intelligence 需要 4 分钟阅读时间 Train Stages: Pretrain, Mid-Train(CT), SFT, RL 导言 模型训练,为什么需要这么多阶段,每个阶段的独特职责和意义是什么。 继续阅读
2025年11月25日 分类于 Artificial Intelligence 需要 13 分钟阅读时间 RL Algorithms: PPO-RLHF & GRPO-family 导言 RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL(如 PPO), 所以RLHF是RL的一种实践方式) 尽管DPO相对于PPO-RHLF更直接,但是(Reinforcement Learning from Verifiable Rewards (RLVR))往往效果更好; 而RLVR算法在 2025年的GRPO提出后,其变种和应用范围迎来了井喷爆发。 本文详细介绍 PPO、GRPO以及DAPO。 5 必看好文6 继续阅读
2025年11月19日 分类于 Artificial Intelligence 需要 2 分钟阅读时间 RL Next: Meta-Learning 导言 背景问题:传统RL的算法和奖励都要特殊设计,并且不同领域迁移性很差; 想法: 能不能系统自己迭代产生适合的RL算法 构建一个能够表征广泛强化学习规则的搜索空间,让系统通过多代智能体在复杂环境中的交互经验,元学习(Meta-Learning)出最优的强化学习更新规则。1 继续阅读