Artificial Intelligence¶
World Model/UFMs/Omni-Modal: AR vs DiT
导言
视觉领域的GPT moment要来了吗?4
- World Model: (e.g., Emu3.5)
- Unified Foundation Models, UFMs,强调视觉能力的闭环。证明模型能像“看懂”图片一样“画出”图片。(e.g.,Bagel, Lumina, Emu3.5)
- Omni 强调交互能力的闭环。证明模型能像真人一样,具备实时、全感官的反应。图片生成暂时不是必须的(e.g.,Qwen-3-Omni、longcat-omni), 但是也能支持(e.g., Ming-Omni)
当前多模态设计中AR和DiT的组合关系,单独学习一下
RL Algorithms: PPO-RLHF & GRPO-family
导言
- RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。(RLHF = 人类偏好数据 + Reward Model + RL(如 PPO), 所以RLHF是RL的一种实践方式)
- 尽管DPO相对于PPO-RHLF更直接,但是(Reinforcement Learning from Verifiable Rewards (RLVR))往往效果更好;
- 而RLVR算法在 2025年的GRPO提出后,其变种和应用范围迎来了井喷爆发。
- 本文详细介绍 PPO、GRPO以及DAPO。
必看好文6
RL Next: Meta-Learning
导言
- 背景问题:传统RL的算法和奖励都要特殊设计,并且不同领域迁移性很差;
- 想法: 能不能系统自己迭代产生适合的RL算法
- 构建一个能够表征广泛强化学习规则的搜索空间,让系统通过多代智能体在复杂环境中的交互经验,元学习(Meta-Learning)出最优的强化学习更新规则。1
Bridging the Gap: Challenges and Trends in Multimodal RL.
导言
快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点:
- 说实话有点头大
- 多模态理解模型的主体就是LLM,LLM的RL基本半年后会迁移到多模态理解上,所以我要跟踪LLM RL的文章
- 多模态生成模型的RL偏向DPO为主的另一条路子;
- 多模态还涉及agent、具身智能,RL又有些不同;
- 文章多到看得头大。
Ideas around Vision-Language Models (VLMs) / Reasoning Models
导言
当前主流的多模态理解模型一般采用视觉编码器 + 模态对齐 + LLM的算法流程,充分复用已有视觉编码器的理解能力和LLM的基础能力。训练过程一般分为多个阶段,如先进行模态对齐的一阶段预训练,然后进行二阶段的参数微调。

排行榜:
