导言

快速调研多模态强化学习及其ai infra(verl类似)的下一步方向、技术点和与LLM RL的差异点

多模态理解模型+RL井喷¶

GRPO出现之后，基于GRPO及其变种(DAPO、VAPO)井喷出一系列模型。¹

RL算法趋势¶

在强化学习（RL）的应用中，特别是在多模态大语言模型（MLLMs）的理解能力增强中，常常提到两种主要的RL训练范式：价值模型无关的方法（value-model-free methods）和价值模型相关的方法（value-model-based methods）¹。这两种方法的主要区别在于它们是否依赖于价值函数的显式建模。

价值模型无关的方法¶

（value-model-free methods）这类方法不依赖于价值函数或者模型来估计未来奖励。它们直接通过策略梯度（policy gradient）来优化策略，即通过直接评估策略（policy）对应的行为（action）的概率分布，并根据奖励信号来调整这个分布。这种方法的代表算法是Group Relative Policy Optimization (GRPO)¹¹。

GRPO：在GRPO中，策略的更新不依赖于价值函数的估计，而是通过比较组内不同的输出响应（samples）来计算优势函数（advantage function），然后基于这个优势函数来更新策略。这种方法的优势在于实现简单，不需要额外的价值模型训练，能够稳定地进行策略优化。

下表的主体内容来自¹⁴:

Method	Year	Objective Type	Clip	KL Penalty	Key Mechanism	Signal	Link	Resource
*GRPO family*
GRPO	2025	Policy gradient under group-based reward	Yes	Yes	Group-based relative reward to eliminate value estimates	Group-based reward	Paper	-
DAPO	2025	Surrogate of GRPO's	Yes	Yes	Decoupled clip + dynamic sampling	Dynamic group-based reward	Paper	Code Model Website
GSPO	2025	Surrogate of GRPO's	Yes	Yes	Sequence-level clipping, rewarding, optimization	Smooth group-based reward	Paper	-
GMPO	2025	Surrogate of GRPO's	Yes	Yes	Geometric mean of token-level rewards	Margin-based reward	Paper	Code
ProRL	2025	Same as GRPO's	Yes	Yes	Reference policy reset	Group-based reward	Paper	Model
Posterior-GRPO	2025	Same as GRPO's	Yes	Yes	Reward only successful processes	Process-based reward	Paper	-
Dr.GRPO	2025	Unbiased GRPO objective	Yes	Yes	Eliminate bias in optimization	Group-based reward	Paper	Code Model
Step-GRPO	2025	Same as GRPO's	Yes	Yes	Rule-based reasoning rewards	Step-wise reward	Paper	Code Model
SRPO	2025	Same as GRPO's	Yes	Yes	Two-staged history-resampling	Reward	Paper	Model
GRESO	2025	Same as GRPO's	Yes	Yes	Pre-rollout filtering	Reward	Paper	Code Website
StarPO	2025	Same as GRPO's	Yes	Yes	Reasoning-guided actions for multi-turn interactions	Group-based reward	Paper	Code Website
GHPO	2025	Policy gradient	Yes	Yes	Adaptive prompt refinement	Reward	Paper	Code
Skywork R1V2	2025	GRPO with hybrid reward signal	Yes	Yes	Selective sample buffer	Multimodal reward	Paper	Code Model
ASPO	2025	GRPO with shaped advantage	Yes	Yes	Clipped bias to advantage	Group-based reward	Paper	Code Model
TreePo	2025	Same as GRPO's	Yes	Yes	Self-guided rollout, reduced compute burden	Group-based reward	Paper	Code Model Website
EDGE-GRPO	2025	Same as GRPO's	Yes	Yes	Entropy-driven advantage + error correction	Group-based reward	Paper	Code Model
DARS	2025	Same as GRPO's	Yes	No	Multi-stage rollout for hardest problems	Group-based reward	Paper	Code Model
CHORD	2025	Weighted GRPO + SFT	Yes	Yes	Auxiliary supervised loss	Group-based reward	Paper	Code
PAPO	2025	Surrogate of GRPO's	Yes	Yes	Implicit Perception Loss	Group-based reward	Paper	Code Model Website
Pass@k Training	2025	Same as GRPO's	Yes	Yes	Pass@k metric as reward	Group-based reward	Paper	Code
CPPO	2025	Same as GRPO's	Yes	Yes	Completion Pruning	Group-based reward	Paper

CPPO 通过分析发现，并不是所有的完成对于策略训练都有相同的贡献，其贡献程度与它们的相对优势有关。因此，CPPO 提出了一种基于绝对优势的完成剪枝策略，大幅减少了梯度计算和更新所需的完成数量。

价值模型相关的方法¶

与价值模型无关的方法不同，价值模型相关（value-model-based methods）的方法会估计一个价值函数来预测未来的累积奖励。这种方法通常会结合价值函数和策略梯度来更新策略，能够提供更为精确的奖励估计，从而优化策略。代表性的算法包括Proximal Policy Optimization (PPO)⁷。

PPO：PPO是一种结合了价值函数和策略梯度的算法。它通过优化一个代理的价值函数来估计当前策略下的状态值，并结合这个价值估计来更新策略。PPO的关键在于通过一个辅助的价值函数来稳定训练过程，并提高训练的样本效率。

下表的主体内容来自¹⁴:

Method	Year	Objective Type	Clip	KL Penalty	Key Mechanism	Signal	Link	Resource
*PPO family*
PPO	2017	Policy gradient	Yes	No	Policy ratio clipping	Reward	Paper	-
PF-PPO	2024	Policy gradient	Yes	Yes	Policy filtration	Noisy reward	Paper	Code
VinePPO	2024	Policy gradient	Yes	Yes	Unbiased value estimates	Reward	Paper	Code
PSGPO	2024	Policy gradient	Yes	Yes	Process supervision	Process Reward	Paper	-
ORZ.	2025
VC-PPO.	2025
VAPO	2025	Policy gradient	Yes	Adaptive	Adaptive KL penalty + variance control	Reward + variance signal	Paper	-

两种方法各有优势，适用于不同的场景和任务。价值模型无关的方法通常更加简单直接，适合于那些难以建模价值函数的复杂任务。而价值模型相关的方法则在奖励信号较为稀疏或者需要更精确的奖励预测时表现出色，能够更有效地引导模型学习。在实际应用中，选择哪种方法往往取决于具体任务的特性、可用数据的质量以及计算资源的限制。

¹⁶

当前应用：GRPO-family一家独大¶

注：

online policy mirror descent (OPMD) 基于2021的Mirror Descent Policy Optimization一文。
RLOO 是2024年提出的PPO算法的变种¹⁵
统计：GRPO 30；RLOO 2；OPMD 2；PPO 1；GRPO变种(GRPO-SSB、Fast-GRPO、T-GRPO、GRPO-SSR、GRPO-D、StepGRPO、GFlowNet、GRPO&PTST) 各一个

多模态理解¶

高效奖励机制设计¶

问题描述：当前方法主要依赖最终任务级别的标量奖励（如答案正确率、分类准确率），这些奖励仅反映最终结果，而无法对推理路径中的中间步骤提供反馈，导致模型无法纠正早期推理错误，并容易出现“过度思考”现象，即生成过长、冗余或包含无关信息的推理链。尽管已有研究尝试引入过程奖励或分阶段训练，但仍存在依赖人工设计、难以跨任务与跨模态泛化等问题。

未来方向：为了解决稀疏奖励的问题，未来的研究可能会集中在以下几个方面：

奖励分解（避免稀疏奖励）：将复杂任务分解为多个子任务，并为每个子任务提供密集的奖励信号，以便模型能够更容易地学习到正确的行为。
- 过程导向奖励机制（Process Reward Mechanisms）可以被视为一种奖励分解的实现方式。过程导向奖励机制强调评估和奖励模型在推理过程中的中间行为，而不仅仅是最终结果的正确性。这种方法可以帮助模型更好地学习到解决问题的正确步骤，从而提高推理能力。例如，在多模态推理任务中，模型可能会被奖励为生成逻辑连贯的推理步骤，而不仅仅是给出正确的最终答案。
- StepGRPO³⁵通过两种新的推理奖励：步骤级别的推理准确性奖励（StepRAR）和步骤级别的推理有效性奖励（StepRVR）提高 MLLM 推理能力方面的有效性。
- ²
- ²⁴
奖励共享：在多任务学习中，允许不同任务之间共享奖励信号，以增加奖励的频率和多样性。
- RLAIF⁶其中上下文感知的奖励模型（Context-Aware Reward Modeling）：通过将视频细分成多个片段，并为每个片段生成详细的描述，然后将这些描述整合到奖励模型中，以提供更清晰的视频内容理解。
分层奖励建模：开发更复杂的奖励模型，能够在不同的抽象层次上提供奖励，从而引导模型进行更深层次的学习。
- curriculum reinforcement learning（课程强化学习）也与奖励分解相关。这种方法通过逐步增加任务难度，让模型先从简单的任务开始学习，然后逐步过渡到更复杂的任务。这样的训练策略可以看作是对奖励分解的一种实现，其中每个课程阶段都可以为模型提供更密集的反馈和奖励信号。(4.3.1 一节¹ Kimi K1.5/Curr-ReFT/Embodied-R/NoisyRollout) 对训练稳定性和避免灾难性遗忘极其有效。
- ³⁴

Process Reward Mechanisms在Agent RL里体现的更明显

高效跨模态理解¶

问题描述：（Inefficient Cross-Modal Reasoning）

跨模态理解涉及到整合和协调来自不同感官通道（如文本、图像、音频和视频）的信息。当前的MLLMs在处理跨模态数据时可能会效率低下，因为它们需要理解和融合来自不同模态的复杂信息。
多模态超越文本的挑战：与纯文本数据相比，多模态数据的质量和数量不足，导致模型在视频内容的对齐上表现不佳。

未来方向：为了提高跨模态理解的效率，未来的研究可能会探索以下策略：

多模态融合技术¶

开发更有效的多模态融合机制，以便更好地整合和协调不同模态的信息。

GFlowVLM³⁶ 通过模拟非马尔可夫决策过程，能够更好地捕捉到任务完成所需的长期依赖关系。

NoisyRollout 是一种数据增强方法，用于提高视觉语言模型（VLM）在强化学习（RL）中的视觉推理能力，通过混合干净和轻微失真的图像轨迹来增强策略探索，同时采用噪声退火调度来平衡探索与稳定性。

视觉引导理解链 think with images¶

利用视觉信息来引导和构建理解链，提高理解过程中的逻辑连贯性和效率。

MM-CoT 由于目前大多数主流的多模态大语言模型（MLLMs）在生成图像或其他模态方面仍存在困难，近期基于强化学习（RL）的推理进展主要集中在纯文本形式的思维链（CoT）生成上。

¹
视觉决策领域：Praxis-VLM¹⁸通过文本驱动的强化学习就能实现了复杂的视觉决策能力。文本驱动的推理学习：Praxis-VLM 通过文本描述的情境学习推理能力，这表明推理和决策能力可以在没有直接多模态经验的情况下通过语言表示学习。

视觉搜索(Retrieval-Augmented Generation, RAG)领域：Mini-o3¹⁷通过构建 Visual Probe 数据集、采集冷启动数据和引入 over-turn masking 策略(鼓励更多轮回答) 来提升基于图像的工具使用和推理能力，能够在测试时自然扩展到数十个回合，从而在挑战性的视觉搜索任务中实现最先进的性能。阿里VRAG-RL ²⁰

减少无效训练¶

Skywork R1V2 通过SSB筛选出那些具有显著优势信号的样本来进行训练

MixGRPO/FlowGRPO

多模态生成¶

为什么多模态理解常用 RL，但生成少用 RL

奖励信号难设计。理解任务（比如对/错、准确率）有明确标量奖励。图像/视频/音频生成的好坏很主观，难做成稳定的数值奖励。

高维输出空间。生成任务输出是像素或连续潜空间，动作空间巨大。RL（尤其基于采样的策略梯度）在高维连续空间中方差大、收敛慢。

样本效率差 & 计算贵。RL 需要大量交互样本。训练生成模型本身就很费算力，叠加 RL 成本太高。RL训练本身计算成本高昂，而多模态生成模型（尤其是扩散模型）已经需要巨大的计算资源。在资源有限的情况下，研究者更倾向于使用监督微调、DPO等更高效的替代方法来优化生成模型，而不是采用计算密集型的RL方法。

现有监督方法效果很好。扩散模型、score-based、条件生成、对比学习等，在视觉/多模态生成上已经给出很强的结果，用监督/最大似然就能学到高质量样本。多模态生成领域已经发展出其他有效的优化方法。扩散模型特别适合条件数据生成，可以通过分类器引导等方式实现高质量生成，无需复杂的RL训练。此外，像DPO（Direct Preference Optimization）这样的方法在文本到图像生成任务中也能有效利用人类反馈，且训练更加稳定高效。

稳定性问题。RL 易出现模式崩溃、训练不稳定。生成模型若用 RL 容易破坏已学到的分布特性（例如图像细节、风格一致性）。

评价难以自动化。生成质量常需人类评价（主观），自动指标（FID、IS、CLIP score）各有偏差，作为单一 reward 很容易引入偏差/作弊行为。

Generate-CoT¶

首次实现了将思维链（CoT）推理技术有效应用于图像生成场景(设计了有CoT的奖励模型PARM³⁷)，显著提升了生成质量（在GenEval基准上超越Stable Diffusion 3达15%）。

GoT ⁴⁰ 通过将多模态大语言模型的推理能力与视觉生成任务结合，提出了一种名为“生成思维链”（GoT）的新范式，实现了语义-空间联合推理驱动的可控图像生成与编辑。(图像坐标？)

ThinkSound⁴¹ 音频CoT

基础拟音生成（Foundation Foley Generation）

CoT作用：模型分析视频内容，生成结构化推理链，明确声音事件的语义和时间关系（如“猫跳上桌子→发出轻敲声”）。示例：输入视频为“雨中街道”，CoT推理链可能为： “雨滴落在屋顶（高频持续声）→ 雨滴击打树叶（中频随机声）→ 远处雷声（低频滚动声）”，指导模型分层生成环境音。

交互式对象聚焦优化（Interactive Object-Centric Refinement）

CoT作用：用户点击视频中的特定对象（如点击“汽车”），模型生成针对该对象的CoT，细化其声音属性（材质、运动状态）。示例：用户点击行驶中的汽车，CoT可能为： “轮胎摩擦路面（中频持续声）→ 发动机轰鸣（低频振动声）→ 刹车时金属摩擦（高频尖锐声）”，模型据此增强汽车相关音效。

指令式音频编辑（Instruction-Based Audio Editing）

CoT作用：将自然语言指令（如“添加鸟鸣声”）转化为操作步骤，指导模型在特定时间段插入或修改声音。示例：指令为“在5秒处添加狗吠声”，CoT分解为： “定位时间戳5秒→ 识别背景环境（公园）→ 插入短促高频吠叫声→ 调整音量匹配环境”。

视频 CoT ⁴² 也是图片的思路，CoT来跟踪对象的移动坐标

DPO-family¶

基于偏好的强化学习方法，称为 Reward Preference Optimization (RPO)，用于主题驱动的文本到图像生成任务，通过引入 λ-Harmonic 奖励函数和 Bradley-Terry 偏好模型，实现了有效的模型训练和早停，提高了图像生成的质量和效率。⁹

Improving Video Generation with Human Feedback²¹构建一个大规模的人类偏好数据集，引入一个多维度视频奖励模型（VideoReward），并提出了三种对流基础的视频对齐算法（Flow-DPO、Flow-RWR 和 Flow-NRG），以提高视频生成的视觉质量、运动质量和文本对齐。

GRPO-family¶

T2I-R1¶

T2I-R1³⁹ 的新型文本到图像生成模型，其核心特点是通过引入双层级推理机制（语义级和标记级思维链）并结合强化学习框架（BiCoT-GRPO），显著提升了生成图像的质量和语义对齐能力。

DanceGRPO¶

DanceGRPO²² 的框架，它通过适应 Group Relative Policy Optimization (GRPO) 算法来提高视觉生成任务的性能，特别是在文本到图像、文本到视频以及图像到视频的生成任务中。相对于之前的DPO方法有提升。

MixGRPO¶

MixGRPO²³ 通过在滑动窗口内使用 SDE 采样和 GRPO 引导优化，在窗口外使用 ODE 采样，减少了优化的复杂度和训练时间。实验结果表明，与 DanceGRPO 相比，MixGRPO 在多个人类偏好对齐的维度上获得了显著的性能提升，并且在训练时间上减少了近 50%，而 MixGRPO-Flash 变体进一步减少了 71% 的训练时间。

ODE 与 SDE 的采样策略

在扩散模型中，生成图像的过程可以看作是从噪声逐步去噪得到清晰图像。这个过程可以用两种数学工具描述：

ODE（常微分方程）：确定性过程。给定一个初始噪声，每一步去噪都是确定的、可重复的。优点是稳定、计算效率高；缺点是缺乏探索性，容易陷入局部最优。
SDE（随机微分方程）：随机过程。每一步去噪都加入一点随机扰动，使得路径更多样。优点是能更好地探索不同生成路径，有助于优化对人类偏好的拟合；缺点是计算开销大、训练不稳定。

MixGRPO 的“混合”策略：

在 滑动窗口内（比如最后几步去噪过程），使用 SDE：因为这些步骤对最终图像质量影响最大，需要精细优化和更强的探索能力。
在 窗口外（早期去噪步骤），使用 ODE：因为早期步骤相对粗糙，用确定性过程更快、更省资源。

这就像“抓大放小”：关键步骤精细调优（用 SDE + RL 优化），非关键步骤快速跳过（用 ODE 生成）。

¶

滑动窗口优化调度器（Sliding Window Optimization Scheduler）

想象你有一个长度为 T 的去噪过程（比如 T=1000 步）。传统 GRPO 方法会在 所有 T 步都进行强化学习更新，计算代价极高。

滑动窗口调度器的做法是： - 只在一个 动态移动的小窗口（比如最近的 10 步）内进行 策略梯度更新（即用人类反馈信号优化模型）。 - 窗口之外的步骤只做 前向生成（用 ODE 快速采样），不更新参数。

这样做的好处： - 大幅减少训练开销：只优化最关键的几步。 - 保持生成质量：因为人类偏好主要体现在图像细节上，而细节在去噪后期才显现。

类比理解（通俗版）

想象你在画一幅油画： - 传统 GRPO：每画一笔（哪怕只是打底色）都要请专家评审，反复修改，非常慢。 - MixGRPO：前期打草稿时自己快速画（ODE，不请专家），只在最后精细刻画人脸、光影时才请专家指导并反复调整（SDE + GRPO 优化）。这样又快又好。

Flow-GRPO¶

Flow-GRPO¹⁹ 的方法，用于通过在线强化学习（RL）改进流匹配模型，特别是在文本到图像（T2I）生成任务中。该方法通过将确定性的常微分方程（ODE）转换为具有相同边缘分布的随机微分方程（SDE）来引入随机性，并通过减少训练过程中的去噪步骤来提高训练效率。实验结果表明，Flow-GRPO 在复合图像生成、视觉文本渲染和人类偏好对齐任务上都取得了显著改进，同时几乎没有导致奖励黑客行为。（ps: 说实话我怎么觉得就是引入噪声后择优选一个）

奖励模型设计¶

Unified Reward 模型³⁸ 针对现有的奖励模型往往针对特定任务，限制了其在多样化视觉应用中的适应性的问题。通过在构建的大规模人类偏好数据集上进行训练，涵盖了图像和视频生成 / 理解任务，克服了这一限制。该数据集包含了约 236K 的数据，涵盖了多种视觉任务。

图形修复¶

使用GRPO的变种算法来实现SOTA的被天气干扰的图像修复¹⁰

轻量级RL框架¶

设计更加轻量级的RL框架，以减少计算资源的消耗，并提高模型在处理跨模态任务时的响应速度。

去掉一些基座仓，在RL为主的仓里VeRL是增长最快的(微软的Agent Lightning势头很强)

多模态应用¶

强化学习赋能多模态大语言模型（RL-based MLLM）的三大核心应用方向：

具身智能（3D/视频推理）¶

MLLM在3D/视频环境中实现感知-推理-行动闭环，典型应用包括物体操作、时序因果推理和自动驾驶：

MetaSpatial²⁶ 是一个基于强化学习的框架，旨在增强视觉 - 语言模型（VLM）在三维空间推理方面的能力，使其能够在没有后处理的情况下实时生成更加一致和真实的 3D 场景布局。

Video-R1²⁵ 模型，作为首次系统探索在多模态大语言模型（MLLMs）中强化视频推理能力的尝试。该模型通过提出的 T-GRPO 算法，鼓励模型利用视频中的时间信息进行推理，并通过构建两个数据集 Video-R1-CoT-165k 和 Video-R1-260k 来支持训练。实验结果表明，Video-R1 在多个视频推理基准测试中取得了显著改进。

Embodied-R(清华) ²⁷ 是一个基于大规模视觉语言模型（VLM）和小规模语言模型（LM）的协作框架，通过强化学习（RL）激活胶囊视觉空间推理能力，在有限的计算资源下提高了多模态推理模型在视频模态下的空间推理性能。

智能体系统¶

MLLM作为主动智能体，在GUI等交互环境中实现目标导向的规划与执行，强调动作空间建模与反思式推理；RL为此提供了天然框架，将推理与交互建模为序列决策过程。

在GUI任务执行等交互场景中：

UI-R1(ViVo) ²⁸ 通过联合优化动作类型预测、参数选择与输出格式的奖励，使模型学会执行操作序列，对齐人类意图；

GUI-R1(中科院) ²⁹ 将动作类型、输入文本与点击坐标统一到标准化动作空间，提升MLLM在复杂真实GUI任务中的能力；

InfiGUI-R1 ³⁰ 采用两阶段RL框架，推动GUI智能体从“反应式执行”迈向“深思熟虑式推理”，通过子目标引导与反思修正增强规划与错误恢复能力。第一阶段是 “推理注入”，通过空间推理蒸馏技术，将教师模型的空间推理能力传递给 MLLMs，使其能够在行为生成之前，整合 GUI 的视觉空间信息与逻辑推理。第二阶段是 “推理增强”，利用强化学习（RL）进一步细化基础推理者，引入了两种关键的技术：子目标指导和错误恢复场景构建，以提高代理的规划能力和自我纠正能力。最终实现参数量以小打大。

专业领域应用：¶

除了通用具身与智能体能力，RL驱动的多模态推理正广泛应用于对感知与决策要求极高的专业领域，如医疗健康与人本交互。这些领域依赖结构化奖励与序列学习框架，推动MLLM从静态理解走向动态、上下文敏感的行为。

医疗健康：¶

医疗领域对高风险推理、可解释性与泛化能力要求极高，RL通过过程监督与结构化奖励，提升临床推理的准确性与可解释性；RL多模态方法已在医学视觉问答和临床决策支持中取得进展：

MedVLM-R1 ³¹ 通过奖励（GRPO）结构化推理路径，提升多选题答案的可验证性；

ChestX-Reasoner(上交) ² 采用过程监督的强化学习，利用放射科报告中的监督信号对齐临床工作流，增强推理链的事实性、完整性与诊断相关性，并提升疾病分类、异常检测和时序比较等任务的准确性。reward设计（RadRScore计算的目标是事实性（生成推理的正确性）、完整性（涵盖临床发现的全面性）和有效性（诊断过程的必要性和相关性）。）

情感设计¶

社会人本交互：融合多模态信号理解人类情感与行为，构建共情与自适应AI系统。

R1-Omni (阿里通义)³³ 融合音频、视频与文本，通过RL提升情感识别能力，实现结构化社会情感推理；

R1-AQA (Xiaomi)³² 训练MLLM解读声学信号以进行听觉推理。通过强化学习（RL）而非监督微调（SFT），展示了大型音频语言模型（LALMs）在音频问答（AQA）任务上的性能优势，实现了在 MMAU Test-mini 基准测试上的最先进结果。尽管在 AQA 任务上取得了进展，但 LALMs 在音频语言推理方面仍然远远落后于人类，这指向了未来研究的方向，即如何进一步提升模型的推理和理解能力。

多智能体RL¶

Agent RL 可以从一般是从LLM RL调整过来¹⁶

且一般专注于六大能力维度的提升，并结合环境的工具调用来实现¹⁶：

不同于多模态RL以GRPO family为主，Agent-RL 算法更加百花齐放¹⁶：

实例¶

通过RL来训练出不同差异的agent，在联合作答中取得SOTA³

MAPoRL使用了多智能体 PPO（Proximal Policy Optimization）算法来更新每个代理的策略。这个算法通过最大化每个代理的价值函数来进行训练，价值函数是基于累积奖励定义的。通过这种方式，每个代理都能学习如何在与其他代理的交互中最大化其长期奖励。⁴

商业落地¶

金融场景的多agent RL实践。⁵

7 限制、挑战与未来方向¶

7.1 限制与挑战¶

7.1.1 限制¶

尽管 RL 驱动的推理方法在提升多模态大模型（MLLMs）方面取得显著进展，但当前研究仍面临若干结构性与理论性限制，阻碍了模型的泛化能力与可扩展性。

（1）奖励信号稀疏。 当前方法主要依赖最终任务级别的标量奖励（如答案正确率、分类准确率），这些奖励仅反映最终结果，而无法对推理路径中的中间步骤提供反馈，导致模型无法纠正早期推理错误，并容易出现“过度思考”现象，即生成过长、冗余或包含无关信息的推理链。尽管已有研究尝试引入过程奖励或分阶段训练，但仍存在依赖人工设计、难以跨任务与跨模态泛化等问题。

（2）评测范式局限。 现有评测体系高度依赖静态、基准化的数据集，覆盖范围有限。模型往往在狭窄任务范围内训练和评估，导致在动态环境或新模态（如音频、3D 场景）中的迁移能力弱。

（3）缺乏实时自适应与交互能力。 大多数强化信号来自离线场景，假设输入输出静态映射。然而实际应用（如具身智能体、交互助手）需要持续反馈、推理自我修正及响应用户纠偏。目前 MLLMs 在这方面仍严重不足，无法有效弥合模拟训练与开放世界推理间的差距。

7.1.2 挑战¶

除了结构性限制外，MLLM + RL 的训练流程还面临以下挑战：

（1）跨模态对齐困难。 真实任务中图像、文本、音频、空间信息之间往往缺乏强监督，奖励难以覆盖复杂的跨模态映射关系，尤其在开放式任务中更难设计。

（2）推理轨迹具有非马尔可夫性。 多模态推理解耦于传统 RL 的状态转移假设，需要长期一致性，导致优化不稳定、梯度噪声大、信用分配困难。

（3）训练与推理不一致。 训练阶段采用固定提示和确定性奖励，而真实推理中输入不可预测、推理长度变化、结果具有歧义性，造成性能退化。

7.2 未来方向¶

为应对上述限制与挑战，可以从以下方向推进 MLLM 中的 RL 机制发展：

（1）统一与层级化奖励框架。 未来应构建多层次奖励体系，将最终正确性、推理结构质量、跨模态一致性等纳入综合奖励，以提升样本效率、可解释性与训练稳定性。

（2）跨模态可泛化的奖励机制。 通过模块化或可学习的奖励函数，使其能在图像、视频、音频、3D 等不同模态中迁移。可探索元学习奖励或“奖励 Transformer”等自动化奖励估计方式，以减少人工设计需求。

（3）轻量化与可扩展的强化优化方法。 开发适用于更小模型的低成本 RL，如课程学习、KL 正则化的离线策略优化、对比式奖励估计等，使 RL 能在资源受限场景更广泛应用。

（4）基于用户交互的实时强化学习。 在推理过程中引入用户偏好、纠错与示范，实现模型在线、自适应优化，突破离线奖励的限制。

（5）面向具身与空间场景的多模态 RL。 在机器人或 AR/VR 等空间环境中，需要融入物理约束、因果关系与时间动态，例如空间一致性检查、碰撞检测、可供性建模等，用于强化奖励设计。

待学习¶

PPT：

多模态RL新应用场景(除开传统的理解和生成)
理解的奖励设计：准确性，逻辑性（分阶段和层次化），模态质量（视觉分析IoU或者音频质量）

待读:

生成论文（github ）先专注看懂Flow—GRPO
华为PPT剩余部分的论文
RL系统优化(组网等)

趋势：

Latent Space Reasoning
“test-time scaling”（测试时间缩放）呢？简单来说，就是在模型已经训练好的情况下，通过在测试阶段增加一些额外的计算资源（比如让模型多思考一会儿），来提升模型的输出质量。这种方法不需要重新训练模型，只需要在测试时多花一点时间或者计算资源，就能让模型表现得更好。

Reinforcement Learning: An Overview⁸

参考文献¶

Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models ↩↩↩↩
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification ↩↩
ACL25: Advancing Collaborative Debates with Role Differentiation through Multi-agent Reinforcement Learning ↩
ACL25: MAPoRL2: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning ↩
ACL25: FLAG-TRADER: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading ↩
ACL24: Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback ↩
PPO: Proximal Policy Optimization Algorithms ↩
Reinforcement Learning: An Overview ↩
NeurIPS 2024: Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning ↩
NeurIPS 2025: Real-World Adverse Weather Image Restoration via Dual-Level Reinforcement Learning with High-Quality Cold Start ↩
DeepSeekMath: Pushing the limits of mathematical reasoning in open language models ↩
DAPO: An Open-Source LLM Reinforcement Learning System at Scale ↩
https://github.com/changyeyu/LLM-RL-Visualized ↩
https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers/blob/main/README.md ↩↩
Back to basics: Revisiting reinforce style optimization for learning from human feedback in llms. ↩
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey ↩↩↩↩
Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search ↩
NeurIPS 2025: Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning ↩
NeurIPS 2025: Flow-GRPO: Training Flow Matching Models via Online RL ↩
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning ↩
NeurIPS 2025: Improving Video Generation with Human Feedback ↩
DanceGRPO: Unleashing GRPO on Visual Generation ↩
MIXGRPO: UNLOCKING FLOW-BASED GRPO EFFICIENCY WITH MIXED ODE-SDE ↩
Fine-Grained GRPO for Precise Preference Alignment in Flow Models ↩
Video-R1: Reinforcing Video Reasoning in MLLMs ↩
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse. ↩
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning. ↩
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning. ↩
GUI-R1: A Generalist R1-Style Vision-Language Action Model For GUI Agents. arXiv preprint ↩
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners ↩
Medvlm-r1: Incentivizing medical reasoning capability of vision-language models (vlms) via reinforcement learning. ↩
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering ↩
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning. ↩
Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning ↩
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization ↩
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks ↩
Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step ↩
Unified Reward Model for Multimodal Understanding and Generation ↩
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT ↩
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing ↩
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing ↩
C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation ↩