跳转至

Multimodal Generation Evaluation

导言

多模态生成 RL 的评测不能沿用 VLM 问答评测的一套逻辑。理解任务可以用正确答案、选项或短文本验证;生成任务还要评价 视觉质量、语义一致、运动时序、编辑边界、音频质量、音画同步和人类偏好

因此,评测方案要先回答一个问题:训练时 reward 优化的是哪一种生成能力,最终 benchmark 是否真的测了同一种能力。本文把 AISBench、VBench、VEFX-Bench、Flow-Factory 和 VeRL-Omni 放在一起,整理一个后续实验可执行的评测地图。

Multimodal generation evaluation map

多模态生成评测需要把训练 reward、生成样本和最终 benchmark 分开对齐。

核心判断

结论先说:

  1. 理解型评测和生成型评测要分开。Geo3K、VideoBench、Video-MME 这类问答评测主要验证模型是否理解输入;VBench、GEdit-Bench、VEFX-Bench 则验证模型生成出来的图像或视频是否好。
  2. AISBench 已经有多模态生成评测入口。截至 2026-06-26,AISBench README 和文档已经接入 GEdit-Bench 与 VBench 1.0;但 VBench 页面明确说明,AISBench 当前不负责生成视频,需要先完成视频生成,再把生成结果交给 AISBench 评测。123
  3. VEFX-Bench 更适合视频编辑和视觉特效,不是通用 T2V 榜单。它评估的是原视频、编辑指令、编辑后视频之间的匹配,核心维度是 Instruction Following、Render Quality 和 Edit Exclusivity。6
  4. Flow-Factory 与 VeRL-Omni 更像训练框架,不是最终评测基准。它们提供 reward 接入、生成模型 rollout 和 RL 算法;最终论文或客户报告仍要接 VBench、GEdit-Bench、VEFX-Bench、人评或音频类指标。

不要只看 reward 上涨

生成 RL 中的 reward 上涨只能说明训练时的 scorer 被优化了。它不自动等价于 VBench、VEFX-Bench 或人工偏好变好。最终报告应把 training rewardexternal evaluation 分成两张表。

评测地图

多模态生成至少要按输出形态拆成四类:图像生成、图像编辑、视频生成、音视频生成。每一类的样本格式、自动指标和人工检查点都不同。

方向 典型输入输出 训练 reward 最终评测 适用结论
T2I 图像生成 prompt -> image PickScore、HPSv2/HPSv3、CLIP、OCR、Qwen-Image-Bench、RationalRewards GenEval、Qwen-Image-Bench、人工偏好 证明图像质量、语义对齐、文字渲染或组合泛化。
图像编辑 source image + instruction -> edited image RationalRewards-Edit、Qwen-Image-Bench、VLM-as-Judge GEdit-Bench、编辑前后人评 证明真实编辑请求、保真和指令遵循。
T2V 视频生成 prompt -> video HPSv3、ImageBind、VLM-as-Judge、任务定制 reward VBench Standard / Custom、人工偏好 证明视频质量、运动、时序和 prompt 对齐。
视频编辑 / VFX source video + instruction -> edited video VLM video reward、VEFX-Reward、局部一致性 reward VEFX-Bench 证明编辑是否只改该改的地方,且画面稳定。
T2AV 音视频生成 prompt -> video + audio CLAP、ImageBind、音画同步 reward、VLM/AVLM judge VBench 视觉维度 + 音频质量指标 + 音画同步人评 证明声音内容、视觉内容和同步关系一起成立。

这里有一个容易混淆的点:VBench 和 VEFX-Bench 都是视频相关,但不是同一个问题

  • VBench 主要面向视频生成模型,对生成视频做 16 个维度的质量和语义评测,包括主体一致、背景一致、时序闪烁、运动平滑、动态程度、美学质量、图像质量、物体类别、空间关系、动作、场景、整体一致等。5
  • VEFX-Bench 主要面向文本驱动视频编辑和视觉特效,数据有 5,049 个标注样例、1,419 个源视频、9 个类别和 32 个子类,并用 VEFX-Reward 在 1-4 分上评分。6

现场选择规则

如果客户现场说的是 vefx bench,需要先确认任务是不是 video editing / VFX。如果任务是纯文本到视频生成,用 VBench 更自然;如果任务是给定原视频再做局部编辑、替换、移除、风格或镜头变化,用 VEFX-Bench 才对。

AISBench 入口

AISBench 现在可以覆盖两类生成评测:

  1. GEdit-Bench:面向真实世界图像编辑请求。AISBench 文档说明该数据集来自真实用户编辑请求,最终有英文和中文两套,单语言 606 个测试样本,总计 1,212 个样本,覆盖 11 类高频编辑场景。3
  2. VBench 1.0:面向视频生成质量评测。AISBench 提供 Standard 和 Custom 两种配置,Standard 模式按官方 prompt suite 组织 16 个维度,最终聚合 Quality、Semantic 和 Total。2

这两类和 AISBench 数据集准备页里的 textvqavideobenchVideo-MMEMathVision 等理解型评测不同。后者通常评估模型回答是否正确,前者评估模型生成结果是否符合质量和语义要求。4

AISBench VBench 页面对使用方式有一个关键约束:它评的是 已经生成好的视频目录。这意味着实验流程不能写成“AISBench 直接评模型”,而应拆成:

  1. 生成阶段:用待评模型按 VBench prompt suite 或自定义 prompt 生成视频。
  2. 落盘阶段:按维度或文件名规则保存视频,尤其注意 temporal_flickering 需要更多采样。
  3. 评测阶段:用 AISBench 的 VBench 配置读取视频目录,输出各维度结果。
  4. 汇总阶段:Standard 模式聚合 Quality、Semantic 和 Total,Custom 模式按维度输出。

生成类任务打破原有接口

VLM 问答评测通常是 dataset 给 prompt,model 返回 answer,metric 直接算分。生成类评测多了一步“先生成样本并落盘”,因此数据目录、prompt 名称、采样数、随机种子和视频编码都会影响可复现性。

Flow-Factory 位置

Flow-Factory 的定位是 面向 diffusion 和 flow-matching 模型的 RL 训练框架,不是一个固定的视频生成 benchmark。它支持的任务已经覆盖 T2I、I2I、T2V、I2V、T2AV、I2AV 等模型族,并支持 Wan2.1/Wan2.2、Qwen-Image、FLUX、BAGEL、LTX-2/LTX-2.3 等模型入口。7

数据格式

Flow-Factory 的数据格式很轻:

  • T2I / T2Vtrain.txttrain.jsonl,核心字段是 prompt
  • I2I / I2Vtrain.jsonl 里带 promptimageimages
  • V2Vtrain.jsonl 里带 promptvideovideos
  • T2AV / I2AV:仍然围绕 prompt 和条件图像组织,但 reward 需要同时处理 audio、video 和文本对齐。

这说明 Flow-Factory 的“数据集”更像训练 prompt 池,而不是评测闭环本身。它可以把 Open-Sora-Plan、PickScore、T2IS、自定义 prompt 或客户 prompt 接进来,但最终要证明模型变好,还需要外部评测。

奖励模型

Flow-Factory 内置 reward 大致分三类:8

  • 图像质量和偏好:PickScore、HPSv2、CLIP、Qwen-Image-Bench。
  • 组合与文字能力:GenEval、OCR、GenEval2 Soft-TIFA。
  • 音视频对齐:CLAP、ImageBind,以及可通过 VLM-as-Judge 接入的远程裁判。

这对后续方案的启发是:训练 reward 可以多样化,但最终评测要按能力域切开。例如 T2AV 训练中可以用 CLAP 和 ImageBind,但最终报告仍要分别看视频质量、音频质量和音画同步。

VeRL-Omni 方案

VeRL-Omni 是从 verl 多模态生成 RL 需求中拆出来的专门仓库,目标是服务 diffusion generator、统一理解生成模型和 omni-modality 模型。README 中列出的范围包括 Qwen-Image、Wan2.2、BAGEL、Qwen3-Omni 等。9

当前做法

从公开示例看,VeRL-Omni 当前的“评测”更偏训练闭环和验证信号:

  • Wan2.2 T2V / DanceGRPO:示例使用来自 Open-Sora-Plan 的 1,233 条预切分 prompt,训练 reward 是 HPSv3。该示例验证的是 T2V RL 流程和 reward 上涨,不等同于完整 VBench 结论。10
  • Qwen-Image / FlowGRPO 系列:支持 HPSv3、GenRM-OCR、UnifiedReward、HTTP scorer、JPEG compressibility 等 scorer,适合验证图像生成 reward 链路。11
  • Qwen3-Omni Thinker / GSPO:公开示例使用 MATH-lighteval 这类数学推理数据,reward 来自 dapo 数学答案解析,验证指标是 val-core/.../acc/mean@1。这更像 omni 模型的理解/推理训练,不是生成质量评测。12

因此,如果目标是证明“生成模型 RL 后变好”,只汇报 VeRL-Omni 内部 reward 不够。需要补上外部评测矩阵。

推荐闭环

建议把 VeRL-Omni 的后续评测拆成三层:

  1. 训练层:记录 reward mean、reward std、clip ratio、prompt length、response length、rollout time、reward latency、OOM / timeout 等,证明训练稳定。
  2. 任务层:按模型类型选择 benchmark。
    • Qwen-Image / SD3.5:GEdit-Bench、Qwen-Image-Bench、GenEval。
    • Wan2.2 T2V:AISBench VBench Standard + Custom。
    • Wan2.2 / VACE 类视频编辑:VEFX-Bench。
    • LTX-2 / LTX-2.3 音视频:VBench 视觉维度 + CLAP/ImageBind + 人工音画同步打分。
  3. 报告层:训练 reward、外部 benchmark、人评三张表分开展示,避免把 reward 当成最终效果。

Geo3K 不是生成评测

如果讨论的是 verl 多模态理解 RL,Geo3K、NextQA 和 multimodal-open-r1-8k-verified 的匹配关系可以参考已有笔记《VLM RL Evaluation Datasets》。如果讨论的是 VeRL-Omni 的生成 RL,Geo3K 只能作为理解能力的旁路检查,不能替代 VBench、GEdit-Bench 或 VEFX-Bench。

后续问题

把这些 benchmark 真正接进实验,还需要逐项确认:

  1. 客户任务是不是编辑:如果现场任务输入包含原视频和编辑指令,就按 VEFX-Bench 设计;如果只有 prompt 生成视频,就按 VBench 设计。
  2. 视频样本如何生成:VBench Standard 要按官方 prompt 和目录结构生成,不能随意混用客户 prompt 后再和榜单分数比较。
  3. 采样预算是否一致:每个 prompt 的视频数、seed、分辨率、帧率、时长和编码参数要固定,否则指标会混入采样差异。
  4. 音视频指标是否缺口:AISBench 当前已有图像编辑和视频生成评测,但没有形成 T2AV 的完整官方套件。音频质量、音画同步和音频语义仍需自定义指标或人评补足。
  5. reward 是否会被过拟合:如果训练 reward 和最终评测使用同一个裁判模型,报告里最好加入不同裁判或人评,观察泛化。
  6. NPU 环境是否缓存齐全:AISBench VBench 依赖多种小模型和第三方包,最好提前缓存权重并固定 VBENCH_CACHE_DIR

实验建议

最小可行方案可以按下面走:

实验线 训练框架 训练 reward 外部评测 主要回答
T2V baseline VeRL-Omni / Flow-Factory 无 RL AISBench VBench Standard 原模型在视频质量和语义维度的起点。
T2V RL VeRL-Omni DanceGRPO HPSv3 或自定义 VLM reward AISBench VBench Standard + Custom reward 上涨是否转化为 VBench 维度提升。
Video edit RL Flow-Factory 或自研链路 VEFX-Reward / VLM judge VEFX-Bench 编辑指令遵循、画质和编辑排他性是否提升。
T2AV RL Flow-Factory LTX-2 / LTX-2.3 CLAP + ImageBind + 人工抽检 VBench 视觉维度 + 音频/同步人评 音频、视觉和同步是否同时改善。
负向迁移 任意 RL checkpoint 同训练 跨域 benchmark 检查只优化 reward 是否伤害其他能力。

最终对外结论建议写成能力域,而不是笼统写“多模态生成变强”:

  • 视频生成质量提升:用 VBench Quality / Semantic / Total 说明。
  • 视频编辑能力提升:用 VEFX-Bench IF / RQ / EE 说明。
  • 图像编辑能力提升:用 GEdit-Bench SC / PQ / O 说明。
  • 音视频生成能力提升:需要同时报告视觉、音频语义、音画同步和人工偏好。

总结

多模态生成 RL 的评测主线可以压缩成一句话:训练 reward 负责优化,外部 benchmark 负责证明,人评负责兜底

对当前工作来说:

  • AISBench 已有 GEdit-Bench 和 VBench 入口,可以作为图像编辑和视频生成的标准化评测框架。
  • 客户现场的 vefx bench 应按 VEFX-Bench 理解,适合视频编辑 / VFX,而不是纯 T2V。
  • Flow-Factory 和 VeRL-Omni 提供训练链路,但最终效果要接 VBench、VEFX-Bench、GEdit-Bench 或 T2AV 自定义评测。
  • 对 T2AV,行业还没有像 VBench 一样统一的单一入口,短期要用 CLAP、ImageBind、视频质量评测和人工同步偏好组合起来。

参考文献

评论