DMD & DMDR

导言

多模态生成模型的推理速度一直受制于diffusion模型的多步去噪，这也限制了RL的迭代速度。为此DMDR解决了这个问题。可以结合DiffusionNFT+DMDR

一句话先看懂¶

DMDR 可以理解为把 DMD 的“分布蒸馏”和 RL 的“偏好对齐”合并到同一个训练框架里。本文以文本到图像为主，因为论文实验主要落在 SDXL、SD3、SD3.5 等视觉生成模型上 [2]。它的目标不是单纯把多步 diffusion 压成少步，而是让少步模型既保留 teacher 的生成先验，又能通过 reward 超过 teacher；论文报告它在 few-step 设置下取得了很强的结果，部分场景甚至超过多步 teacher [1][2]。

DMD 怎么做¶

DMD 的核心不是模仿 teacher 的每一步轨迹，而是在每个噪声层 \(t\) 上让学生分布 \(p_{\text{fake},t}\) 逼近 teacher 分布 \(p_{\text{real},t}\)，本质上是在“分布空间”做蒸馏 [2]。可以把它记成：

\[ \mathcal{L}_{\text{DMD}} \approx \mathbb{E}_t\big[\mathrm{KL}(p_{\text{fake},t}\,\|\,p_{\text{real},t})\big] \]

其梯度本质上来自 real score 与 fake score 的差，score 可以粗略理解成“朝更高概率区域走的方向” [2]。

流程可以简化成 4 步：

先从高斯噪声 \(z \sim \mathcal{N}(0, I)\) 出发，由 few-step student 生成样本 [2]。
再把样本做 re-noise / forward diffusion，拉回到某个时间步 \(t\)，让比较发生在同一噪声层 [2]。
用 teacher 侧的 real score estimator 和 student 侧的 fake score estimator 估计两侧分布的 score [2]。
用 score 差更新 generator；同时用 diffusion loss 训练 fake score estimator，使它持续跟上 student 的变化 [2]。

可以把这套机制理解成：不是让 student 机械复刻 teacher，而是让两者在每个噪声坐标上对齐。这样既保留扩散模型的生成先验，又把采样步数压到很少 [2]。

DMDR 怎么做¶

DMDR 的出发点是：DMD 能提速，但 student 的上限仍然受 teacher 约束；而 RL 能引入 teacher 之外的 reward 信号，让 student 有机会超过 teacher [1][2]。相比把 RL 放到蒸馏之后再单独做正则，DMDR 直接把两者放在一起优化，并且不依赖外部真实图像数据，也绕开了 GAN 分支常见的不稳定性 [2]。

联合训练带来两个互补效应 [2]：

RL 促进 DMD：把学生从低奖励模式里拉出来，提升 mode coverage（避免漏掉 teacher 的重要模式），缓解 zero forcing（某些模式被直接忽略）。
DMD 稳定 RL：用 teacher 的完整分布约束 student，避免只追 reward 导致的 reward hacking（为了高分生成劣化图像）。

论文中的联合目标可以简写为：

\[ \mathcal{L} = \mathcal{L}_{\text{dmd}} + \mathcal{L}_{\text{rl}} \]

为了让训练一开始就能“站稳”，DMDR 还设计了一个动态冷启动阶段 [2]：

DynaDG：在 teacher 侧和 student 侧的 score estimator 上注入 LoRA；早期对 teacher 侧用较小 scale，让 real/fake 的分布估计更容易重叠，后期再逐步减弱，恢复更准确的 teacher 估计 [2]。
DynaRS：早期更多采样高噪声层，让模型先学全局结构；之后再逐渐过渡到更均匀的噪声采样，补细节 [2]。

从工程角度看，DMDR 是 image-free 的，不依赖额外真实图像数据，同时可兼容 denoising-based 和 flow-based 模型，也能和 ReFL、DPO、GRPO 等 RL 算法组合 [2]。

论文信息

论文名：Distribution Matching Distillation Meets Reinforcement Learning [1][2]
作者：Dengyang Jiang 等 [1][2]
单位：香港科技大学、阿里巴巴集团、浙江工业大学、香港中文大学等机构 [2]
公开时间：arXiv 首次提交为 2025-11-17，最新 v4 为 2026-03-24 [1]
开源代码：官方 GitHub 仓库已公开，地址是 https://github.com/vvvvvjdy/dmdr；但仓库 README 说明当前主要开放的是 ImageNet 训练 demo [3]

快速记忆¶

DMD：把“多步扩散”压成“少步生成”，方法是对齐每个噪声层上的分布，而不是模仿整条轨迹 [2]。
DMDR：在 DMD 上加 RL，让少步模型既快又更符合偏好，同时用 DMD 约束 RL，减少 reward hacking [1][2]。
关键技巧：冷启动阶段用 DynaDG + DynaRS 先把训练拉起来，再进入 DMD 与 RL 的联合优化 [2]。
结果：few-step 模型可达领先水平，部分设置下甚至超过多步 teacher [1][2]。

因此，DMDR 的本质不是“先蒸馏、后 RL”，而是让 DMD 充当结构约束，让 RL 提供偏好方向，在同一训练过程中同时提速和提质 [1][2]。