250217 Step-Video-T2V
导言
调研一下Step-Video-T2V
模型特点¶
4大技术特点:
- 第一,当前最大参数30 billion模型,可直接生成最长204帧、540P分辨率的视频,确保生成的视频内容具有极高的一致性和信息密度。
- 第二,针对视频生成任务设计并训练了高压缩比的Video-VAE,在保证视频重构质量的前提下,能够将视频在空间维度压缩16×16倍,时间维度压缩8倍。
- 当下市面上多数VAE模型压缩比为8x8x4,在相同视频帧数下,Video-VAE能额外压缩8倍,故而训练和生成效率都提升64倍。
- 第三,针对DiT模型的超参设置、模型结构和训练效率,Step-Video-T2V了进行深入的系统优化,确保训练过程的高效性和稳定性。
- 第四,详细介绍了预训练和后训练在内的完整训练策略,包括各阶段的训练任务、学习目标以及数据构建和筛选方式。
- 此外,Step-Video-T2V在训练最后阶段引入Video-DPO(视频偏好优化)——这是一种针对视频生成的RL优化算法,能进一步提升视频生成质量,强化生成视频的合理性和稳定性。
论文要点¶
摘要¶
- Video-VAE 的高压缩比
- Video-DPO
- Step-Video-T2VEval 测试集
问题¶
- 只有推理代码,没开源训练代码
- 没有DPO相关代码,调研有没有其余的开源实现。
- vae的性能被challenge,没hunyuan好
待学习¶
- VAE 16x16的空间和8倍的时间压缩比, 这个怎么测量。
- 研究人员设计了深度压缩变分自编码器 Video-VAE,它实现了 16×16 的空间压缩比。与绝大多数 8×8×4 压缩比的 VAE 模型相比,Video-VAE 能够在相同视频帧数下额外压缩 8 倍,从而实现训练和生成效率提升 64 倍的效果。1
- 分布式系统???
- Flow Matching: 是一种diffusion更快收敛的损失函数。
- supervised fine-tuning (SFT)
DPO¶
直接偏好优化 (Direct Preference Optimization,DPO) 将人类反馈纳入其中,以进一步提高生成视频的视觉质量。DPO 利用人类偏好数据对模型进行微调,确保生成的内容更符合人类的期望。整个 DPO 流程如下所示,突出了它在提高视频生成过程的一致性和质量方面的关键作用。2
疑问¶
- 参数大昇腾如何跑起来,内存占用 4*78.55 GB
参考文献¶
-
https://blog.csdn.net/weixin_41446370/article/details/145768114 ↩