跳转至

250217 Step-Video-T2V

导言

调研一下Step-Video-T2V

模型特点

4大技术特点:

  1. 第一,当前最大参数30 billion模型,可直接生成最长204帧、540P分辨率的视频,确保生成的视频内容具有极高的一致性和信息密度。
  2. 第二,针对视频生成任务设计并训练了高压缩比的Video-VAE,在保证视频重构质量的前提下,能够将视频在空间维度压缩16×16倍,时间维度压缩8倍。
    1. 当下市面上多数VAE模型压缩比为8x8x4,在相同视频帧数下,Video-VAE能额外压缩8倍,故而训练和生成效率都提升64倍。
  3. 第三,针对DiT模型的超参设置、模型结构和训练效率,Step-Video-T2V了进行深入的系统优化,确保训练过程的高效性和稳定性。
  4. 第四,详细介绍了预训练和后训练在内的完整训练策略,包括各阶段的训练任务、学习目标以及数据构建和筛选方式。
  5. 此外,Step-Video-T2V在训练最后阶段引入Video-DPO(视频偏好优化)——这是一种针对视频生成的RL优化算法,能进一步提升视频生成质量,强化生成视频的合理性和稳定性。

论文要点

摘要

  1. Video-VAE 的高压缩比
  2. Video-DPO
  3. Step-Video-T2VEval 测试集

问题

  1. 只有推理代码,没开源训练代码
  2. 没有DPO相关代码,调研有没有其余的开源实现。
  3. vae的性能被challenge,没hunyuan好

待学习

  1. VAE 16x16的空间和8倍的时间压缩比, 这个怎么测量。
    1. 研究人员设计了深度压缩变分自编码器 Video-VAE,它实现了 16×16 的空间压缩比。与绝大多数 8×8×4 压缩比的 VAE 模型相比,Video-VAE 能够在相同视频帧数下额外压缩 8 倍,从而实现训练和生成效率提升 64 倍的效果。1
  2. 分布式系统???
  3. Flow Matching: 是一种diffusion更快收敛的损失函数。
  4. supervised fine-tuning (SFT)

DPO

直接偏好优化 (Direct Preference Optimization,DPO) 将人类反馈纳入其中,以进一步提高生成视频的视觉质量。DPO 利用人类偏好数据对模型进行微调,确保生成的内容更符合人类的期望。整个 DPO 流程如下所示,突出了它在提高视频生成过程的一致性和质量方面的关键作用。2

疑问

  1. 参数大昇腾如何跑起来,内存占用 4*78.55 GB

参考文献


  1. 接力DeepSeek,阶跃星辰直接开源两款国产多模态大模型 

  2. https://blog.csdn.net/weixin_41446370/article/details/145768114 

评论