跳转至

Idea to StableDiffusion

导言

理解当下最流行的开源text to image模型stable diffusion的基本思想。到Sora8

2013 VAE

  • VAE(Variational Autoencoder,变分自编码器)是一种生成模型,结合了概率图模型和深度学习,主要用于学习数据的潜在表示并生成新数据。
  • VAE属于概率生成模型(Probabilistic Generative Model),神经网络仅是其中的一个组件,依照功能的不同又可分为编码器和解码器。
    • 编码器可将输入变量映射到与变分分布的参数相对应的潜空间(Latent Space),这样便可以产生多个遵循同一分布的不同样本。
    • 解码器的功能基本相反,是从潜空间映射回输入空间,以生成数据点。
  • 影响:变分自编码器(VAE)是一类常见的生成模型。纯VAE的生成效果不见得是最好的,但VAE还是经常会被用作大模型的子模块。

VAE

2014 对抗网络 GAN

  • generative adversarial network (GAN)是2014年提出的无监督训练方法1
  • 目的:给定一个训练集,学习生成与训练集具有相同统计数据的新数据。例如,在照片上训练的GAN可以生成新的照片,这些照片至少在人类观察者看来是真实的,具有许多真实的特征。
  • 网络结构:有两个网络,G(Generator)和D(Discriminator)功能分别是:3
    • G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。
    • D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。
  • 核心思想:生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。 这意味着generator 没有被训练来最小化到特定图像的距离,而是欺骗了机器人。最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5
    • 换句话来说discriminator保存了generator网络训练出来的复杂loss函数2
  • 数学推导:基于概率论的两个网络的零和博弈(TODO)
  • 训练过程
    • 第一步训练D,D是希望V(G, D)越大越好,所以是加上梯度(ascending)。
    • 第二步训练G时,V(G, D)越小越好,所以是减去梯度(descending)。
    • 整个训练过程交替进行。
  • 推理过程:(猜测的)输入随机噪声,产生图片。
  • 拓展:DCGAN将CNN与GAN结合,把上述的G和D换成了两个卷积神经网络(CNN)
  • 缺点与局限性:Mode collapse(模式坍塌):generator 生成的图像都特别像。和训练的数据集太像了,导致几乎没有新亮点。
  • 原理图例

2015 简单图像分割 UNet

  • U-Net: Convolutional Networks for Biomedical Image Segmentation是最常用、最简单的一种分割模型了,它简单、高效、易懂、容易构建、可以从小数据集中训练。5
  • 目的:医疗影像语义分割任务
  • 网络结构:Unet网络非常的简单,前半部分就是特征提取,后半部分是上采样。在一些文献中把这种结构叫做编码器-解码器结构,由于网络的整体结构是一个大些的英文字母U,所以叫做U-net
    • Encoder:左半部分,由两个3x3的卷积层(RELU)再加上一个2x2的maxpooling层组成一个下采样的模块(后面代码可以看出);
    • Decoder:有半部分,由一个上采样的卷积层(去卷积层)+特征拼接concat+两个3x3的卷积层(ReLU)反复构成(代码中可以看出来);
  • 特点:对于图像语义较为简单、结构固定,并且数据量小的医疗图像,效果好
  • 原理图例

2020 扩散基础 DDPM

  • DDPM: Denoising Diffusion Probabilistic Models 提出了扩散模型
  • 核心思想
    • GAN也是生成图,但是两者原理完全不同;
    • GAN模型通过使得生成器拟合真实图片;
    • DDPM是拟合整个从真实图片到随机高斯噪声的过程,再通过反向过程生成新的图片。4
  • 特点:由于是一步步扩散出来的,可以看到演变的中间图过程。
  • 训练过程:
  • 原理图例:
  • 拓展:使用ResNet效果差,一般换成U-Net

2021 CLIP

2022 Stable Diffusion

  • High-Resolution Image Synthesis with Latent Diffusion Models 是Stable Diffusion开源出来的方法。
  • 目的:在Diffusion模型的基础上,使用类似CLIP的text encoder来实现 text to image
  • 改进点:
    • 如何引入多头Attention,来使得U-Net中文本与图像结合?
    • Diffusion的过程移动到被压缩后的图片上(latent space), 使得速度加快很多
  • 原理图例:6
  • 详细:

2023 DiTs

  • 使用Transformers替换扩散模型中U-Net主干网络,发现不仅速度更快,在许多任务上效果也更好。
  • 影响:扩散模型架构中U-Net并非不可替代,并且很容易使用诸如Transformers的结构替代U-Net

DiTs

2023 SDXL

  • SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis , 人如其名是SD的改进版
  • 内容:
    • 在原本的扩散模型后加Refiner模型(也是扩散模型), 参数量达到2.6B(10GB左右) 在Latent特征进行小噪声去除和细节质量提升。7
  • SDXL Stable Diffusion XL是Stable Diffusion的最新优化版本, 如果Stable Diffusion是图像生成领域的“YOLO”,那Stable Diffusion XL就是“YOLOv3”。
    • You Only Look Once (YOLO) 最流行的目标检测算法。
  • Huggingface: SDXL and SD Turbo

2024 SD3

  • 2024年2月发布了 Stable Diffusion 3, 关键核心是新的多模态扩散 Transformer(Multimodal Diffusion Transformer,MMDiT)架构。
  • MMDiT 架构结合了 DiT 和矩形流(RF)形式。它使用两个独立的变换器来处理文本和图像嵌入,并在注意力操作中结合两种模态的序列。这意味着对于文本和图像两种不同的输入模态,MMDiT 分别使用不同的权重参数来进行编码和处理,以此能够更好地捕捉每种模态的特征和信息。

MM-DiT

参考文献

评论