Latent Diffusion Model快读-526互联

总览

原始的扩散模型训练及推理是在像素空间进行的，这将耗费大量的GPU和能量资源。为了缓解这一状况，作者提出了一种方案，将高分辨率图像的合成过程分解为两个过程：图像编解码和隐特征空间扩散。

图像编码器将像素空间中图像编码为隐特征latent code（生成过程不需要此步骤）
扩散模型DM在隐特征空间latent space上取样sample进行去噪得到denoised_sample
去噪样本经过图像解码器得到图像

这种方案有这样几个好处：

扩散过程的训练推理，由高维的像素空间降低到低维的隐空间进行。比如原始像素空间512x512x3 --> 隐空间 1024. 维度降低了768倍
利用了从UNet结构继承DM归纳偏置，这将对空间结构的数据十分有效，因此减轻了对先前方法所需的激进的质量降低的压缩级别的需求。
获得了通用压缩模型，其潜在空间可用于训练多个生成模型，也可用于其他下游应用，例如单图像CLIP引导合成。

主体

感知图像压缩 Perceptual Image Compression

感知压缩模型基于之前工作[1], 包含一个自编码器，其训练采用混合损失函数形式：感知损失函数[2]和基于图像块的对抗损失函数[1]. 这种方式确保了局部真实，而且避免了仅仅依赖简单像素空间中L1或者L2损失函数带来的模糊问题。
具体是，

给定RGB图像空间中的图像$x \in R^{H \times W \times 3}$
编码器$\mathcal{E}$将图像$x$编码为隐空间表示$z=\mathcal{E}(x) \in R^{h \times w \times c}$
解码器$\mathcal{D}$从该隐变量值解码/重建出图像 $\bar x = \mathcal{D}(z) $
要求图像的下采样因子必须是2的幂次方，即$f=\frac{H}{h}=\frac{W}{w}=2^m, m \in R$

为了避免隐空间较大的方差，引入了KL正则化或者VQ正则化项。

隐扩散模型 Latent Diffusion Models

相比原始扩散模型在像素空间进行训练推理，LDM是在维度更低的隐空间进行训练推理，其计算量则小了很多。其次利用了基于2D卷积UNet，有利于图像的归纳偏置。这里的UNet条件依赖于时间t。

条件建模机制 Conditioning Mechanisms

与其它类型的生成模型一样，扩散模型DM也可以对条件分布$p(z|y)$进行建模拟合，通过条件去噪自编码器实现$\epsilon_{\theta}(z_t, t, y)$，通过条件输入如文本、语义图、图像-图像翻译任务等控制图像的生成。通过使用交叉注意力机制增强底层UNet结构，将DM变成更加灵活的条件图像生成器。这对于各种输入模式的学习注意力模型是有效的。为了处理不同模态的输入如文本输入，引入了一个模态相关的编码器 $\tau_{\theta}$ ，将原始输入$y$，编码为$\tau_{\theta}(y) \in R^{M \times d}$，并将该特征输入到UNet的交叉注意力层。具体是

输入1：条件项特征$\tau_{\theta}(y) \in R^{M \times d} $
输入2： UNet网络结构第i层t时间步特征 $\psi_i(z_t) \in R^{N \times d}$
注意力公式 $Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d}})\cdot V$
$Q=W_Q^{i}\cdot\psi_i(z_t), K=W_K^{i}\cdot\tau_{\theta}(y), V=W_V^{i}\cdot\tau_{\theta}(y)$

实验

感知压缩平衡

本节分析LDM在不同下采样因子情况下的表现，$f \in \{1，2，4，8，16，32\}$，简写为$LDM-f$, $LDM-1$则对于像素空间的扩散模型，没有任何下采样。为了可比较，固定一致的计算资源-单张A100，以及相同的参数量训练相同的迭代步数。

论文中Tab. 8展示了不同采样因子与KL-reg/VQ-reg正则化组合实验与经典VQGAN，DALL-E方法的实验对比结果。整体上不管是KL-reg还是VQ-reg方法，$f=4,8$时的$R-FID\downarrow$，$PSIM\downarrow$指标都优于之前方法；$f=4,8$时$PSNR\uparrow$，$SSIM\uparrow$指标大多数都优于之前的方法。
论文中Fig. 6展示在ImageNet数据集上训练了2M步类别条件模型的取样质量。更小的下采样因子$f=1,2$导致较慢的训练过程；而较大的下采样因子$f=32$则在训练了有限迭代步数后，生成图像的保真度基本停止不动了。而$LDM-\{4，16\}$则在效率和感知真实度上达到了很好的平衡。比如在2M迭代后，$LDM-1$的$FID\downarrow$指标比$LDM-8$的$FID\downarrow$指标值差距达到38。表明了$LDM-8$生成图像的真实度要高于$LDM-1$很多。
论文中Fig. 7展示了分别在CelebA-HQ和ImageNet上训练的LDM模型。基于DDIM取样方法，采用不同采样步数下，采样步数与FID指标之间的关系。$LDM-\{4,8\}$则优于其它模型。特别是与像素空间上的$LDM-1$模型相比，在达到更低的$FID\downarrow$指标时，也能达到更快的样本生成能力。而复杂的数据集如ImageNet，则要求减小压缩率以避免较差的取样质量。从图中可以看到ImageNet在下采样因子$f=32$时，$FID\downarrow$指标值（棕色线）较高对应生成图像质量差。而CelebA-HQ这个单一的人脸数据集，在下采样因子$f=32$时（棕色线）并没有出现与ImageNet类似的情况。

Tab. 8

Fig. 6

Fig. 7

隐空间无条件图像生成

论文在4个数据集CelebA-HQ, FFHQ, LSUN-Churches, LSUN-Bedrooms上训练无条件生成256分辨率图像，通过生成图片的生成质量，见Fig. 4；数据流形覆盖度用$FID\downarrow$和Precision-Recall指标来衡量LDM性能，见Tab. 1。

Fig. 4

Tab. 1

隐空间有条件图像生成

用于LDM输入的Transformer Encoder

通过引入交叉注意力用于LDM的条件建模，为各种模态的条件依赖打开了一条道路。对于文生图的图像建模，论文在LAION-400M数据集上，训练了1.45B参数量的KL正则化的LDM模型。采用bert-tokenizer将文本信息token化，用transfomer实现$\tau_{\theta}$，将文本信息最终编码输入到UNet网络中。这种领域特定的语言表示与视觉合成产生了一个强大的模型，可以很好地推广到复杂的、用户定义的文本提示。见Fig. 5, Fig. 8

Fig. 5

Fig. 8

定量的图像分析，依照之前的工作，在MS-COCO验证集上评估文生图的质量。
Fig.

用论文中最好的在ImageNet上训练的类别条件模型$LDM-\{4,8\}$与之前工作进行对比

Tab. 3

卷积取样256之外

通过将空间对齐的条件信息聚合到扩散模型输入，LDM模型可以有效适用于一般目的的图像-图像迁移任务。比如语义合成、超分辨率合成、图像修复等。

基于LDM的超分辨合成

LDM可以通过聚合低分辨率的图像有效训练出超分辨率生成模型，基于之前提到的条件建模机制。在第一个实验中，论文依照SR3论文中数据处理方法，采用双三次插值将训练图像进行4倍的下采样。在OpenImage数据集上训练出模型$LDM-4$（VQ-reg正则化），直接将低分辨率图像输入给UNet网络结构即$\tau$是恒等变换。定性和定量分析结果参考Tab.5 和 Fig. 10.

Tab.5

Fig. 10

基于LDM的图像修复

在图像修复问题上，分析了不同下采样因子对训练速度和样本生成质量进行了定量分析。

LDM-4比像素空间LDM-1模型速度上有2.7倍的提升，同时$FID\downarrow$指标上有1.6倍的提升

Tab. 6

Tab. 7

引用数据集

数据集	简介
FFHQ	从Flickr上收集的高质量人脸图片，70000张，1024x1024分辨率，PNG格式。https://github.com/NVlabs/ffhq-dataset
CelebA	网上收集的大规模人脸属性数据集，约1万个名人ID，20万张图片，每张图片都标注了5个关键点及40种二值属性。https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
CelebA-HQ	从CelebA数据集中挑选出3万张分辨率达到1024x1024图片，https://huggingface.co/datasets/huggan/CelebA-HQ
LSUN	场景理解数据集，包含10大场景和20种物体类别。https://www.yf.io/p/lsun
MS-COCO	一个目标检测、分割和语义注释的数据集 https://cocodataset.org/#home
LAION	图文对数据集 https://laion.ai/blog/laion-5b/
OpenImages	图像的标注信息：图像级标签、目标框、物体语义分割图、视觉语义关系、点级标签、多模态描述（语音、文本、图片对应）等 https://storage.googleapis.com/openimages/web/factsfigures_v7.html

参考文献

[1] Taming Transformers for High-Resolution Image Synthesis
[2] The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

Diffusion

Latent

Model

diffusion latent model

diffusion过程latent model