文献分享 · 2024年11月22日 0

论文分享:TACKLING THE GENERATIVE LEARNING TRILEMMA WITH DENOISING DIFFUSION GANS

Introduction

问题定义: 当前的生成式学习框架还不能同时满足三个关键要求,而这往往是它们在现实世界问题中广泛应用的必要条件。这些要求包括:(i) 高质量采样;(ii) 模式覆盖和采样多样性;(iii) 快速且计算成本低廉的采样。

方法优点缺点
生成式对抗网络(GANs)快速生成高质量样本模式覆盖率较低
变异自动编码器(VAEs)与归一化流忠实地覆盖了数据模式受制于低样本质量
扩散模型高质量样本与良好的模式覆盖率采样成本高

研究目的: 针对以上的问题,我们通过重新制定专门用于快速采样的去噪扩散模型来解决生成学习三难问题: ·我们将扩散模型采样速度慢的原因归结为去噪分布中的高斯假设,并建议采用复杂的多模态去噪分布。 ·我们提出了去噪扩散 GANs,这是一种扩散模型,其反向过程由条件 GANs 参数化。 我们的研究表明,我们的模型在很大程度上克服了深度生成学习的三难问题,使扩散模型首次以较低的计算成本适用于交互式真实世界应用。

BACKGROUND

在扩散模型中,有一个前向过程,以预先确定的方差 βt 分 T 步逐渐向数据 x0 ∼ q(x0)添加噪声

反向去噪过程的定义如下:

训练的目标是通过最大化证据下界(ELBO,L ≤ log pθ(x0))来最大化似然 pθ(x0) = ∫ pθ(x0:T )dx1:T。ELBO 可以写成用参数化去噪模型 pθ(xt-1|xt) 匹配真实去噪分布 q(xt-1|xt),方法是:

DENOISING DIFFUSION GANS

扩散模型文献中的两个常见假设是:

1.数据分布服从高斯分布。

2.扩散模型通常有数千个步长,βt 较小。

本文认为,当这两个条件都不满足时,即去噪步长较大且数据分布为非高斯分布时,去噪分布的高斯假设就不能保证成立。

为了说明这一点,我们在图中展示了多模态数据分布下不同去噪步长的真实去噪分布。我们可以看到,随着去噪步长的增大,真实的去噪分布会变得更加复杂和多模态。


受上述观察结果的启发,我们建议用富有表现力的多模态分布对去噪分布进行建模。由于条件GAN已被证明可以模拟图像域中的复杂条件分布,我们采用它们来近似真实的去噪分布 q(xt−1|xt)。

我们的训练是通过匹配条件 GAN 生成器 pθ(xt−1|xt) 和 q(xt−1|xt) 来制定的,使用对抗性损失来最小化每个去噪步骤的发散 Dadv:

为了建立对抗训练,我们将瞬态判别器表示为 Dφ(xt−1 , xt ,t) : RN × RN × R → [0,1],参数为 φ。它以 N 维 xt−1 和 xt 作为输入,并决定 xt−1 是否是 xt 的合理去噪版本。鉴别器通过以下公式训练:

为了避免直接从q(xt−1|xt)中采样,使用恒等式 q(xt , xt−1) = ∫ dx0 q(x0) q(xt, xt−1|x0) = ∫ dx0q(x0) q(xt−1|x0)q(xt|xt−1)将方程 5 中的第一个期望改写为:

给定判别器后,我们通过 maxθ ∑t≥1 Eq(xt) Epθ(xt-1|xt) [log(Dφ(xt-1, xt, t))] 来训练生成器,从而以非饱和 GAN 目标更新生成器。

我们定义了与原始扩散模型类似的去噪模型:

主要区别在于,在 DDPM 中,x0 被预测为 xt 的确定性映射,而在我们的例子中,x0 是由具有随机潜在变量 z 的生成器产生的。与DDPM中的单峰去噪模型相比,这是使我们的去噪分布pθ(xt−1|xt)变得多模态和复杂的关键区别。

下图可视化了我们的训练管道:

Experimental

在此,我们仔细评估了我们的模型在样本保真度、样本多样性和采样时间方面的表现,并在 CIFAR-10 数据集上与一系列模型进行了比较。

扩散模型的 FID 分数与采样时间的对比图。图中清楚地显示了我们的模型与之前的扩散模型相比所具有的优势。

· 当 T > 1 变化时,我们发现 T = 4 的结果最好,而 T 越大性能越差。

· 第二组显示的结果表明我们的模型并不等同于在应用判别器之前增强数据。

· 在相同的 T = 4 设置下,我们研究了去噪分布参数化的两种替代方法。

· 在表的最后一行,我们研究了模型在没有任何潜变量 z 的情况下的性能

相比之下,我们的模型涵盖了所有模式,同时保持了高样本质量。

在具有较大图像的数据集上,我们的模型在最佳扩散模型和 GAN 中获得了具有竞争力的样品质量。