深度学习（生成式模型）——DDPM：denoising diffusion probabilistic models_C/C++

文章目录

前言
ddpm的基本流程
前向过程详解
反向过程详解
ddpm损失函数推导
结语

前言

本文将总结扩散模型ddpm的原理，首先介绍ddpm的基本流程，接着展开介绍流程里的细节，最后针对ddpm的优化函数进行推导，以让读者明白ddpm参数估计的原理。

本文不会对扩散模型的motivation进行讲解，作者有点鬼才，完全想不到他是怎么想出这种训练范式的

生成式模型的代表作为gan，然而，gan的训练十分困难，对抗训练稍有不慎便会陷入模式坍塌(model collapse)。在此背景下产生了diffusion model，其具备训练简单，生成图像多样化的特点，ddpm便是其中的代表作。

以下推导如有错误，欢迎指出

ddpm的基本流程

ddpm分为前向过程与逆向过程。

前向过程

前向过程发生在训练时：

从均匀分布uniform(1,2,3…,t)中采样一个样本 $t$ 。
对一张图像 $x_0$ 添加 $t$ 次从标准正态分布 $\mathcal n(0,\mathcal i)$ 中采样到的高斯噪声（ $\epsilon_1$ 、 $\epsilon_2$ 、…、 $\epsilon_t$ ），得到噪声图像 $x_t$ 。
$x_t$ 输入到u-net结构的网络，网络的输出将拟合添加到 $x_0$ 中的噪声 $\epsilon$ 。

在ddpm中，神经网络扮演的角色为预测添加到图像 $x_0$ 中的噪声（其实本质是预测马尔科夫状态链中 $q(x_{t-1}|x_t)$ 的均值）。当 $t$ 足够大时，即 $t = t$ 时， $x_t$ 为将服从标准正态分布。

反向过程

反向过程发生在推断时：

从标准正态分布 $\mathcal n(0,\mathcal i)$ 中采样一个"噪声图像" $x_t$ 。
将 $x_t$ 输入到u-net结构的网络中，网络输出高斯噪声 $\epsilon_t$ 。
从标准正态分布 $\mathcal n(0,\mathcal i)$ 中采样得到 $z$
利用噪声图像 $x_t$ 、 $\epsilon_t$ 、 $z$ ，依据重参数化公式得到（采样）图像 $x_{t-1}$ ，重参数化公式可看下一章节中的sampling。
重复上述过程 $t$ 次，即可生成图像 $x_0$ 。

ddpm训练与测试伪代码

在这里插入图片描述
上图中的 $\epsilon_\theta$ 即神经网络。

从前向过程和反向过程可以看出ddpm的训练和推断过程都需要耗费大量的计算资源。后续的ddim有效降低了推断过程所需的计算资源，而stable diffsuion 则同时降低了训练和推断过程中所需的计算资源。后续的博客将对两者进行总结

后续内容将延续上述符号定义

在详细介绍前向过程和反向过程前，我们需要知道ddpm将图像生成看成一种马尔科夫链，即 $x_t$ 的生成仅依赖于 $x_{t-1}$ 或 $x_{t+1}$ ，则前向过程（虚线）和反向过（实线）程可以表示为下图
在这里插入图片描述

前向过程详解

依据马尔科夫链的特性，在前向过程中，定义 $x_t$ 可从 $x_{t-1}$ 中按下式得到：
$x_t=\sqrt{1-\beta_t} x_{t-1}+\sqrt{\beta_t} \epsilon_{t}\tag{1.0}$
$\beta_t$ 是一个人为设定的常数，取值为(0,1)。其满足以下特性
$\beta_1<\beta_2<...<\beta_t$

从式1.0可知 $x_t$ 的生成仅仅依赖 $x_{t-1}$ ，与 $x_0$ 无关，因此有 $x_t\sim q(x_t|x_{t-1})=\mathcal n(x_t;\sqrt{1-\beta_t} x_{t-1},\beta_t \mathcal i)\tag{1.1}$

利用重参数化的技巧，从式1.0中的形式可以得出式1.1。

前向过程需要对式1.0重复t次，非常耗时，能否仅采样一次，就得到状态t时刻的样本呢？

为了实现上述想法，我们需要得到分布 $q(x_t|x_0)$ 的具体形式，

为了后续推导出的式子更加简洁，设
$\begin{aligned} \alpha_t&=1-\beta_t\\ \bar \alpha_t & = \alpha_t\alpha_{t-1}...\alpha_0 \end{aligned}$ 对式1.0进行展开可得
$\begin{aligned} x_t&=\sqrt{1-\beta_t} x_{t-1}+\sqrt{\beta_t} \epsilon_{t}\\ &=\sqrt{1-\beta_t} (\sqrt{1-\beta_{t-1}}x_{t-2}+\sqrt{\beta_{t-1}}\epsilon_{t-1})+\sqrt{\beta_t} \epsilon_{t}\\ &=\sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}\epsilon_{t-1})+\sqrt{1-\alpha_t}\epsilon_t\\ &=\sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{\alpha_t(1-\alpha_{t-1})}\epsilon_{t-1}+\sqrt{1-\alpha_t}\epsilon_t\\ &=\sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_t\alpha_{t-1}}\epsilon_{t}\\ &=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon_t\tag{1.2} \end{aligned}$
上述等式的倒数第二行推导逻辑如下，已知 $\epsilon_{t}$ 、 $\epsilon_{t-1}$ 服从标准正态分布，依据重参数化可知：
$\begin{aligned} \sqrt{\alpha_t(1-\alpha_{t-1})}\epsilon_{t-1}&\sim \mathcal n(0,\alpha_t(1-\alpha_{t-1}))\\ \sqrt{1-\alpha_{t}}\epsilon_{t}&\sim \mathcal n(0,1-\alpha_{t}) \end{aligned}$

两个均值为0的高斯分布相加具备以下性质

则有
$\sqrt{\alpha_t(1-\alpha_{t-1})}\epsilon_{t-1}+\sqrt{1-\alpha_t}\epsilon_t \sim \mathcal n(0,1-\alpha_{t})+ \mathcal n(0,\alpha_t(1-\alpha_{t-1}))=\mathcal n(0,1-\alpha_{t}\alpha_{t-1})$
因此我们可以利用分布 $\mathcal n(0,1-\alpha_{t}\alpha_{t-1})$ 中的随机变量来替代 $\sqrt{\alpha_t(1-\alpha_{t-1})}\epsilon_{t-1}+\sqrt{1-\alpha_t}\epsilon_t$ ，利用重参数化技巧推出式1.3
$q(x_t|x_0)=\mathcal n(x_t;\sqrt{\bar \alpha_t}x_0,(1-\bar\alpha_t)\mathcal i)\tag{1.3}$

利用式1.2，我们可以仅通过一次采样就能获得状态 $t$ 时刻的样本。

反向过程详解

依据马尔科夫链的性质，我们需要得到分布 $q(x_{t-1}|x_t)$ 的具体形式，进而通过重参数化技巧进行采样。对其展开可得
$\begin{aligned} q(x_{t-1}|x_{t})&=\frac{q(x_{t-1}x_t)}{q(x_t)}\\ &=\frac{q(x_t|x_{t-1})q(x_{t-1})}{q(x_t)} \end{aligned}$

我们无法知晓 $q(x_{t-1})$ 、 $q(x_t)$ 的具体分布形式，因此 $q(x_{t-1}|x_{x_t})$ 是intractable的。作者在此用了一个trick，在反向过程的马尔可夫链中，随机变量 $x_{t-1}$ 仅仅依赖于 $x_t$ ，不依赖于 $x_0$ ，利用这个特性，我们有
$\begin{aligned} q(x_{t-1}|x_{t})&=q(x_{t-1}|x_{t},x_0)\\ &=\frac{q(x_{t-1},x_t,x_0)}{q(x_t,x_0)}\\ &=\frac{q(x_{t}|x_{t-1},x_0)q(x_{t-1},x_0)}{q(x_t|x_0)q(x_0)}\\ &=\frac{q(x_{t}|x_{t-1},x_0)q(x_{t-1}|x_0)q(x_0)}{q(x_t|x_0)q(x_0)}\\ &=\frac{q(x_{t}|x_{t-1},x_0)q(x_{t-1}|x_0)}{q(x_t|x_0)}\\ &=\frac{q(x_{t}|x_{t-1})q(x_{t-1}|x_0)}{q(x_t|x_0)}\tag{2.0} \end{aligned}$

结合式1.1、1.3，利用高斯分布的具体表达式，对式2.0（忽略高斯分布的系数）进行进一步推导有

$\begin{aligned} q(x_{t-1}|x_t)&=\exp(-\frac{1}{2}(\frac{(x_t-\sqrt{\alpha_t}x_{t-1})^2}{\beta_t}+\frac{(x_{t-1}-\sqrt{\bar\alpha_{t-1}}x_0)^2}{1-\bar\alpha_{t-1}}-\frac{(x_t-\sqrt{\bar\alpha_t}x_0)^2}{1-\bar \alpha_t}))\\ &=\exp(-\frac{1}{2}(\frac{x_t^2-2\sqrt{\alpha_t}x_tx_{t-1}+\alpha_tx_{t-1}^2}{\beta_t}+\frac{x_{t-1}^2-2\sqrt{\bar\alpha_{t-1}}x_0x_{t-1}+\bar\alpha_{t-1}x_0^2}{1-\bar\alpha_{t-1}}-\frac{(x_t-\sqrt{\bar\alpha_t}x_0)^2}{1-\bar \alpha_t}))\\ &=\exp(-\frac{1}{2}((\frac{\alpha_t}{\beta_t}+\frac{1}{1-\alpha_{t-1}})x_{t-1}^2-(\frac{2\sqrt{\alpha_t}}{\beta_t}x_t+\frac{2\sqrt{\bar\alpha_{t-1}}}{1-\bar\alpha_{t-1}}x_0)x_{t-1}+c(x_t,x_0)))\tag{2.1} \end{aligned}$

等式的最后一列就是合并同类项，不包含 $x_{t-1}$ 的项都合并到了 $c(x_t,x_0)$ 中，我们对高斯分布的展开形式做个回顾：

依据上述展开，以及 $\bar \alpha_t = \alpha_t\alpha_{t-1}...\alpha_0$ 、 $\alpha_t=1-\beta_t$ ， $x_t=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon_t$ ，我们对式2.1进行补齐缺失项后可得 $q(x_{t-1}|x_t)$ 的均值 $\mu_t$ 和方差 $\delta_t^2$ 为
$\begin{aligned} \delta_t^2&=\frac{1}{\frac{\alpha_t}{\beta_t}+\frac{1}{1-\alpha_{t-1}}}=\frac{1}{\frac{\alpha_t-\bar\alpha_t+\beta_t}{\beta_t(1-\bar\alpha_{t-1})}}=\frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_t}\beta_t\\ \mu_t&=(\frac{2\sqrt{\alpha_t}}{\beta_t}x_t+\frac{2\sqrt{\bar\alpha_{t-1}}}{1-\bar\alpha_{t-1}}x_0)/(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\alpha_{t-1}})\\ &=(\frac{2\sqrt{\alpha_t}}{\beta_t}x_t+\frac{2\sqrt{\bar\alpha_{t-1}}}{1-\bar\alpha_{t-1}}x_0)\frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_t}\beta_t\\ &=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t+\frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar\alpha_t}x_0\\ &=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t+\frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar\alpha_t}(\frac{x_t-\sqrt{1-\bar\alpha_t}\epsilon_t}{\sqrt{\bar\alpha_t}})\\ &=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_t) \end{aligned}\tag{2.2}$
上式中的 $\epsilon_t$ 可以由神经网络预测得到（可回顾“ddpm基本流程章节”）。依据式2.2，利用重参数化从样本 $x_t$ 得到样本 $x_{t-1}$ 的流程为

从 $\mathcal n(0,\mathcal i)$ 采样得到 $z$
将 $x_t$ 输入到网络中，由网络预测 $\epsilon_t$
$x_{t-1}$ = $\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_t)+\delta_tz$

ddpm损失函数推导

至此，我们已经对前向过程与反向过程进行了详细的介绍，也知晓神经网络在ddpm中扮演的角色为预测最后一次添加到图像中的噪声，自然也能推断出ddpm的损失函数类似于mse。在本章节中，博主将推导ddpm的损失函数。

深度学习领域的许多模型都通过极大化对数似然来进行参数估计，设网络为 $p_\theta(x_0)$ ，则对数似然为 $\log p_\theta(x_0)$ ，最大化对数似然等价于最小化 $-\log p_\theta(x_0)$ ，ddpm通过优化其上界进行参数估计。已知kl散度取值大于等于0，则其上界为（ $q(x_{1:t}|x_0)$ 表示真实的数据分布）

$\begin{aligned} -\log p_\theta(x_0) &\leq -\log p_\theta(x_0)+d_{kl}(q(x_{1:t}|x_0)||p_{\theta}(x_{1:t}|x_0))\\ &=-\log p_\theta(x_0)+e_{q(x_{1:t}|x_0)}[\log\frac{q(x_{1:t}|x_0)}{p_{\theta}(x_{0:t})/p_{\theta}(x_0)}]\\ &=-\log p_\theta(x_0)+e_{q(x_{1:t}|x_0)}[\log\frac{q(x_{1:t}|x_0)}{p_\theta(x_{0:t})}+\log p_{\theta}(x_0)]\\ &=-\log p_\theta(x_0)+e_{q(x_{1:t}|x_0)}[\log\frac{q(x_{1:t}|x_0)}{p_\theta(x_{0:t})}]+e_{q(x_{1:t}|x_0)}[\log p_{\theta}(x_0)]\\ &=-\log p_\theta(x_0)+e_{q(x_{1:t}|x_0)}[\log\frac{q(x_{1:t}|x_0)}{p_\theta(x_{0:t})}]+\log p_{\theta}(x_0)\\ &=e_{q(x_{1:t}|x_0)}[\log\frac{q(x_{1:t}|x_0)}{p_\theta(x_{0:t})}] \end{aligned}$
对其展开则有
$\begin{aligned} l&=e_{q(x_{1:t}|x_0)}[\log\frac{q(x_{1:t}|x_0)}{p_\theta(x_{0:t})}]\\ &=e_q[\frac{\prod_{t=1}^tq(x_t|x_{t-1})}{p_{\theta}(x_t)\prod_{t=1}^tp_\theta(x_{t-1}|x_t)}]\\ &=e_q[-\log p_\theta(x_t)+\sum_{t=1}^t\log\frac{q(x_t|x_{t-1})}{p_\theta(x_{t-1}|x_t)}]\\ &=e_q[-\log p_\theta(x_t)+\sum_{t=2}^t\log\frac{q(x_t|x_{t-1})}{p_\theta(x_{t-1}|x_t)}+\log\frac{q(x_1|x_0)}{p_\theta(x_0|x_1)}]\\ &=e_q[-\log p_\theta(x_t)+\sum_{t=2}^t\log(\frac{q(x_t|x_{t-1},x_0)}{p_\theta(x_{t-1}|x_t)}.\frac{q(x_t|x_0)}{q(x_{t-1}|x_0)})+\log\frac{q(x_1|x_0)}{p_\theta(x_0|x_1)}]\\ &=e_q[-\log p_\theta(x_t)+\sum_{t=2}^t\log\frac{q(x_t|x_{t-1},x_0)}{p_\theta(x_{t-1}|x_t)}+\sum_{t=2}^t\log\frac{q(x_t|x_0)}{q(x_{t-1}|x_0)}+\log\frac{q(x_1|x_0)}{p_\theta(x_0|x_1)}]\\ &=e_q[-\log p_\theta(x_t)+\sum_{t=2}^t\log\frac{q(x_t|x_{t-1},x_0)}{p_\theta(x_{t-1}|x_t)}+\log\frac{q(x_t|x_0)}{q(x_{1}|x_0)}+\log\frac{q(x_1|x_0)}{p_\theta(x_0|x_1)}]\\ &=e_q[-\log p_\theta(x_t)+\sum_{t=2}^t\log\frac{q(x_t|x_{t-1},x_0)}{p_\theta(x_{t-1}|x_t)}+\log\frac{q(x_t|x_0)}{p_\theta(x_0|x_1))}]\\ &=e_q[\log \frac{q(x_t|x_0)}{p_\theta(x_t)}+\sum_{t=2}^t\log\frac{q(x_t|x_{t-1},x_0)}{p_\theta(x_{t-1}|x_t)}-\log{p_\theta(x_0|x_1))}]\\ &=e_q[\frac{d_{kl}(q(x_t|x_0)||p_\theta(x_t))}{q(x_t|x_0)}+\sum_{t=2}^t\frac{d_{kl}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))}{q(x_{t-1}|x_t,x_0)}-\log{p_\theta(x_0|x_1))}] \end{aligned}$

因此需要优化的项有三个
$\begin{aligned} l_0&=d_{kl}(q(x_t|x_0)||p_\theta(x_t))\\ l_1&=\sum_{t=2}^td_{kl}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))\\ l_2&=\log{p_\theta(x_0|x_1)} \end{aligned}$

对于 $l_0$ 项，经过 $t$ 次（ $t$ 一般很大）加噪后， $q(x_t|x_0)$ 与 $p_\theta(x_t)$ 基本等价于标准正态分布，因此 $l_0$ 项取值接近于0。

对于 $l_2$ ，感兴趣的可以浏览原文的3.3章节(具体实现见链接)，最终作者发现优化 $l_1$ 项，模型的效果最佳，因此本章节只对 $l_1$ 进行推导。已知高斯分布 $\mathcal n(x;\mu_1,\sum_1)$ 、 $\mathcal n(x;\mu_2,\sum_2)$ 的kl散度公式为（具体推导可浏览生成模型vae）：
在这里插入图片描述

假设 $p_\theta(x_{t-1}|x_t)$ 服从 $\mathcal n(x;\mu_\theta,\delta_ti)$ ，已知 $q(x_{t-1}|x_t,x_0)$ 服从 $\mathcal n(x;\mu_t,\delta_ti)$ （均值和方差的式子见式2.2），则有
$\begin{aligned} l_2&=\sum_{t=2}^td_{kl}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))\\ &=\sum_{t=2}^t(\frac{1}{2}(n+\frac{1}{\delta_t^2}||\mu_t-\mu_\theta||^2-n+log1)\\ &=\sum_{t=2}^t(\frac{1}{2\delta_t^2}||\mu_t-\mu_\theta||^2)\\ \end{aligned}$
则 $\mu_\theta$ 需要拟合 $\mu_t$ ，结合式2.2， $\mu_\theta=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_\theta(x_t))$ ，可得
$l_2=\sum_{t=2}^t(\frac{(1-\alpha_t)^2}{2\delta_t^2\alpha_t(1-\bar\alpha_t)}||\epsilon_t-\epsilon_\theta(x_t)||^2)$

结合式子1.2以及坐标下降法，可得ddpm最终优化目标 $l$ 为
$l=||\epsilon_t-\epsilon_\theta(\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon_t)||^2$

结语

ddpm利用马尔科夫链建模图像生成的过程很巧妙，最终推导得到的式子也十分简单，确实是个很漂亮的工作

深度学习（生成式模型）——DDPM：denoising diffusion probabilistic models

2024年08月05日 • C/C++ •我要评论

文章目录

前言

ddpm的基本流程

前向过程

反向过程

ddpm训练与测试伪代码

前向过程详解

反向过程详解

ddpm损失函数推导

结语

相关文章:

【故障分类】基于开普勒算法优化注意力机制的卷积神经网络结合长短记忆神经网络KOA-CNN-LSTM-attention实现数据分类附matlab代码

你是真的“C”——实用memory类库函数的详细实现和使用

发表评论


验证码：