扩散模型理论第一课

扩散模型是一类生成模型，其目标与生成对抗网络（GANs）、变分自编码器（VAEs）和归一化流（Normalizing Flows）相同：学习一个真实数据分布 $q (x)$ 的近似 $p_{θ} (x)$ ，并从中采样生成新样本 $x \sim p_{θ} (x)$ 。

与 GANs 通过生成器的一次前向传递直接产生样本不同，扩散模型通过多个去噪步骤逐步逼近真实样本。因此，扩散模型的输入与输出通常具有相同的维度。

1. 前向扩散过程

给定一个干净样本 $x_{0} \sim q (x)$ ，前向过程通过 $T$ 步逐渐向其中添加高斯噪声，得到序列 $x_{1}, \dots, x_{T}$ 。每一步的转移分布可写为：

\begin{matrix} (1) & q (x_{t} ∣ x_{t - 1}) = N (x_{t}; \sqrt{1 - β_{t}} x_{t - 1}, β_{t} I) . \end{matrix}

其中 $β_{t} \in (0, 1)$ 控制第 $t$ 步加入的噪声强度， $I$ 为单位矩阵。

利用重参数化技巧，可以直接从 $x_{0}$ 采样任意时刻 $t$ 的噪声样本：

\begin{matrix} (2) & q (x_{t} ∣ x_{0}) = N (x_{t}; \sqrt{{\bar{α}}_{t}} x_{0}, (1 - {\bar{α}}_{t}) I), \end{matrix}

其中

\begin{matrix} (3) & α_{t} = 1 - β_{t}, {\bar{α}}_{t} = \prod_{i = 1}^{t} α_{i} . \end{matrix}

2. 反向去噪过程

前向过程将数据逐步破坏为噪声，反向过程则负责从噪声中恢复数据。若能建模反向转移分布 $q (x_{t - 1} ∣ x_{t})$ ，就可以从先验噪声 $x_{T} \sim N (0, I)$ 出发，逐步去噪生成新样本。

当 $β_{t}$ 足够小时，反向过程也可用高斯分布近似：

\begin{matrix} (4) & p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), Σ_{θ} (x_{t}, t)) . \end{matrix}

实践中，协方差常被设为与时间相关的对角矩阵 $σ_{t}^{2} I$ ，网络只学习均值：

\begin{matrix} (5) & p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), σ_{t}^{2} I) . \end{matrix}

3. DDPM：去噪扩散概率模型

DDPM 按照反向过程的全部 $T$ 步生成样本。在参数化均值 $μ_{θ} (x_{t}, t)$ 时，网络可以选择：

直接预测均值；
预测原始样本 $x_{0}$ ，再代入真实后验均值：

\begin{matrix} (6) & {\tilde{μ}}_{t} = \frac{\sqrt{{\bar{α}}_{t - 1}} β_{t}}{1 - {\bar{α}}_{t}} x_{0} + \frac{\sqrt{α_{t}} (1 - {\bar{α}}_{t - 1})}{1 - {\bar{α}}_{t}} x_{t}; \end{matrix}

预测从 $x_{0}$ 到 $x_{t}$ 所添加的标准高斯噪声 $ϵ$ ：

\begin{matrix} (7) & x_{0} = \frac{1}{\sqrt{{\bar{α}}_{t}}} (x_{t} - \sqrt{1 - {\bar{α}}_{t}} ϵ) . \end{matrix}

第三种参数化最为常用。将式 (7) 代入式 (6)，可得：

\begin{matrix} (8) & {\tilde{μ}}_{θ} = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{β_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ) . \end{matrix}

这是 DDPM 采样的核心方程。

3.1 训练

DDPM 的训练目标直观且直接：

从数据集中采样干净样本 $x_{0} \sim q (x_{0})$ ；
均匀采样时间步 $t \sim U (1, T)$ ；
采样噪声 $ϵ \sim N (0, I)$ ，并按前向过程构造：

\begin{matrix} (9) & x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ; \end{matrix}

用网络预测噪声 ${\hat{ϵ}}_{θ} = ϵ_{θ} (x_{t}, t)$ ；
最小化真实噪声与预测噪声之间的误差，通常采用简化的均方误差损失：

\begin{matrix} (10) & L_{simple} = E_{x_{0}, t, ϵ} [{‖ ϵ - ϵ_{θ} (x_{t}, t) ‖}_{2}^{2}] . \end{matrix}

3.2 采样

生成过程从 $x_{T} \sim N (0, I)$ 开始。对于 $t = T, \dots, 1$ ：

网络预测噪声 ${\tilde{ϵ}}_{θ} = ϵ_{θ} (x_{t}, t)$ ；
按式 (8) 计算均值；
采样下一步：

\begin{matrix} (11) & x_{t - 1} \sim N ({\tilde{μ}}_{θ}, σ_{t}^{2} I) . \end{matrix}

当 $t = 1$ 时，通常直接输出均值 ${\tilde{μ}}_{θ}$ 作为最终样本。

4. DDIM：更快的确定性采样

DDPM 需要遍历完整的 $T$ 步反向链，采样较慢。DDIM 通过引入可控的随机性，允许使用更少的步骤生成样本。

由式 (2) 可得：

\begin{matrix} (12) & q (x_{t - 1} ∣ x_{0}) = N (x_{t - 1}; \sqrt{{\bar{α}}_{t - 1}} x_{0}, (1 - {\bar{α}}_{t - 1}) I) . \end{matrix}

将其重写为：

\begin{matrix} (13) & x_{t - 1} = \sqrt{{\bar{α}}_{t - 1}} x_{0} + \sqrt{1 - {\bar{α}}_{t - 1} - σ_{t}^{2}} ϵ_{t} + σ_{t} ϵ, \end{matrix}

其中 $ϵ \sim N (0, I)$ 。令

\begin{matrix} (14) & σ_{t}^{2} = η \cdot {\tilde{β}}_{t} = η \cdot \frac{1 - {\bar{α}}_{t - 1}}{1 - {\bar{α}}_{t}} β_{t}, \end{matrix}

其中 $η \in [0, 1]$ 控制随机程度：

当 $η = 1$ 时，退化为 DDPM；
当 $η = 0$ 时，采样过程变为确定性，即 DDIM。

DDIM 选择一个子集时间步 ${τ_{1}, \dots, τ_{S}} \subset {1, \dots, T}$ 并只在这些步上迭代，因此可以显著加速采样。实验表明，DDIM 在步数 $S$ 较小时通常比 DDPM 获得更好的样本质量，但在完整步数 $S = T$ 时 DDPM 表现更优。

总结

扩散模型通过前向过程逐步加噪、反向过程逐步去噪来生成数据。
DDPM 训练网络预测噪声，通过优化简化的均方误差损失实现端到端学习。
DDIM 引入参数 $η$ 控制随机性，在 $η = 0$ 时可实现确定性、少步数的快速采样。
扩散模型与 GANs 的关键区别在于：它不是单次前向生成，而是通过多步迭代逐步逼近真实样本。

扩散模型理论第一课 ​

1. 前向扩散过程 ​

2. 反向去噪过程 ​

3. DDPM：去噪扩散概率模型 ​

3.1 训练 ​

3.2 采样 ​

4. DDIM：更快的确定性采样 ​

总结 ​