扩散模型和最优传输

References

《Understanding DDPM Latent Codes Through Optimal Transport》

《 THE FLOW MAP OF THE FOKKER-PLANCK EQUATION DOES NOT PROVIDE OPTIMAL TRANSPORT 》

《A generalization of Caffarelli’s contraction theorem via (reverse) heat flow》

《 Diffusion models and Optimal Transport 》

1. 最优传输

最优传输（Optimal Transport, OT）是数学和计算机科学中的一个经典问题，研究如何以最小代价将一个分布（或质量分布）转移到另一个分布上。这个问题起源于18世纪法国数学家莫尼格（Gaspard Monge）提出的运输问题，其目标是找到一种从一个源分布到目标分布的映射，使得代价函数最小化。

目标函数：最优传输问题的目标是通过一个映射 $T$ 或联合分布 $ \pi(x, y)$ ，最小化一个代价函数，例如：

$$
\min_{\pi \in \Pi(p, q)} \int c(x, y) , \mathrm{d}\pi(x, y),
$$

其中 $c(x, y)$ 表示从 $x$ 移动到 $y$ 的代价， $\Pi(p, q)$ 表示边缘分布分别为 $p$ 和 $q$ 的联合分布集。

Wasserstein距离：最优传输代价的一种特殊形式，使用欧几里得距离作为代价函数，得到 Wasserstein距离，用于衡量概率分布之间的“距离”。【Wasserstein距离可以看作是在将一个分布“移动”到另一个分布所需的最小代价。代价取决于“质量”的分布和“距离”的权重】，这个度量的函数为：

设 $\mu$ 和 $\nu$ 是定义在度量空间 $(\mathcal{X}, d)$ 上的两个概率分布。Wasserstein距离（通常表示为 $W_p$ ）的第 $p$ 阶定义为：

$W_p(\mu, \nu) = \left( \inf_{\gamma \in \Gamma(\mu, \nu)} \int_{\mathcal{X} \times \mathcal{X}} d(x, y)^p , \mathrm{d}\gamma(x, y) \right)^{1/p}, $

其中：

$d(x, y)$ 是点 $x, y \in \mathcal{X}$ 之间的距离；
$\Gamma(\mu, \nu) $ 是所有联合分布的集合，满足边缘分布为 $\mu$ 和 $\nu$ ： $\Gamma(\mu, \nu) = \left{ \gamma \in \mathcal{P}(\mathcal{X} \times \mathcal{X}) ,|, \gamma(A \times \mathcal{X}) = \mu(A), \gamma(\mathcal{X} \times B) = \nu(B), \forall A, B \subseteq \mathcal{X} \right}. $

最优传输（OT）是一种理论框架，用来研究如何最优地将一个概率分布 $\alpha$ 转换到另一个概率分布 $\beta$。

两种主要形式：

Monge 问题（确定性映射）：寻找一个映射 $T$ ，使得 $T_#\alpha = \beta$ 。
Kantorovich 问题（松弛形式）：寻找一个联合分布 $ \pi(x, y)$ ，它的边缘分布分别是 $\alpha$ 和 $\beta$ ，并最小化总成本： $ \inf_{\pi} \int_{\mathbb{R}^d \times \mathbb{R}^d} c(x, y) , \mathrm{d}\pi(x, y)$ .

重要性质

OT 可以度量概率分布之间的“距离”，例如 Wasserstein 距离： $W_2(\alpha, \beta) = \left(\inf_{T} \int_{\mathbb{R}^d} |x - T(x)|^2 , \mathrm{d}\alpha(x)\right)^{1/2}.$

应用

数据科学（生成模型、数据匹配）
机器学习（分布对齐、域适配）
流体力学与物理（质量守恒问题）

2. 扩散模型

扩散模型是一种生成模型，通过逐步添加噪声破坏数据分布（正向过程），然后训练一个模型去学习反向过程，即逐步去噪，生成新的样本。其关键思想包括：

正向扩散过程：通过定义一个时间序列，将数据逐步转化为白噪声。例如，给定初始数据分布 $p_0(x)$ ，通过高斯噪声生成一系列分布 $p_t(x)$ ，直至 $t = T$ 时为均匀噪声。
反向去噪过程：学习从噪声数据恢复原始数据分布的过程，通常通过一个神经网络 $s_\theta(x_t, t)$ 近似后验分布 $p_{t-1}(x_{t-1} | x_t)$ 。
训练目标：最常用的是变分下界或去噪得分匹配。

3. 扩散模型与最优传输的联系

这个并不清楚，但是：在相似的数据集上训练的不同扩散模型倾向于恢复出相似的映射关系。

这就提出一个问题**：如果这些映射关系不是最优传输（OT，Optimal Transport ）映射，那么它们到底在什么意义上是最优呢？**

扩散模型与最优传输之间的联系探讨：

(1) 论文一：扩散过程可以被理解为最优传输中 Wasserstein 流的近似

《Understanding DDPM Latent Codes Through Optimal Transport》

扩散模型可以看作概率密度流的一个特例，而最优传输则研究从一个分布到另一个分布的最优路径。在理论上，扩散过程可以被理解为最优传输中 Wasserstein 流的近似：

扩散模型通过一系列的微分方程（Fokker-Planck 方程）来描述从初始分布到目标分布的变化，这与最优传输中的连续路径方法（如流体动力学公式）类似。
如果在扩散过程中引入特定的优化目标（如 Wasserstein 距离），可以直接将扩散过程视为最优传输中的一种实现。

(2) 论文二：在某些情况下，流模型并不能实现最优传输

《 THE FLOW MAP OF THE FOKKER-PLANCK EQUATION DOES NOT PROVIDE OPTIMAL TRANSPORT 》

《A generalization of Caffarelli’s contraction theorem via (reverse) heat flow》

【其关键就是标题，即流模型不能实现最优传输，详见下述论文（三）】

(3) 论文三：扩散模型不能定义最优传输映射

《 Diffusion models and Optimal Transport 》

这篇文章的核心目的是说明扩散模型（Diffusion Model）在理论上不能定义最优传输映射（Optimal Transport Map）。以下是该说明的简要过程和关键结论的逻辑链条：

4.1 问题背景

生成模型的目标是找到从参考分布 $\alpha$ （通常是高斯分布）到数据分布 $\beta $ 的映射 $T$ ，使得 $T#\alpha = \beta$ 。理论上，这种映射总是存在的，但明确构造它的方法是一个挑战。

方法1：最优传输（Optimal Transport, OT）

最优传输映射 T 可以通过解决 Monge 问题得到。根据 Brenier 定理，这种映射是唯一的，并且是一个凸函数的梯度。

方法2：逆向流映射（Reverse Flow Map）

在扩散模型中，数据分布 $\beta_0 = \beta $ 被逐步演化到参考分布 $ \beta_\infty = \alpha$ 。这个演化过程通过一个时间演化的向量场 $v$ 来定义，产生了一个从 $\beta_0$ 到 $\beta_t$ 的流映射 $S_t$ 。

以下是对 Monge 问题、Brenier 定理以及其他相关概念的进一步介绍：

1. Monge 问题
Monge 问题由法国数学家 Gaspard Monge 在 1781 年提出，目的是研究如何以最低的成本将一种分布（初始质量分布）运输到另一种分布（目标质量分布）。形式化定义：
（1）给定两个概率分布 $ \alpha$ 和 $\beta$ ，寻找一个映射 $T$ ，使得 $\beta$ 是由 $\alpha$ 通过 $T$ 推送而来的： $T_#\alpha = \beta$ .
（2）同时最小化总的运输成本： $\inf_{T} \int_{\mathbb{R}^d} c(x, T(x)) , \mathrm{d}\alpha(x)$ , 其中 $c(x, T(x))$ 是点 $x$ 被运输到点 $T(x)$ 的代价函数，常用的代价是欧几里得距离的平方： $c(x, T(x)) = |x - T(x)|^2$ .
Monge 问题的核心是 寻找一个确定性的最优传输映射 T。
它被应用在多个领域，如经济学（资源分配）、流体力学（质量守恒）以及图像处理（直方图匹配）。

2. Brenier 定理
1991年，数学家 Yann Brenier 提出了一个重要结果，解决了 Monge 问题在欧几里得距离平方成本下的特定情况：
如果 $\alpha$ 和 $\beta$ 是定义在 $\mathbb{R}^d $ 上的概率分布，并且 $\alpha$ 是绝对连续的（即其分布函数可导），那么存在唯一的最优传输映射 $T$ ，使得： $T = \nabla \phi$ , 其中 $\phi $ 是一个 凸函数。
换句话说，最优传输映射 $T$ 可以表示为一个凸函数的梯度。
几何解释
Brenier 定理表明，最优传输映射 $T$ 本质上是一个梯度流，它从参考分布 $\alpha$ 平滑地映射到目标分布 $\beta$ 。
与 Monge-Ampère 方程的关系
Brenier 定理的一个重要结果是，最优传输映射 $T$ 满足 Monge-Ampère 方程： $\det \left(\nabla^2 \phi(x)\right) \cdot \alpha(x) = \beta(T(x))$ , 其中：
$\nabla^2 \phi(x)$ 是函数 $\phi(x)$ 的 Hessian 矩阵。
这个方程描述了最优传输的几何结构。

4.2 关键问题

逆向流映射是否等价于最优传输映射？

在一维情况下： $S_t$ 是一个单调的微分同胚，因此可以被视为凸函数的梯度，是最优传输。
在多维情况下：Lavenant 和 Santambrogio 的研究表明，逆向流映射在一般情况下并不是最优传输。他们通过反证法证明存在一些 $ t \geq 0$ ，使得从 $\alpha $ 到 $\beta_t$ 的逆向流映射 $T_t$ 不是最优传输。

这里可能大家会有一些关于扩散和逆向流映射的概念上的困扰，进行一些澄清：

扩散模型是一种生成模型，通过逐步添加噪声将数据分布 $\beta$ 转换为参考分布（如高斯分布 $\alpha$ ），然后通过逆向过程从 $\alpha$ 生成数据。

逆向流映射 $S_t$ ：

表示从 $\beta_t$ 演化到 $ \beta_0 = \beta$ 的时间流映射。
是通过方程的逆向积分定义的，并与向量场 $v(x, t)$ 紧密相关。

逆向流映射与最优传输的区别
尽管逆向流映射在某些情况下（如一维高斯分布）可以是最优传输，但多维情况下并不总是满足最优传输的要求。具体而言：

扩散过程中的流映射 $S_t$ 并不总是凸函数的梯度（违反 Brenier 定理）。
它们的动力学特性和最优传输的几何特性有本质不同。

Monge 问题：研究如何以最低成本将分布 $\alpha$ 映射到分布 $ \beta$ 。
Brenier 定理：最优传输映射是一个凸函数的梯度。
扩散模型的局限性：逆向流映射 $ S_t$ 在多维情况下无法满足最优传输的凸性要求，表明扩散模型不能定义最优传输映射。

这些理论概念共同为生成模型、概率分布映射和优化提供了坚实的数学基础。

4.3 矛盾的构造

通过构造特定的条件和假设，证明逆向流映射 $ T_t$ 在某些 $t > 0$ 时不满足最优传输的性质：

假设条件：

数据分布 $\beta$ 非常接近参考分布 $\alpha$ 。
特定的二阶和四阶对数密度导数为 0。

计算细节：

使用 Brenier 定理， $T_t$ 是最优传输的充分条件是它是一个凸函数的梯度，这等价于 Monge-Ampère方程成立。
通过对扩散过程的ODE和流映射方程进行微分，在 $t=0$ 处展开泰勒级数。

矛盾的来源：

通过构造特定的 $h(y)$ （例如一个四次多项式）来证明在 0 附近 $ T_t $ 和 $S_t$ 的某些属性不满足可交换性。
这与 $T_t$ 是最优传输映射的必要条件矛盾。

4.3 结论

理论结论：

扩散模型中的逆向流映射 $T_t$ 不是最优传输映射。即便在高斯分布的特殊情况下，多维扩散模型的性质依然不满足最优传输的要求。

本质原因：

扩散模型的逆向流映射定义了一个从数据分布到参考分布的演化过程，但这个过程无法完全满足最优传输映射所需的凸性与梯度性质。

通过这篇文章的推导，作者揭示了扩散模型的局限性，即它在理论上无法提供最优传输映射。这一结论为研究生成模型和最优传输之间的关系提供了新的思考方向。

4. 总结：扩散模型与最优传输间关系

扩散模型的逆向流映射（flow map）不满足凸性和梯度性质，主要与其生成过程的动力学特性以及最优传输的几何要求之间的差异有关。以下是具体原因的详细分析：

1. 最优传输的凸性和梯度性质

在最优传输问题中，根据 Brenier 定理，最优传输映射 T 必须满足以下两个关键性质：

凸性：T 是某个凸函数 $\phi $ 的梯度，即 $T = \nabla \phi$ 。
梯度结构：这意味着 T 的 Jacobian 矩阵是对称的，因为它是由凸函数的 Hessian 推导而来。

这些性质源于最优传输的基本构造，它需要从几何上满足“质量守恒”和“运输成本最小化”的要求，并且需要解决 Monge-Ampère 方程的约束。

最优传输的梯度映射定义 最优传输映射 $T$ 通常由一个凸函数 $\phi$ 的梯度定义，即： $T(x) = \nabla \phi(x)$ , 这里 $\phi$ 是一个凸函数。凸函数的梯度映射是广义单调的，并且能确保传输映射 T 满足推送条件（即将一个分布推送到另一个分布）。
Hessian 矩阵的对称性 对于凸函数 $\phi$ ，它的 Hessian 矩阵 $\nabla^2 \phi(x)$ 是对称的。这是因为二阶偏导数的混合项（例如 $ \frac{\partial^2 \phi}{\partial x_i \partial x_j} 和 \frac{\partial^2 \phi}{\partial x_j \partial x_i}$ ）满足 Schwarz 对称性条件： $\frac{\partial^2 \phi}{\partial x_i \partial x_j} = \frac{\partial^2 \phi}{\partial x_j \partial x_i}$ . 因此，最优传输映射 $T(x)$ 的 Jacobian 矩阵 $\nabla T(x) = \nabla^2 \phi(x)$ 也是对称的。
几何性质：映射的单调性和对称性 对称的 Jacobian 矩阵保证了映射的单调性（或者说广义单调性）。单调性是最优传输问题的关键性质，它确保传输路径是“最短”的，同时满足成本函数的优化要求。例如，在二次成本情况下（欧几里得距离平方），单调性和凸性共同确保了传输映射的唯一性。
物理解释 在实际应用中，最优传输映射 $T(x)$ 可以理解为一种”势场”的梯度流动，其中势函数 $ \phi$ 描述了传输的潜在能量。凸性的要求保证了这种势场的物理合理性（例如无环路径），而梯度的对称性则确保了传输方向是合理的。

2. 扩散模型的逆向流映射

扩散模型通过逐步添加噪声将数据分布 $\beta_0 = \beta$ 转化为参考分布 $\beta_\infty = \alpha$ （通常是高斯分布），然后通过逆向过程生成数据。这个逆向过程是通过 向量场 $v(x, t)$ 的动力学演化描述的：

$ \frac{\mathrm{d}x}{\mathrm{d}t} = v(x, t), $

其中 $v(x, t)$ 是当前状态的速度场。

逆向流映射 $S_t$ 表示从数据分布 $\beta_t $ 到参考分布 $\beta_0 = \beta$ 的流动。然而，它不满足最优传输所要求的凸性和梯度性质，原因如下：

3. 为什么扩散不满足凸性和梯度性质？

(1) 扩散模型的动力学不具有凸性要求

扩散模型的逆向过程是由向量场 $v(x, t) $ 定义的，而 $v(x, t)$ 通常并不直接来源于一个凸函数的梯度。换句话说：

$v(x, t)$ 是基于当前状态和噪声的统计特性动态演化的，它的本质是一个概率流，而非一个由凸性约束的映射。
$S_t$ 是通过 $v(x, t)$ 的累积积分构造的，它无法保证生成的映射在几何上满足凸性条件。

(2) 逆向流映射的局部结构可能违反对称性

最优传输的 Brenier 定理要求传输映射的 Jacobian 矩阵是对称的（梯度场的性质）。然而，扩散模型的向量场 $v(x, t)$ 和对应的流映射 $S_t$ 在多维情况下并不保证这个性质：

扩散过程会引入随机性和非对称性，例如，在不同维度之间的交互中，可能出现方向依赖的偏差。
这种非对称性破坏了扩散流映射作为最优传输映射的几何要求。

(3) 扩散的生成目标不同于最优传输

扩散模型的目标是生成高质量样本，而不是最小化从数据分布到参考分布之间的运输成本。因此：

它的生成过程更关注如何逐步逼近数据分布，而非严格构造符合最优传输特性的映射。
逆向扩散过程通过插值和随机性实现数据的重构，可能无法保持最优传输中的梯度流特性。

(4) 二阶和高阶导数约束的失败

根据文中提到的 Lavenant 和 Santambrogio 的结果，扩散映射 $S_t$ 在某些情况下（例如数据分布 $\beta$ 与参考分布 $\alpha$ 接近时）可能会违反二阶或高阶导数的性质：

当 $ T_t$ 被要求满足凸性时，需要保证 Hessian 矩阵的正定性，这对向量场 $v(x, t)$ 的构造施加了很强的限制。
如果这些约束条件不满足（例如出现高阶导数的反对称性问题），扩散流映射就不能是最优传输。

4. 具体例子：二维高斯分布中的反例

文中提到的 Lavenant 和 Santambrogio 的证明提供了一个关键反例：

他们构造了一个接近各向同性高斯分布 $\alpha$ 的数据分布 $\beta$ ，并证明在某些 $ t > 0$ 时，逆向流映射 $T_t$ 不是最优传输。
核心问题在于：在高斯分布附近，扩散映射的梯度结构可能会由于非对称性或其他几何特性而偏离最优传输映射。

5. 总结：扩散模型为何不能定义最优传输映射

动力学原因：扩散模型的逆向过程基于动态流场，而非凸函数的梯度，无法保证映射的凸性。
几何原因：逆向流映射可能违反梯度流的对称性，破坏最优传输的几何结构。
目标差异：扩散模型旨在生成数据分布，而非以最优成本匹配分布，生成过程会牺牲最优传输的特性。
反例证明：Lavenant 和 Santambrogio 通过具体构造证明了在某些情况下，扩散模型的流映射并不满足最优传输的要求。

因此，扩散模型虽然是一种强大的生成方法，但从理论上讲，它无法用于定义全局的最优传输映射。