PKU Summer School 2025 | 2 扩散过程及其收敛性

Abstract. 推导扩散过程的 Fokker-Plank 公式,并且用 coupling 的方法分析在强凸的条件下 Langevin 扩散过程等随机过程的收敛速度。

说明与记号

记号

本章中有大量的矢量微积分,清晰起见,我们规定一下字体对应的变量类型。

  • $\boldsymbol{X}_t, \boldsymbol{x}, \boldsymbol{v}$ 等粗斜体表示向量(或向量函数),若不取转置都是列向量;
  • $\mathbf{A}, \mathbf{\Sigma}$ 等粗正体表示矩阵(或矩阵函数);
  • $t, \pi, f$ 等普通斜体表示标量(或标量函数);
  • $\mathscr{A}, \mathscr{P}$ 等花体表示泛函。

除了 $\nabla \cdot \nabla$ 这种司空见惯的表达外,为了避免歧义,向量内积均用转置乘法 $\boldsymbol{x}^\top \boldsymbol{y}$ 或尖括号 $\langle\boldsymbol{x}, \boldsymbol{y}\rangle$ 的形式写出。

文章中有两个重要的算子 $\nabla$ 和 $\Delta$,这里重申一遍其含义:

$$
\begin{aligned}
\nabla &= \left(\frac{\partial}{\partial x_1}, …, \frac{\partial}{\partial x_n}\right)^\top \\
\Delta &= \sum_{i=1}^n \frac{\partial}{\partial x_i} = \nabla \cdot \nabla
\end{aligned}
$$

$\nabla$ 可以直接作用于一个函数 $f$,结果将较 $f$ 本身升高一维,得到

$$
\nabla f = \left(\frac{\partial f^\top}{\partial x_1}, …, \frac{\partial f^\top}{\partial x_n}\right)^\top
$$

也可以以内积的方式作用于一个向量函数 $\boldsymbol{g}$,结果将较 $\boldsymbol{g}$ 本身降低一维,得到

$$
\nabla \cdot \boldsymbol{g} = \sum_{i=1}^n \frac{\partial}{\partial x_i} g_i
$$

$\nabla$ 可以以内积的形式作用 $n$ 次,写作 $\nabla^{\cdot n}$。这是为了与 Hessian 区分:

$$
\nabla^2 = \begin{pmatrix}
\frac{\partial^2}{\partial x_1x_1} & \cdots & \frac{\partial^2}{\partial x_1x_n} \\
\vdots & & \vdots \\
\frac{\partial^2}{\partial x_nx_1} & \cdots & \frac{\partial^2}{\partial x_nx_n}
\end{pmatrix}
$$

本节主要考虑由如下随机微分方程给出的扩散过程:

$$
\mathrm{d}\boldsymbol{X}_t = \boldsymbol{b}(\boldsymbol{X}_t)\mathrm{d}t + \mathbf{\Sigma}(\boldsymbol{X}_t)^{1/2}\mathrm{d}\boldsymbol{B}_t \label{thdiff}
$$

其中:

  • $\boldsymbol{X}_t$ 是 $d$ 维随机向量;
  • $\boldsymbol{b}(\cdot)$ 是 $d$ 维向量到 $d$ 维向量的函数;
  • $\mathbf{\Sigma}(\cdot)$ 是 $d$ 阶半正定矩阵;
  • $\boldsymbol{B}_t$ 是 $d$ 维布朗运动。

我们熟知这是一个连续时间马尔可夫过程,因此可能希望研究如下方面的内容:

  1. 特征。类比离散时间马尔可夫过程:离散情况下有一个随机转移矩阵 $\mathbf{P}$,使得 $t$ 时间的概率质量函数 $\pi_t$ 满足方程 $\pi_t = \pi_{t - 1}\mathbf{P}$(写成差分的形式即 $\Delta \pi_t = \pi_t(\mathbf{P} - \mathbf{I})$)。在扩散过程中是否有类似的(微分)方程?
  2. 稳态收敛性收敛速率

Fokker-Plank 方程

本节探讨第一方面内容,所得重要结果即标题。

首先,我们希望能类比离散马尔可夫过程中的矩阵 $\mathbf{P}$。为此,我们从一个泛性质入手(测试函数法)。先来找一族泛函 $(\mathscr{P}_t : t\geq 0)$ 满足:对于一切足够光滑的函数 $f$,都有

$$
(\mathscr{P}_t f)(\boldsymbol{x}) = \mathbb{E}\left[f(\boldsymbol{X}_t) | \boldsymbol{X}_0 = \boldsymbol{x}\right]
$$

可以发现,这族泛函内部的复合具有相当良好的形式,因为

$$
\begin{aligned}
(\mathscr{P}_s\mathscr{P}_t f)(x) = \mathbb{E}\left[(\mathscr{P}_s f)(\boldsymbol{X}_t) | \boldsymbol{X}_0 = \boldsymbol{x}\right] = \mathbb{E}[\boldsymbol{X}_{s + t} | \boldsymbol{X}_0 = \boldsymbol{x}] = (\mathscr{P}_{s + t} f)(x)
\end{aligned}
$$

于是 $\mathscr{P}_s\circ\mathscr{P}_t = \mathscr{P}_{s + t}$。从而若定义

$$
\mathscr{A} := \frac{\mathrm{d}}{\mathrm{d}t}\mathscr{P}_t \bigg |_{t = 0}
$$

便可以算出

$$
\begin{aligned}
\frac{\mathrm{d}}{\mathrm{d}t}\mathscr{P}_t &= \lim_{s\rightarrow 0^+} \frac{\mathscr{P}_{t + s} - \mathscr{P}_t}{s} \\
&= \lim_{s\rightarrow 0^+} \frac{\mathscr{P}_t(\mathscr{P}_s - I)}{s} && {\color{lightgray} \text{ or } \lim_{s\rightarrow 0^+} \frac{(\mathscr{P}_s - I)\mathscr{P}_t}{s}} \\
&= \mathscr{P}_t\mathscr{A} && {\color{lightgray} \text{ or } \mathscr{A}\mathscr{P}_t}
\end{aligned} \label{APODE}
$$

灰色部分指出 $\mathscr{A}$ 和 $\mathscr{P}_t$ 可交换。注意一旦有了微分方程 $(\ref{APODE})$,便可用 $\mathscr{A}$ 来表示 $\mathscr{P}_t$(大约是 $\mathscr{P}_t = \exp(t\mathscr{A})$ 状物),因此我们现在来计算 $\mathscr{A}$。

那么对于一个时齐扩散过程和一个足够光滑的函数 $f$,计算

$$
\lim_{T\rightarrow 0^+}\frac{\mathbb{E}[f(\boldsymbol{X}_T) | \boldsymbol{X}_0 = \boldsymbol{x}] - f(\boldsymbol{x})}{T}, \quad \text{ where $\boldsymbol{X}_t$ follows (\ref{thdiff})}
$$

用伊藤积分计算期望内部的 $f$ 得到欲计算之式子等于

$$
\begin{aligned}
\mathscr{A}f &=\lim_{T\rightarrow 0^+} \frac{1}{T}\mathbb{E}\left[\int_0^T \nabla f(\boldsymbol{X}_t)^\top \boldsymbol{b}(\boldsymbol{X}_t)\mathrm{d}t + {\color{blue}\int_0^T\nabla f(\boldsymbol{X}_t)^\top \mathbf{\Sigma}(\boldsymbol{X}_t)^{1/2}\mathrm{d}\boldsymbol{B}_t} + \frac 12 \int_0^T\mathrm{tr}\left(\nabla^2 f(\boldsymbol{X}_t)\mathbf{\Sigma}(\boldsymbol{X}_t)\right)\mathrm{d} t\right] \\
&= \nabla f(\boldsymbol{x})^\top b(\boldsymbol{x}) + \frac 12 \mathrm{tr}\left(\nabla^2 f(\boldsymbol{x}) \mathbf{\Sigma}(\boldsymbol{x})\right) \label{cfofA}
\end{aligned}
$$

注意蓝色部分是一个鞅,因此其期望为零。


得到了上述重要泛函之后,我们来考虑 $\pi$ 满足的方程。令 $\pi_t$ 为 $\boldsymbol{X}_t$ 的概率密度(非平凡,这里不证明对于扩散过程其存在)。

一方面,断言某些一致收敛性的存在(意在随意交换求导和含参积分)之后可以得到

$$
\frac{\mathrm{d}}{\mathrm{d}t} \mathbb{E}\left[f(\boldsymbol{X}_t)\right] = \int f(x)\frac{\partial \pi_t}{\partial t}(x)\mathrm{d}x
$$

另一方面又有

$$
\frac{\mathrm{d}}{\mathrm{d}t} \mathbb{E}[f(\boldsymbol{X}_t)] = \mathbb{E}\left[\frac{\mathrm{d}}{\mathrm{d}t}\mathscr{P}_t f(\boldsymbol{X}_0)\right] = \mathbb{E}\left[(\mathscr{A}\mathscr{P}_t)(\boldsymbol{X}_0)\right]
$$

先令 $t = 0$(这样操作也是非常自然的,因为 $\boldsymbol{X}_t$ 是时齐的,所以 $\pi_0$ 满足的方程理应能推到所有 $\pi_t$)得到方程

$$
\int f(\boldsymbol{x}) \frac{\partial \pi_t}{t}\bigg|_{t = 0}(\boldsymbol{x})\mathrm{d}\boldsymbol{x} = \int \mathscr{A}f(\boldsymbol{x})\pi_0(\boldsymbol{x})\mathrm{d}\boldsymbol{x} \label{switchtodo}
$$

这里 $\mathscr{A}f$ 里面有对 $f$ 的二阶微分。我们希望把微分全部推到 $\pi_0$ 头上去,从而得到如下形式:

$$
\int f(\boldsymbol{x}) \cdot {\color{red} (\text{something})}\mathrm{d}\boldsymbol{x} = 0
$$

进而根据 $f$ 可以任取来扔掉积分,得到 $\pi$ 的方程。因此容易想到使用分部积分。回忆

$$
\int_{\Omega} (\nabla f(\boldsymbol{x}))^\top\boldsymbol{g}(\boldsymbol{x})\mathrm{d}\boldsymbol{x} = \oint_{\partial\Omega} f(\boldsymbol{x})\boldsymbol{g}(\boldsymbol{x})^\top \boldsymbol{n}\mathrm{d}s - \int_{\Omega} f(\boldsymbol{x})(\nabla \cdot \boldsymbol{g}(\boldsymbol{x}))\mathrm{d}\boldsymbol{x}
$$

这可以自然地拓展到 $f, g$ 中有一者是矢量函数(每一维独立做一遍)

(这本该是一年级的知识,但是我们忘干净了,所以重新推一遍)

首先验证一个链式法则。

$$
\begin{aligned}
\nabla \cdot (f\boldsymbol{g}(\boldsymbol{x})) &= \sum_{i=1}^n \frac{\partial}{\partial x_i} (f(\boldsymbol{x})g_i(\boldsymbol{x})) \\
&= \sum_{i=1}^n \left(\frac{\partial}{\partial x_i} f(\boldsymbol{x})\right)g_i(\boldsymbol{x}) + \sum_{i=1}^n f(\boldsymbol{x})\left(\frac{\partia}{\partial x_i} g_i(\boldsymbol{x})\right) \\
&= \nabla f(\boldsymbol{x})^\top \boldsymbol{g}(\boldsymbol{x}) + f(\boldsymbol{x})(\nabla \cdot \boldsymbol{g}(\boldsymbol{x}))
\end{aligned}
$$

引理 2.1(高斯公式). 设区域 $\Omega$ 的边界是分片连续的封闭曲面,函数 $\boldsymbol{F} : \mathbb{R}^n\rightarrow \mathbb{R}^n$ 各维在 $\overline{\Omega}$ 内有连续的一阶偏导,则

$$
\oint_{\partial \Omega} \boldsymbol{F} \cdot \boldsymbol{n} \mathrm{d}s = \int_{\Omega}\nabla \cdot \boldsymbol{F}\mathrm{d}V
$$

置 $f \leftarrow f\boldsymbol{g}$(一个标量函数乘一个矢量函数)移项得证。$\blacksquare$

我们首先用球区域内的积分来逼近整个空间中的积分。可以证明(详情请考虑寻求数学家的合作😄)本节中用到的全部函数(以 $F$ 代称)均满足:取 $\Omega = \mathbb{B}^n(0, R)$,都有

$$
\left|\int_\Omega F \mathrm{d}V - \int_{\mathbb{R}^d} F \mathrm{d}V\right| \rightarrow 0 \qquad (R\rightarrow \infty)
$$

现在开始推进 $\ref{switchtodo}$ 的整理。首先

$$
\int_\Omega \mathscr{A} f(\boldsymbol{x})\pi_0(\boldsymbol{x})\mathrm{d}\boldsymbol{x} = \int_\Omega \nabla f(\boldsymbol{x})^\top \boldsymbol{b}(x)\pi_0(\boldsymbol{x})\mathrm{d}\boldsymbol{x} + \frac 12\int_\Omega \mathrm{tr}(\mathbf{\Sigma}(\boldsymbol{x})\cdot \nabla^2 f(\boldsymbol{x}))\pi_0(\boldsymbol{x})\mathrm{d}\boldsymbol{x}
$$

对第一项应用分部积分得到

$$
\int_\Omega \nabla f(\boldsymbol{x})^\top \boldsymbol{b}(\boldsymbol{x})\pi_0(\boldsymbol{x})\mathrm{d}\boldsymbol{x} = \oint_{\partial\Omega} \pi_0(\boldsymbol{x})f(\boldsymbol{x})\boldsymbol{b}(\boldsymbol{x})^\top \boldsymbol{n}\mathrm{d}s - \int_\Omega f(\boldsymbol{x})(\nabla \cdot \pi_0\boldsymbol{b}(\boldsymbol{x}))\mathrm{d}x
$$

可以证明这个边界上的积分收敛于 $0$(详情请考虑寻求数学家的合作😄)。今后,我们都将直接忽略边界项。

对于第二项,有

$$
\begin{aligned}
&\int_{\Omega}\mathrm{tr}\left(\nabla^2 f(\boldsymbol{x})\mathbf{\Sigma}(\boldsymbol{x})\right) \pi(\boldsymbol{x})\mathrm{d}\boldsymbol{x} \\
=& -\int_\Omega \nabla f(\boldsymbol{x})^\top (\nabla\cdot (\pi(\boldsymbol{x})\mathbf{\Sigma}(\boldsymbol{x}))) \mathrm{d}\boldsymbol{x} \\
=& \int_{\Omega} f(\boldsymbol{x})\cdot \nabla^{\cdot 2} \pi\mathbf{\Sigma}(\boldsymbol{x})\mathrm{d}\boldsymbol{x}
\end{aligned}
$$

第一行推第二行的计算细节

方便起见定义 $\mathbf{A}(\boldsymbol{x}) = \mathbf{\Sigma}(\boldsymbol{x})\pi(\boldsymbol{x})$。依迹的线性性,本质上要算的就是

$$
\int_{\Omega}\mathrm{tr}\left(\nabla^2 f(\boldsymbol{x})\mathbf{A}(\boldsymbol{x})\right) \mathrm{d}\boldsymbol{x}
$$

这里偏导被套在迹之中,看起来很不直观。然而我的一个朋友告诉我看不清楚就直接拆开爆算,因此我们直接算

$$
\begin{aligned}
\mathrm{tr}(\nabla^2 f(\boldsymbol{x})\mathbf{A}(\boldsymbol{x}))
&= \sum_{i=1}^n \sum_{j=1}^n \nabla^2 f(x)_{i, j} \mathbf{A}(\boldsymbol{x})_{j, i}(\boldsymbol{x}) \\
&= \sum_{i=1}^n \sum_{j=1}^n \frac{\partial^2}{\partial x_i\partial x_j}f(\boldsymbol{x}) \mathbf{A}(\boldsymbol{x})_{j, i} \\
&= \sum_{i=1}^n \left(\nabla\left(\frac{\partial}{\partial x_i} f\right)\right)^\top \mathbf{A}(\boldsymbol{x})_{\cdot, i}
\end{aligned}
$$

积分是线性的。对于每一个求和项用分部积分公式

$$
\int_\Omega \left(\nabla\left(\frac{\partial}{\partial x_i} f\right)\right)^\top \mathbf{A}(\boldsymbol{x})_{\cdot, j}\mathrm{d}\boldsymbol{x} = -\int_\Omega \frac{\partial}{\partial x_i} f(\boldsymbol{x}) (\nabla \cdot \mathbf{A}(\boldsymbol{x})_{\cdot, i})
$$

加起来即得到第二行。这里你可能需要解读一下 $\nabla \cdot \mathbf{A}$ 的含义。

第二行推第三行没有迹了,因此就比较显然了。

整理全部结果得到对于一切 $f$ 都有

$$
\int f(\boldsymbol{x})\left(\partial_t \pi_0(\boldsymbol{x}) + \nabla\cdot \pi_0\boldsymbol{b}(\boldsymbol{x}) - \nabla^{\cdot 2}\pi_0(\boldsymbol{x})\boldsymbol{\Sigma}(\boldsymbol{x})\right)\mathrm{d} \boldsymbol{x} = 0
$$

根据 $f$ 的任意性和扩散过程的时齐性(可以把式子中的 $\pi_0$ 拓展到任意的 $\pi_t$),我们最终得到了扩散过程 $t$ 时间的概率密度满足的方程:

定理 2.1(Fokker-Plank 方程). 设 $\pi_t$ 是时齐扩散过程 $(\ref{thdiff})$ 中 $\boldsymbol{X}_t$ 的概率分布。则有

$$
\partial_t \pi_t = -\nabla \cdot (\pi_t \boldsymbol{b}) + \frac 12 \nabla^{\cdot 2}(\pi_t\boldsymbol{\Sigma})
$$

Remark. 这里的 Fokker-Plank 方程甚至可以写成和马尔科夫链转移矩阵相仿的简单形式。回忆在线性代数中我们学习过一个经典的泛性质:在赋内积 $\langle\cdot, \cdot\rangle$ 的线性空间中,存在唯一的转置 $\mathbf{A}\mapsto \mathbf{A}^*$ 使得 $\langle \mathbf{A}\boldsymbol{x}, \boldsymbol{y}\rangle = \langle\boldsymbol{x}, \mathbf{A}^* \boldsymbol{y}\rangle$ 对于一切 $\boldsymbol{x}, \boldsymbol{y}$ 成立。将乘起来积分视作内积,在上述的分部积分中,本质上我们推出了 $\mathscr{A}^* = \pi \mapsto -\nabla \pi \boldsymbol{b} + \nabla^{\cdot 2}\pi\mathbf{\Sigma}$,因此 Fokker-Plank 方程可以简写作

$$
\partial_t \pi_t = \mathscr{A}^*\pi_t
$$

但这于应用而言大概并无帮助。

扩散过程的稳态和收敛速率

基于以下动机,希望研究扩散过程的稳态和收敛速率:

动机(采样问题). 给定 $f : \mathbb{R}^d\rightarrow \mathbb{R}$,希望设计一个采样器生成一个随机变量,其密度恰为

$$
\pi(\boldsymbol{x}) = \frac{e^{-f(\boldsymbol{x})}}{\int e^{-f(\boldsymbol{y})}\mathrm{d}\boldsymbol{y}} \label{expdist}
$$

低维空间中,有以下几种现成的方法:

  1. 重要性采样;在高维根本没法做前缀和积分之类的东西,因此不可行。
  2. 拒绝采样;高维情况下成功率会非常低,因此不可行。

高维空间中一般采用的是 MCMC(马尔科夫链蒙特卡洛采样),其核心思路是:模拟一个稳态分布恰为 $\pi$ 的随机过程足够长的时间(混合时间),即可产生(近似的)上述分布。

如何求扩散过程的稳态?按照定义这就是取 Fokker-Plank 方程 $\partial_t\pi_t = 0$ 所对应的 PDE 的解。

如何求扩散过程的收敛速度?即 $X_t$ 的分布和稳态分布的距离上界。常见的定义是 $\Delta_{TV}$ 和稳态差距充分小的时间($\tau_{mix} = \min\{T : \Delta_{TV}(\pi_T, \pi) < \varepsilon\}$)。当然根据 Pinsker 不等式,其上界可以由 KL 散度差距充分小时给出。熟悉马尔科夫链相关技术的朋友们都知道,在求混合时间时有一个十分有用的工具是耦合,即 Wasserstein 距离意义下的收敛速度。

定义 3.1(耦合). 称联合分布 $\gamma$ 是随机变量 $X\sim p, Y\sim q$ 的一个耦合,若边缘分布 $\gamma(X) = p$ 且 $\gamma(Y) = q$。记作 $\gamma\in \mathrm{coupling}(p, q)$。

定义 3.2(Wasserstein 距离). 两个分布 $p, q$(对应随机变量 $X, Y$)的 Wasserstein 距离为

$$
\mathcal{W}_\ell(p, q) = \left(\inf_{\gamma\in \mathrm{coupling}(p, q)} \mathbb{E}_{\gamma}\left[\left\lVert X - Y\right\rVert^\ell\right]\right)^{1 / \ell}
$$

现在我们来分析几个扩散过程的稳态和收敛速度。

Langevin 扩散

$$
\mathrm{d}\boldsymbol{X}_t = -\nabla f(\boldsymbol{X}_t)\mathrm{d}t + \sqrt 2\mathrm{d}\boldsymbol{B}_t
$$

其 Fokker-Plank 方程为

$$
\partial_t \pi_t = \nabla\cdot (\pi_t \nabla f) + \nabla^{\cdot 2} (\pi_t I)
$$

也可以根据 $\nabla^{\cdot 2}(\pi I) = \Delta \pi$ 化简成更直观的形式。现在来求解稳态,即解 PDE

$$
\nabla\cdot (\pi\nabla f) + \Delta \pi = 0
$$

因为 PDE 水平过低,所以只能靠猜 $\pi \propto e^{-f(\boldsymbol{x})}$ 然后验证。只需注意到 $\nabla \pi = -\pi\nabla f$ 以及 $\Delta = \nabla\cdot \nabla$ 即可。因此

$$
\pi(\boldsymbol{x}) = \frac{e^{-f(\boldsymbol{x})}}{\int e^{-f(\boldsymbol{y})}\mathrm{d}\boldsymbol{y}}
$$

确实是 PDE 的一个解。至于它是满足归一化和一些弱性质的唯一解,这里不证明。至此我们证明了

定理 3.1. Langevin 扩散的稳态正是 $(\ref{expdist})$

而 Langevin 扩散的收敛速度,一般情况下是难的。我们只证明

定理 3.2. 若 $f$ 是强凸的(即存在 $\lambda > 0$ 使得 $\lambda \mathbf{I} \prec \nabla^2 f$),则 Langevin 扩散的分布与稳态分布的 Wasserstein 距离指数级收敛于 $0$。

证明. 考虑两个随机过程,一个是从 $\boldsymbol{x}$ 开始游走的 Langevin 扩散,一个是初始点服从稳态分布的 Langevin 扩散,让他们公用一个布朗运动(同步耦合,synchronous coupling):

$$
\begin{aligned}
\mathrm{d}\boldsymbol{X}_t &= -\nabla f(\boldsymbol{X}_t)\mathrm{d}t + \sqrt 2\mathrm{d}\boldsymbol{B}_t & \boldsymbol{X}_0 = \boldsymbol{x} \\
\mathrm{d}\boldsymbol{X}^*_t &= -\nabla f(\boldsymbol{X}^*_t)\mathrm{d}t + \sqrt 2\mathrm{d}\boldsymbol{B}_t & \boldsymbol{X}^*_0 \sim \pi
\end{aligned}
$$

定义 $H_t := \mathbb{E}\left[\left\lVert\boldsymbol{X}_t - \boldsymbol{X}_t^*\right\rVert^2 \right]$ 则容易算出

$$
\frac{\mathrm{d}}{\mathrm{d}t} H_t = -2\mathbb{E}\left[(\boldsymbol{X}_t - \boldsymbol{X}_t^*)^\top (\nabla f(\boldsymbol{X}_t) - \nabla f(\boldsymbol{X}_t^*))\right]
$$

众所周知强凸性蕴含

$$
(\boldsymbol{x} - \boldsymbol{y})^\top (\nabla f(\boldsymbol{x}) - \nabla f(\boldsymbol{y})) \geq \lambda \left\lVert\boldsymbol{x} - \boldsymbol{y}\right\rVert^2
$$

因此我们得到了

$$
\frac{\mathrm{d}}{\mathrm{d}t}H_t \leq -2\lambda H_t
$$

根据 Grownwall 不等式 $H_t$ 不会超过取等给出的微分方程的解,即

$$
H_t \leq \exp(-\lambda t) \mathbb{E}\left[\left\lVert\boldsymbol{x} - \boldsymbol{X}^*\right\rVert\right]^2 = O\left(\exp(-\lambda t)\right)
$$

确实是指数级收敛的。$\blacksquare$

弱粘滞 Langevin 扩散

这里我们给出一个新的扩散过程:弱粘滞 Langevin 扩散。其扩散方程是一个方程组

$$
\begin{cases}
\mathrm{d}\boldsymbol{v}_t = -\gamma \boldsymbol{v}_t\mathrm{d}t - u\nabla f(\boldsymbol{x}_t)\mathrm{d}t + \sqrt{2\gamma u}\mathrm{d}\boldsymbol{B}_t \\
\mathrm{d}\boldsymbol{x}_t = \boldsymbol{v}_t\mathrm{d}t
\end{cases}
$$

即一个质点在运动中受到三方面的力:

  1. 一个正比于速度的粘滞力;
  2. 来自一个势能场的力;
  3. 来自周遭分子热运动的挤压。

其 Fokker-Plank 方程为

$$
\partial_t \pi_t = \gamma \nabla_v\cdot (\pi\boldsymbol{v}) + u\nabla_v\cdot (\pi\nabla f(\boldsymbol{x})) - \nabla_x\cdot (\pi \boldsymbol{v}) + \gamma u \Delta_v\pi
$$

可以验证一个解是

$$
\pi(\boldsymbol{x}, \boldsymbol{v}) \propto \exp\left(-\left(f(\boldsymbol{x}) + \frac{\left\lVert\boldsymbol{v}\right\rVert^2}{2u}\right)\right)
$$


最后来推导弱粘滞 Langevin 扩散的收敛速度(希望推出一个 $\gamma, u$ 的组合使得弱粘滞 Langevin 扩散的收敛速度为指数级)。这里假设 $f$ 强凸且光滑,即存在正数 $\lambda < L$ 满足

$$
\lambda \mathbf{I} \prec \nabla^2 f \prec L\mathbf{I}
$$

首先还是对 $(\boldsymbol{x}_t, \boldsymbol{v}_t)$ 和 $(\boldsymbol{x}_t^*, \boldsymbol{v}_t^*)$ 做同步耦合,以在作差时消掉布朗运动项。方便起见定义 $\boldsymbol{z}_t = \boldsymbol{x}_t - \boldsymbol{x}^*_t$ 与 $\boldsymbol{y}_t = \boldsymbol{v}_t - \boldsymbol{v}^*_t$。这里先做一些准备工作,算一些必然要算的东西:

$$
\begin{aligned}
\frac{\mathrm{d}}{\mathrm{d}t} \boldsymbol{z}_t &= \boldsymbol{y}_t \mathrm{d}t \\
\frac{\mathrm{d}}{\mathrm{d}t} \boldsymbol{y}_t &= -\gamma \boldsymbol{y}_t\mathrm{d}t - u(\nabla f(\boldsymbol{x}_t) - \nabla f(\boldsymbol{x}_t^*))
\end{aligned}
$$

这里出现了两个梯度的差。我们用微积分基本定理计算一下:

$$
\nabla f(\boldsymbol{x}_t) - \nabla f(\boldsymbol{x}_t^*) = {\color{blue} \underbrace{\left(\int_0^1 \nabla^2 f(\beta \boldsymbol{x}_t + (1 - \beta) \boldsymbol{x}_t^*)\mathrm{d}\beta\right)}_{\text{defined as $\mathcal{H}_t$}}}\boldsymbol{z}_t
$$

蓝色的部分是被 $\lambda \mathbf{I}$ 和 $L\mathbf{I}$ 控制住的,我们单独定义一个符号 $\mathcal{H}_t$ 来表示之。

回到主线。首先构造 Lyapunov 函数(下方的 Remark 对此有一些评论)

$$
H_t := \mathbb{E}\left[\left\lVert \begin{pmatrix}1 & 1 \\ 1 & 0\end{pmatrix}\begin{pmatrix} \boldsymbol{x}_t - \boldsymbol{x}_t^* \\ \boldsymbol{v}_t - \boldsymbol{v}_t^* \end{pmatrix} \right\rVert^2\right] = \mathbb{E}\left[\left\lVert \boldsymbol{z}_t + \boldsymbol{y}_t\right\rVert^2 + \left\lVert\boldsymbol{z}_t\right\rVert^2\right]
$$

根据三角形不等式可知若 $H_t$ 的收敛速度是指数级的,$\mathcal{W}_2$ 的收敛速度必然也是指数级的(和前面仅差常数)。为此我们计算 ${H}_t$ 的导数

$$
\begin{aligned}
\frac{\mathrm{d}}{\mathrm{d}t} H_t &= 2\binom{\boldsymbol{z}_t + \boldsymbol{y}_t}{\boldsymbol{z}_t}^\top \binom{-(\gamma - 1)\boldsymbol{y}_t - u\mathcal{H}_t \boldsymbol{z}_t}{-\boldsymbol{y}_t} \\
&= -2 \binom{\boldsymbol{z}_t + \boldsymbol{y}_t}{\boldsymbol{z}_t}^\top {\color{red} \underbrace{\begin{pmatrix}
(\gamma - 1)\mathbf{I} & u\mathcal{H}_t - (\gamma - 1)\mathbf{I} \\
- \mathbf{I} & \mathbf{I}
\end{pmatrix}}_{\text{defined as $\boldsymbol{S}_t$}}}\binom{\boldsymbol{z}_t + \boldsymbol{y}_t}{\boldsymbol{z}_t} \\
&= -2\binom{\boldsymbol{z}_t + \boldsymbol{y}_t}{\boldsymbol{z}_t}^\top \underbrace{\left(\frac{\boldsymbol{S}_t + \boldsymbol{S}_t^\top}{2}\right)}_{\text{defined as $\mathbf{Q}_t$}} \binom{\boldsymbol{z}_t + \boldsymbol{y}_t}{\boldsymbol{z}_t}
\end{aligned}
$$

最后一步是将式子变成一个二次型,方便处理。现在,一旦有 $\mathbf{Q}_t$ 是正定矩阵,就可以知道 $H_t$ 指数级递减。

计算细节

首先写出 $\mathbf{Q}_t$ 的特征方程:

$$
\det \begin{pmatrix}
(\gamma - 1 - \lambda)\mathbf{I} & \frac{1}{2}\left(u\mathcal{H}_t - \gamma\mathbf{I}\right) \\
\frac{1}{2}\left(u\mathcal{H}_t - \gamma\mathbf{I}\right) & (1 - \lambda)\mathbf{I}
\end{pmatrix} =
\det\left((\gamma - 1 - \lambda)(1 - \lambda)\mathbf{I} - \frac{1}{4}(u\mathcal{H}_t - \gamma\mathbf{I})^2\right)
= 0
$$

第一步化简是因为矩阵各分块(在我们将给出的参数组合下)具有良好的可交换性和可逆性。这是 $\mathcal{H}_t$ 的一个多项式,因此若 $\Lambda_i$ 是 $\mathbf{H}_t$ 的一个特征值,则 $\lambda$ 只可能为如下方程的解

$$
(\gamma - 1 - \lambda)(1 - \lambda) - \frac{1}{4}(u\Lambda_j - \gamma)^2 = 0
$$

方便起见取参数 $\gamma = 2, u = 1 / L$,此时

$$
\lambda_j^* = 1\pm \left(1 - \frac{\Lambda_j}{2L}\right)
$$

必然全正。

经过上述被折叠的计算之后可知取 $\gamma = 2, u = 1 / L$ 可以让 $\mathbf{Q}_t$ 为正定矩阵,此时收敛速度为指数级。

Remark. 上述证明来自文献 [1] 的第 3 节。目前暂时不知道定义 $H_t$ 时乘矩阵 $\begin{pmatrix}
1 & 1 \\
1 & 0
\end{pmatrix}$ 之必要性何在,以及这与微分动力系统中的 Lyapunov 函数之关联何在。

参考资料

  1. Xiang Cheng, Niladri S. Chatterji, Peter L. Bartlett, Michael I. Jordan. Underdamped Langevin MCMC: A non-asymptotic analysis, arxiv: 1707.03663