PKU Summer School 2025 | 3 扩散过程收敛性进阶内容
Abstract.
扩散过程中的泛函不等式
回忆在计算一个离散时间马尔可夫链的混合时间时,除了使用耦合这一工具,还可以观察转移矩阵 $\mathbf{P}$ 的代数性质——谱间隙(spectral gap)。具体地,我们知道(非周期性不可约)离散时间马尔可夫过程的稳态是唯一满足
$$
\pi \mathbf{P} = \pi
$$
的分布。熟知 $1$ 是 $\mathbf{P}$ 的绝对值最大的特征值。因此迭代 $\pi_{t + 1} = \pi_t \mathbf{P}$ 本质上就是在做一个 power iteration,若绝对值次大的特征值和 $1$ 之间有一个常数大的间隙,便可推出指数级的收敛。
那么,对于在 Langevin 扩散过程中,是否有相当于谱间隙的类比?也就是说,我们希望对于一个度量(包括 KL 散度等) $d(\cdot, \cdot)$,希望找到一个常数 $c$ 使得
$$
\frac{\mathrm{d}}{\mathrm{d}t}d(\pi_t, \pi) \leq -cd(\pi_t, \pi)
$$
这个不等式将蕴含 $\pi_t$ 和 $\pi$ 之间以 $d$ 度量的差距将是指数级递减的。我们从 KL 散度入手:
$$
\begin{aligned}
\frac{\mathrm{d}}{\mathrm{d}t} D_{KL}(\pi_t \Vert \pi) &= \int \frac{\partial}{\partial t} \left(\pi_t\log\frac{\pi_t}{\pi}\right)\mathrm{d}\boldsymbol{x} \\
&= \int (\partial_t\pi_t)\log \frac{\pi_t}{\pi}\mathrm{d}x + \int \pi_t \left(\partial_t \log \pi_t\right) \mathrm{d}\boldsymbol{x} \\
&= \int (\nabla \cdot (\pi_t \nabla f) + \Delta \pi_t)\left(\log \frac{\pi_t}{\pi} + 1\right)\mathrm{d}\boldsymbol{x} \\
&= -\int \left(\pi \nabla f + \nabla \pi_t\right)^\top \left(\nabla \log \frac{\pi_t}{\pi}\right)\mathrm{d}\boldsymbol{x} \\
&= -\int \left\lVert \nabla \log \pi_t - \nabla \log \pi\right\rVert^2 \pi_t \mathrm{d}\boldsymbol{x}
\end{aligned}\label{eqdklfi}
$$
提示.
回忆在 Langevin 扩散中有 $\nabla f = -\nabla \log \pi$ 以及 $\nabla \pi_t = \pi_t\nabla \log \pi_t$。
这已经表明 KL 散度永无可能增加,为了得到指数级收敛,我们希望拿到一个常数。我们将所需的不等式抽象成
定义 1.1(Log-Sobolev 不等式,变种). 称 $\pi$ 满足 Log-Sobolev 不等式,若存在常数 $c_{LSI}$,使得对于任意充分光滑的 $\mu$ 都有
$$
D_{KL}(\mu \Vert \pi) \leq c_{LSI}{\color{blue} \int \mu\left\lVert \nabla \log \frac{\mu}{\pi}\right\rVert\mathrm{d}\boldsymbol{x}}
$$
上式中的蓝色部分称为“相对 Fisher 信息”
$$
I(\mu \Vert \pi) := \int \mu\left\lVert \nabla \log \frac{\mu}{\pi}\right\rVert\mathrm{d}\boldsymbol{x}
$$
旁注. 上方使用的 Log-Sobolev 不等式其实是变种。原汁原味的 Log-Sobolev 不等式是令 $f = \sqrt{\mu / \pi}$,得到
$$
\mathrm{Ent}_\pi[f^2] \leq c_{LSI} \cdot \mathbb{E}_{\pi}\left[\left|\nabla f\right|^2\right]
$$
其中 $\mathrm{Ent}[\cdot]$ 是连续熵,定义为
$$
\mathrm{Ent}_\pi[h] = -\mathbb{E}_\pi[h\log h] - \mathbb{E}_\pi[h]\log \mathbb{E}_\pi[h]
$$
显然,若 $\pi$ 满足 LSI,则
$$
D_{KL}(\pi_t\Vert \pi) \leq D_{KL}(\pi_0 \Vert \pi)\exp\left(-\frac{t}{c_{LSI}}\right)
$$
从另一个度量出发。定义两个分布之间的 $\chi^2$ 度量为
$$
\chi^2(p\Vert q) = \int q(\boldsymbol{x})\left(\frac{p(\boldsymbol{x})}{q(\boldsymbol{x})} - 1\right)^2\mathrm{d}\boldsymbol{x}
$$
推导在此度量意义下 $\pi_t$ 和 $\pi$ 的差距指数级递减的条件:
$$
\begin{aligned}
\frac{\mathrm{d}}{\mathrm{d}t}\chi^2(\pi_t \Vert \pi) &= 2\int (\partial_t \pi_t) \frac{\pi_t}{\pi}\mathrm{d}\boldsymbol{x} \\
&= 2\int (\nabla \cdot (\pi_t\nabla f) + \Delta \pi_t) \frac{\pi_t}{\pi} \mathrm{d}\boldsymbol{x} \\
&= -2\int (\pi_t \nabla f + \nabla \pi_t)^\top \nabla \frac{\pi_t}{\pi} \mathrm{d}\boldsymbol{x} \\
&= -2\int \pi \left\lVert \nabla \frac{\pi_t}{\pi}\right\rVert^2 \mathrm{d}\boldsymbol{x}
\end{aligned}
$$
类似地将所需不等式抽象成
定义 1.2(Poincare 不等式). 称 $\pi$ 满足 Poincare 不等式,若存在常数 $c_{PI}$ 使得对于任意充分光滑的函数 $h$ 都有
$$
\mathrm{Var}_\pi(h(x)) \leq c_{PI} \cdot \mathbb{E}\left(\left\lVert\nabla h\right\rVert^2\right)
$$
若 $\pi$ 满足 Poincare 不等式,置 $h = \pi_t / \pi - 1$ 立即得到
$$
\chi^2(\pi_t \Vert \pi) \leq \exp\left(-\frac{t}{c_{PI}}\right)\cdot \chi^2(\pi_0 \Vert \pi)
$$
实际上,Poincare 不等式弱于 Log Sobolev 不等式。
定理 1.1. 若 $\pi$ 满足 Log Sobolev 不等式,则 $\pi$ 满足 Poincare 不等式,并可取 $c_{LSI} = c_{PI}$
证明. 对于任意充分光滑 $h$,取 $f = 1 + \varepsilon h$。则根据原版 Log Sobolev 不等式有
$$
\mathrm{Ent}_\pi((1 + \varepsilon h)^2) \leq \varepsilon^2 c_{LSI}\mathbb{E}_\pi\left[\left|\nabla h\right|^2\right]
$$
左边泰勒展开到 $O(\varepsilon^3)$ 项得到其等于 $\varepsilon^2 \mathbb{E}_\pi [h^2] + O(\varepsilon^3)$,取 $\varepsilon \rightarrow 0$ 得证。$\blacksquare$
泛函不等式与集中不等式
一个十分符合直觉的事实是泛函不等式蕴含集中不等式。作为例子,我们证明
定理 2.1. 设 $g$ 是一个 $1$-Lipschitz 函数($|g(\boldsymbol{x}) - g(\boldsymbol{y})| \leq \left\lVert\boldsymbol{x} - \boldsymbol{y}\right\rVert_2$)。$m(\lambda) = \mathbb{E}\left[e^{\lambda g(\boldsymbol{x})}\right]$ 是其矩生成函数。若 $e^{\lambda g(\boldsymbol{x})}$ 满足 $c_{PI}$-Poincare 不等式,则在一定范围(证明中给出)内,up to constant factor,有
$$
m(\lambda) \leq \exp\left(2\lambda^2 c_{PI}\right)
$$
证明. Poincare 不等式表明
$$
\mathbb{E}\left[e^{2\lambda g(\boldsymbol{x})}\right] - \left(\mathbb{E}\left[e^{\lambda g(\boldsymbol{x})}\right]\right)^2 \leq c_{PI} \lambda^2 \mathbb{E}\left[\left|\nabla g(\boldsymbol{x})\right|^2 e^{2\lambda g(\boldsymbol{x})}\right] \leq c_{PI} \lambda^2 \mathbb{E}\left[e^{2\lambda g(\boldsymbol{x})}\right]
$$
因此当 $\lambda < 1 / \sqrt{2c_{PI}}$ 时,有
$$
m(\lambda) \leq \frac{1}{1 - \lambda^2 c_{PI}} m^2_{\lambda / 2}
$$
代入欲证不等式验证即可。$\blacksquare$
例如当 $g(\boldsymbol{x}) = \left\lVert\boldsymbol{x}\right\rVert_2$ 时,$g$ 满足 Poincare 不等式可以推出高概率 $\left|\left\lVert x\right\rVert_2 - \mathbb{E}\left[\left\lVert\boldsymbol{x}\right\rVert_2\right]\right| \leq \sqrt{C_{PI}}$。
从类似的路线,可以推出 Log Sobolev 不等式蕴含 subgaussian 性质(取消了 $\lambda$ 的范围),这也印证了 LSI 比 PI 强。
导出泛函不等式成立
对于强凸的函数 $f$,我们来证明 LSI 成立。这里证明的方法是使用所谓的插值法(Interpolation Method)。
回忆此前我们已经推出了 KL 散度和相对 Fisher 信息的关系式 $(\ref{eqdklfi})$,这表明
$$
D_{KL}(\pi_t \Vert \pi) = \int_t^\infty I(\pi_t \Vert \pi)\mathrm{d}t \label{dklint}
$$
因此我们转而分析 $I(\pi_t \Vert \pi)$ 的界。所幸在 $f$ 是强凸函数时,$I$ 将会满足一个微分不等式:
引理 3.1. 对于满足强凸性的 $f$($\lambda I \prec \nabla^2 f$)给出的 Langevin 扩散过程,有
$$
\frac{\mathrm{d}}{\mathrm{d}t} I(\pi_t \Vert \pi) \leq -2\lambda I(\pi_t \Vert \pi)
$$
证明. 可以算出(文献 [1] 中引理 2)对于任意由 $f$ 给出的 Langevin 扩散过程
$$
\begin{aligned}
\frac{\mathrm{d}}{\mathrm{d}t} I(\pi_t \Vert \pi) &= -2\mathbb{E}_{\pi}\left[\left\lVert \nabla^2 \log \frac{\pi_t}{\pi}\right\rVert_F\right] - 2\mathbb{E}_\pi \left[\left(\nabla \log \frac{\pi_t}{\pi}\right)^\top \cdot \nabla^2 f\cdot \left(\nabla \log \frac{\pi_t}{\pi}\right)\right]
\end{aligned}
$$
第一项一定小于等于 $0$,第二项小于等于 $-2\lambda I(\pi_t \Vert \pi)$。$\blacksquare$
引理 3.1 蕴含
$$
I(\pi_t\Vert \pi) \leq e^{-2\lambda (t - t_0)} I(\pi_{t_0}\Vert \pi)
$$
代入 $(\ref{dklint})$ 中积分立即得到 KL 散度满足 Log Sobolev 不等式,$c_{LSI} = \frac{1}{2\lambda}$。
推论 3.2. 若 $f$ 强凸,则由 $f$ 给出的 Langevin 扩散过程中 $X_t$ 的分布指数级地收敛于稳态(在 KL 散度意义下)。
我们还希望对于非强凸的函数 $f$ 也推出 LSI 和 PI 成立。以下是一些特殊情况下的结论。
定理 3.3. 若 $\pi$ 满足 LSI(PI),其中常数为 $c_{LSI}$($c_{PI}$)。假设对于光滑函数 $h(\boldsymbol{x})$(满足 $\sup_\boldsymbol{x}\left|h(\boldsymbol{x})\right| \leq B$)有
$$
\mu(\boldsymbol{x}) = \frac{\pi(\boldsymbol{x})e^{h(\boldsymbol{x})}}{\int \pi(\boldsymbol{y})e^{h(\boldsymbol{y})}\mathrm{d}\boldsymbol{y}}
$$
则 $\mu$ 也满足 LSI(PI),常数为 $e^{2B} c_{LSI (PI)}$。
证明. 核心观察是
$$
e^{-B}\leq \frac{\mu(\boldsymbol{x})}{\pi(\boldsymbol{x})} \leq e^{B}
$$
始终成立。这让我们可以随意变换期望中的分布。以 PI 的推导为例(先想办法把方差这种“期望套期望”变成“一层期望”):
$$
\begin{aligned}
\boldsymbol{\mathrm{Var}}_\mu(f(\boldsymbol{x})) &= \inf_{m\in \mathbb{R}} \mathbb{E}_\mu \left[\left| f(\boldsymbol{x}) - m\right|^2\right] \\
&\leq e^{B} \inf_{m\in \mathbb{R}} \mathbb{E}_\pi \left[\left| f(\boldsymbol{x}) - m\right|^2\right] \\
&\leq e^B c_{PI}\mathbb{E}_{\pi}\left[\left|\nabla f(\boldsymbol{x})\right|^2\right] \\
&\leq e^{2B} c_{PI} \mathbb{E}_{\mu} \left[\left|\nabla f(\boldsymbol{x})\right|^2\right]
\end{aligned}
$$
对于 LSI,这里会想要把包在 $\log$ 里面的期望消除掉。核心的观察是
$$
\mathrm{Ent}_\pi[f] = \inf_{t\geq 0}\mathbb{E}_{\pi}\left[f\log \frac{f}{t} - f + t\right]
$$
后面都是完全相同的路线,此处不再赘述。$\blacksquare$
这个结论使得对于一些非凸函数也能推出 Langevin 扩散的指数收敛。例如 $f$ 是一个非凸 $L$-Lipschitz 光滑函数($\left|\nabla f(\boldsymbol{x}) - \nabla f(\boldsymbol{y})\right| \leq L \left\lVert\boldsymbol{x} - \boldsymbol{y}\right\rVert$),$\boldsymbol{x}^*$ 是它的一个一阶驻点(FOSP,$\nabla f(\boldsymbol{x}^*) = 0$)。假设 $f$ 满足:
$$
\text{$f$ is }\begin{cases}
\text{strong convex,} & \boldsymbol{x} \notin B(\boldsymbol{x}^*, R) \\
\text{only smooth,} & \boldsymbol{x} \in B(\boldsymbol{x}^*, R)
\end{cases}
$$
($R$ 为常数,$B(\boldsymbol{x}, R)$ 为 $\boldsymbol{x}$ 为圆心、$R$ 为半径的球)
则根据 $f$ 的 Lipschitz 性显然可以构造一个强凸的 $\overline{f}$ 满足
$$
\begin{cases}
\overline{f} = f & \boldsymbol{x} \notin B(\boldsymbol{x}^*, R) \\
\left|\overline{f}(\boldsymbol{x}) - f(\boldsymbol{x})\right| \leq LR^2 & \boldsymbol{x} \in B(\boldsymbol{x}^*, R)
\end{cases}
$$
那么 $\overline{f}$ 对应的稳态 $\overline{\pi} \propto e^{-\overline{f}}$ 满足 $1 / \lambda$-LSI,推出 $f$ 对应的稳态 $\overline{\pi}$ 满足 $e^{2LR^2} / \lambda$-LSI。
以下是一个更弱的结论。
定理 3.4(文献 [2]). 若 $f$ 满足以下两条件之一
- 对于 $\boldsymbol{x}\notin B(0, R)$,$\langle \boldsymbol{x}, \nabla f(\boldsymbol{x})\rangle \geq \alpha |\boldsymbol{x}|$;
- 对于 $\boldsymbol{x}\notin B(0, R)$,$a |\nabla f(\boldsymbol{x})|^2 - \Delta f(\boldsymbol{x})\geq c$。
则 PI 对于其稳态成立。
证明. 课上零零碎碎证了点没头没尾的东西,感觉没啥意义,还是去翻原论文吧(
最后,我们可能还希望定量刻画 $c_{PI}$ 的大小。一个知名的猜想是
猜想 3.5(KLS 猜想). 若 $-\log \pi$ 是凸的(Log Concavity),则 $c_{PI}$ 和维数无关。
最近的突破是 2021 年的文献 [3] 给出的
定理 3.6(Chen, 2021). 在 Log Concavity 的条件下,$c_{PI}$ 是 $d^{o(1)}$ 级别(almost-constant)的。
参考资料
- Andre Wibisono, Mixing Time of the Proximal Sampler in Relative Fisher Information via Strong Data Processing Inequality, COLT’25, arxiv: 2502.05623.
- Dominique Bakry et al., A Simple Proof of The Poincare Inequality For A Large Class Of Probability Measures Including The Log-Concave Case, Elect. Comm. in Probab. 13(2008), 60-66.
- Chen, Y. An Almost Constant Lower Bound of the Isoperimetric Coefficient in the KLS Conjecture. Geom. Funct. Anal. 31, 34–61 (2021). https://doi.org/10.1007/s00039-021-00558-4