随机变量的变换的Wasserstein度量
字数 2526 2025-12-13 14:13:01

好的,我将为你讲解一个概率论与统计中非常重要但尚未在列表中出现的概念。

随机变量的变换的Wasserstein度量

  1. 动机与直观理解
    首先,想象我们有两个概率分布,比如两个不同的沙堆。我们想量化这两个沙堆有多么“不同”。一个朴素的想法是比较它们的形状(概率密度函数),但有些分布(如离散分布和连续分布)的密度函数无法直接比较。另一种想法是:如果将一堆沙子搬运、重新塑造成另一堆沙子,所需的“最小工作量”是多少?这个“最小搬运成本”就是Wasserstein距离的直观核心。因此,它也被称为“推土机距离”。

  2. 精确定义:从耦合到距离
    为了数学化“搬运”,我们引入“耦合”的概念。设有两个随机变量 \(X\)\(Y\),其概率分布分别为 \(\mu\)\(\nu\)(定义在同一个可测空间上)。一个 耦合 是指一个联合随机变量 \((X', Y')\),使得 \(X'\) 的边缘分布是 \(\mu\)\(Y'\) 的边缘分布是 \(\nu\)。这就像是制定了一个“搬运计划”:对于 \(\mu\) 中的每一粒“沙子”,计划将其搬到 \(\nu\) 中的某个位置。
    \(d(x, y)\) 是底层空间(如实数线 \(\mathbb{R}\))上的一个距离函数(如绝对值距离 \(|x-y|\))。那么,对于给定的一个耦合 \((X', Y')\),搬运的 平均成本 就是 \(\mathbb{E}[d(X', Y')]\)
    p阶Wasserstein距离 (\(p \ge 1\)) 则定义为所有可能的搬运计划中,最小的平均成本的 \(p\) 次方根:

\[ W_p(\mu, \nu) = \left( \inf_{\gamma \in \Gamma(\mu, \nu)} \mathbb{E}_{(X, Y) \sim \gamma} \left[ d(X, Y)^p \right] \right)^{1/p} \]

其中,\(\Gamma(\mu, \nu)\) 是所有以 \(\mu\)\(\nu\) 为边缘分布的联合分布(即所有耦合)的集合。这个下确界(最小成本)对应的最优耦合,就代表了最优的“搬运计划”。

  1. 一维情况下的显式公式
    在实数轴 (\(\mathbb{R}\)) 上,对于一维分布,Wasserstein距离有一个非常简洁的显式表达式,这极大地简化了计算和理解。设 \(F\)\(G\) 分别是分布 \(\mu\)\(\nu\) 的累积分布函数。那么,p阶Wasserstein距离 可以通过它们的分位数函数(CDF的逆)来计算:

\[ W_p(\mu, \nu) = \left( \int_0^1 |F^{-1}(u) - G^{-1}(u)|^p \, du \right)^{1/p} \]

其中 \(F^{-1}(u) = \inf \{x: F(x) \ge u\}\) 是分位数函数。这个公式的直观解释是:将两个分布从左到右的“质量”逐点对齐,计算对应分位数点之间的距离,然后进行积分平均。这在比较收入分布、计算模型输出分布与真实分布差异时非常有用。

  1. 关键性质
    Wasserstein度量拥有一些使其特别有用的性质:
  • 度量性:它满足非负性、对称性、三角不等式,且 \(W_p(\mu, \nu) = 0\) 当且仅当 \(\mu = \nu\)。这使它成为一个真正的距离。
  • 弱收敛性:在一系列温和的矩条件下,概率分布的序列 \(\{\mu_n\}\)\(W_p\) 度量下收敛于 \(\mu\),等价于 \(\{\mu_n\}\) 弱收敛于 \(\mu\) 并且 \(p\) 阶矩也收敛。这使得它能同时捕捉分布的“形状”和“尾部”信息的收敛。
    • 对低支撑集重叠的稳健性:与Kullback-Leibler散度不同,Wasserstein距离在比较支撑集几乎没有重叠的分布时仍然是有定义且有限的。例如,两个相距很远的点分布,它们的Wasserstein距离就是两点间的几何距离,而KL散度是无穷大。
  1. 应用领域
    • 最优传输:这是其理论根源,研究如何以最小成本将一种质量分布转化为另一种。
  • 生成模型:在机器学习中,特别是生成对抗网络的Wasserstein GAN变体,使用 \(W_1\) 距离作为衡量生成数据分布与真实数据分布差异的损失函数,通常能提供更稳定的训练和更有意义的梯度信号。
    • 分布对齐与领域自适应:用于对齐来自不同领域(如不同传感器、不同风格)的数据分布。
    • 计算统计学:用于比较和平均化复杂的、非参数化的分布,例如在贝叶斯非参数模型中。
  1. 高级拓展:对偶形式与Sinkhorn算法
    原始定义(称为原始形式)涉及对所有耦合求下确界,计算复杂。幸运的是,Kantorovich-Rubinstein对偶 给出了一个等价形式(对于 \(p=1\)):

\[ W_1(\mu, \nu) = \sup_{\|f\|_L \le 1} \left| \mathbb{E}_{X \sim \mu}[f(X)] - \mathbb{E}_{Y \sim \nu}[f(Y)] \right| \]

其中上确界取遍所有 1-Lipschitz连续 的函数 \(f\)(即满足 \(|f(x)-f(y)| \le |x-y|\) 的函数)。这可以解释为:两个分布的差异,等于在“变化最平缓”的函数(Lipschitz约束下)上期望值的最大差异。
为了高效计算,常引入熵正则化,将严格的最优传输问题转化为一个光滑的凸优化问题,然后使用 Sinkhorn迭代算法 求解。这种方法在深度学习和大规模数据处理中极为流行,实现了速度和精度的有效平衡。

总结来说,随机变量的变换的Wasserstein度量 是一个基于“最优搬运质量”思想定义的分布间距离。它结合了几何直观与坚实的数学理论,具有优秀的数学性质,并对分布支撑集的重叠程度不敏感,因而在理论概率、最优运输、现代机器学习等领域成为了一个核心工具。

好的,我将为你讲解一个概率论与统计中非常重要但尚未在列表中出现的概念。 随机变量的变换的Wasserstein度量 动机与直观理解 首先,想象我们有两个概率分布,比如两个不同的沙堆。我们想量化这两个沙堆有多么“不同”。一个朴素的想法是比较它们的形状(概率密度函数),但有些分布(如离散分布和连续分布)的密度函数无法直接比较。另一种想法是:如果将一堆沙子搬运、重新塑造成另一堆沙子,所需的“最小工作量”是多少?这个“最小搬运成本”就是Wasserstein距离的直观核心。因此,它也被称为“推土机距离”。 精确定义:从耦合到距离 为了数学化“搬运”,我们引入“耦合”的概念。设有两个随机变量 \(X\) 和 \(Y\),其概率分布分别为 \(\mu\) 和 \(\nu\)(定义在同一个可测空间上)。一个 耦合 是指一个联合随机变量 \((X', Y')\),使得 \(X'\) 的边缘分布是 \(\mu\),\(Y'\) 的边缘分布是 \(\nu\)。这就像是制定了一个“搬运计划”:对于 \(\mu\) 中的每一粒“沙子”,计划将其搬到 \(\nu\) 中的某个位置。 设 \(d(x, y)\) 是底层空间(如实数线 \(\mathbb{R}\))上的一个距离函数(如绝对值距离 \(|x-y|\))。那么,对于给定的一个耦合 \((X', Y')\),搬运的 平均成本 就是 \(\mathbb{E}[ d(X', Y') ]\)。 p阶Wasserstein距离 (\(p \ge 1\)) 则定义为所有可能的搬运计划中,最小的平均成本的 \(p\) 次方根: \[ W_ p(\mu, \nu) = \left( \inf_ {\gamma \in \Gamma(\mu, \nu)} \mathbb{E}_ {(X, Y) \sim \gamma} \left[ d(X, Y)^p \right ] \right)^{1/p} \] 其中,\(\Gamma(\mu, \nu)\) 是所有以 \(\mu\) 和 \(\nu\) 为边缘分布的联合分布(即所有耦合)的集合。这个下确界(最小成本)对应的最优耦合,就代表了最优的“搬运计划”。 一维情况下的显式公式 在实数轴 (\(\mathbb{R}\)) 上,对于一维分布,Wasserstein距离有一个非常简洁的显式表达式,这极大地简化了计算和理解。设 \(F\) 和 \(G\) 分别是分布 \(\mu\) 和 \(\nu\) 的累积分布函数。那么, p阶Wasserstein距离 可以通过它们的分位数函数(CDF的逆)来计算: \[ W_ p(\mu, \nu) = \left( \int_ 0^1 |F^{-1}(u) - G^{-1}(u)|^p \, du \right)^{1/p} \] 其中 \(F^{-1}(u) = \inf \{x: F(x) \ge u\}\) 是分位数函数。这个公式的直观解释是:将两个分布从左到右的“质量”逐点对齐,计算对应分位数点之间的距离,然后进行积分平均。这在比较收入分布、计算模型输出分布与真实分布差异时非常有用。 关键性质 Wasserstein度量拥有一些使其特别有用的性质: 度量性 :它满足非负性、对称性、三角不等式,且 \(W_ p(\mu, \nu) = 0\) 当且仅当 \(\mu = \nu\)。这使它成为一个真正的距离。 弱收敛性 :在一系列温和的矩条件下,概率分布的序列 \(\{\mu_ n\}\) 在 \(W_ p\) 度量下收敛于 \(\mu\),等价于 \(\{\mu_ n\}\) 弱收敛于 \(\mu\) 并且 \(p\) 阶矩也收敛。这使得它能同时捕捉分布的“形状”和“尾部”信息的收敛。 对低支撑集重叠的稳健性 :与Kullback-Leibler散度不同,Wasserstein距离在比较支撑集几乎没有重叠的分布时仍然是有定义且有限的。例如,两个相距很远的点分布,它们的Wasserstein距离就是两点间的几何距离,而KL散度是无穷大。 应用领域 最优传输 :这是其理论根源,研究如何以最小成本将一种质量分布转化为另一种。 生成模型 :在机器学习中,特别是生成对抗网络的Wasserstein GAN变体,使用 \(W_ 1\) 距离作为衡量生成数据分布与真实数据分布差异的损失函数,通常能提供更稳定的训练和更有意义的梯度信号。 分布对齐与领域自适应 :用于对齐来自不同领域(如不同传感器、不同风格)的数据分布。 计算统计学 :用于比较和平均化复杂的、非参数化的分布,例如在贝叶斯非参数模型中。 高级拓展:对偶形式与Sinkhorn算法 原始定义(称为原始形式)涉及对所有耦合求下确界,计算复杂。幸运的是, Kantorovich-Rubinstein对偶 给出了一个等价形式(对于 \(p=1\)): \[ W_ 1(\mu, \nu) = \sup_ {\|f\| L \le 1} \left| \mathbb{E} {X \sim \mu}[ f(X)] - \mathbb{E}_ {Y \sim \nu}[ f(Y) ] \right| \] 其中上确界取遍所有 1-Lipschitz连续 的函数 \(f\)(即满足 \(|f(x)-f(y)| \le |x-y|\) 的函数)。这可以解释为:两个分布的差异,等于在“变化最平缓”的函数(Lipschitz约束下)上期望值的最大差异。 为了高效计算,常引入熵正则化,将严格的最优传输问题转化为一个光滑的凸优化问题,然后使用 Sinkhorn迭代算法 求解。这种方法在深度学习和大规模数据处理中极为流行,实现了速度和精度的有效平衡。 总结来说, 随机变量的变换的Wasserstein度量 是一个基于“最优搬运质量”思想定义的分布间距离。它结合了几何直观与坚实的数学理论,具有优秀的数学性质,并对分布支撑集的重叠程度不敏感,因而在理论概率、最优运输、现代机器学习等领域成为了一个核心工具。