随机变量的变换的Mallows距离
字数 3123 2025-12-06 06:39:50

随机变量的变换的Mallows距离

我们来循序渐进地讲解随机变量的变换中的一个重要工具——Mallows距离。我们将从最基础的概念入手,逐步深入到其定义、性质、计算和在概率统计中的应用。

第一步:回顾基础——概率分布的比较与距离

在概率论与统计中,我们经常需要比较两个随机变量(或其概率分布)的“接近程度”。例如,在假设检验、模型选择、极限理论中。衡量这种接近程度需要一种“距离”度量。你已经知道期望、方差等描述单个分布特征的量,但“距离”描述的是两个分布之间的关系。

  • 常见的概率距离:你之前学过的总变差距离、Wasserstein距离、Kullback-Leibler散度等都是不同的概率距离/散度。它们各有侧重:总变差衡量概率差异的绝对值,KL散度源于信息论,Wasserstein距离则与最优传输有关。
  • 距离的基本要求:一个严格的“距离”(或度量)通常需要满足非负性、同一性(距离为零当且仅当两者相同)、对称性、三角不等式。有些度量(如KL散度)不满足对称性和三角不等式,因此常被称为“散度”。

第二步:引入Mallows距离的核心思想——矩的匹配

Mallows距离,有时也被称为“Wasserstein距离”在特定阶数下的特例(更准确地说,是p-Wasserstein距离),但它在统计学中有其独立的提出背景和应用价值。其核心思想是:衡量两个分布之间的差异,不仅要看它们概率形态的差异,还要看它们矩(特别是低阶矩,如期望)的差异。

我们可以从两个分布中分别抽取随机变量X和Y。想象一下,如果我想把分布X“改造”成分布Y,除了改变其形状,可能还需要整体平移。Mallows距离试图用一个统一的数值来度量这种差异。

第三步:Mallows距离的正式定义

\(X\)\(Y\) 是两个随机变量,其概率分布分别为 \(P\)\(Q\)。对于 \(p \geq 1\)\(p\)-阶Mallows距离 定义为:

\[D_p(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[|X - Y|^p] \right)^{1/p} \]

或者等价地,其 \(p\) 次幂定义为:

\[D_p^p(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \mathbb{E}[|X - Y|^p] \]

这里,\(\Gamma(P, Q)\) 表示所有联合分布 \((X, Y)\) 的集合,其中边际分布 \(X \sim P\)\(Y \sim Q\)。也就是说,我们考虑所有可能的、以P和Q为边缘分布的随机变量配对方式,然后寻找使它们之间的 \(p\) 阶平均差异 \(\mathbb{E}[|X-Y|^p]\) 最小的那种配对方式。这个“下确界”(infimum,可以理解为最小值)就是Mallows距离。

第四步:理解定义中的关键点

  1. 联合分布与耦合:定义中的 \((X, Y)\) 不仅仅是一个随机变量对,更是一个耦合。耦合是一种特殊的联合分布构造,它将两个边缘分布“绑”在一起。不同的耦合对应着X和Y之间不同的相关性。Mallows距离寻找的是最优耦合,即让X和Y“尽可能相似”的配对方式。
  2. 与Wasserstein距离的关系:这个定义与**\(p\)-阶Wasserstein距离**的定义完全相同。在最优传输理论中,\(\mathbb{E}[|X-Y|^p]\) 被解释为在“成本函数”为 \(c(x, y) = |x-y|^p\) 时,将单位质量的“沙子”从分布P搬运到分布Q所需的最小“工作量”。因此,Mallows距离是概率分布之间的一种“最优运输成本”。
  3. 最常用的情形:在统计学中,二阶Mallows距离 (\(p=2\)) 最为常用:

\[ D_2(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[(X - Y)^2] \right)^{1/2} \]

它最小化的是均方误差。

第五步:Mallows距离的性质

  1. 是一个度量:对于 \(p \geq 1\)\(D_p\) 满足距离的所有公理(非负、同一、对称、三角不等式),因此它确实是一个真正的度量。
  2. 弱收敛的刻画:在一定的矩条件下(例如,具有有限的 \(p\) 阶矩),Mallows距离 \(D_p\) 所诱导的收敛性(即 \(D_p(P_n, P) \to 0\)强于 弱收敛,并且蕴含着 \(p\) 阶矩的收敛。这是它比许多其他距离(如Lévy-Prokhorov距离)更强的地方。
  3. 与分布函数的关系:对于一维实数随机变量,Mallows距离有一个非常优雅的表达式。设 \(F\)\(G\) 分别是 \(P\)\(Q\) 的累积分布函数,\(F^{-1}\)\(G^{-1}\) 是它们的分位数函数(即你之前学过的“quantile function”)。那么,\(p\)-阶Mallows距离可以显式计算为:

\[ D_p(P, Q) = \left( \int_0^1 |F^{-1}(u) - G^{-1}(u)|^p du \right)^{1/p} \]

这个公式非常重要!它将寻找最优耦合的复杂问题,转化为对分位数函数差的 \(L^p\) 范数计算。其直观意义是:将两个分布按“概率水平”对齐——用第一个分布的“第u分位数”与第二个分布的“第u分位数”进行比较,然后对所有u平均。

第六步:应用场景举例

  1. 分布拟合优度检验:可以用 \(D_2\) 距离来衡量经验分布与理论分布之间的差异,作为拟合优度统计量(类似于Cramér–von Mises准则,但基于分位数)。
  2. 稳健统计:Mallows距离对分布的平移敏感。基于Mallows距离构造的估计量(如Mallows型M-估计量)有时能平衡效率与稳健性。
  3. 极限定理与近似:在中心极限定理的背景下,可以用 \(D_2\) 距离来衡量一个分布(如样本和的经验分布)与正态分布的接近程度,这被称为“\(L^2\) 型”Berry-Esseen界。
  4. 生成模型评估:在机器学习中,评估生成模型(如GAN)产生的数据分布 \(P_{model}\) 与真实数据分布 \(P_{data}\) 的差异时,Wasserstein距离(即Mallows距离)是一个流行的选择,因为它即使在两个分布支撑集不重叠时也能提供平滑的梯度。
  5. 随机变量的变换分析:在本系列核心主题下,当我们对一个随机变量 \(X\) 施加一个变换 \(T(X)\) 得到新变量 \(Y\) 时,我们可以用Mallows距离来量化变换前后分布的差异 \(D_p(P_X, P_Y)\),特别是当变换是单调时,利用分位数函数公式会非常方便,因为 \(T\) 如果是单调的,则 \(F_Y^{-1}(u) = T(F_X^{-1}(u))\)

总结
Mallows距离(\(p\)-阶Wasserstein距离)是一种基于最优耦合思想的概率分布度量。它通过寻找使两个随机变量差异的 \(p\) 阶矩最小的配对方式来定义,在一维情形下有简洁的分位数函数积分表达式。它既是严格的数学度量,又具有直观的“最小运输成本”解释,在统计拟合、稳健估计、机器学习和分析分布变换的效应等领域都有重要应用。

随机变量的变换的Mallows距离 我们来循序渐进地讲解随机变量的变换中的一个重要工具——Mallows距离。我们将从最基础的概念入手,逐步深入到其定义、性质、计算和在概率统计中的应用。 第一步:回顾基础——概率分布的比较与距离 在概率论与统计中,我们经常需要比较两个随机变量(或其概率分布)的“接近程度”。例如,在假设检验、模型选择、极限理论中。衡量这种接近程度需要一种“距离”度量。你已经知道期望、方差等描述单个分布特征的量,但“距离”描述的是两个分布之间的关系。 常见的概率距离 :你之前学过的总变差距离、Wasserstein距离、Kullback-Leibler散度等都是不同的概率距离/散度。它们各有侧重:总变差衡量概率差异的绝对值,KL散度源于信息论,Wasserstein距离则与最优传输有关。 距离的基本要求 :一个严格的“距离”(或度量)通常需要满足 非负性、同一性(距离为零当且仅当两者相同)、对称性、三角不等式 。有些度量(如KL散度)不满足对称性和三角不等式,因此常被称为“散度”。 第二步:引入Mallows距离的核心思想——矩的匹配 Mallows距离,有时也被称为“Wasserstein距离”在特定阶数下的特例(更准确地说,是 p -Wasserstein距离),但它在统计学中有其独立的提出背景和应用价值。其核心思想是: 衡量两个分布之间的差异,不仅要看它们概率形态的差异,还要看它们矩(特别是低阶矩,如期望)的差异。 我们可以从两个分布中分别抽取随机变量X和Y。想象一下,如果我想把分布X“改造”成分布Y,除了改变其形状,可能还需要整体平移。Mallows距离试图用一个统一的数值来度量这种差异。 第三步:Mallows距离的正式定义 设 \( X \) 和 \( Y \) 是两个随机变量,其概率分布分别为 \( P \) 和 \( Q \)。对于 \( p \geq 1 \), \( p \)-阶Mallows距离 定义为: \[ D_ p(P, Q) = \inf_ {(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[ |X - Y|^p ] \right)^{1/p} \] 或者等价地,其 \( p \) 次幂定义为: \[ D_ p^p(P, Q) = \inf_ {(X, Y) \in \Gamma(P, Q)} \mathbb{E}[ |X - Y|^p ] \] 这里,\(\Gamma(P, Q)\) 表示所有 联合分布 \((X, Y)\) 的集合,其中 边际分布 \(X \sim P\), \(Y \sim Q\)。也就是说,我们考虑所有可能的、以P和Q为边缘分布的随机变量配对方式,然后寻找使它们之间的 \(p\) 阶平均差异 \(\mathbb{E}[ |X-Y|^p ]\) 最小的那种配对方式。这个“下确界”(infimum,可以理解为最小值)就是Mallows距离。 第四步:理解定义中的关键点 联合分布与耦合 :定义中的 \((X, Y)\) 不仅仅是一个随机变量对,更是一个 耦合 。耦合是一种特殊的联合分布构造,它将两个边缘分布“绑”在一起。不同的耦合对应着X和Y之间不同的相关性。Mallows距离寻找的是 最优耦合 ,即让X和Y“尽可能相似”的配对方式。 与Wasserstein距离的关系 :这个定义与** \(p\)-阶Wasserstein距离** 的定义完全相同。在最优传输理论中,\(\mathbb{E}[ |X-Y|^p ]\) 被解释为在“成本函数”为 \(c(x, y) = |x-y|^p\) 时,将单位质量的“沙子”从分布P搬运到分布Q所需的最小“工作量”。因此,Mallows距离是概率分布之间的一种“最优运输成本”。 最常用的情形 :在统计学中, 二阶Mallows距离 (\(p=2\)) 最为常用: \[ D_ 2(P, Q) = \inf_ {(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[ (X - Y)^2 ] \right)^{1/2} \] 它最小化的是均方误差。 第五步:Mallows距离的性质 是一个度量 :对于 \(p \geq 1\),\(D_ p\) 满足距离的所有公理(非负、同一、对称、三角不等式),因此它确实是一个真正的度量。 弱收敛的刻画 :在一定的矩条件下(例如,具有有限的 \(p\) 阶矩),Mallows距离 \(D_ p\) 所诱导的收敛性(即 \(D_ p(P_ n, P) \to 0\)) 强于 弱收敛,并且 蕴含着 \(p\) 阶矩的收敛。这是它比许多其他距离(如Lévy-Prokhorov距离)更强的地方。 与分布函数的关系 :对于一维实数随机变量,Mallows距离有一个非常优雅的表达式。设 \(F\) 和 \(G\) 分别是 \(P\) 和 \(Q\) 的累积分布函数,\(F^{-1}\) 和 \(G^{-1}\) 是它们的 分位数函数 (即你之前学过的“quantile function”)。那么,\(p\)-阶Mallows距离可以显式计算为: \[ D_ p(P, Q) = \left( \int_ 0^1 |F^{-1}(u) - G^{-1}(u)|^p du \right)^{1/p} \] 这个公式非常重要!它将寻找最优耦合的复杂问题,转化为对分位数函数差的 \(L^p\) 范数计算。其直观意义是:将两个分布按“概率水平”对齐——用第一个分布的“第u分位数”与第二个分布的“第u分位数”进行比较,然后对所有u平均。 第六步:应用场景举例 分布拟合优度检验 :可以用 \(D_ 2\) 距离来衡量经验分布与理论分布之间的差异,作为拟合优度统计量(类似于Cramér–von Mises准则,但基于分位数)。 稳健统计 :Mallows距离对分布的平移敏感。基于Mallows距离构造的估计量(如Mallows型M-估计量)有时能平衡效率与稳健性。 极限定理与近似 :在中心极限定理的背景下,可以用 \(D_ 2\) 距离来衡量一个分布(如样本和的经验分布)与正态分布的接近程度,这被称为“\(L^2\) 型”Berry-Esseen界。 生成模型评估 :在机器学习中,评估生成模型(如GAN)产生的数据分布 \(P_ {model}\) 与真实数据分布 \(P_ {data}\) 的差异时,Wasserstein距离(即Mallows距离)是一个流行的选择,因为它即使在两个分布支撑集不重叠时也能提供平滑的梯度。 随机变量的变换分析 :在本系列核心主题下,当我们对一个随机变量 \(X\) 施加一个变换 \(T(X)\) 得到新变量 \(Y\) 时,我们可以用Mallows距离来量化变换前后分布的差异 \(D_ p(P_ X, P_ Y)\),特别是当变换是单调时,利用分位数函数公式会非常方便,因为 \(T\) 如果是单调的,则 \(F_ Y^{-1}(u) = T(F_ X^{-1}(u))\)。 总结 : Mallows距离(\(p\)-阶Wasserstein距离)是一种基于最优耦合思想的概率分布度量。它通过寻找使两个随机变量差异的 \(p\) 阶矩最小的配对方式来定义,在一维情形下有简洁的分位数函数积分表达式。它既是严格的数学度量,又具有直观的“最小运输成本”解释,在统计拟合、稳健估计、机器学习和分析分布变换的效应等领域都有重要应用。