随机变量的变换的Mallows距离

字数 3123 2025-12-06 06:39:50

随机变量的变换的Mallows距离

我们来循序渐进地讲解随机变量的变换中的一个重要工具——Mallows距离。我们将从最基础的概念入手，逐步深入到其定义、性质、计算和在概率统计中的应用。

第一步：回顾基础——概率分布的比较与距离

在概率论与统计中，我们经常需要比较两个随机变量（或其概率分布）的“接近程度”。例如，在假设检验、模型选择、极限理论中。衡量这种接近程度需要一种“距离”度量。你已经知道期望、方差等描述单个分布特征的量，但“距离”描述的是两个分布之间的关系。

常见的概率距离：你之前学过的总变差距离、Wasserstein距离、Kullback-Leibler散度等都是不同的概率距离/散度。它们各有侧重：总变差衡量概率差异的绝对值，KL散度源于信息论，Wasserstein距离则与最优传输有关。
距离的基本要求：一个严格的“距离”（或度量）通常需要满足非负性、同一性（距离为零当且仅当两者相同）、对称性、三角不等式。有些度量（如KL散度）不满足对称性和三角不等式，因此常被称为“散度”。

第二步：引入Mallows距离的核心思想——矩的匹配

Mallows距离，有时也被称为“Wasserstein距离”在特定阶数下的特例（更准确地说，是p-Wasserstein距离），但它在统计学中有其独立的提出背景和应用价值。其核心思想是：衡量两个分布之间的差异，不仅要看它们概率形态的差异，还要看它们矩（特别是低阶矩，如期望）的差异。

我们可以从两个分布中分别抽取随机变量X和Y。想象一下，如果我想把分布X“改造”成分布Y，除了改变其形状，可能还需要整体平移。Mallows距离试图用一个统一的数值来度量这种差异。

第三步：Mallows距离的正式定义

设 \(X\) 和 \(Y\) 是两个随机变量，其概率分布分别为 \(P\) 和 \(Q\)。对于 \(p \geq 1\)，\(p\)-阶Mallows距离 定义为：

\[D_p(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[|X - Y|^p] \right)^{1/p} \]

或者等价地，其 \(p\) 次幂定义为：

\[D_p^p(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \mathbb{E}[|X - Y|^p] \]

这里，\(\Gamma(P, Q)\) 表示所有联合分布 \((X, Y)\) 的集合，其中边际分布 \(X \sim P\)， \(Y \sim Q\)。也就是说，我们考虑所有可能的、以P和Q为边缘分布的随机变量配对方式，然后寻找使它们之间的 \(p\) 阶平均差异 \(\mathbb{E}[|X-Y|^p]\) 最小的那种配对方式。这个“下确界”（infimum，可以理解为最小值）就是Mallows距离。

第四步：理解定义中的关键点

联合分布与耦合：定义中的 \((X, Y)\) 不仅仅是一个随机变量对，更是一个耦合。耦合是一种特殊的联合分布构造，它将两个边缘分布“绑”在一起。不同的耦合对应着X和Y之间不同的相关性。Mallows距离寻找的是最优耦合，即让X和Y“尽可能相似”的配对方式。
与Wasserstein距离的关系：这个定义与**\(p\)-阶Wasserstein距离**的定义完全相同。在最优传输理论中，\(\mathbb{E}[|X-Y|^p]\) 被解释为在“成本函数”为 \(c(x, y) = |x-y|^p\) 时，将单位质量的“沙子”从分布P搬运到分布Q所需的最小“工作量”。因此，Mallows距离是概率分布之间的一种“最优运输成本”。
最常用的情形：在统计学中，二阶Mallows距离 (\(p=2\)) 最为常用：

\[ D_2(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[(X - Y)^2] \right)^{1/2} \]

它最小化的是均方误差。

第五步：Mallows距离的性质

是一个度量：对于 \(p \geq 1\)，\(D_p\) 满足距离的所有公理（非负、同一、对称、三角不等式），因此它确实是一个真正的度量。
弱收敛的刻画：在一定的矩条件下（例如，具有有限的 \(p\) 阶矩），Mallows距离 \(D_p\) 所诱导的收敛性（即 \(D_p(P_n, P) \to 0\)）强于弱收敛，并且蕴含着 \(p\) 阶矩的收敛。这是它比许多其他距离（如Lévy-Prokhorov距离）更强的地方。
与分布函数的关系：对于一维实数随机变量，Mallows距离有一个非常优雅的表达式。设 \(F\) 和 \(G\) 分别是 \(P\) 和 \(Q\) 的累积分布函数，\(F^{-1}\) 和 \(G^{-1}\) 是它们的分位数函数（即你之前学过的“quantile function”）。那么，\(p\)-阶Mallows距离可以显式计算为：

\[ D_p(P, Q) = \left( \int_0^1 |F^{-1}(u) - G^{-1}(u)|^p du \right)^{1/p} \]

这个公式非常重要！它将寻找最优耦合的复杂问题，转化为对分位数函数差的 \(L^p\) 范数计算。其直观意义是：将两个分布按“概率水平”对齐——用第一个分布的“第u分位数”与第二个分布的“第u分位数”进行比较，然后对所有u平均。

第六步：应用场景举例

分布拟合优度检验：可以用 \(D_2\) 距离来衡量经验分布与理论分布之间的差异，作为拟合优度统计量（类似于Cramér–von Mises准则，但基于分位数）。
稳健统计：Mallows距离对分布的平移敏感。基于Mallows距离构造的估计量（如Mallows型M-估计量）有时能平衡效率与稳健性。
极限定理与近似：在中心极限定理的背景下，可以用 \(D_2\) 距离来衡量一个分布（如样本和的经验分布）与正态分布的接近程度，这被称为“\(L^2\) 型”Berry-Esseen界。
生成模型评估：在机器学习中，评估生成模型（如GAN）产生的数据分布 \(P_{model}\) 与真实数据分布 \(P_{data}\) 的差异时，Wasserstein距离（即Mallows距离）是一个流行的选择，因为它即使在两个分布支撑集不重叠时也能提供平滑的梯度。
随机变量的变换分析：在本系列核心主题下，当我们对一个随机变量 \(X\) 施加一个变换 \(T(X)\) 得到新变量 \(Y\) 时，我们可以用Mallows距离来量化变换前后分布的差异 \(D_p(P_X, P_Y)\)，特别是当变换是单调时，利用分位数函数公式会非常方便，因为 \(T\) 如果是单调的，则 \(F_Y^{-1}(u) = T(F_X^{-1}(u))\)。

总结：
Mallows距离（\(p\)-阶Wasserstein距离）是一种基于最优耦合思想的概率分布度量。它通过寻找使两个随机变量差异的 \(p\) 阶矩最小的配对方式来定义，在一维情形下有简洁的分位数函数积分表达式。它既是严格的数学度量，又具有直观的“最小运输成本”解释，在统计拟合、稳健估计、机器学习和分析分布变换的效应等领域都有重要应用。

随机变量的变换的Mallows距离我们来循序渐进地讲解随机变量的变换中的一个重要工具——Mallows距离。我们将从最基础的概念入手，逐步深入到其定义、性质、计算和在概率统计中的应用。第一步：回顾基础——概率分布的比较与距离在概率论与统计中，我们经常需要比较两个随机变量（或其概率分布）的“接近程度”。例如，在假设检验、模型选择、极限理论中。衡量这种接近程度需要一种“距离”度量。你已经知道期望、方差等描述单个分布特征的量，但“距离”描述的是两个分布之间的关系。常见的概率距离：你之前学过的总变差距离、Wasserstein距离、Kullback-Leibler散度等都是不同的概率距离/散度。它们各有侧重：总变差衡量概率差异的绝对值，KL散度源于信息论，Wasserstein距离则与最优传输有关。距离的基本要求：一个严格的“距离”（或度量）通常需要满足非负性、同一性（距离为零当且仅当两者相同）、对称性、三角不等式。有些度量（如KL散度）不满足对称性和三角不等式，因此常被称为“散度”。第二步：引入Mallows距离的核心思想——矩的匹配 Mallows距离，有时也被称为“Wasserstein距离”在特定阶数下的特例（更准确地说，是 p -Wasserstein距离），但它在统计学中有其独立的提出背景和应用价值。其核心思想是：衡量两个分布之间的差异，不仅要看它们概率形态的差异，还要看它们矩（特别是低阶矩，如期望）的差异。我们可以从两个分布中分别抽取随机变量X和Y。想象一下，如果我想把分布X“改造”成分布Y，除了改变其形状，可能还需要整体平移。Mallows距离试图用一个统一的数值来度量这种差异。第三步：Mallows距离的正式定义设 \( X \) 和 \( Y \) 是两个随机变量，其概率分布分别为 \( P \) 和 \( Q \)。对于 \( p \geq 1 \)， \( p \)-阶Mallows距离定义为： \[ D_ p(P, Q) = \inf_ {(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[ |X - Y|^p ] \right)^{1/p} \] 或者等价地，其 \( p \) 次幂定义为： \[ D_ p^p(P, Q) = \inf_ {(X, Y) \in \Gamma(P, Q)} \mathbb{E}[ |X - Y|^p ] \] 这里，\(\Gamma(P, Q)\) 表示所有联合分布 \((X, Y)\) 的集合，其中边际分布 \(X \sim P\)， \(Y \sim Q\)。也就是说，我们考虑所有可能的、以P和Q为边缘分布的随机变量配对方式，然后寻找使它们之间的 \(p\) 阶平均差异 \(\mathbb{E}[ |X-Y|^p ]\) 最小的那种配对方式。这个“下确界”（infimum，可以理解为最小值）就是Mallows距离。第四步：理解定义中的关键点联合分布与耦合：定义中的 \((X, Y)\) 不仅仅是一个随机变量对，更是一个耦合。耦合是一种特殊的联合分布构造，它将两个边缘分布“绑”在一起。不同的耦合对应着X和Y之间不同的相关性。Mallows距离寻找的是最优耦合，即让X和Y“尽可能相似”的配对方式。与Wasserstein距离的关系：这个定义与** \(p\)-阶Wasserstein距离** 的定义完全相同。在最优传输理论中，\(\mathbb{E}[ |X-Y|^p ]\) 被解释为在“成本函数”为 \(c(x, y) = |x-y|^p\) 时，将单位质量的“沙子”从分布P搬运到分布Q所需的最小“工作量”。因此，Mallows距离是概率分布之间的一种“最优运输成本”。最常用的情形：在统计学中，二阶Mallows距离 (\(p=2\)) 最为常用： \[ D_ 2(P, Q) = \inf_ {(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[ (X - Y)^2 ] \right)^{1/2} \] 它最小化的是均方误差。第五步：Mallows距离的性质是一个度量：对于 \(p \geq 1\)，\(D_ p\) 满足距离的所有公理（非负、同一、对称、三角不等式），因此它确实是一个真正的度量。弱收敛的刻画：在一定的矩条件下（例如，具有有限的 \(p\) 阶矩），Mallows距离 \(D_ p\) 所诱导的收敛性（即 \(D_ p(P_ n, P) \to 0\)）强于弱收敛，并且蕴含着 \(p\) 阶矩的收敛。这是它比许多其他距离（如Lévy-Prokhorov距离）更强的地方。与分布函数的关系：对于一维实数随机变量，Mallows距离有一个非常优雅的表达式。设 \(F\) 和 \(G\) 分别是 \(P\) 和 \(Q\) 的累积分布函数，\(F^{-1}\) 和 \(G^{-1}\) 是它们的分位数函数（即你之前学过的“quantile function”）。那么，\(p\)-阶Mallows距离可以显式计算为： \[ D_ p(P, Q) = \left( \int_ 0^1 |F^{-1}(u) - G^{-1}(u)|^p du \right)^{1/p} \] 这个公式非常重要！它将寻找最优耦合的复杂问题，转化为对分位数函数差的 \(L^p\) 范数计算。其直观意义是：将两个分布按“概率水平”对齐——用第一个分布的“第u分位数”与第二个分布的“第u分位数”进行比较，然后对所有u平均。第六步：应用场景举例分布拟合优度检验：可以用 \(D_ 2\) 距离来衡量经验分布与理论分布之间的差异，作为拟合优度统计量（类似于Cramér–von Mises准则，但基于分位数）。稳健统计：Mallows距离对分布的平移敏感。基于Mallows距离构造的估计量（如Mallows型M-估计量）有时能平衡效率与稳健性。极限定理与近似：在中心极限定理的背景下，可以用 \(D_ 2\) 距离来衡量一个分布（如样本和的经验分布）与正态分布的接近程度，这被称为“\(L^2\) 型”Berry-Esseen界。生成模型评估：在机器学习中，评估生成模型（如GAN）产生的数据分布 \(P_ {model}\) 与真实数据分布 \(P_ {data}\) 的差异时，Wasserstein距离（即Mallows距离）是一个流行的选择，因为它即使在两个分布支撑集不重叠时也能提供平滑的梯度。随机变量的变换分析：在本系列核心主题下，当我们对一个随机变量 \(X\) 施加一个变换 \(T(X)\) 得到新变量 \(Y\) 时，我们可以用Mallows距离来量化变换前后分布的差异 \(D_ p(P_ X, P_ Y)\)，特别是当变换是单调时，利用分位数函数公式会非常方便，因为 \(T\) 如果是单调的，则 \(F_ Y^{-1}(u) = T(F_ X^{-1}(u))\)。总结： Mallows距离（\(p\)-阶Wasserstein距离）是一种基于最优耦合思想的概率分布度量。它通过寻找使两个随机变量差异的 \(p\) 阶矩最小的配对方式来定义，在一维情形下有简洁的分位数函数积分表达式。它既是严格的数学度量，又具有直观的“最小运输成本”解释，在统计拟合、稳健估计、机器学习和分析分布变换的效应等领域都有重要应用。