随机变量的变换的Mallows距离
我们来循序渐进地讲解随机变量的变换中的一个重要工具——Mallows距离。我们将从最基础的概念入手,逐步深入到其定义、性质、计算和在概率统计中的应用。
第一步:回顾基础——概率分布的比较与距离
在概率论与统计中,我们经常需要比较两个随机变量(或其概率分布)的“接近程度”。例如,在假设检验、模型选择、极限理论中。衡量这种接近程度需要一种“距离”度量。你已经知道期望、方差等描述单个分布特征的量,但“距离”描述的是两个分布之间的关系。
- 常见的概率距离:你之前学过的总变差距离、Wasserstein距离、Kullback-Leibler散度等都是不同的概率距离/散度。它们各有侧重:总变差衡量概率差异的绝对值,KL散度源于信息论,Wasserstein距离则与最优传输有关。
- 距离的基本要求:一个严格的“距离”(或度量)通常需要满足非负性、同一性(距离为零当且仅当两者相同)、对称性、三角不等式。有些度量(如KL散度)不满足对称性和三角不等式,因此常被称为“散度”。
第二步:引入Mallows距离的核心思想——矩的匹配
Mallows距离,有时也被称为“Wasserstein距离”在特定阶数下的特例(更准确地说,是p-Wasserstein距离),但它在统计学中有其独立的提出背景和应用价值。其核心思想是:衡量两个分布之间的差异,不仅要看它们概率形态的差异,还要看它们矩(特别是低阶矩,如期望)的差异。
我们可以从两个分布中分别抽取随机变量X和Y。想象一下,如果我想把分布X“改造”成分布Y,除了改变其形状,可能还需要整体平移。Mallows距离试图用一个统一的数值来度量这种差异。
第三步:Mallows距离的正式定义
设 \(X\) 和 \(Y\) 是两个随机变量,其概率分布分别为 \(P\) 和 \(Q\)。对于 \(p \geq 1\),\(p\)-阶Mallows距离 定义为:
\[D_p(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[|X - Y|^p] \right)^{1/p} \]
或者等价地,其 \(p\) 次幂定义为:
\[D_p^p(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \mathbb{E}[|X - Y|^p] \]
这里,\(\Gamma(P, Q)\) 表示所有联合分布 \((X, Y)\) 的集合,其中边际分布 \(X \sim P\), \(Y \sim Q\)。也就是说,我们考虑所有可能的、以P和Q为边缘分布的随机变量配对方式,然后寻找使它们之间的 \(p\) 阶平均差异 \(\mathbb{E}[|X-Y|^p]\) 最小的那种配对方式。这个“下确界”(infimum,可以理解为最小值)就是Mallows距离。
第四步:理解定义中的关键点
- 联合分布与耦合:定义中的 \((X, Y)\) 不仅仅是一个随机变量对,更是一个耦合。耦合是一种特殊的联合分布构造,它将两个边缘分布“绑”在一起。不同的耦合对应着X和Y之间不同的相关性。Mallows距离寻找的是最优耦合,即让X和Y“尽可能相似”的配对方式。
- 与Wasserstein距离的关系:这个定义与**\(p\)-阶Wasserstein距离**的定义完全相同。在最优传输理论中,\(\mathbb{E}[|X-Y|^p]\) 被解释为在“成本函数”为 \(c(x, y) = |x-y|^p\) 时,将单位质量的“沙子”从分布P搬运到分布Q所需的最小“工作量”。因此,Mallows距离是概率分布之间的一种“最优运输成本”。
- 最常用的情形:在统计学中,二阶Mallows距离 (\(p=2\)) 最为常用:
\[ D_2(P, Q) = \inf_{(X, Y) \in \Gamma(P, Q)} \left( \mathbb{E}[(X - Y)^2] \right)^{1/2} \]
它最小化的是均方误差。
第五步:Mallows距离的性质
- 是一个度量:对于 \(p \geq 1\),\(D_p\) 满足距离的所有公理(非负、同一、对称、三角不等式),因此它确实是一个真正的度量。
- 弱收敛的刻画:在一定的矩条件下(例如,具有有限的 \(p\) 阶矩),Mallows距离 \(D_p\) 所诱导的收敛性(即 \(D_p(P_n, P) \to 0\))强于 弱收敛,并且蕴含着 \(p\) 阶矩的收敛。这是它比许多其他距离(如Lévy-Prokhorov距离)更强的地方。
- 与分布函数的关系:对于一维实数随机变量,Mallows距离有一个非常优雅的表达式。设 \(F\) 和 \(G\) 分别是 \(P\) 和 \(Q\) 的累积分布函数,\(F^{-1}\) 和 \(G^{-1}\) 是它们的分位数函数(即你之前学过的“quantile function”)。那么,\(p\)-阶Mallows距离可以显式计算为:
\[ D_p(P, Q) = \left( \int_0^1 |F^{-1}(u) - G^{-1}(u)|^p du \right)^{1/p} \]
这个公式非常重要!它将寻找最优耦合的复杂问题,转化为对分位数函数差的 \(L^p\) 范数计算。其直观意义是:将两个分布按“概率水平”对齐——用第一个分布的“第u分位数”与第二个分布的“第u分位数”进行比较,然后对所有u平均。
第六步:应用场景举例
- 分布拟合优度检验:可以用 \(D_2\) 距离来衡量经验分布与理论分布之间的差异,作为拟合优度统计量(类似于Cramér–von Mises准则,但基于分位数)。
- 稳健统计:Mallows距离对分布的平移敏感。基于Mallows距离构造的估计量(如Mallows型M-估计量)有时能平衡效率与稳健性。
- 极限定理与近似:在中心极限定理的背景下,可以用 \(D_2\) 距离来衡量一个分布(如样本和的经验分布)与正态分布的接近程度,这被称为“\(L^2\) 型”Berry-Esseen界。
- 生成模型评估:在机器学习中,评估生成模型(如GAN)产生的数据分布 \(P_{model}\) 与真实数据分布 \(P_{data}\) 的差异时,Wasserstein距离(即Mallows距离)是一个流行的选择,因为它即使在两个分布支撑集不重叠时也能提供平滑的梯度。
- 随机变量的变换分析:在本系列核心主题下,当我们对一个随机变量 \(X\) 施加一个变换 \(T(X)\) 得到新变量 \(Y\) 时,我们可以用Mallows距离来量化变换前后分布的差异 \(D_p(P_X, P_Y)\),特别是当变换是单调时,利用分位数函数公式会非常方便,因为 \(T\) 如果是单调的,则 \(F_Y^{-1}(u) = T(F_X^{-1}(u))\)。
总结:
Mallows距离(\(p\)-阶Wasserstein距离)是一种基于最优耦合思想的概率分布度量。它通过寻找使两个随机变量差异的 \(p\) 阶矩最小的配对方式来定义,在一维情形下有简洁的分位数函数积分表达式。它既是严格的数学度量,又具有直观的“最小运输成本”解释,在统计拟合、稳健估计、机器学习和分析分布变换的效应等领域都有重要应用。