随机变量的变换的Wasserstein距离
字数 1015 2025-11-12 02:09:41

随机变量的变换的Wasserstein距离

我将为您详细讲解Wasserstein距离这一重要概念。让我们从基础开始,逐步展开。

第一步:距离概念的基础理解

Wasserstein距离(又称地球移动距离)是度量两个概率分布之间差异的一种方法。直观理解是:将一个分布"搬运"成另一个分布所需的最小"工作量"。

想象两个沙堆,形状不同。Wasserstein距离就是回答:将第一个沙堆的沙子重新排列成第二个沙堆的形状,需要移动多远的距离?

第二步:数学定义的建立

设(Ω,d)是完备可分的度量空间,P和Q是该空间上的两个概率分布。p阶Wasserstein距离定义为:

Wₚ(P,Q) = [inf(∫ d(x,y)ᵖ dπ(x,y))]^(1/p)

其中下确界取遍所有边缘分布分别为P和Q的联合分布π(称为耦合)。

第三步:一维情形的简化

在一维实数空间中,Wasserstein距离有简洁表达式。对于分布函数F和G:

Wₚ(P,Q) = [∫₀¹ |F⁻¹(u) - G⁻¹(u)|ᵖ du]^(1/p)

其中F⁻¹和G⁻¹是分位数函数。这大大简化了计算。

第四步:主要性质分析

Wasserstein距离具有以下关键性质:

  1. 非负性:Wₚ(P,Q) ≥ 0,等号成立当且仅当P=Q
  2. 对称性:Wₚ(P,Q) = Wₚ(Q,P)
  3. 三角不等式:Wₚ(P,R) ≤ Wₚ(P,Q) + Wₚ(Q,R)
  4. 对平移和伸缩的相容性

第五步:与其它距离的比较

与总变差距离、KL散度相比,Wasserstein距离的优势在于:

  • 能反映分布间的"几何"关系
  • 对支撑集不重叠的分布仍能给出有意义的距离
  • 对分布的微小平移更敏感

第六步:最优输运理论框架

Wasserstein距离源于最优输运理论。考虑将质量从分布P输运到分布Q,寻找成本最小的方案。Wasserstein距离就是这个最小输运成本。

第七步:实际计算考虑

实际中计算Wasserstein距离的方法包括:

  • 一维情形:直接使用分位数函数公式
  • 离散分布:转化为线性规划问题
  • 高维情形:使用Sinkhorn算法等近似方法

第八步:应用场景举例

Wasserstein距离在以下领域有重要应用:

  • 生成对抗网络(GANs)中的损失函数
  • 分布鲁棒优化
  • 图像处理和计算机视觉
  • 计算生物学中的分布比较

这个距离概念因其良好的几何直观性和数学性质,在现代概率论和机器学习中发挥着越来越重要的作用。

随机变量的变换的Wasserstein距离 我将为您详细讲解Wasserstein距离这一重要概念。让我们从基础开始,逐步展开。 第一步:距离概念的基础理解 Wasserstein距离(又称地球移动距离)是度量两个概率分布之间差异的一种方法。直观理解是:将一个分布"搬运"成另一个分布所需的最小"工作量"。 想象两个沙堆,形状不同。Wasserstein距离就是回答:将第一个沙堆的沙子重新排列成第二个沙堆的形状,需要移动多远的距离? 第二步:数学定义的建立 设(Ω,d)是完备可分的度量空间,P和Q是该空间上的两个概率分布。p阶Wasserstein距离定义为: Wₚ(P,Q) = [ inf(∫ d(x,y)ᵖ dπ(x,y)) ]^(1/p) 其中下确界取遍所有边缘分布分别为P和Q的联合分布π(称为耦合)。 第三步:一维情形的简化 在一维实数空间中,Wasserstein距离有简洁表达式。对于分布函数F和G: Wₚ(P,Q) = [ ∫₀¹ |F⁻¹(u) - G⁻¹(u)|ᵖ du ]^(1/p) 其中F⁻¹和G⁻¹是分位数函数。这大大简化了计算。 第四步:主要性质分析 Wasserstein距离具有以下关键性质: 非负性:Wₚ(P,Q) ≥ 0,等号成立当且仅当P=Q 对称性:Wₚ(P,Q) = Wₚ(Q,P) 三角不等式:Wₚ(P,R) ≤ Wₚ(P,Q) + Wₚ(Q,R) 对平移和伸缩的相容性 第五步:与其它距离的比较 与总变差距离、KL散度相比,Wasserstein距离的优势在于: 能反映分布间的"几何"关系 对支撑集不重叠的分布仍能给出有意义的距离 对分布的微小平移更敏感 第六步:最优输运理论框架 Wasserstein距离源于最优输运理论。考虑将质量从分布P输运到分布Q,寻找成本最小的方案。Wasserstein距离就是这个最小输运成本。 第七步:实际计算考虑 实际中计算Wasserstein距离的方法包括: 一维情形:直接使用分位数函数公式 离散分布:转化为线性规划问题 高维情形:使用Sinkhorn算法等近似方法 第八步:应用场景举例 Wasserstein距离在以下领域有重要应用: 生成对抗网络(GANs)中的损失函数 分布鲁棒优化 图像处理和计算机视觉 计算生物学中的分布比较 这个距离概念因其良好的几何直观性和数学性质,在现代概率论和机器学习中发挥着越来越重要的作用。