随机变量的变换的Wasserstein距离
字数 1015 2025-11-12 02:09:41
随机变量的变换的Wasserstein距离
我将为您详细讲解Wasserstein距离这一重要概念。让我们从基础开始,逐步展开。
第一步:距离概念的基础理解
Wasserstein距离(又称地球移动距离)是度量两个概率分布之间差异的一种方法。直观理解是:将一个分布"搬运"成另一个分布所需的最小"工作量"。
想象两个沙堆,形状不同。Wasserstein距离就是回答:将第一个沙堆的沙子重新排列成第二个沙堆的形状,需要移动多远的距离?
第二步:数学定义的建立
设(Ω,d)是完备可分的度量空间,P和Q是该空间上的两个概率分布。p阶Wasserstein距离定义为:
Wₚ(P,Q) = [inf(∫ d(x,y)ᵖ dπ(x,y))]^(1/p)
其中下确界取遍所有边缘分布分别为P和Q的联合分布π(称为耦合)。
第三步:一维情形的简化
在一维实数空间中,Wasserstein距离有简洁表达式。对于分布函数F和G:
Wₚ(P,Q) = [∫₀¹ |F⁻¹(u) - G⁻¹(u)|ᵖ du]^(1/p)
其中F⁻¹和G⁻¹是分位数函数。这大大简化了计算。
第四步:主要性质分析
Wasserstein距离具有以下关键性质:
- 非负性:Wₚ(P,Q) ≥ 0,等号成立当且仅当P=Q
- 对称性:Wₚ(P,Q) = Wₚ(Q,P)
- 三角不等式:Wₚ(P,R) ≤ Wₚ(P,Q) + Wₚ(Q,R)
- 对平移和伸缩的相容性
第五步:与其它距离的比较
与总变差距离、KL散度相比,Wasserstein距离的优势在于:
- 能反映分布间的"几何"关系
- 对支撑集不重叠的分布仍能给出有意义的距离
- 对分布的微小平移更敏感
第六步:最优输运理论框架
Wasserstein距离源于最优输运理论。考虑将质量从分布P输运到分布Q,寻找成本最小的方案。Wasserstein距离就是这个最小输运成本。
第七步:实际计算考虑
实际中计算Wasserstein距离的方法包括:
- 一维情形:直接使用分位数函数公式
- 离散分布:转化为线性规划问题
- 高维情形:使用Sinkhorn算法等近似方法
第八步:应用场景举例
Wasserstein距离在以下领域有重要应用:
- 生成对抗网络(GANs)中的损失函数
- 分布鲁棒优化
- 图像处理和计算机视觉
- 计算生物学中的分布比较
这个距离概念因其良好的几何直观性和数学性质,在现代概率论和机器学习中发挥着越来越重要的作用。