概率论与统计中的随机变量的变换的Hellinger距离
1. 基础概念:概率分布的比较需求
在统计学中,经常需要比较两个概率分布的差异。例如,在假设检验、模型选择或度量估计量效率时,需量化分布间的“距离”。常见的度量包括总变差距离、Kullback-Leibler散度等,而Hellinger距离是其中一种具有良好性质的度量。
2. Hellinger距离的定义
设 \(P\) 和 \(Q\) 是同一可测空间上的两个概率测度,其概率密度函数(或概率质量函数)分别为 \(p(x)\) 和 \(q(x)\)。Hellinger距离 \(H(P, Q)\) 定义为:
\[H(P, Q) = \sqrt{ \frac{1}{2} \int \left( \sqrt{p(x)} - \sqrt{q(x)} \right)^2 \, dx } \]
对于离散分布,积分替换为求和。常数 \(\frac{1}{2}\) 确保距离取值范围在 \([0, 1]\) 内。
3. 关键性质与几何解释
- 取值范围:\(H(P, Q) \in [0, 1]\)。当 \(P = Q\) 时取最小值0;当 \(P\) 与 \(Q\) 完全分离(即支撑集不交)时取最大值1。
- 与内积的联系:将 \(\sqrt{p(x)}\) 和 \(\sqrt{q(x)}\) 视为向量,Hellinger距离等价于欧几里得空间中单位球面上两点的弦距离。这一性质使其满足三角不等式,是一种严格的度量。
- 与Bhattacharyya系数的关系:定义Bhattacharyya系数 \(BC(P, Q) = \int \sqrt{p(x) q(x)} \, dx\),则
\[H(P, Q) = \sqrt{1 - BC(P, Q)}. \]
这进一步揭示了Hellinger距离与分布重叠程度的关联。
4. 随机变量变换下的行为
若随机变量 \(X\) 服从分布 \(P\),且 \(Y = g(X)\) 是变换后的变量(\(g\) 为可测函数),则 \(Y\) 的分布 \(P_Y\) 由 \(P\) 推得。类似地,\(Q\) 经变换后得到 \(Q_Y\)。Hellinger距离在变换下具有不变性:
\[H(P_Y, Q_Y) \leq H(P, Q), \]
等号成立当且仅当变换 \(g\) 是单射。这一性质在模型简化或数据降维时尤为重要,例如在假设检验中,变换不应放大分布间的差异。
5. 统计应用实例
- 假设检验:在似然比检验中,Hellinger距离与检验的渐近效率直接相关。
- 稳健性分析:相较于KL散度,Hellinger距离对异常值更不敏感,因其涉及平方根运算,削弱了分布尾部的极端值影响。
- 非参数估计:在核密度估计中,Hellinger距离可用于评估估计分布与真实分布的收敛性。
6. 扩展:Hellinger散度与信息几何
将Hellinger距离推广为 \(\alpha\)-散度(如 \(\alpha = 1/2\) 时对应Hellinger散度),可统一多种分布度量。在信息几何中,Hellinger距离对应于统计流形上的黎曼度量,为概率分布的几何结构研究提供工具。