随机变量的变换的Hellinger距离
让我从基础概念开始,循序渐进地讲解Hellinger距离的相关知识。
第一步:距离度量的基本概念
在概率论中,我们需要度量两个概率分布之间的差异程度。距离度量需要满足三个基本性质:
- 非负性:d(P,Q) ≥ 0
- 对称性:d(P,Q) = d(Q,P)
- 三角不等式:d(P,Q) ≤ d(P,R) + d(R,Q)
Hellinger距离就是这样一种度量两个概率分布相似程度的方法。
第二步:平方根密度函数
考虑两个概率分布P和Q,假设它们对某个公共测度μ是绝对连续的,密度函数分别为p(x)和q(x)。我们首先定义平方根密度函数:
√p(x) 和 √q(x)
这些平方根密度函数具有重要的性质:它们在L²空间中是单位球面上的点,因为∫[√p(x)]²dμ(x) = ∫p(x)dμ(x) = 1。
第三步:Hellinger距离的定义
Hellinger距离H(P,Q)定义为:
H²(P,Q) = 1/2 ∫[√p(x) - √q(x)]²dμ(x)
展开这个表达式:
H²(P,Q) = 1/2 ∫[p(x) + q(x) - 2√(p(x)q(x))]dμ(x)
= 1/2 [∫p(x)dμ(x) + ∫q(x)dμ(x) - 2∫√(p(x)q(x))dμ(x)]
= 1 - ∫√(p(x)q(x))dμ(x)
第四步:Hellinger亲和度
定义Hellinger亲和度A(P,Q) = ∫√(p(x)q(x))dμ(x)
那么Hellinger距离可以简洁地表示为:
H(P,Q) = √[1 - A(P,Q)]
Hellinger亲和度衡量了两个分布的相似程度,值越大表示分布越相似。
第五步:Hellinger距离的性质
- 取值范围:0 ≤ H(P,Q) ≤ 1
- 当H(P,Q) = 0时,P和Q完全相同
- 当H(P,Q) = 1时,P和Q完全不相交(支撑集不重叠)
- 满足距离度量的所有公理
第六步:离散情形的Hellinger距离
对于离散概率分布P=(p₁,p₂,...,pₙ)和Q=(q₁,q₂,...,qₙ):
H²(P,Q) = 1/2 Σ[√pᵢ - √qᵢ]²
= 1 - Σ√(pᵢqᵢ)
第七步:与其他距离度量的关系
Hellinger距离与总变差距离有密切联系:
H²(P,Q) ≤ TV(P,Q) ≤ √2 H(P,Q)
其中TV(P,Q) = 1/2 ∫|p(x)-q(x)|dμ(x)是总变差距离。
第八步:在假设检验中的应用
在统计假设检验中,Hellinger距离可以用来衡量原假设和备择假设分布之间的区分难度。当Hellinger距离较小时,两类错误概率的下界较大,说明区分这两个假设比较困难。
第九步:在机器学习中的应用
在机器学习中,Hellinger距离常用于:
- 度量概率模型之间的差异
- 构建基于距离的聚类算法
- 在集成学习中作为基分类器的多样性度量
- 在核方法中构造Hellinger核函数
第十步:计算考虑
在实际计算中,由于涉及密度函数的平方根,需要注意数值稳定性。当密度值接近零时,平方根计算可能产生数值误差,通常需要适当的平滑技术来处理这种情况。