随机变量的变换的Hellinger距离
好的,我们将开始学习“随机变量的变换的Hellinger距离”。这个概念是概率论与统计学中用于度量两个概率分布之间差异的重要工具。
第一步:从直觉出发——什么是分布之间的“距离”?
在概率论中,我们经常需要比较两个概率分布(比如,一个理论模型分布P和一个真实数据分布Q)是否“接近”。一种直观的想法是定义一个“距离”函数d(P, Q),它满足以下性质:
- 非负性:d(P, Q) ≥ 0。
- 同一性:d(P, Q) = 0 当且仅当 P 和 Q 是同一个分布。
- 对称性:d(P, Q) = d(Q, P)。
- 三角不等式:d(P, R) ≤ d(P, Q) + d(Q, R)。
我们熟知的欧几里得距离并不直接适用于概率分布,因为概率值必须非负且总和为1。Hellinger距离就是为概率分布量身定制的一种距离度量。
第二步:定义Hellinger距离——从概率密度函数入手
假设我们有两个定义在相同样本空间上的概率分布P和Q。为简化讨论,我们假设它们都是连续型随机变量,并分别有概率密度函数(PDF)p(x)和q(x)。如果它们是离散型的,只需将积分替换为求和。
Hellinger距离的平方 H²(P, Q) 定义为:
H²(P, Q) = (1/2) ∫ [ √p(x) - √q(x) ]² dx
这里的积分是在整个样本空间上进行的。让我们来仔细剖析这个公式:
- 核心思想:比较的不是概率密度p(x)和q(x)本身,而是它们的平方根。对概率密度取平方根,可以将其“标准化”,使得比较更加稳健,尤其当p(x)或q(x)接近0时,避免了直接比较可能带来的数值不稳定性。
- 差的平方:
[ √p(x) - √q(x) ]²衡量了在点x处两个分布平方根的局部差异。 - 积分:
∫ ... dx将对所有点x的局部差异汇总,得到一个全局的差异度量。 - 系数1/2:这个系数是一个归一化因子,它的作用是确保Hellinger距离的值始终落在[0, 1]这个区间内。我们马上会验证这一点。
第三步:简化公式与Hellinger亲和力
我们可以将上面的定义式展开:
H²(P, Q) = (1/2) ∫ [ p(x) - 2√(p(x)q(x)) + q(x) ] dx
= (1/2) [ ∫p(x)dx - 2∫√(p(x)q(x))dx + ∫q(x)dx ]
由于p(x)和q(x)是概率密度函数,所以 ∫p(x)dx = 1 且 ∫q(x)dx = 1。因此,上式简化为:
H²(P, Q) = (1/2) [ 1 - 2∫√(p(x)q(x))dx + 1 ]
= 1 - ∫√(p(x)q(x))dx
我们定义一个新的量,称为 Hellinger亲和力:
A(P, Q) = ∫√(p(x)q(x))dx
亲和力A(P, Q)衡量了两个分布的“相似程度”。当P和Q完全相同时,p(x) ≡ q(x),则 A(P, Q) = ∫p(x)dx = 1。当P和Q完全不相交(即只要p(x)>0则q(x)=0,反之亦然)时,A(P, Q) = 0。
因此,Hellinger距离的平方可以优雅地写为:
H²(P, Q) = 1 - A(P, Q)
而Hellinger距离本身是它的平方根:
H(P, Q) = √[ H²(P, Q) ] = √[1 - A(P, Q)]
第四步:验证取值范围 [0, 1]
从公式 H(P, Q) = √[1 - A(P, Q)] 和亲和力A(P, Q)的取值范围[0, 1],我们可以直接得出:
- 最小值0:当P和Q完全相同时,A(P, Q)=1,因此H(P, Q) = √(1-1) = 0。满足同一性。
- 最大值1:当P和Q完全不相交时,A(P, Q)=0,因此H(P, Q) = √(1-0) = 1。
所以,Hellinger距离确实是一个取值范围在0到1之间的度量。
第五步:Hellinger距离的性质与优势
- 满足距离公理:如前所述,它满足非负性、同一性、对称性和三角不等式,是一个严格的度量。
- 对“尾部”敏感:由于公式中涉及平方根,当两个分布在某个区域概率都很小(即分布“尾部”)但存在差异时,Hellinger距离也能捕捉到这种差异,而像总变差距离这样的度量可能对此不敏感。
- 与似然比的关系:Hellinger距离与两个分布之间的似然比
p(x)/q(x)有密切联系,这使其在渐近统计理论中非常有用。 - 与Fisher信息的关系:当比较两个非常接近的分布时(例如,参数θ和θ+Δθ),Hellinger距离的平方近似正比于Fisher信息矩阵乘以(Δθ)²。这表明Hellinger距离是局部衡量分布差异的一种自然方式。
第六步:一个简单例子
假设有两个伯努利分布:
- P:以概率1抛掷硬币正面朝上。即 p(1)=1, p(0)=0。
- Q:以概率0.5抛掷硬币正面朝上。即 q(1)=0.5, q(0)=0.5。
由于是离散分布,我们使用求和形式计算Hellinger亲和力A(P, Q):
A(P, Q) = Σ √(p(x)q(x)) = √(1 * 0.5) + √(0 * 0.5) = √0.5 + 0 ≈ 0.7071
则Hellinger距离为:
H(P, Q) = √[1 - A(P, Q)] = √[1 - 0.7071] = √0.2929 ≈ 0.5412
这个值在0和1之间,直观地反映了P(确定性的)和Q(完全随机的)之间存在显著但不极端的差异。
总结一下,Hellinger距离是一个定义良好、性质优良的概率分布差异度量工具,在假设检验、统计渐近理论、机器学习(如聚类、密度比较)和信息论等领域都有广泛应用。