随机变量的变换的Hilbert空间嵌入
我将通过以下步骤为您系统讲解这个概念:
-
概率分布的泛函表示
在传统概率论中,我们通常用分布函数或密度函数来描述随机变量的分布。然而,从泛函分析的角度看,每个概率分布可以视为某个函数空间中的元素。具体来说,给定一个概率分布P,我们可以将其嵌入到再生核希尔伯特空间(RKHS)中,通过核均值嵌入(kernel mean embedding)实现:
μ_P = ∫_X k(x, ·)dP(x)
其中k是正定核函数,这个积分在RKHS中取值。 -
特征核与可度量化
核函数k: X×X → ℝ的选择至关重要。常用的核函数包括高斯核k(x,y)=exp(-||x-y||²/(2σ²))和拉普拉斯核。一个核称为特征核(characteristic kernel)如果嵌入映射P ↦ μ_P是单射。这意味着不同的概率分布对应RKHS中不同的点,从而保证分布的可区分性。 -
最大均值差异(MMD)
基于Hilbert空间嵌入,我们可以定义两个分布P和Q之间的最大均值差异:
MMD²(P,Q) = ||μ_P - μ_Q||²_H
通过核技巧,这可以表示为:
MMD² = E_{x,x'∼P}[k(x,x')] + E_{y,y'∼Q}[k(y,y')] - 2E_{x∼P,y∼Q}[k(x,y)]
这个距离度量为分布比较提供了无参数的非参数方法。 -
协方差算子与条件嵌入
在RKHS中,我们可以定义交叉协方差算子C_XY: H_Y → H_X,满足:
⟨g, C_XY f⟩H = E{XY}[f(X)g(Y)] - E_X[f(X)]E_Y[g(Y)]
条件嵌入则定义为:
μ_{Y|X=x} = C_YXC_XX^{-1}k(x,·)
这允许我们在RKHS中表示条件分布。 -
应用与计算实现
Hilbert空间嵌入在机器学习中有广泛应用:- 双样本检验:通过MMD判断两个样本是否来自同一分布
- 独立性检验:通过协方差算子范数判断X和Y是否独立
- 条件独立性测试:在因果推断中应用
- 分布回归:学习从分布到实值的映射
在实际计算中,我们使用样本估计:
̂μ_P = (1/n)∑_{i=1}^n k(x_i,·)
对应的MMD估计量为U统计量形式,具有良好的统计性质。