随机变量的变换的Hilbert-Schmidt独立性准则
我们先从独立性检验的基本概念开始。独立性是概率论与统计学中的核心概念。两个随机变量X和Y独立,意味着知道其中一个变量的取值不会提供关于另一个变量取值的任何信息。在数学上,这表示为联合概率分布等于各自边缘概率分布的乘积:P_{X,Y} = P_X P_Y。然而,在实际应用中,我们通常只有来自未知分布的样本数据,而非真实的分布本身。因此,如何基于有限的样本数据,有效地检验两个随机变量是否独立,是一个至关重要的问题。
接下来,我们引入再生核希尔伯特空间(RKHS)的背景。RKHS是一个由核函数定义的函数空间,它具有丰富的数学结构和良好的性质。一个关键的思路是,我们可以将概率分布嵌入到RKHS中。具体来说,对于随机变量X,其分布P_X在RKHS中的嵌入是一个元素μ_X,满足对于RKHS中的所有函数f,有<E[f(X)], f> = <μ_X, f>,其中<·,·>是RKHS的内积。这个嵌入μ_X被称为核均值嵌入。对于随机变量Y,我们同样可以定义其分布P_Y在另一个RKHS中的嵌入μ_Y。
现在,我们考虑两个随机变量X和Y的联合分布。我们可以将联合分布P_{X,Y}嵌入到一个由X和Y的RKHS的张量积构成的RKHS中。这个联合嵌入记为μ_{XY}。如果X和Y是独立的,即P_{X,Y} = P_X P_Y,那么理论上,在RKHS中,其嵌入也应满足μ_{XY} = μ_X ⊗ μ_Y。这里的⊗表示张量积。
基于这个思想,Hilbert-Schmidt独立性准则(HSIC)被提出。HSIC的核心是度量联合嵌入μ_{XY}与边缘嵌入的张量积μ_X ⊗ μ_Y之间的“距离”。在RKHS中,我们可以使用Hilbert-Schmidt范数(一种推广的矩阵或算子的范数)来度量这个距离。具体地,HSIC定义为这个距离的平方:
HSIC(P_{XY}, F, G) = || μ_{XY} - μ_X ⊗ μ_Y ||^2_{HS}
其中F和G分别是X和Y对应的RKHS,||·||_{HS}表示Hilbert-Schmidt范数。
一个非常重要的结果是,HSIC可以表示为一个关于核函数的期望形式。假设我们为X选择了核函数k(·,·),为Y选择了核函数l(·,·)。那么HSIC可以计算为:
HSIC = E[ k(X, X') l(Y, Y') ] + E[ k(X, X') ] E[ l(Y, Y') ] - 2 E[ E[ k(X, X') | X ] E[ l(Y, Y') | Y ] ]
其中(X, Y)和(X', Y')是来自联合分布P_{XY}的独立同分布样本对。这个表达式虽然看起来复杂,但它将分布之间的独立性度量转化为了关于核函数的期望计算,使其在实际中变得可操作。
最后,我们来看如何从样本数据中估计HSIC。假设我们有一个包含n个独立同分布样本对 { (x_1, y_1), (x_2, y_2), ..., (x_n, y_n) } 的数据集。我们可以构造Gram矩阵K和L,其中K_ij = k(x_i, x_j), L_ij = l(y_i, y_j)。那么HSIC的一个有偏但常用的估计量是:
HSIC_n = (1/n^2) tr( K H L H )
其中tr(·)表示矩阵的迹,H是一个n×n的中心矩阵,其元素为H_ij = δ_ij - 1/n (δ_ij是Kronecker delta符号)。这个估计量只依赖于样本数据和选择的核函数,计算高效。在实践中,我们计算样本的HSIC值,然后通过置换检验等方法来确定一个阈值,如果计算出的HSIC值显著大于这个阈值,我们就有理由拒绝X和Y独立的原假设。HSIC因其非参数性、对非线性依赖关系的检测能力以及理论上的完备性,在机器学习和统计学的诸多领域得到了广泛应用。