随机变量的变换的Hilbert空间嵌入方法
-
基本概念:希尔伯特空间与随机变量
希尔伯特空间(Hilbert Space)是完备的内积空间。你可以将其想象为欧几里得空间(我们熟悉的三维空间)的无限维推广。在这个空间中,每个点可以代表一个函数或一个随机变量。两个“点”(例如随机变量X和Y)之间的“夹角”和“距离”可以通过内积<X, Y>来定义。在概率论中,我们经常考虑所有方差有限的随机变量构成的希尔伯特空间,即L²空间,其内积定义为<X, Y> = E[XY],对应的范数(“长度”)为||X|| = sqrt(E[X²]),这正好是X的标准差的一种推广。 -
核心思想:从随机变量到空间中的点
希尔伯特空间嵌入方法的核心思想是,将一个概率分布(而不仅仅是单个随机变量)映射到希尔伯特空间中的一个点。这个点被称为该分布的“嵌入”。更具体地说,我们考虑一个函数k(x, .),称为再生核(Reproducing Kernel),它将样本空间中的每个点x映射到希尔伯特空间H中的一个点。那么,一个概率分布 P 的均值嵌入(Mean Embedding)μ_P定义为H中的一个点,它是随机变量k(X, .)(其中X ~ P)的期望值:μ_P = E_{X~P}[k(X, .)]。直观上,μ_P这个点包含了分布 P 的统计信息。 -
关键工具:正定核与核技巧
实现上述嵌入的关键是选择一个合适的再生核k(x, y)。最常见的核是高斯核k(x, y) = exp(-||x-y||² / (2σ²))。核函数必须是对称且正定的。核技巧(Kernel Trick)允许我们在计算中不显式地处理高维甚至无限维的希尔伯特空间H中的点(即μ_P),而只需在原样本空间上计算核函数k(x, y)的值。这使得处理复杂分布成为可能。 -
分布的比较:最大均值差异(MMD)
嵌入方法的强大之处在于,我们可以通过比较希尔伯特空间中两个“点”(即两个分布的嵌入)来比较分布本身。两个分布 P 和 Q 的最大均值差异(Maximum Mean Discrepancy, MMD)定义为它们均值嵌入之间的距离:MMD²(P, Q) = ||μ_P - μ_Q||_H²。神奇的是,这个距离可以完全通过核函数计算:MMD²(P, Q) = E_{X,X‘~P}[k(X,X’)] + E_{Y,Y‘~Q}[k(Y,Y’)] - 2E_{X~P, Y~Q}[k(X,Y)]。如果核函数是特征核(Characteristic Kernel,如高斯核),那么MMD(P, Q) = 0当且仅当P = Q。这使得MMD成为一个强大的非参数双样本检验工具。 -
应用于随机变量的变换
现在,我们将此方法应用于随机变量的变换。假设我们有一个随机变量X服从分布P_X,以及一个变换函数Y = g(X)。变换后的随机变量Y服从分布P_Y。我们可以分别计算P_X和P_Y在同一个再生核希尔伯特空间(RKHS)中的均值嵌入μ_X和μ_Y。通过分析μ_X和μ_Y之间的关系,或者计算它们之间的MMD,我们可以研究变换g对分布产生了何种影响,而无需显式地求出P_Y的密度函数。这在复杂变换或高维情况下尤其有用,例如在核贝叶斯规则或动力系统分析中。