随机变量的变换的Hilbert空间嵌入方法
字数 2413 2025-11-30 09:30:45
随机变量的变换的Hilbert空间嵌入方法
我们将循序渐进地学习随机变量的变换的Hilbert空间嵌入方法。这个方法的核心思想是,将概率分布本身映射到高维的、可能是无限维的再生核希尔伯特空间(RKHS)中的点,从而可以利用该空间中的线性几何工具(如内积、距离)来研究概率分布及其变换。
第一步:理解希尔伯特空间(Hilbert Space)的基本要素
- 向量空间:首先,想象一个我们熟悉的三维空间。空间中的每个点都可以用一个向量(例如,坐标 (x, y, z))来表示。这个空间是线性的,意味着我们可以对向量进行加法和数乘运算。希尔伯特空间是这种概念向无限维的推广。它也是一个完备的向量空间,允许我们进行极限操作。
- 内积:在三维空间中,我们可以定义两个向量的点积(内积)。点积衡量了两个向量的“相似度”或“对齐程度”。在希尔伯特空间
H中,我们也为空间中的任意两个元素f和g定义一个内积<f, g>。这个内积必须满足对称性、线性性和正定性。 - 范数与距离:由内积可以诱导出范数(类似于向量的长度):
||f|| = sqrt(<f, f>)。进而,我们可以定义两个元素之间的距离:d(f, g) = ||f - g||。这使得希尔伯特空间成为一个度量空间,我们可以谈论点与点之间的接近程度。
第二步:引入再生核希尔伯特空间(RKHS)
- 核心概念:再生核希尔伯特空间是一种特殊的希尔伯特空间,其元素是函数。它的“再生”特性在于,空间中的每个点值求值函数(即函数
f在某个点x的取值f(x))本身也是一个连续线性泛函。 - 再生核:存在一个称为“核函数”的二元函数
k(x, y),它具有两个关键性质:- 对于每个固定的
y,函数k(·, y)属于这个RKHS。 - 再生性:对于该RKHS中的任意函数
f和任意点x,都有<f, k(·, x)> = f(x)。这就像用核函数k(·, x)作为“探针”,通过内积的方式“再生”出了函数f在x点的值。
- 对于每个固定的
- 常见例子:高斯核
k(x, y) = exp(-||x - y||² / (2σ²))是一个常用的核,它对应一个无限维的RKHS。
第三步:将概率分布嵌入到RKHS中——核均值嵌入
- 核心思想:现在,我们有一个随机变量
X,其概率分布为P。Hilbert空间嵌入方法的目标是将这个分布P映射到RKHSH中的一个点。 - 映射方法:这个映射是通过概率分布
P在RKHS中的“均值”或“期望”来定义的。具体来说,分布P的核均值嵌入μₚ定义为:
μₚ = 𝔼ₓ [k(·, X)] = ∫ k(·, x) dP(x) - 直观理解:
- 我们将随机变量
X的每个可能取值x,通过核函数k(·, x)映射到RKHS中的一个点。 - 然后,我们对所有这些点(对应所有可能的
x)按照其概率P进行加权平均。 - 最终得到的
μₚ就是整个概率分布P在RKHS中的“代表点”或“中心”。
- 我们将随机变量
- 关键特性:如果核函数
k是“特征核”,那么这个嵌入是单射的。这意味着,如果两个分布P和Q被嵌入到同一个点(μₚ = μ_Q),那么它们必定是相同的分布(P = Q)。这保证了我们通过研究RKHS中的点μₚ,就能唯一地确定分布P本身。
第四步:定义分布之间的距离——最大均值差异(MMD)
- 问题:既然分布被映射成了RKHS中的点,我们如何度量两个分布
P和Q之间的差异? - 定义:很自然地,我们可以使用这两个点
μₚ和μ_Q在RKHS中的距离。这个距离被称为最大均值差异(MMD):
MMD²(P, Q) = ||μₚ - μ_Q||² - 计算式:利用内积的性质,我们可以将上述范数的平方展开:
MMD²(P, Q) = <μₚ, μₚ> + <μ_Q, μ_Q> - 2<μₚ, μ_Q>
进一步,根据μₚ的定义,我们可以将其表示为核函数的期望:
MMD²(P, Q) = 𝔼ₓₓ‘ [k(X, X’)] + 𝔼_YY‘ [k(Y, Y’)] - 2𝔼_XY [k(X, Y)]
这里X, X’独立同分布于P,Y, Y‘独立同分布于Q。 - 意义:MMD为比较两个分布提供了一个强大且易于计算的工具,特别是在高维空间。
第五步:应用于随机变量的变换
- 场景:假设我们有一个随机变量
X,以及一个变换(函数)Y = g(X)。变换后的变量Y有一个新的分布,记为P_Y。 - 嵌入变换后的分布:我们可以将变换后的分布
P_Y嵌入到同一个RKHS中,得到其核均值嵌入μ_{P_Y} = 𝔼_Y [k(·, Y)]。 - 分析变换的效果:通过比较原始分布
P_X的嵌入μ_{P_X}和变换后分布P_Y的嵌入μ_{P_Y},我们可以量化变换g对分布形状的影响。例如,计算MMD(P_X, P_Y)可以衡量变换g在多大程度上“扭曲”了原始分布。 - 在机器学习中的应用:此方法在机器学习中非常有用。例如,在独立成分分析(ICA)或公平机器学习中,我们希望找到一个变换
g,使得变换后的变量Y的分布满足某种特性(如分量独立,或与某个敏感属性无关)。我们可以将目标特性表述为对μ_{P_Y}的约束,然后通过优化算法来寻找满足约束的变换g。
总结来说,Hilbert空间嵌入方法为我们提供了一套强大的“几何语言”来谈论和分析概率分布及其变换,将复杂的概率问题转化为更直观的希尔伯特空间中的几何问题。