随机变量的变换的Hellinger变换
字数 3381 2025-12-15 18:36:59

随机变量的变换的Hellinger变换

好的,我们开始循序渐进地学习“随机变量的变换的Hellinger变换”。这是一个连接概率论、信息论和统计渐近理论的重要工具。

第一步:复习基础——Hellinger距离

在深入变换之前,我们必须先理解其源头:Hellinger距离。它是衡量两个概率分布之间差异的一种度量。

  • 定义:对于定义在同一可测空间上的两个概率测度 \(P\)\(Q\),如果它们关于某个共同控制测度 \(\lambda\)(例如 \(\frac{P+Q}{2}\))有概率密度函数 \(p = \frac{dP}{d\lambda}\)\(q = \frac{dQ}{d\lambda}\),则它们之间的Hellinger距离 \(H(P, Q)\) 定义为:

\[ H^2(P, Q) = \frac{1}{2} \int \left( \sqrt{p(x)} - \sqrt{q(x)} \right)^2 d\lambda(x) = 1 - \int \sqrt{p(x)q(x)} d\lambda(x) \]

  • 性质\(H(P, Q)\) 取值在 \([0, 1]\) 之间,0表示两个分布相同,1表示它们“完全分离”(在一个零测集外支撑集不交)。它与总变差距离有关,但具有更好的几何和代数性质,特别是在处理乘积分布时。

第二步:核心概念——Hellinger积分与仿射变换

Hellinger变换的核心是 Hellinger积分(也称为Hellinger affinity 或 Bhattacharyya系数):

\[\rho(P, Q) = \int \sqrt{p(x)q(x)} d\lambda(x) \]

注意,\(H^2 = 1 - \rho\)

现在,考虑一个关键的变换:当我们需要同时处理多个(比如 \(n\) 个)独立同分布的样本时,我们关心的是乘积测度 \(P^{\otimes n}\)\(Q^{\otimes n}\) 之间的差异。计算它们的Hellinger距离时,会出现一个优美的简化:

\[H^2(P^{\otimes n}, Q^{\otimes n}) = 1 - \rho(P^{\otimes n}, Q^{\otimes n}) = 1 - \left[ \rho(P, Q) \right]^n \]

这是因为独立随机变量的联合密度是边缘密度的乘积,而乘积的平方根是平方根的乘积。这个性质是许多渐近结果的核心。

第三步:引入变换参数——Hellinger变换的定义

标准的Hellinger距离/积分比较的是两个固定的分布 \(P\)\(Q\)Hellinger变换 将这个概念推广,允许我们平滑地在两个分布之间“插值”,或者更一般地,生成一个单参数分布族。

  • 常见形式:给定一个分布 \(P\) 和一个关于 \(P\) 连续的备择分布 \(Q\)(其Radon-Nikodym导数为 \(h = \frac{dQ}{dP}\)),对于实数 \(s\),我们可以定义一个新的概率测度 \(P^{(s)}\),其关于 \(P\) 的密度为:

\[ \frac{dP^{(s)}}{dP} = \frac{h^s}{\mathbb{E}_P[h^s]},\quad \text{假设 }\mathbb{E}_P[h^s] < \infty \]

这里,\(h^s\) 是一个指数变换,归一化常数 \(\mathbb{E}_P[h^s]\) 使其成为概率密度。当 \(s=0\) 时,\(P^{(0)} = P\);当 \(s=1\) 时,\(P^{(1)} = Q\)。对于 \(s \in (0, 1)\)\(P^{(s)}\)\(P\)\(Q\) 的一种“中间”分布。

  • 与Hellinger积分的关系:注意,Hellinger积分可以表示为:

\[ \rho(P, Q) = \mathbb{E}_P\left[\sqrt{h}\right] = \int \sqrt{\frac{dQ}{dP}} dP \]

更一般地,我们可以考虑函数 \(s \mapsto \mathbb{E}_P[h^{s/2}]\)\(s \mapsto \mathbb{E}_P\left[ h^{s/2}(1-h)^{(1-s)/2} \right]\),它们包含了分布对 \((P, Q)\) 的相似性信息,这种“指数族”式的参数化就是一种Hellinger变换。

第四步:关键应用——局部渐近正态性理论中的Hellinger可微性

Hellinger变换最重要的应用场景是在局部渐近正态性 理论中,用于刻画统计实验的平滑性。

  • 问题:设我们有一个参数化的概率分布族 \(\{P_{\theta}: \theta \in \Theta \subset \mathbb{R}^d\}\)。我们想知道当参数 \(\theta\) 发生微小扰动时,分布 \(P_{\theta}\) 如何变化。这种变化的“光滑性”决定了统计估计的渐近效率极限。
  • Hellinger可微性:我们称分布族在 \(\theta_0\) 处是 Hellinger可微 的,如果存在一个函数 \(\dot{\ell}_{\theta_0}\)(称为得分函数)使得:

\[ \int \left[ \sqrt{p_{\theta_0 + h}(x)} - \sqrt{p_{\theta_0}(x)} - \frac{1}{2}h^T \dot{\ell}_{\theta_0}(x) \sqrt{p_{\theta_0}(x)} \right]^2 d\mu(x) = o(\|h\|^2) \]

\(\|h\| \to 0\)。这里 \(p_{\theta}\)\(P_{\theta}\) 的密度。

  • 变换的观点:上述定义可以重新表述。定义变换 \(s \mapsto \sqrt{p_{\theta_0 + s h}(x)}\),将其视为从参数空间到 \(L^2(\mu)\) 希尔伯特空间的映射。Hellinger可微性就是这个映射在 \(s=0\) 处的Fréchet可微性。换句话说,我们将分布的开方密度在 \(L^2\) 空间中进行变换和线性近似。这是对经典得分函数定义(基于对数值密度求导)的一种更稳健的推广,因为它不要求密度本身可导,只要求平方根密度在 \(L^2\) 意义下可导。

第五步:深远影响——为何重要

Hellinger变换和Hellinger可微性的价值体现在:

  1. 统一框架:它为证明统计模型满足局部渐近正态性 提供了一个强大而通用的工具。LAN是现代渐近统计学的基石,它保证了极大似然估计等的最优渐近性质。
  2. 稳健性:与基于对数似然的可微性相比,Hellinger可微性条件更弱、更易验证。它对分布的尾部行为更不敏感,因为平方根运算压制了密度中的极端值。
  3. 计算距离:通过研究变换 \(s \mapsto P_{\theta_0 + s h}\) 在Hellinger距离下的行为,我们可以精确控制不同参数对应的分布之间的“邻近度”,这对于推导检验的势和估计量的收敛速度至关重要。
  4. 连接信息几何:在信息几何中,统计流形上的一种自然黎曼度量正是由Hellinger距离的无穷小版本(即Fisher信息度量)给出的。Hellinger变换对应于在这个流形上沿测地线移动。

总结
随机变量的变换的Hellinger变换,核心思想是利用平方根密度 \(\sqrt{p}\)\(L^2\) 空间中的良好性质,对概率分布进行参数化或研究其微小扰动。它从基础的Hellinger距离出发,通过考虑其积分形式(Hellinger affinity)和指数参数化,最终升华为刻画统计模型局部结构的Hellinger可微性概念。这个概念是现代渐近统计学中证明局部渐近正态性和推导效率下界的关键技术工具,因其稳健性和几何直观性而备受重视。

随机变量的变换的Hellinger变换 好的,我们开始循序渐进地学习“随机变量的变换的Hellinger变换”。这是一个连接概率论、信息论和统计渐近理论的重要工具。 第一步:复习基础——Hellinger距离 在深入变换之前,我们必须先理解其源头:Hellinger距离。它是衡量两个概率分布之间差异的一种度量。 定义 :对于定义在同一可测空间上的两个概率测度 \(P\) 和 \(Q\),如果它们关于某个共同控制测度 \(\lambda\)(例如 \(\frac{P+Q}{2}\))有概率密度函数 \(p = \frac{dP}{d\lambda}\) 和 \(q = \frac{dQ}{d\lambda}\),则它们之间的Hellinger距离 \(H(P, Q)\) 定义为: \[ H^2(P, Q) = \frac{1}{2} \int \left( \sqrt{p(x)} - \sqrt{q(x)} \right)^2 d\lambda(x) = 1 - \int \sqrt{p(x)q(x)} d\lambda(x) \] 性质 :\(H(P, Q)\) 取值在 \([ 0, 1 ]\) 之间,0表示两个分布相同,1表示它们“完全分离”(在一个零测集外支撑集不交)。它与总变差距离有关,但具有更好的几何和代数性质,特别是在处理乘积分布时。 第二步:核心概念——Hellinger积分与仿射变换 Hellinger变换的核心是 Hellinger积分 (也称为Hellinger affinity 或 Bhattacharyya系数): \[ \rho(P, Q) = \int \sqrt{p(x)q(x)} d\lambda(x) \] 注意,\(H^2 = 1 - \rho\)。 现在,考虑一个关键的 变换 :当我们需要同时处理多个(比如 \(n\) 个)独立同分布的样本时,我们关心的是乘积测度 \(P^{\otimes n}\) 和 \(Q^{\otimes n}\) 之间的差异。计算它们的Hellinger距离时,会出现一个优美的简化: \[ H^2(P^{\otimes n}, Q^{\otimes n}) = 1 - \rho(P^{\otimes n}, Q^{\otimes n}) = 1 - \left[ \rho(P, Q) \right ]^n \] 这是因为独立随机变量的联合密度是边缘密度的乘积,而乘积的平方根是平方根的乘积。这个性质是许多渐近结果的核心。 第三步:引入变换参数——Hellinger变换的定义 标准的Hellinger距离/积分比较的是两个固定的分布 \(P\) 和 \(Q\)。 Hellinger变换 将这个概念推广,允许我们平滑地在两个分布之间“插值”,或者更一般地,生成一个单参数分布族。 常见形式 :给定一个分布 \(P\) 和一个关于 \(P\) 连续的备择分布 \(Q\)(其Radon-Nikodym导数为 \(h = \frac{dQ}{dP}\)),对于实数 \(s\),我们可以定义一个新的概率测度 \(P^{(s)}\),其关于 \(P\) 的密度为: \[ \frac{dP^{(s)}}{dP} = \frac{h^s}{\mathbb{E}_ P[ h^s]},\quad \text{假设 }\mathbb{E}_ P[ h^s] < \infty \] 这里,\(h^s\) 是一个指数变换,归一化常数 \(\mathbb{E}_ P[ h^s ]\) 使其成为概率密度。当 \(s=0\) 时,\(P^{(0)} = P\);当 \(s=1\) 时,\(P^{(1)} = Q\)。对于 \(s \in (0, 1)\),\(P^{(s)}\) 是 \(P\) 和 \(Q\) 的一种“中间”分布。 与Hellinger积分的关系 :注意,Hellinger积分可以表示为: \[ \rho(P, Q) = \mathbb{E}_ P\left[ \sqrt{h}\right ] = \int \sqrt{\frac{dQ}{dP}} dP \] 更一般地,我们可以考虑函数 \(s \mapsto \mathbb{E}_ P[ h^{s/2}]\) 或 \(s \mapsto \mathbb{E}_ P\left[ h^{s/2}(1-h)^{(1-s)/2} \right ]\),它们包含了分布对 \((P, Q)\) 的相似性信息,这种“指数族”式的参数化就是一种Hellinger变换。 第四步:关键应用——局部渐近正态性理论中的Hellinger可微性 Hellinger变换最重要的应用场景是在 局部渐近正态性 理论中,用于刻画统计实验的平滑性。 问题 :设我们有一个参数化的概率分布族 \(\{P_ {\theta}: \theta \in \Theta \subset \mathbb{R}^d\}\)。我们想知道当参数 \(\theta\) 发生微小扰动时,分布 \(P_ {\theta}\) 如何变化。这种变化的“光滑性”决定了统计估计的渐近效率极限。 Hellinger可微性 :我们称分布族在 \(\theta_ 0\) 处是 Hellinger可微 的,如果存在一个函数 \(\dot{\ell} {\theta_ 0}\)(称为得分函数)使得: \[ \int \left[ \sqrt{p {\theta_ 0 + h}(x)} - \sqrt{p_ {\theta_ 0}(x)} - \frac{1}{2}h^T \dot{\ell} {\theta_ 0}(x) \sqrt{p {\theta_ 0}(x)} \right ]^2 d\mu(x) = o(\|h\|^2) \] 当 \(\|h\| \to 0\)。这里 \(p_ {\theta}\) 是 \(P_ {\theta}\) 的密度。 变换的观点 :上述定义可以重新表述。定义变换 \(s \mapsto \sqrt{p_ {\theta_ 0 + s h}(x)}\),将其视为从参数空间到 \(L^2(\mu)\) 希尔伯特空间的映射。Hellinger可微性就是这个映射在 \(s=0\) 处的Fréchet可微性。换句话说, 我们将分布的开方密度在 \(L^2\) 空间中进行变换和线性近似 。这是对经典得分函数定义(基于对数值密度求导)的一种更稳健的推广,因为它不要求密度本身可导,只要求平方根密度在 \(L^2\) 意义下可导。 第五步:深远影响——为何重要 Hellinger变换和Hellinger可微性的价值体现在: 统一框架 :它为证明统计模型满足 局部渐近正态性 提供了一个强大而通用的工具。LAN是现代渐近统计学的基石,它保证了极大似然估计等的最优渐近性质。 稳健性 :与基于对数似然的可微性相比,Hellinger可微性条件更弱、更易验证。它对分布的尾部行为更不敏感,因为平方根运算压制了密度中的极端值。 计算距离 :通过研究变换 \(s \mapsto P_ {\theta_ 0 + s h}\) 在Hellinger距离下的行为,我们可以精确控制不同参数对应的分布之间的“邻近度”,这对于推导检验的势和估计量的收敛速度至关重要。 连接信息几何 :在信息几何中,统计流形上的一种自然黎曼度量正是由Hellinger距离的无穷小版本(即Fisher信息度量)给出的。Hellinger变换对应于在这个流形上沿测地线移动。 总结 : 随机变量的变换的 Hellinger变换 ,核心思想是利用平方根密度 \(\sqrt{p}\) 在 \(L^2\) 空间中的良好性质,对概率分布进行参数化或研究其微小扰动。它从基础的Hellinger距离出发,通过考虑其积分形式(Hellinger affinity)和指数参数化,最终升华为刻画统计模型局部结构的 Hellinger可微性 概念。这个概念是现代渐近统计学中证明局部渐近正态性和推导效率下界的关键技术工具,因其稳健性和几何直观性而备受重视。