随机变量的变换的von Mises展开
让我们循序渐进地理解随机变量变换的von Mises展开,这是一个用于推导统计函数(或统计泛函)渐近分布的有力工具。
第一步:明确核心目标与基本设定
首先,我们需要明确讨论的问题。在统计学中,我们常常关心一个依赖于未知分布 \(P\) 的量 \(T(P)\),例如期望、方差、分位数或更复杂的度量(如信息熵)。我们无法获知真实的 \(P\),但有一个来自 \(P\) 的独立同分布样本,由此可得到经验分布 \(P_n\)。我们的统计量(估计量)正是 \(T\) 在 \(P_n\) 上的取值:\(T_n = T(P_n)\)。von Mises展开的目标,就是为 \(T_n\) 寻找一个类似于函数泰勒展开的线性近似,从而利用中心极限定理等工具,推导出 \(\sqrt{n}(T_n - T(P))\) 的渐近正态分布。
第二步:理解“统计泛函”与“经验过程”
- 统计泛函:\(T(P)\) 是一个将概率分布 \(P\) 映射到一个实数的映射,称为统计泛函。例如,均值泛函 \(T(P) = \int x \, dP(x)\)。
- 经验分布:给定样本 \(X_1, ..., X_n\),经验分布 \(P_n\) 是赋予每个观测点质量 \(1/n\) 的离散分布。我们可以将其视为对真实分布 \(P\) 的一个随机“扰动”。
- 经验过程:\(\sqrt{n}(P_n - P)\) 在适当的函数空间上收敛到一个高斯过程(布朗桥),这是现代渐近统计的理论基石。von Mises展开试图将 \(T\) 在这个“扰动”下的变化线性化。
第三步:构建线性近似——一阶影响函数
展开的核心是找到统计泛函 \(T\) 在 \(P\) 处的“导数”。这通过 影响函数(Influence Function) 或 一阶泛函导数 来实现。
- 定义:对于分布 \(P\) 和一个在点 \(x\) 的退化分布 \(\delta_x\),考虑混合分布 \(P_t = (1-t)P + t\delta_x\),其中 \(0 \le t \le 1\)。影响函数 \(\phi_P(x)\) 定义为:
\[ \phi_P(x) = \lim_{t \downarrow 0} \frac{T(P_t) - T(P)}{t} = \left. \frac{d}{dt} T((1-t)P + t\delta_x) \right|_{t=0}. \]
- 解释:影响函数 \(\phi_P(x)\) 衡量了在分布 \(P\) 中添加一个极小的、位于 \(x\) 点的污染观测时,统计量 \(T\) 的瞬时变化率。它是一个关于 \(x\) 的函数。
- 关键性质:对于一个“正则”的泛函 \(T\),其影响函数通常满足 \(E_P[\phi_P(X)] = \int \phi_P(x) \, dP(x) = 0\)。这意味着在真实分布 \(P\) 下,影响的平均效应为零。
第四步:写出von Mises展开(一阶展开)及其渐近推论
基于影响函数,我们可以写出 \(T(P_n)\) 在 \(T(P)\) 附近的一阶 von Mises 展开:
\[T(P_n) = T(P) + \int \phi_P(x) \, d(P_n - P)(x) + R_n. \]
这里:
- \(T(P)\) 是目标真值。
- \(\int \phi_P(x) \, d(P_n - P)(x) = \frac{1}{n} \sum_{i=1}^n \phi_P(X_i) - E_P[\phi_P(X)] = \frac{1}{n} \sum_{i=1}^n \phi_P(X_i)\) (因为 \(E_P[\phi_P(X)] = 0\))。
- \(R_n\) 是余项,我们希望它是 \(o_P(1/\sqrt{n})\) 的,即当乘以 \(\sqrt{n}\) 后会依概率收敛到 0。
将上述展开改写为:
\[\sqrt{n}(T_n - T(P)) = \frac{1}{\sqrt{n}} \sum_{i=1}^n \phi_P(X_i) + \sqrt{n} R_n. \]
如果余项 \(\sqrt{n} R_n \xrightarrow{P} 0\),那么根据中心极限定理,由于 \(\phi_P(X_i)\) 是 i.i.d. 且均值为 0、方差为 \(\sigma^2 = E_P[\phi_P^2(X)]\) 的随机变量,我们有:
\[\sqrt{n}(T_n - T(P)) \xrightarrow{d} N(0, \sigma^2). \]
这就是 von Mises 展开的主要威力所在:它将一个复杂统计量的渐近分布,归结为其影响函数的样本均值的渐近分布。
第五步:理解余项与高阶展开
- 余项的控制:余项 \(R_n\) 本质上是 \(T\) 在 \(P_n\) 与 \(P\) 之间二阶及更高阶变化的总和。为了确保渐近正态性成立,我们需要 \(T\) 在 \(P\) 处是“一阶Hadamard可微”或“一阶Frechet可微”的(在适当的函数空间拓扑下)。这保证了线性近似的主导性,即 \(R_n = o_P(\|P_n - P\|) = o_P(1/\sqrt{n})\)。
- 高阶展开:类似于泰勒展开,我们也可以定义二阶或更高阶的影响函数(泛函导数),并写出更高阶的 von Mises 展开。例如,二阶影响函数 \(\psi_P(x, y)\) 描述了当在 \(P\) 上同时加入 \(x\) 和 \(y\) 两个点的微小污染时的二阶交互效应。高阶展开可用于研究更精细的渐近性质,如 Edgeworth 展开(修正正态近似的误差)。
第六步:经典示例——样本均值与样本方差
- 样本均值:\(T(P) = \int x \, dP(x)\)。容易验证,\(T(P_t) = (1-t)\int x \, dP(x) + t x\),所以 \(\phi_P(x) = x - \int u \, dP(u)\)。这正是我们熟知的 \(X_i - \mu\)。展开式是精确线性的(\(R_n = 0\)),渐近方差就是总体方差。
- 样本方差(使用 \(n\) 除数):\(T(P) = \int (x - \mu)^2 dP(x)\),其中 \(\mu = \int x dP(x)\)。经过计算(需对混合分布 \(P_t\) 求导),其影响函数为 \(\phi_P(x) = (x-\mu)^2 - \sigma^2\)。这解释了为什么样本方差的渐近正态性成立。
第七步:实际应用与意义
- 渐近方差估计:一旦我们推导出或估计出影响函数 \(\phi_P(x)\),就可以用经验版本 \(\hat{\phi}_n(x)\) 来估计渐近方差 \(\sigma^2\):
\[ \hat{\sigma}^2_n = \frac{1}{n} \sum_{i=1}^n \hat{\phi}_n^2(X_i). \]
这为构建置信区间提供了基础。
2. 稳健统计:影响函数的大小直接反映了统计量对异常值的敏感度。一个有界的影响函数意味着该统计量是稳健的(例如中位数),而无界的影响函数(如均值)则对异常值敏感。von Mises 展开为系统分析统计量的稳健性提供了框架。
3. 复杂估计量的推导:对于无法直接分析的、通过复杂程序(如 M-估计、Z-估计)定义的统计量,von Mises 展开(通过其与函数空间delta方法的紧密联系)是推导其渐近性质的标准工具。
总结来说,随机变量变换的von Mises展开 通过引入影响函数作为统计泛函的“导数”,将复杂估计量 \(T(P_n)\) 表示为样本均值(关于影响函数)加上一个高阶小量。这使得我们可以直接利用经典的中心极限定理来建立其渐近正态性,并为进一步的统计推断(如方差估计、稳健性分析)提供了清晰的理论路径。