随机变量的变换的von Mises展开(续)
你已了解von Mises展开的基本形式(基于泛函导数的泰勒展开)。现在,我们深入其统计应用与具体推导,并引入关键工具——影响函数。
1. 影响函数:展开的核心工具
- 定义:设 \(T\) 是定义在概率分布空间上的泛函(如均值、方差、分位数)。对分布 \(F\) 和扰动分布 \(\Delta_x\)(在点 \(x\) 处的单位点质量),影响函数(IF)定义为:
\[ \text{IF}(x; T, F) = \lim_{\epsilon \to 0^+} \frac{T((1-\epsilon)F + \epsilon \Delta_x) - T(F)}{\epsilon}. \]
- 直观意义:IF 衡量单个观测点 \(x\) 对泛函 \(T\) 值的边际影响。若 IF 有界,则 \(T\) 对异常值稳健(如中位数);若无界,则敏感(如均值)。
- 示例:
- 均值泛函 \(T(F) = \int y \, dF(y)\):
\(\text{IF}(x; T, F) = x - T(F)\)(无界)。 - 中位数泛函 \(T(F) = F^{-1}(1/2)\):
\(\text{IF}(x; T, F) = \frac{\operatorname{sgn}(x - T(F))}{2f(T(F))}\)(有界,\(f\) 为密度)。
- 均值泛函 \(T(F) = \int y \, dF(y)\):
2. von Mises展开的具体形式
对经验分布 \(F_n\)(基于 \(n\) 个样本),将 \(T(F_n)\) 在真实分布 \(F\) 处展开:
\[T(F_n) = T(F) + \int \text{IF}(x; T, F) \, d(F_n - F)(x) + R_n, \]
其中:
- 一阶项是 线性泛函,对应“梯度方向”的投影。
- 剩余项 \(R_n\) 包含高阶泛函导数(如二阶泛函导数的双线性形式)。
关键简化:在许多统计问题中,\(R_n = o_P(n^{-1/2})\),因此一阶项主导渐近分布。
3. 展开的统计应用
(1) 渐近正态性的统一证明
若 IF 满足 \(\mathbb{E}_F[\text{IF}(X; T, F)] = 0\) 且 \(\mathbb{E}_F[\text{IF}^2] < \infty\),则:
\[\sqrt{n} (T(F_n) - T(F)) \xrightarrow{d} N\left(0, \mathbb{E}_F[\text{IF}^2]\right). \]
推导思路:
- 由展开式,\(\sqrt{n}(T(F_n) - T(F)) = \sqrt{n} \int \text{IF} \, dF_n + \sqrt{n} R_n\)。
- 第一项是独立同分布和的标准化,依中心极限定理收敛到正态分布。
- 第二项 \(\sqrt{n} R_n \xrightarrow{p} 0\) 需验证(通常利用 U-统计量或霍夫丁分解)。
(2) 方差估计与稳健标准误
- 渐近方差 \(\mathbb{E}_F[\text{IF}^2]\) 可用经验估计:
\[ \widehat{\text{Var}}(T(F_n)) = \frac{1}{n^2} \sum_{i=1}^n \text{IF}(X_i; T, F_n)^2. \]
- 这为 稳健统计推断 提供基础(如 M 估计量的三明治方差)。
(3) 高阶展开与偏差修正
- 若一阶项消失(如对称分布下的中位数),需用二阶展开:
\[ T(F_n) = T(F) + \frac{1}{2} \iint \text{IF}_2(x, y; T, F) \, d(F_n - F)(x) \, d(F_n - F)(y) + o_P(n^{-1}), \]
其中 \(\text{IF}_2\) 是二阶影响函数(泛函 Hessian)。
- 此时极限分布可能是卡方分布或加权卡方和(类似退化 U-统计量)。
4. 与 Delta 方法的联系
- Delta 方法 是 von Mises 展开的特例:若 \(T(F) = \phi(\theta(F))\),其中 \(\theta\) 是参数泛函,\(\phi\) 可导,则:
\[ \text{IF}(x; T, F) = \phi'(\theta(F)) \cdot \text{IF}(x; \theta, F). \]
- 因此,von Mises 展开是 非参数化的 Delta 方法,适用于任意泛函。
5. 注意事项与局限性
- 可展开性条件:需 \(T\) 在 \(F\) 的某个邻域内“平滑”(泛函可导),否则展开无效(如排序类泛函在密度零点处)。
- 剩余项控制:验证 \(R_n = o_P(n^{-1/2})\) 需技术性条件(如泛函二阶导数的有界性)。
- 经验分布替换:用 \(F_n\) 估计 IF 时,需 bootstrap 或核平滑(尤其当 IF 依赖未知密度)。
总结:von Mises 展开通过影响函数将泛函的渐近行为线性化,为统计量的分布、方差估计和稳健推断提供通用框架。它是连接非参数统计与渐近理论的核心工具。