好的,接下来我们学习词条:
随机变量的变换的von Mises展开
我将为你循序渐进地讲解这个概念,确保每一步都清晰易懂。
第一步:理解核心目标——函数统计量的渐近分析
在统计学中,我们经常需要研究一个依赖于样本的统计量,这个统计量可以看作是关于经验分布函数的一个泛函。
- 例子:样本均值是经验分布函数的一阶矩泛函,样本方差是经验分布函数的二阶中心矩泛函。
- 问题:许多更复杂的统计量(例如,样本中位数、样本分位数、Gini系数、最大似然估计量等)也是经验分布函数的泛函。我们想了解这些统计量在样本量增大时的分布特性(即渐近分布)。
- von Mises展开就是一种强大的工具,它将这种复杂的泛函统计量,在“真实”分布函数附近,展开成一个类似泰勒展开的形式,从而将其渐近行为转化为一个我们更熟悉的、线性的统计量问题。
第二步:背景知识与关键构件
为了理解von Mises展开,我们需要先明确几个基本概念:
- 经验分布函数 (Empirical Distribution Function, EDF):
- 对于一个来自总体分布 \(F\) 的独立同分布样本 \(X_1, X_2, ..., X_n\),其经验分布函数 \(F_n\) 定义为:
\[ F_n(x) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \leq x) \]
- 这里 \(I(\cdot)\) 是指示函数。\(F_n(x)\) 是随机函数,它在每个点 \(x\) 给出了样本中不超过 \(x\) 的比例。由格利文科-坎泰利定理可知,\(F_n\) 一致地收敛到真实的 \(F\)。
- 统计泛函 (Statistical Functional):
- 一个统计泛函 \(T\) 是一个将分布函数映射到实数的规则。例如:
- 均值泛函: \(T(F) = \int x \, dF(x)\)
- 方差泛函: \(T(F) = \int (x - T(F))^2 \, dF(x)\)
- 中位数泛函: \(T(F) = F^{-1}(0.5)\)
- 当我们把样本的经验分布函数 \(F_n\) 代入泛函 \(T\),就得到了对应的样本统计量 \(T(F_n)\)。
- Hadamard导数 (或Frechet/Gateaux导数):
- 这是将微积分中“导数”的概念推广到函数空间(如所有分布函数构成的空间)。它衡量当输入分布 \(F\) 发生一个微小扰动 \(H\) 时,泛函 \(T\) 的输出如何变化。
- 形式上,如果存在一个线性泛函 \(dT_F(\cdot)\),使得对于某个“方向” \(H\),有:
\[ T(F + tH) - T(F) = t \cdot dT_F(H) + o(t) \quad (t \to 0) \]
- 那么,\(dT_F(H)\) 就称为 \(T\) 在 \(F\) 处沿方向 \(H\) 的一阶导数。这个线性泛函是整个展开的核心。
第三步:von Mises展开的形式与推导思路
现在,我们考虑统计量 \(T(F_n)\)。我们想将它围绕真实分布 \(F\) 展开。
- 类比泰勒展开:
- 回忆一元函数的泰勒展开:\(f(x) \approx f(a) + f'(a)(x-a) + \frac{1}{2}f''(a)(x-a)^2 + ...\)
- 我们把 \(F_n\) 看作“变量”,\(F\) 看作“展开点”。那么很自然地,我们希望有:
\[ T(F_n) \approx T(F) + dT_F(F_n - F) + \text{高阶项} \]
- 这里 \(F_n - F\) 就是“变化的方向”,而 \(dT_F(F_n - F)\) 是导数在这个方向上的取值。
- 一阶von Mises展开:
- 在合适的正则性条件下(主要是泛函 \(T\) 在 \(F\) 处是Hadamard可微的),我们有:
\[ T(F_n) = T(F) + dT_F(F_n - F) + R_n \]
- 其中 \(R_n\) 是余项,通常满足 \(\sqrt{n} R_n \xrightarrow{P} 0\)(依概率收敛到0)。
- 影响函数 (Influence Function) 的连接:
- 线性泛函 \(dT_F(\cdot)\) 有一个极其重要的具体形式。可以证明,对于很多统计泛函,存在一个函数 \(\phi_F(x)\),使得对于任何“扰动” \(H\),有:
\[ dT_F(H) = \int \phi_F(x) \, dH(x) \]
- 这个函数 \(\phi_F(x)\) 就称为泛函 \(T\) 在分布 \(F\) 下的影响函数。它衡量了在样本中增加一个观测点 \(x\) 对统计量 \(T\) 的无穷小影响。
- 将 \(H = F_n - F\) 代入,并利用 \(dH = dF_n - dF\),我们得到关键的一步:
\[ dT_F(F_n - F) = \int \phi_F(x) \, d(F_n - F)(x) = \frac{1}{n} \sum_{i=1}^{n} \phi_F(X_i) - \mathbb{E}_F[\phi_F(X)] \]
- 注意,\(\mathbb{E}_F[\phi_F(X)]\) 通常为0(这是影响函数的一个常见性质)。
第四步:得出渐近正态性结论
将上述结果代入一阶von Mises展开式:
\[T(F_n) = T(F) + \frac{1}{n} \sum_{i=1}^{n} \phi_F(X_i) + R_n \]
两边同时乘以 \(\sqrt{n}\):
\[\sqrt{n} \left( T(F_n) - T(F) \right) = \frac{1}{\sqrt{n}} \sum_{i=1}^{n} \phi_F(X_i) + \sqrt{n} R_n \]
- 等式右边第一项是一个独立同分布随机变量(即 \(\phi_F(X_i)\) )的和。根据中心极限定理,它依分布收敛到一个正态分布:\(N(0, \text{Var}_F(\phi_F(X)))\)。
- 由于 \(\sqrt{n} R_n \xrightarrow{P} 0\),根据Slutsky定理,整个表达式 \(\sqrt{n} \left( T(F_n) - T(F) \right)\) 的渐近分布与第一项相同。
因此,我们得到了核心结论:
\[\sqrt{n} \left( T(F_n) - T(F) \right) \xrightarrow{d} N\left(0, \sigma^2(T, F)\right) \]
其中,渐近方差 \(\sigma^2(T, F) = \text{Var}_F(\phi_F(X)) = \mathbb{E}_F[\phi_F(X)^2]\)。
第五步:举例说明——样本均值
让我们用最简单的例子来验证整个过程。
- 泛函: \(T(F) = \int x \, dF(x)\)。
- 影响函数: 考虑在 \(F\) 处增加一个质量为 \(\epsilon\) 的点质量 \(\delta_x\)(即在 \(x\) 处),得到混合分布 \(F_\epsilon = (1-\epsilon)F + \epsilon \delta_x\)。则:
\[ T(F_\epsilon) = \int y \, dF_\epsilon(y) = (1-\epsilon)T(F) + \epsilon x \]
\[ \phi_F(x) = \lim_{\epsilon \to 0} \frac{T(F_\epsilon) - T(F)}{\epsilon} = \lim_{\epsilon \to 0} \frac{-\epsilon T(F) + \epsilon x}{\epsilon} = x - T(F) \]
- 代入von Mises展开:
\[ T(F_n) = T(F) + \frac{1}{n} \sum_{i=1}^{n} (X_i - T(F)) + R_n = \frac{1}{n} \sum_{i=1}^{n} X_i + R_n \]
- 显然这里 \(T(F_n) = \bar{X}\),而余项 \(R_n = 0\)。展开是精确的,因为均值泛函是线性的。
- 渐近方差: \(\sigma^2 = \text{Var}(X - \mathbb{E}X) = \text{Var}(X)\)。结论就是大家熟知的样本均值的中心极限定理。
第六步:意义与应用总结
- 统一框架:von Mises展开为一大类统计量(M估计量、L估计量等)的渐近正态性提供了一个统一的理论框架。只要你能计算出该统计量对应泛函的影响函数,其渐近方差就立刻由影响函数的方差给出。
- 稳健统计:影响函数的大小直接反映了统计量对异常值的敏感度,这是稳健统计学的理论基础。影响函数有界的统计量对异常值更稳健。
- 方差估计:可以用样本影响函数 \(\phi_{F_n}(X_i)\) 的样本方差来估计 \(\sigma^2\),这为复杂统计量的标准误估计提供了方法(例如刀切法和自助法在理论上是与此相通的)。
- 高阶展开:类似于泰勒展开,也可以进行二阶甚至更高阶的von Mises展开,用于研究更精细的渐近性质,如偏差修正等。
总而言之,随机变量的变换的von Mises展开是一种将非线性泛函统计量在其理论值附近线性化的强大工具,它通过影响函数这个桥梁,将复杂统计量的渐近分析问题,转化为对一组独立同分布随机变量和的研究,从而优雅地推导出其渐近正态分布。