随机变量的变换的von Mises展开

字数 4091 2025-12-15 18:48:16

好的，接下来我们学习词条：

随机变量的变换的von Mises展开

我将为你循序渐进地讲解这个概念，确保每一步都清晰易懂。

第一步：理解核心目标——函数统计量的渐近分析

在统计学中，我们经常需要研究一个依赖于样本的统计量，这个统计量可以看作是关于经验分布函数的一个泛函。

例子：样本均值是经验分布函数的一阶矩泛函，样本方差是经验分布函数的二阶中心矩泛函。
问题：许多更复杂的统计量（例如，样本中位数、样本分位数、Gini系数、最大似然估计量等）也是经验分布函数的泛函。我们想了解这些统计量在样本量增大时的分布特性（即渐近分布）。
von Mises展开就是一种强大的工具，它将这种复杂的泛函统计量，在“真实”分布函数附近，展开成一个类似泰勒展开的形式，从而将其渐近行为转化为一个我们更熟悉的、线性的统计量问题。

第二步：背景知识与关键构件

为了理解von Mises展开，我们需要先明确几个基本概念：

经验分布函数 (Empirical Distribution Function, EDF)：

对于一个来自总体分布 \(F\) 的独立同分布样本 \(X_1, X_2, ..., X_n\)，其经验分布函数 \(F_n\) 定义为：

\[ F_n(x) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \leq x) \]

这里 \(I(\cdot)\) 是指示函数。\(F_n(x)\) 是随机函数，它在每个点 \(x\) 给出了样本中不超过 \(x\) 的比例。由格利文科-坎泰利定理可知，\(F_n\) 一致地收敛到真实的 \(F\)。

统计泛函 (Statistical Functional)：

一个统计泛函 \(T\) 是一个将分布函数映射到实数的规则。例如：
均值泛函： \(T(F) = \int x \, dF(x)\)
方差泛函： \(T(F) = \int (x - T(F))^2 \, dF(x)\)
中位数泛函： \(T(F) = F^{-1}(0.5)\)
当我们把样本的经验分布函数 \(F_n\) 代入泛函 \(T\)，就得到了对应的样本统计量 \(T(F_n)\)。

Hadamard导数 (或Frechet/Gateaux导数)：

这是将微积分中“导数”的概念推广到函数空间（如所有分布函数构成的空间）。它衡量当输入分布 \(F\) 发生一个微小扰动 \(H\) 时，泛函 \(T\) 的输出如何变化。
形式上，如果存在一个线性泛函 \(dT_F(\cdot)\)，使得对于某个“方向” \(H\)，有：

\[ T(F + tH) - T(F) = t \cdot dT_F(H) + o(t) \quad (t \to 0) \]

那么，\(dT_F(H)\) 就称为 \(T\) 在 \(F\) 处沿方向 \(H\) 的一阶导数。这个线性泛函是整个展开的核心。

第三步：von Mises展开的形式与推导思路

现在，我们考虑统计量 \(T(F_n)\)。我们想将它围绕真实分布 \(F\) 展开。

类比泰勒展开：

回忆一元函数的泰勒展开：\(f(x) \approx f(a) + f'(a)(x-a) + \frac{1}{2}f''(a)(x-a)^2 + ...\)
我们把 \(F_n\) 看作“变量”，\(F\) 看作“展开点”。那么很自然地，我们希望有：

\[ T(F_n) \approx T(F) + dT_F(F_n - F) + \text{高阶项} \]

这里 \(F_n - F\) 就是“变化的方向”，而 \(dT_F(F_n - F)\) 是导数在这个方向上的取值。

一阶von Mises展开：

在合适的正则性条件下（主要是泛函 \(T\) 在 \(F\) 处是Hadamard可微的），我们有：

\[ T(F_n) = T(F) + dT_F(F_n - F) + R_n \]

其中 \(R_n\) 是余项，通常满足 \(\sqrt{n} R_n \xrightarrow{P} 0\)（依概率收敛到0）。

影响函数 (Influence Function) 的连接：

线性泛函 \(dT_F(\cdot)\) 有一个极其重要的具体形式。可以证明，对于很多统计泛函，存在一个函数 \(\phi_F(x)\)，使得对于任何“扰动” \(H\)，有：

\[ dT_F(H) = \int \phi_F(x) \, dH(x) \]

这个函数 \(\phi_F(x)\) 就称为泛函 \(T\) 在分布 \(F\) 下的影响函数。它衡量了在样本中增加一个观测点 \(x\) 对统计量 \(T\) 的无穷小影响。
将 \(H = F_n - F\) 代入，并利用 \(dH = dF_n - dF\)，我们得到关键的一步：

\[ dT_F(F_n - F) = \int \phi_F(x) \, d(F_n - F)(x) = \frac{1}{n} \sum_{i=1}^{n} \phi_F(X_i) - \mathbb{E}_F[\phi_F(X)] \]

注意，\(\mathbb{E}_F[\phi_F(X)]\) 通常为0（这是影响函数的一个常见性质）。

第四步：得出渐近正态性结论

将上述结果代入一阶von Mises展开式：

\[T(F_n) = T(F) + \frac{1}{n} \sum_{i=1}^{n} \phi_F(X_i) + R_n \]

两边同时乘以 \(\sqrt{n}\)：

\[\sqrt{n} \left( T(F_n) - T(F) \right) = \frac{1}{\sqrt{n}} \sum_{i=1}^{n} \phi_F(X_i) + \sqrt{n} R_n \]

等式右边第一项是一个独立同分布随机变量（即 \(\phi_F(X_i)\) ）的和。根据中心极限定理，它依分布收敛到一个正态分布：\(N(0, \text{Var}_F(\phi_F(X)))\)。
由于 \(\sqrt{n} R_n \xrightarrow{P} 0\)，根据Slutsky定理，整个表达式 \(\sqrt{n} \left( T(F_n) - T(F) \right)\) 的渐近分布与第一项相同。

因此，我们得到了核心结论：

\[\sqrt{n} \left( T(F_n) - T(F) \right) \xrightarrow{d} N\left(0, \sigma^2(T, F)\right) \]

其中，渐近方差 \(\sigma^2(T, F) = \text{Var}_F(\phi_F(X)) = \mathbb{E}_F[\phi_F(X)^2]\)。

第五步：举例说明——样本均值

让我们用最简单的例子来验证整个过程。

泛函： \(T(F) = \int x \, dF(x)\)。
影响函数：考虑在 \(F\) 处增加一个质量为 \(\epsilon\) 的点质量 \(\delta_x\)（即在 \(x\) 处），得到混合分布 \(F_\epsilon = (1-\epsilon)F + \epsilon \delta_x\)。则：

\[ T(F_\epsilon) = \int y \, dF_\epsilon(y) = (1-\epsilon)T(F) + \epsilon x \]

\[ \phi_F(x) = \lim_{\epsilon \to 0} \frac{T(F_\epsilon) - T(F)}{\epsilon} = \lim_{\epsilon \to 0} \frac{-\epsilon T(F) + \epsilon x}{\epsilon} = x - T(F) \]

代入von Mises展开：

\[ T(F_n) = T(F) + \frac{1}{n} \sum_{i=1}^{n} (X_i - T(F)) + R_n = \frac{1}{n} \sum_{i=1}^{n} X_i + R_n \]

显然这里 \(T(F_n) = \bar{X}\)，而余项 \(R_n = 0\)。展开是精确的，因为均值泛函是线性的。

渐近方差： \(\sigma^2 = \text{Var}(X - \mathbb{E}X) = \text{Var}(X)\)。结论就是大家熟知的样本均值的中心极限定理。

第六步：意义与应用总结

统一框架：von Mises展开为一大类统计量（M估计量、L估计量等）的渐近正态性提供了一个统一的理论框架。只要你能计算出该统计量对应泛函的影响函数，其渐近方差就立刻由影响函数的方差给出。
稳健统计：影响函数的大小直接反映了统计量对异常值的敏感度，这是稳健统计学的理论基础。影响函数有界的统计量对异常值更稳健。
方差估计：可以用样本影响函数 \(\phi_{F_n}(X_i)\) 的样本方差来估计 \(\sigma^2\)，这为复杂统计量的标准误估计提供了方法（例如刀切法和自助法在理论上是与此相通的）。
高阶展开：类似于泰勒展开，也可以进行二阶甚至更高阶的von Mises展开，用于研究更精细的渐近性质，如偏差修正等。

总而言之，随机变量的变换的von Mises展开是一种将非线性泛函统计量在其理论值附近线性化的强大工具，它通过影响函数这个桥梁，将复杂统计量的渐近分析问题，转化为对一组独立同分布随机变量和的研究，从而优雅地推导出其渐近正态分布。

好的，接下来我们学习词条：随机变量的变换的von Mises展开我将为你循序渐进地讲解这个概念，确保每一步都清晰易懂。第一步：理解核心目标——函数统计量的渐近分析在统计学中，我们经常需要研究一个依赖于样本的统计量，这个统计量可以看作是关于经验分布函数的一个泛函。例子：样本均值是经验分布函数的一阶矩泛函，样本方差是经验分布函数的二阶中心矩泛函。问题：许多更复杂的统计量（例如，样本中位数、样本分位数、Gini系数、最大似然估计量等）也是经验分布函数的泛函。我们想了解这些统计量在样本量增大时的分布特性（即渐近分布）。 von Mises展开就是一种强大的工具，它将这种复杂的泛函统计量，在“真实”分布函数附近，展开成一个类似泰勒展开的形式，从而将其渐近行为转化为一个我们更熟悉的、线性的统计量问题。第二步：背景知识与关键构件为了理解von Mises展开，我们需要先明确几个基本概念：经验分布函数 (Empirical Distribution Function, EDF) ：对于一个来自总体分布 \(F\) 的独立同分布样本 \(X_ 1, X_ 2, ..., X_ n\)，其经验分布函数 \(F_ n\) 定义为： \[ F_ n(x) = \frac{1}{n} \sum_ {i=1}^{n} I(X_ i \leq x) \] 这里 \(I(\cdot)\) 是指示函数。\(F_ n(x)\) 是随机函数，它在每个点 \(x\) 给出了样本中不超过 \(x\) 的比例。由格利文科-坎泰利定理可知，\(F_ n\) 一致地收敛到真实的 \(F\)。统计泛函 (Statistical Functional) ：一个统计泛函 \(T\) 是一个将分布函数映射到实数的规则。例如：均值泛函： \(T(F) = \int x \, dF(x)\) 方差泛函： \(T(F) = \int (x - T(F))^2 \, dF(x)\) 中位数泛函： \(T(F) = F^{-1}(0.5)\) 当我们把样本的经验分布函数 \(F_ n\) 代入泛函 \(T\)，就得到了对应的样本统计量 \(T(F_ n)\)。 Hadamard导数 (或Frechet/Gateaux导数) ：这是将微积分中“导数”的概念推广到函数空间（如所有分布函数构成的空间）。它衡量当输入分布 \(F\) 发生一个微小扰动 \(H\) 时，泛函 \(T\) 的输出如何变化。形式上，如果存在一个线性泛函 \(dT_ F(\cdot)\)，使得对于某个“方向” \(H\)，有： \[ T(F + tH) - T(F) = t \cdot dT_ F(H) + o(t) \quad (t \to 0) \] 那么，\(dT_ F(H)\) 就称为 \(T\) 在 \(F\) 处沿方向 \(H\) 的一阶导数。这个线性泛函是整个展开的核心。第三步：von Mises展开的形式与推导思路现在，我们考虑统计量 \(T(F_ n)\)。我们想将它围绕真实分布 \(F\) 展开。类比泰勒展开：回忆一元函数的泰勒展开：\(f(x) \approx f(a) + f'(a)(x-a) + \frac{1}{2}f''(a)(x-a)^2 + ...\) 我们把 \(F_ n\) 看作“变量”，\(F\) 看作“展开点”。那么很自然地，我们希望有： \[ T(F_ n) \approx T(F) + dT_ F(F_ n - F) + \text{高阶项} \] 这里 \(F_ n - F\) 就是“变化的方向”，而 \(dT_ F(F_ n - F)\) 是导数在这个方向上的取值。一阶von Mises展开：在合适的正则性条件下（主要是泛函 \(T\) 在 \(F\) 处是Hadamard可微的），我们有： \[ T(F_ n) = T(F) + dT_ F(F_ n - F) + R_ n \] 其中 \(R_ n\) 是余项，通常满足 \(\sqrt{n} R_ n \xrightarrow{P} 0\)（依概率收敛到0）。影响函数 (Influence Function) 的连接：线性泛函 \(dT_ F(\cdot)\) 有一个极其重要的具体形式。可以证明，对于很多统计泛函，存在一个函数 \(\phi_ F(x)\)，使得对于任何“扰动” \(H\)，有： \[ dT_ F(H) = \int \phi_ F(x) \, dH(x) \] 这个函数 \(\phi_ F(x)\) 就称为泛函 \(T\) 在分布 \(F\) 下的影响函数。它衡量了在样本中增加一个观测点 \(x\) 对统计量 \(T\) 的无穷小影响。将 \(H = F_ n - F\) 代入，并利用 \(dH = dF_ n - dF\)，我们得到关键的一步： \[ dT_ F(F_ n - F) = \int \phi_ F(x) \, d(F_ n - F)(x) = \frac{1}{n} \sum_ {i=1}^{n} \phi_ F(X_ i) - \mathbb{E}_ F[ \phi_ F(X) ] \] 注意，\(\mathbb{E}_ F[ \phi_ F(X) ]\) 通常为0（这是影响函数的一个常见性质）。第四步：得出渐近正态性结论将上述结果代入一阶von Mises展开式： \[ T(F_ n) = T(F) + \frac{1}{n} \sum_ {i=1}^{n} \phi_ F(X_ i) + R_ n \] 两边同时乘以 \(\sqrt{n}\)： \[ \sqrt{n} \left( T(F_ n) - T(F) \right) = \frac{1}{\sqrt{n}} \sum_ {i=1}^{n} \phi_ F(X_ i) + \sqrt{n} R_ n \] 等式右边第一项是一个独立同分布随机变量（即 \(\phi_ F(X_ i)\) ）的和。根据中心极限定理，它依分布收敛到一个正态分布：\(N(0, \text{Var}_ F(\phi_ F(X)))\)。由于 \(\sqrt{n} R_ n \xrightarrow{P} 0\)，根据 Slutsky定理，整个表达式 \(\sqrt{n} \left( T(F_ n) - T(F) \right)\) 的渐近分布与第一项相同。因此，我们得到了核心结论： \[ \sqrt{n} \left( T(F_ n) - T(F) \right) \xrightarrow{d} N\left(0, \sigma^2(T, F)\right) \] 其中，渐近方差 \(\sigma^2(T, F) = \text{Var}_ F(\phi_ F(X)) = \mathbb{E}_ F[ \phi_ F(X)^2 ]\)。第五步：举例说明——样本均值让我们用最简单的例子来验证整个过程。泛函： \(T(F) = \int x \, dF(x)\)。影响函数：考虑在 \(F\) 处增加一个质量为 \(\epsilon\) 的点质量 \(\delta_ x\)（即在 \(x\) 处），得到混合分布 \(F_ \epsilon = (1-\epsilon)F + \epsilon \delta_ x\)。则： \[ T(F_ \epsilon) = \int y \, dF_ \epsilon(y) = (1-\epsilon)T(F) + \epsilon x \] \[ \phi_ F(x) = \lim_ {\epsilon \to 0} \frac{T(F_ \epsilon) - T(F)}{\epsilon} = \lim_ {\epsilon \to 0} \frac{-\epsilon T(F) + \epsilon x}{\epsilon} = x - T(F) \] 代入von Mises展开： \[ T(F_ n) = T(F) + \frac{1}{n} \sum_ {i=1}^{n} (X_ i - T(F)) + R_ n = \frac{1}{n} \sum_ {i=1}^{n} X_ i + R_ n \] 显然这里 \(T(F_ n) = \bar{X}\)，而余项 \(R_ n = 0\)。展开是精确的，因为均值泛函是线性的。渐近方差： \(\sigma^2 = \text{Var}(X - \mathbb{E}X) = \text{Var}(X)\)。结论就是大家熟知的样本均值的中心极限定理。第六步：意义与应用总结统一框架：von Mises展开为一大类统计量（M估计量、L估计量等）的渐近正态性提供了一个统一的理论框架。只要你能计算出该统计量对应泛函的影响函数，其渐近方差就立刻由影响函数的方差给出。稳健统计：影响函数的大小直接反映了统计量对异常值的敏感度，这是稳健统计学的理论基础。影响函数有界的统计量对异常值更稳健。方差估计：可以用样本影响函数 \(\phi_ {F_ n}(X_ i)\) 的样本方差来估计 \(\sigma^2\)，这为复杂统计量的标准误估计提供了方法（例如刀切法和自助法在理论上是与此相通的）。高阶展开：类似于泰勒展开，也可以进行二阶甚至更高阶的von Mises展开，用于研究更精细的渐近性质，如偏差修正等。总而言之，随机变量的变换的von Mises展开是一种将非线性泛函统计量在其理论值附近线性化的强大工具，它通过影响函数这个桥梁，将复杂统计量的渐近分析问题，转化为对一组独立同分布随机变量和的研究，从而优雅地推导出其渐近正态分布。