随机变量的变换的Bahadur渐近展开
我将为你详细讲解这个概念。我们先从最基础的定义开始。
- 起点:什么是统计估计的渐近展开?
在统计学中,当我们有一个依赖于样本量 \(n\) 的统计量(例如样本均值、样本分位数、M估计量等),我们常常关心它在样本量趋于无穷大 (\(n \to \infty\)) 时的行为。最基础的结论通常是渐近正态性:统计量在标准化后收敛于一个标准正态分布。然而,仅知道极限分布有时不够精确,特别是对于有限样本量 \(n\) 时的近似。
渐近展开 就是为了提供更高精度的近似。基本思想是将统计量的分布函数或分位数函数,表示成以 \(1/\sqrt{n}\) 的幂次(或 \(1/n\) 的幂次)展开的级数形式。最常见的展开是 Edgeworth展开,它用标准正态分布函数及其导数(与统计量的累积量有关)来修正正态近似。
- Bahadur渐近展开的特殊性
Bahadur渐近展开是另一类重要的渐近展开,由著名统计学家Raghu Raj Bahadur于1966年引入。它的关注点与Edgeworth展开不同:
- Edgeworth展开:对于一个固定的概率点 \(t\),展开统计量的分布函数 \(P(T_n \le t)\)。
- Bahadur展开:对于一个固定的分布函数值 \(\alpha\)(比如 \(\alpha=0.5\) 对应中位数),展开统计量的样本分位数或更一般的次序统计量所对应的样本量标度。更精确地说,它研究的是样本分位数收敛到总体分位数的速度,并且以一种非常精确的“几乎必然”形式来描述这种接近程度。
- Bahadur展开的核心思想与表达形式
设总体分布函数为 \(F(x)\),其对应的总体 \(\alpha\)-分位数为 \(\xi_\alpha\),即 \(F(\xi_\alpha) = \alpha\)(假设 \(F\) 在 \(\xi_\alpha\) 处连续且严格单调)。
令 \(X_{(1)} \le X_{(2)} \le \dots \le X_{(n)}\) 为来自该总体的次序统计量。样本 \(\alpha\)-分位数通常定义为 \(X_{(\lfloor n\alpha \rfloor)}\) 或类似的插值统计量,记为 \(\hat{\xi}_{\alpha, n}\)。
Bahadur的深刻洞见在于:可以将样本分位数 \(\hat{\xi}_{\alpha, n}\) 与总体分位数 \(\xi_\alpha\) 的偏差,用经验分布函数 \(F_n(x)\) 在 \(\xi_\alpha\) 处的取值来表示。
一个经典的Bahadur表示是:
\[ \hat{\xi}_{\alpha, n} = \xi_\alpha + \frac{\alpha - F_n(\xi_\alpha)}{f(\xi_\alpha)} + R_n \]
其中:
- \(f(x) = F'(x)\) 是总体概率密度函数,假设在 \(\xi_\alpha\) 处 \(f(\xi_\alpha) > 0\)。
- \(F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \le x)\) 是经验分布函数。
- \(R_n\) 是余项。
- 余项 \(R_n\) 的精确刻画
Bahadur展开的威力体现在对余项 \(R_n\) 的精确定量上。Bahadur证明了,在很一般的条件下,这个余项具有如下阶:
\[ R_n = O\left( n^{-3/4} (\log n)^{1/2} \right) \quad \text{almost surely}. \]
这个“几乎必然”的收敛速度是非常强的结论。这意味着,对于几乎所有(以概率1)的样本序列,上述等式成立,并且余项以指定的速率衰减。
将上述表示代入,我们得到Bahadur渐近展开的核心表达式:
\[ \hat{\xi}_{\alpha, n} = \xi_\alpha - \frac{1}{f(\xi_\alpha)} \cdot \frac{1}{n} \sum_{i=1}^n [I(X_i \le \xi_\alpha) - \alpha] + O\left( n^{-3/4} (\log n)^{1/2} \right) \quad \text{a.s.} \]
注意,\(\frac{1}{n} \sum_{i=1}^n [I(X_i \le \xi_\alpha) - \alpha]\) 是一组独立同分布随机变量 \(Y_i = I(X_i \le \xi_\alpha) - \alpha\) 的样本均值,其均值为0,方差为 \(\alpha(1-\alpha)\)。
- 由Bahadur展开导出的重要推论
a. 渐近正态性:从展开式的主项(第二项)可以立即看出:
\[ \sqrt{n} (\hat{\xi}_{\alpha, n} - \xi_\alpha) \stackrel{d}{\to} N\left(0, \frac{\alpha(1-\alpha)}{[f(\xi_\alpha)]^2} \right). \]
这正是样本分位数的经典渐近分布。
b. 强收敛速率(Bahadur-Kiefer表示):将经验过程 \(F_n(x) - F(x)\) 的行为与分位数过程 \(\hat{\xi}_{\alpha, n} - \xi_\alpha\) 的行为联系起来。一个更深入的结果是Bahadur-Kiefer表示,它指出:
\[ \sqrt{n} (\hat{\xi}_{\alpha, n} - \xi_\alpha) + \frac{\sqrt{n} (F_n(\xi_\alpha) - \alpha)}{f(\xi_\alpha)} = O_p(n^{-1/4} (\log n)^{1/2}). \]
这表明,线性表示的主项与样本分位数过程本身,在乘以 \(\sqrt{n}\) 后,其差异以 \(n^{-1/4}\) 的速率衰减。这个结果深刻刻画了经验过程与分位数过程的耦合强度。
- 应用与意义
- 统计推断:Bahadur展开为样本分位数相关的统计推断(如构造置信区间、假设检验)提供了精确的理论基础。它告诉我们,用线性项来近似样本分位数时,误差的阶是多少。
- 稳健统计:分位数(如中位数)是稳健统计量的代表。Bahadur展开为这类稳健估计量的精确有限样本性质分析提供了关键工具。
- 随机过程理论:它是研究分位数过程(Quantile Process) \(\{\sqrt{n}(\hat{\xi}_{\alpha, n} - \xi_\alpha): \alpha \in (0,1)\}\) 的基石。Bahadur展开将分位数过程的复杂分析,部分转化为对更易处理的经验过程的分析。
- 高级渐近理论:Bahadur的工作开创了一种处理复杂统计量渐近展开的范式,即通过将其表示为某个基础过程(如经验过程)的泛函,再研究该泛函的展开。这种方法后来被广泛应用于M估计、Z估计等更广泛的统计量。
总结来说,随机变量的变换的Bahadur渐近展开 是一个深刻的概率论工具,它精确地描述了样本分位数(作为随机变量顺序统计量的函数/变换)如何以“几乎必然”的高阶精度逼近其总体理论值。它不仅仅是一个极限定理,更是一个精细的逼近公式,揭示了经验分布与理论分布之间内在联系的强度,并为基于分位数的统计推断奠定了严格的渐近理论根基。