顺序统计量的线性组合的渐近分布
我们考虑一个简单但重要的统计量:样本中位数。设 \(X_1, X_2, \dots, X_n\) 是独立同分布的随机变量,其共同分布函数为 \(F(x)\),概率密度函数为 \(f(x)\)(假设存在且连续)。样本中位数定义为样本的顺序统计量 \(X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}\) 中位于中间的那个值,记作 \(M_n\)。具体地:
- 如果 \(n\) 是奇数,\(n=2m+1\),则 \(M_n = X_{(m+1)}\)。
- 如果 \(n\) 是偶数,\(n=2m\),则 \(M_n = (X_{(m)} + X_{(m+1)})/2\)。
第一步:从单个顺序统计量到线性组合
样本中位数是顺序统计量的一个特例,更一般地,我们可以研究顺序统计量的线性组合,其形式为:
\[L_n = \sum_{i=1}^{n} c_{ni} X_{(i)}, \]
其中权重系数 \(\{c_{ni}\}\) 是给定的常数。许多常见的统计量都属于这个范畴,例如:
- 样本分位数:例如,样本 \(p\) 分位数(\(0
)近似为 \(X_{(\lfloor np \rfloor +1)}\),这是只对一个顺序统计量赋予权重1的线性组合。
- L-估计量:一类稳健的统计量,如 Winsorized 均值、切尾均值、Gini 均值差等,都是顺序统计量的线性组合。
我们的目标是研究当样本量 \(n \to \infty\) 时,这类线性组合 \(L_n\) 的渐近分布,即其标准化后的分布收敛于某个极限分布(通常是正态分布)。
第二步:理论基础——分位数函数与中心顺序统计量的渐近正态性 ,即我们考虑的是样本中“中心”部分的顺序统计量。其渐近正态性有如下经典结论: 定理:假设总体分布函数 \(F\) 在总体 \(p\) 分位数 \(\xi_p = F^{-1}(p)\) 处连续可微,且密度 \(f(\xi_p) > 0\)。则有: \[\sqrt{n} (X_{(k)} - \xi_p) \xrightarrow{d} N\left( 0, \frac{p(1-p)}{[f(\xi_p)]^2} \right).
\] 这个结论告诉我们,单个“中心”顺序统计量,在经过以总体分位数 \(\xi_p\) 为中心、以 \(\sqrt{n}\) 为速率的标准化后,是渐近正态的。其渐近方差依赖于 \(p\) 和密度在分位数点的值 \(f(\xi_p)\)。密度越大(数据在分位数点越密集),估计的方差越小。 第三步:线性组合的渐近理论——主项与投影 \[
T(F_n) = \int_0^1 F_n^{-1}(t) J(t) dt,
\] 其中 \(J(t)\) 是一个权重函数,它对应了线性组合中的权重系数 \(\{c_{ni}\}\)。例如,样本均值对应 \(J(t) \equiv 1\),样本 \(p\) 分位数对应 \(J(t)\) 是 \(t=p\) 处的 Dirac 函数。 \[
T(F_n) \approx T(F) + \int IF(x; F) d(F_n - F)(x),
\] 其中 \(IF(x; F)\) 是泛函 \(T\) 在 \(F\) 处的影响函数 (Influence Function)。影响函数度量了在 \(F\) 中加入一个在点 \(x\) 的无穷小观测污染对统计量的影响。 \[
\sqrt{n}[T(F_n) - T(F)] \approx \sqrt{n} \int IF(x; F) dF_n(x) - \sqrt{n} \int IF(x; F) dF(x).
\] 注意到第二项是一个常数(期望),不影响方差。第一项是独立同分布随机变量 \(IF(X_i; F)\) 的样本均值,即 \(\frac{1}{\sqrt{n}} \sum_{i=1}^n IF(X_i; F)\)。 \[
\sqrt{n}[T(F_n) - T(F)] \xrightarrow{d} N\left( 0, E[IF(X; F)^2] \right).
\] \[
IF(x; F, T) = -\int_{-\infty}^{\infty} [I\{y \geq x\} - F(y)] J(F(y)) dy.
\] 第四步:应用实例——样本中位数的渐近分布 \[
IF(x; F, Med) = \frac{\text{sign}(x - \xi_{0.5})}{2f(\xi_{0.5})},
\] 其中 \(\xi_{0.5}\) 是总体中位数,\(\text{sign}(\cdot)\) 是符号函数。 \[
\sqrt{n} (M_n - \xi_{0.5}) \xrightarrow{d} N\left(0, \frac{1}{4 [f(\xi_{0.5})]^2} \right).
\] 这与第二步中单个顺序统计量的渐近正态性定理当 \(p=0.5\) 时的结果完全一致。 第五步:扩展到更一般的线性组合与注意事项 \[
\sigma^2 = \iint_{s < t} J(F(s)) J(F(t)) F(s)[1-F(t)] ds dt.
\] 总结来说,顺序统计量的线性组合的渐近分布理论,通过将统计量视为经验分布函数的泛函,并利用影响函数进行线性化,最终将其渐近分布归结为独立和的形式,从而应用中心极限定理得到正态极限。这为一大类重要的统计量(L-估计量)提供了统一的渐近推断框架。
要研究 \(L_n\) 的渐近性,首先需要理解单个顺序统计量 \(X_{(k)}\) 的渐近分布。设 \(k = k(n)\) 满足 \(k/n \to p \ (0
对于一般的线性组合 \(L_n = \sum c_{ni} X_{(i)}\),其渐近分布的核心思想是将其表示为一个关于经验分布函数 \(F_n\) 的泛函,然后做线性化(即一阶近似)。
进而可以计算出其渐近方差。
将上述一般理论应用于样本中位数 \(M_n\)(作为特例)。
3. 计算渐近方差:
这个表达式可以通过影响函数的方差计算得到。