顺序统计量的联合渐近分布
我们来系统性地讲解顺序统计量的联合渐近分布。这是一个连接描述性统计、极值理论和多元极限理论的重要概念。
第一步:从顺序统计量的精确定义开始
首先,我们需要明确基础。设 \(X_1, X_2, \dots, X_n\) 是来自同一总体分布函数 \(F(x)\) 的独立同分布随机变量。将它们按从小到大的顺序排列,得到:
\[X_{(1)} \le X_{(2)} \le \dots \le X_{(n)} \]
其中 \(X_{(k)}\) 被称为第 \(k\) 个顺序统计量。之前我们已讨论过顺序统计量的(精确)联合分布。其核心结论是:若 \(F\) 是连续的,则顺序统计量 \((X_{(1)}, \dots, X_{(n)})\) 的联合概率密度函数在区域 \(x_1 \le x_2 \le \dots \le x_n\) 上为:
\[f_{X_{(1)}, \dots, X_{(n)}}(x_1, \dots, x_n) = n! \prod_{i=1}^{n} f(x_i) \]
其中 \(f\) 是总体概率密度函数。这是精确分布。
第二步:引入“渐近”的动机和核心思想
当样本量 \(n\) 很大时,精确分布表达式可能非常复杂,难以直接使用。我们转而关心:当 \(n \to \infty\) 时,某几个特定的顺序统计量(比如第 \(k_1, k_2, \dots, k_m\) 个)的联合分布会收敛到什么形式?
核心思想是:我们将顺序统计量的“位置”参数化。具体来说,不固定 \(k\),而是固定一个分位数 \(p \in (0,1)\),然后考虑与 \(p\) 对应的第 \(k = \lfloor np \rfloor + 1\) 个顺序统计量 \(X_{(\lfloor np \rfloor + 1)}\)。这个顺序统计量是总体 \(p\) 分位数 \(\xi_p = F^{-1}(p)\) 的一个自然估计。我们研究当 \(n \to \infty\) 时,若干个这样的顺序统计量(对应不同的 \(p\) 值)的联合极限行为。
第三步:核心的标准化与极限定理
设 \(0 < p_1 < p_2 < \dots < p_m < 1\) 是 \(m\) 个固定的概率。对每个 \(p_j\),令 \(k_{j,n} = \lfloor np_j \rfloor + 1\)。我们考虑 \(m\) 个标准化后的顺序统计量:
\[Y_{j, n} = \sqrt{n} ( X_{(k_{j,n})} - \xi_{p_j} ), \quad j=1, \dots, m \]
其中 \(\xi_{p_j} = F^{-1}(p_j)\) 是总体的 \(p_j\) 分位数。
为了使极限是非退化的,我们需要一个基本的正则性条件:假设总体分布函数 \(F\) 在分位数点 \(\xi_{p_j}\) 处连续可微,且其概率密度函数 \(f(\xi_{p_j}) = F'(\xi_{p_j}) > 0\)。
在这些条件下,经典的Bahadur表示(或其相关结论)告诉我们,这 \(m\) 个标准化顺序统计量的联合分布在 \(n \to \infty\) 时,收敛于一个 \(m\) 维的多元正态分布。
第四步:极限分布的精确协方差结构
这是理解“联合渐近分布”的关键细节。极限结果是:
\[(Y_{1, n}, \dots, Y_{m, n}) \overset{d}{\to} N_m(\mathbf{0}, \mathbf{\Sigma}) \]
其中 \(N_m(\mathbf{0}, \mathbf{\Sigma})\) 表示均值为零向量、协方差矩阵为 \(\mathbf{\Sigma} = (\sigma_{ij})\) 的 \(m\) 维多元正态分布。
协方差矩阵 \(\mathbf{\Sigma}\) 的元素由下式给出:
\[\sigma_{ij} = \frac{p_i(1-p_j)}{f(\xi_{p_i}) f(\xi_{p_j})}, \quad \text{对于所有 } 1 \le i \le j \le m \]
请注意,当 \(i \le j\) 时,公式中的分子是 \(p_i(1-p_j)\),而不是 \(p_i(1-p_i)\)。这是因为顺序统计量是相关的。特别地,当 \(i = j\) 时,方差为:
\[\sigma_{ii} = \frac{p_i(1-p_i)}{[f(\xi_{p_i})]^2} \]
这与单样本分位数的渐近方差公式一致。当 \(i < j\) 时,协方差为:
\[\sigma_{ij} = \frac{p_i(1-p_j)}{f(\xi_{p_i}) f(\xi_{p_j})} \]
这个非对称的公式反映了顺序统计量自然的次序约束:\(X_{(k_{i,n})} \le X_{(k_{j,n})}\)。
第五步:直观理解与一个简单例子
为什么协方差分子是 \(p_i(1-p_j)\) ?我们可以借助经验分布函数 \(F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \le x)\) 来理解。由定义,\(X_{(k)} \le t\) 等价于 \(F_n(t) \ge k/n\)。在分位数点 \(\xi_p\) 附近,有近似关系:
\[X_{(k)} - \xi_p \approx \frac{p - F_n(\xi_p)}{f(\xi_p)} \]
(这是Bahadur表示的核心思想)。因此,两个顺序统计量的协方差,主要由经验过程 \(\sqrt{n}(F_n(\xi_{p_i}) - p_i)\) 和 \(\sqrt{n}(F_n(\xi_{p_j}) - p_j)\) 的协方差决定。而对于经验过程,其协方差为 \(\min(p_i, p_j) - p_i p_j = p_i - p_i p_j = p_i(1-p_j)\) (当 \(p_i \le p_j\) 时)。这就完美解释了极限协方差公式的来源。
举例:考虑中位数和上四分位数。设 \(p_1 = 0.5\) (中位数), \(p_2 = 0.75\) (上四分位数)。假设总体是标准正态分布 \(N(0,1)\)。
- 则 \(\xi_{0.5} = 0, \quad f(0) = 1/\sqrt{2\pi} \approx 0.3989\)。
- \(\xi_{0.75} \approx 0.6745, \quad f(0.6745) \approx 0.3178\)。
那么,标准化后的样本中位数 \(M_n\) 和样本上四分位数 \(Q_n\) 的联合渐近分布是二元正态,协方差矩阵为:
\[\sigma_{11} = \frac{0.5 \times 0.5}{[f(0)]^2} = \frac{0.25}{(0.3989)^2} \approx 1.571 \]
\[ \sigma_{22} = \frac{0.75 \times 0.25}{[f(0.6745)]^2} = \frac{0.1875}{(0.3178)^2} \approx 1.856 \]
\[ \sigma_{12} = \frac{0.5 \times 0.25}{f(0) f(0.6745)} = \frac{0.125}{0.3989 \times 0.3178} \approx 0.987 \]
第六步:重要推论与应用
-
分位数的渐近独立性:从协方差公式看,如果两个分位数 \(p_i\) 和 \(p_j\) 对应的密度函数值 \(f(\xi_{p_i})\) 和 \(f(\xi_{p_j})\) 都为正,它们总是相关的,除非在特殊情况下协方差为零。当且仅当 \(p_i\) 或 \(p_j\) 为0或1时(在分布的边界),相关性结构会变化,此时收敛到极值分布,这是极值理论的内容,与本词条讨论的“内部”顺序统计量(\(0
)不同。
-
构造联合置信区域:此联合渐近分布可用于为多个分位数(如四分位数、中位数)同时构造联合置信域或进行联合假设检验。
-
Q-Q图的合理性基础:Q-Q图用于比较两个分布,其理论依据之一就是顺序统计量的渐近分布。当比较两个样本是否来自同一分布时,比较的就是它们顺序统计量(分位数)的散点图是否围绕直线 \(y=x\) 分布,而该散点图中点的波动性就由上述渐近协方差结构所描述。
总结:
顺序统计量的联合渐近分布揭示了:多个样本分位数(对应固定的概率水平 \(p\))在大样本下,其联合分布收敛于一个多元正态分布。此极限分布的协方差结构具有特定形式 \(\sigma_{ij} = p_i(1-p_j) / [f(\xi_{p_i}) f(\xi_{p_j})]\) (对 \(i \le j\)),它完全由总体分布在对应分位数点的密度值以及概率水平本身决定。这一结果为基于分位数的统计推断(如稳健估计、拟合优度检验、极端风险度量等)提供了坚实的理论基础。