顺序统计量的联合渐近分布

字数 4066 2025-12-11 15:27:04

顺序统计量的联合渐近分布

我们来系统性地讲解顺序统计量的联合渐近分布。这是一个连接描述性统计、极值理论和多元极限理论的重要概念。

第一步：从顺序统计量的精确定义开始

首先，我们需要明确基础。设 \(X_1, X_2, \dots, X_n\) 是来自同一总体分布函数 \(F(x)\) 的独立同分布随机变量。将它们按从小到大的顺序排列，得到：

\[X_{(1)} \le X_{(2)} \le \dots \le X_{(n)} \]

其中 \(X_{(k)}\) 被称为第 \(k\) 个顺序统计量。之前我们已讨论过顺序统计量的（精确）联合分布。其核心结论是：若 \(F\) 是连续的，则顺序统计量 \((X_{(1)}, \dots, X_{(n)})\) 的联合概率密度函数在区域 \(x_1 \le x_2 \le \dots \le x_n\) 上为：

\[f_{X_{(1)}, \dots, X_{(n)}}(x_1, \dots, x_n) = n! \prod_{i=1}^{n} f(x_i) \]

其中 \(f\) 是总体概率密度函数。这是精确分布。

第二步：引入“渐近”的动机和核心思想

当样本量 \(n\) 很大时，精确分布表达式可能非常复杂，难以直接使用。我们转而关心：当 \(n \to \infty\) 时，某几个特定的顺序统计量（比如第 \(k_1, k_2, \dots, k_m\) 个）的联合分布会收敛到什么形式？
核心思想是：我们将顺序统计量的“位置”参数化。具体来说，不固定 \(k\)，而是固定一个分位数 \(p \in (0,1)\)，然后考虑与 \(p\) 对应的第 \(k = \lfloor np \rfloor + 1\) 个顺序统计量 \(X_{(\lfloor np \rfloor + 1)}\)。这个顺序统计量是总体 \(p\) 分位数 \(\xi_p = F^{-1}(p)\) 的一个自然估计。我们研究当 \(n \to \infty\) 时，若干个这样的顺序统计量（对应不同的 \(p\) 值）的联合极限行为。

第三步：核心的标准化与极限定理

设 \(0 < p_1 < p_2 < \dots < p_m < 1\) 是 \(m\) 个固定的概率。对每个 \(p_j\)，令 \(k_{j,n} = \lfloor np_j \rfloor + 1\)。我们考虑 \(m\) 个标准化后的顺序统计量：

\[Y_{j, n} = \sqrt{n} ( X_{(k_{j,n})} - \xi_{p_j} ), \quad j=1, \dots, m \]

其中 \(\xi_{p_j} = F^{-1}(p_j)\) 是总体的 \(p_j\) 分位数。

为了使极限是非退化的，我们需要一个基本的正则性条件：假设总体分布函数 \(F\) 在分位数点 \(\xi_{p_j}\) 处连续可微，且其概率密度函数 \(f(\xi_{p_j}) = F'(\xi_{p_j}) > 0\)。

在这些条件下，经典的Bahadur表示（或其相关结论）告诉我们，这 \(m\) 个标准化顺序统计量的联合分布在 \(n \to \infty\) 时，收敛于一个 \(m\) 维的多元正态分布。

第四步：极限分布的精确协方差结构

这是理解“联合渐近分布”的关键细节。极限结果是：

\[(Y_{1, n}, \dots, Y_{m, n}) \overset{d}{\to} N_m(\mathbf{0}, \mathbf{\Sigma}) \]

其中 \(N_m(\mathbf{0}, \mathbf{\Sigma})\) 表示均值为零向量、协方差矩阵为 \(\mathbf{\Sigma} = (\sigma_{ij})\) 的 \(m\) 维多元正态分布。

协方差矩阵 \(\mathbf{\Sigma}\) 的元素由下式给出：

\[\sigma_{ij} = \frac{p_i(1-p_j)}{f(\xi_{p_i}) f(\xi_{p_j})}, \quad \text{对于所有 } 1 \le i \le j \le m \]

请注意，当 \(i \le j\) 时，公式中的分子是 \(p_i(1-p_j)\)，而不是 \(p_i(1-p_i)\)。这是因为顺序统计量是相关的。特别地，当 \(i = j\) 时，方差为：

\[\sigma_{ii} = \frac{p_i(1-p_i)}{[f(\xi_{p_i})]^2} \]

这与单样本分位数的渐近方差公式一致。当 \(i < j\) 时，协方差为：

\[\sigma_{ij} = \frac{p_i(1-p_j)}{f(\xi_{p_i}) f(\xi_{p_j})} \]

这个非对称的公式反映了顺序统计量自然的次序约束：\(X_{(k_{i,n})} \le X_{(k_{j,n})}\)。

第五步：直观理解与一个简单例子

为什么协方差分子是 \(p_i(1-p_j)\) ？我们可以借助经验分布函数 \(F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \le x)\) 来理解。由定义，\(X_{(k)} \le t\) 等价于 \(F_n(t) \ge k/n\)。在分位数点 \(\xi_p\) 附近，有近似关系：

\[X_{(k)} - \xi_p \approx \frac{p - F_n(\xi_p)}{f(\xi_p)} \]

（这是Bahadur表示的核心思想）。因此，两个顺序统计量的协方差，主要由经验过程 \(\sqrt{n}(F_n(\xi_{p_i}) - p_i)\) 和 \(\sqrt{n}(F_n(\xi_{p_j}) - p_j)\) 的协方差决定。而对于经验过程，其协方差为 \(\min(p_i, p_j) - p_i p_j = p_i - p_i p_j = p_i(1-p_j)\) （当 \(p_i \le p_j\) 时）。这就完美解释了极限协方差公式的来源。

举例：考虑中位数和上四分位数。设 \(p_1 = 0.5\) (中位数)， \(p_2 = 0.75\) (上四分位数)。假设总体是标准正态分布 \(N(0,1)\)。

则 \(\xi_{0.5} = 0, \quad f(0) = 1/\sqrt{2\pi} \approx 0.3989\)。
\(\xi_{0.75} \approx 0.6745, \quad f(0.6745) \approx 0.3178\)。
那么，标准化后的样本中位数 \(M_n\) 和样本上四分位数 \(Q_n\) 的联合渐近分布是二元正态，协方差矩阵为：

\[\sigma_{11} = \frac{0.5 \times 0.5}{[f(0)]^2} = \frac{0.25}{(0.3989)^2} \approx 1.571 \]

\[ \sigma_{22} = \frac{0.75 \times 0.25}{[f(0.6745)]^2} = \frac{0.1875}{(0.3178)^2} \approx 1.856 \]

\[ \sigma_{12} = \frac{0.5 \times 0.25}{f(0) f(0.6745)} = \frac{0.125}{0.3989 \times 0.3178} \approx 0.987 \]

第六步：重要推论与应用

分位数的渐近独立性：从协方差公式看，如果两个分位数 \(p_i\) 和 \(p_j\) 对应的密度函数值 \(f(\xi_{p_i})\) 和 \(f(\xi_{p_j})\) 都为正，它们总是相关的，除非在特殊情况下协方差为零。当且仅当 \(p_i\) 或 \(p_j\) 为0或1时（在分布的边界），相关性结构会变化，此时收敛到极值分布，这是极值理论的内容，与本词条讨论的“内部”顺序统计量（\(0）不同。
构造联合置信区域：此联合渐近分布可用于为多个分位数（如四分位数、中位数）同时构造联合置信域或进行联合假设检验。
Q-Q图的合理性基础：Q-Q图用于比较两个分布，其理论依据之一就是顺序统计量的渐近分布。当比较两个样本是否来自同一分布时，比较的就是它们顺序统计量（分位数）的散点图是否围绕直线 \(y=x\) 分布，而该散点图中点的波动性就由上述渐近协方差结构所描述。

总结：
顺序统计量的联合渐近分布揭示了：多个样本分位数（对应固定的概率水平 \(p\)）在大样本下，其联合分布收敛于一个多元正态分布。此极限分布的协方差结构具有特定形式 \(\sigma_{ij} = p_i(1-p_j) / [f(\xi_{p_i}) f(\xi_{p_j})]\) （对 \(i \le j\)），它完全由总体分布在对应分位数点的密度值以及概率水平本身决定。这一结果为基于分位数的统计推断（如稳健估计、拟合优度检验、极端风险度量等）提供了坚实的理论基础。

顺序统计量的联合渐近分布我们来系统性地讲解顺序统计量的联合渐近分布。这是一个连接描述性统计、极值理论和多元极限理论的重要概念。第一步：从顺序统计量的精确定义开始首先，我们需要明确基础。设 \( X_ 1, X_ 2, \dots, X_ n \) 是来自同一总体分布函数 \( F(x) \) 的独立同分布随机变量。将它们按从小到大的顺序排列，得到： \[ X_ {(1)} \le X_ {(2)} \le \dots \le X_ {(n)} \] 其中 \( X_ {(k)} \) 被称为第 \( k \) 个顺序统计量。之前我们已讨论过顺序统计量的（精确）联合分布。其核心结论是：若 \( F \) 是连续的，则顺序统计量 \( (X_ {(1)}, \dots, X_ {(n)}) \) 的联合概率密度函数在区域 \( x_ 1 \le x_ 2 \le \dots \le x_ n \) 上为： \[ f_ {X_ {(1)}, \dots, X_ {(n)}}(x_ 1, \dots, x_ n) = n! \prod_ {i=1}^{n} f(x_ i) \] 其中 \( f \) 是总体概率密度函数。这是精确分布。第二步：引入“渐近”的动机和核心思想当样本量 \( n \) 很大时，精确分布表达式可能非常复杂，难以直接使用。我们转而关心：当 \( n \to \infty \) 时，某几个特定的顺序统计量（比如第 \( k_ 1, k_ 2, \dots, k_ m \) 个）的联合分布会收敛到什么形式？核心思想是：我们将顺序统计量的“位置”参数化。具体来说，不固定 \( k \)，而是固定一个分位数 \( p \in (0,1) \)，然后考虑与 \( p \) 对应的第 \( k = \lfloor np \rfloor + 1 \) 个顺序统计量 \( X_ {(\lfloor np \rfloor + 1)} \)。这个顺序统计量是总体 \( p \) 分位数 \( \xi_ p = F^{-1}(p) \) 的一个自然估计。我们研究当 \( n \to \infty \) 时，若干个这样的顺序统计量（对应不同的 \( p \) 值）的联合极限行为。第三步：核心的标准化与极限定理设 \( 0 < p_ 1 < p_ 2 < \dots < p_ m < 1 \) 是 \( m \) 个固定的概率。对每个 \( p_ j \)，令 \( k_ {j,n} = \lfloor np_ j \rfloor + 1 \)。我们考虑 \( m \) 个标准化后的顺序统计量： \[ Y_ {j, n} = \sqrt{n} ( X_ {(k_ {j,n})} - \xi_ {p_ j} ), \quad j=1, \dots, m \] 其中 \( \xi_ {p_ j} = F^{-1}(p_ j) \) 是总体的 \( p_ j \) 分位数。为了使极限是非退化的，我们需要一个基本的正则性条件：假设总体分布函数 \( F \) 在分位数点 \( \xi_ {p_ j} \) 处连续可微，且其概率密度函数 \( f(\xi_ {p_ j}) = F'(\xi_ {p_ j}) > 0 \)。在这些条件下，经典的 Bahadur表示（或其相关结论）告诉我们，这 \( m \) 个标准化顺序统计量的联合分布在 \( n \to \infty \) 时，收敛于一个 \( m \) 维的多元正态分布。第四步：极限分布的精确协方差结构这是理解“联合渐近分布”的关键细节。极限结果是： \[ (Y_ {1, n}, \dots, Y_ {m, n}) \overset{d}{\to} N_ m(\mathbf{0}, \mathbf{\Sigma}) \] 其中 \( N_ m(\mathbf{0}, \mathbf{\Sigma}) \) 表示均值为零向量、协方差矩阵为 \( \mathbf{\Sigma} = (\sigma_ {ij}) \) 的 \( m \) 维多元正态分布。协方差矩阵 \( \mathbf{\Sigma} \) 的元素由下式给出： \[ \sigma_ {ij} = \frac{p_ i(1-p_ j)}{f(\xi_ {p_ i}) f(\xi_ {p_ j})}, \quad \text{对于所有 } 1 \le i \le j \le m \] 请注意，当 \( i \le j \) 时，公式中的分子是 \( p_ i(1-p_ j) \)，而不是 \( p_ i(1-p_ i) \)。这是因为顺序统计量是相关的。特别地，当 \( i = j \) 时，方差为： \[ \sigma_ {ii} = \frac{p_ i(1-p_ i)}{[ f(\xi_ {p_ i}) ]^2} \] 这与单样本分位数的渐近方差公式一致。当 \( i < j \) 时，协方差为： \[ \sigma_ {ij} = \frac{p_ i(1-p_ j)}{f(\xi_ {p_ i}) f(\xi_ {p_ j})} \] 这个非对称的公式反映了顺序统计量自然的次序约束：\( X_ {(k_ {i,n})} \le X_ {(k_ {j,n})} \)。第五步：直观理解与一个简单例子为什么协方差分子是 \( p_ i(1-p_ j) \) ？我们可以借助经验分布函数 \( F_ n(x) = \frac{1}{n} \sum_ {i=1}^n I(X_ i \le x) \) 来理解。由定义，\( X_ {(k)} \le t \) 等价于 \( F_ n(t) \ge k/n \)。在分位数点 \( \xi_ p \) 附近，有近似关系： \[ X_ {(k)} - \xi_ p \approx \frac{p - F_ n(\xi_ p)}{f(\xi_ p)} \] （这是Bahadur表示的核心思想）。因此，两个顺序统计量的协方差，主要由经验过程 \( \sqrt{n}(F_ n(\xi_ {p_ i}) - p_ i) \) 和 \( \sqrt{n}(F_ n(\xi_ {p_ j}) - p_ j) \) 的协方差决定。而对于经验过程，其协方差为 \( \min(p_ i, p_ j) - p_ i p_ j = p_ i - p_ i p_ j = p_ i(1-p_ j) \) （当 \( p_ i \le p_ j \) 时）。这就完美解释了极限协方差公式的来源。举例：考虑中位数和上四分位数。设 \( p_ 1 = 0.5 \) (中位数)， \( p_ 2 = 0.75 \) (上四分位数)。假设总体是标准正态分布 \( N(0,1) \)。则 \( \xi_ {0.5} = 0, \quad f(0) = 1/\sqrt{2\pi} \approx 0.3989 \)。 \( \xi_ {0.75} \approx 0.6745, \quad f(0.6745) \approx 0.3178 \)。那么，标准化后的样本中位数 \( M_ n \) 和样本上四分位数 \( Q_ n \) 的联合渐近分布是二元正态，协方差矩阵为： \[ \sigma_ {11} = \frac{0.5 \times 0.5}{[ f(0) ]^2} = \frac{0.25}{(0.3989)^2} \approx 1.571 \] \[ \sigma_ {22} = \frac{0.75 \times 0.25}{[ f(0.6745) ]^2} = \frac{0.1875}{(0.3178)^2} \approx 1.856 \] \[ \sigma_ {12} = \frac{0.5 \times 0.25}{f(0) f(0.6745)} = \frac{0.125}{0.3989 \times 0.3178} \approx 0.987 \] 第六步：重要推论与应用分位数的渐近独立性：从协方差公式看，如果两个分位数 \( p_ i \) 和 \( p_ j \) 对应的密度函数值 \( f(\xi_ {p_ i}) \) 和 \( f(\xi_ {p_ j}) \) 都为正，它们总是相关的，除非在特殊情况下协方差为零。当且仅当 \( p_ i \) 或 \( p_ j \) 为0或1时（在分布的边界），相关性结构会变化，此时收敛到极值分布，这是极值理论的内容，与本词条讨论的“内部”顺序统计量（\( 0<p <1 \)）不同。构造联合置信区域：此联合渐近分布可用于为多个分位数（如四分位数、中位数）同时构造联合置信域或进行联合假设检验。 Q-Q图的合理性基础：Q-Q图用于比较两个分布，其理论依据之一就是顺序统计量的渐近分布。当比较两个样本是否来自同一分布时，比较的就是它们顺序统计量（分位数）的散点图是否围绕直线 \( y=x \) 分布，而该散点图中点的波动性就由上述渐近协方差结构所描述。总结：顺序统计量的联合渐近分布揭示了：多个样本分位数（对应固定的概率水平 \( p \)）在大样本下，其联合分布收敛于一个多元正态分布。此极限分布的协方差结构具有特定形式 \( \sigma_ {ij} = p_ i(1-p_ j) / [ f(\xi_ {p_ i}) f(\xi_ {p_ j}) ] \) （对 \( i \le j \)），它完全由总体分布在对应分位数点的密度值以及概率水平本身决定。这一结果为基于分位数的统计推断（如稳健估计、拟合优度检验、极端风险度量等）提供了坚实的理论基础。