顺序统计量的联合渐近分布
字数 4066 2025-12-11 15:27:04

顺序统计量的联合渐近分布

我们来系统性地讲解顺序统计量的联合渐近分布。这是一个连接描述性统计、极值理论和多元极限理论的重要概念。

第一步:从顺序统计量的精确定义开始

首先,我们需要明确基础。设 \(X_1, X_2, \dots, X_n\) 是来自同一总体分布函数 \(F(x)\) 的独立同分布随机变量。将它们按从小到大的顺序排列,得到:

\[X_{(1)} \le X_{(2)} \le \dots \le X_{(n)} \]

其中 \(X_{(k)}\) 被称为第 \(k\) 个顺序统计量。之前我们已讨论过顺序统计量的(精确)联合分布。其核心结论是:若 \(F\) 是连续的,则顺序统计量 \((X_{(1)}, \dots, X_{(n)})\) 的联合概率密度函数在区域 \(x_1 \le x_2 \le \dots \le x_n\) 上为:

\[f_{X_{(1)}, \dots, X_{(n)}}(x_1, \dots, x_n) = n! \prod_{i=1}^{n} f(x_i) \]

其中 \(f\) 是总体概率密度函数。这是精确分布。

第二步:引入“渐近”的动机和核心思想

当样本量 \(n\) 很大时,精确分布表达式可能非常复杂,难以直接使用。我们转而关心:当 \(n \to \infty\) 时,某几个特定的顺序统计量(比如第 \(k_1, k_2, \dots, k_m\) 个)的联合分布会收敛到什么形式?
核心思想是:我们将顺序统计量的“位置”参数化。具体来说,不固定 \(k\),而是固定一个分位数 \(p \in (0,1)\),然后考虑与 \(p\) 对应的第 \(k = \lfloor np \rfloor + 1\) 个顺序统计量 \(X_{(\lfloor np \rfloor + 1)}\)。这个顺序统计量是总体 \(p\) 分位数 \(\xi_p = F^{-1}(p)\) 的一个自然估计。我们研究当 \(n \to \infty\) 时,若干个这样的顺序统计量(对应不同的 \(p\) 值)的联合极限行为。

第三步:核心的标准化与极限定理

\(0 < p_1 < p_2 < \dots < p_m < 1\)\(m\) 个固定的概率。对每个 \(p_j\),令 \(k_{j,n} = \lfloor np_j \rfloor + 1\)。我们考虑 \(m\) 个标准化后的顺序统计量:

\[Y_{j, n} = \sqrt{n} ( X_{(k_{j,n})} - \xi_{p_j} ), \quad j=1, \dots, m \]

其中 \(\xi_{p_j} = F^{-1}(p_j)\) 是总体的 \(p_j\) 分位数。

为了使极限是非退化的,我们需要一个基本的正则性条件:假设总体分布函数 \(F\) 在分位数点 \(\xi_{p_j}\) 处连续可微,且其概率密度函数 \(f(\xi_{p_j}) = F'(\xi_{p_j}) > 0\)

在这些条件下,经典的Bahadur表示(或其相关结论)告诉我们,这 \(m\) 个标准化顺序统计量的联合分布在 \(n \to \infty\) 时,收敛于一个 \(m\) 维的多元正态分布

第四步:极限分布的精确协方差结构

这是理解“联合渐近分布”的关键细节。极限结果是:

\[(Y_{1, n}, \dots, Y_{m, n}) \overset{d}{\to} N_m(\mathbf{0}, \mathbf{\Sigma}) \]

其中 \(N_m(\mathbf{0}, \mathbf{\Sigma})\) 表示均值为零向量、协方差矩阵为 \(\mathbf{\Sigma} = (\sigma_{ij})\)\(m\) 维多元正态分布。

协方差矩阵 \(\mathbf{\Sigma}\) 的元素由下式给出:

\[\sigma_{ij} = \frac{p_i(1-p_j)}{f(\xi_{p_i}) f(\xi_{p_j})}, \quad \text{对于所有 } 1 \le i \le j \le m \]

请注意,当 \(i \le j\) 时,公式中的分子是 \(p_i(1-p_j)\),而不是 \(p_i(1-p_i)\)。这是因为顺序统计量是相关的。特别地,当 \(i = j\) 时,方差为:

\[\sigma_{ii} = \frac{p_i(1-p_i)}{[f(\xi_{p_i})]^2} \]

这与单样本分位数的渐近方差公式一致。当 \(i < j\) 时,协方差为:

\[\sigma_{ij} = \frac{p_i(1-p_j)}{f(\xi_{p_i}) f(\xi_{p_j})} \]

这个非对称的公式反映了顺序统计量自然的次序约束:\(X_{(k_{i,n})} \le X_{(k_{j,n})}\)

第五步:直观理解与一个简单例子

为什么协方差分子是 \(p_i(1-p_j)\) ?我们可以借助经验分布函数 \(F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \le x)\) 来理解。由定义,\(X_{(k)} \le t\) 等价于 \(F_n(t) \ge k/n\)。在分位数点 \(\xi_p\) 附近,有近似关系:

\[X_{(k)} - \xi_p \approx \frac{p - F_n(\xi_p)}{f(\xi_p)} \]

(这是Bahadur表示的核心思想)。因此,两个顺序统计量的协方差,主要由经验过程 \(\sqrt{n}(F_n(\xi_{p_i}) - p_i)\)\(\sqrt{n}(F_n(\xi_{p_j}) - p_j)\) 的协方差决定。而对于经验过程,其协方差为 \(\min(p_i, p_j) - p_i p_j = p_i - p_i p_j = p_i(1-p_j)\) (当 \(p_i \le p_j\) 时)。这就完美解释了极限协方差公式的来源。

举例:考虑中位数和上四分位数。设 \(p_1 = 0.5\) (中位数), \(p_2 = 0.75\) (上四分位数)。假设总体是标准正态分布 \(N(0,1)\)

  • \(\xi_{0.5} = 0, \quad f(0) = 1/\sqrt{2\pi} \approx 0.3989\)
  • \(\xi_{0.75} \approx 0.6745, \quad f(0.6745) \approx 0.3178\)
    那么,标准化后的样本中位数 \(M_n\) 和样本上四分位数 \(Q_n\) 的联合渐近分布是二元正态,协方差矩阵为:

\[\sigma_{11} = \frac{0.5 \times 0.5}{[f(0)]^2} = \frac{0.25}{(0.3989)^2} \approx 1.571 \]

\[ \sigma_{22} = \frac{0.75 \times 0.25}{[f(0.6745)]^2} = \frac{0.1875}{(0.3178)^2} \approx 1.856 \]

\[ \sigma_{12} = \frac{0.5 \times 0.25}{f(0) f(0.6745)} = \frac{0.125}{0.3989 \times 0.3178} \approx 0.987 \]

第六步:重要推论与应用

  1. 分位数的渐近独立性:从协方差公式看,如果两个分位数 \(p_i\)\(p_j\) 对应的密度函数值 \(f(\xi_{p_i})\)\(f(\xi_{p_j})\) 都为正,它们总是相关的,除非在特殊情况下协方差为零。当且仅当 \(p_i\)\(p_j\) 为0或1时(在分布的边界),相关性结构会变化,此时收敛到极值分布,这是极值理论的内容,与本词条讨论的“内部”顺序统计量(\(0)不同。

  2. 构造联合置信区域:此联合渐近分布可用于为多个分位数(如四分位数、中位数)同时构造联合置信域或进行联合假设检验。

  3. Q-Q图的合理性基础:Q-Q图用于比较两个分布,其理论依据之一就是顺序统计量的渐近分布。当比较两个样本是否来自同一分布时,比较的就是它们顺序统计量(分位数)的散点图是否围绕直线 \(y=x\) 分布,而该散点图中点的波动性就由上述渐近协方差结构所描述。

总结
顺序统计量的联合渐近分布揭示了:多个样本分位数(对应固定的概率水平 \(p\))在大样本下,其联合分布收敛于一个多元正态分布。此极限分布的协方差结构具有特定形式 \(\sigma_{ij} = p_i(1-p_j) / [f(\xi_{p_i}) f(\xi_{p_j})]\) (对 \(i \le j\)),它完全由总体分布在对应分位数点的密度值以及概率水平本身决定。这一结果为基于分位数的统计推断(如稳健估计、拟合优度检验、极端风险度量等)提供了坚实的理论基础。

顺序统计量的联合渐近分布 我们来系统性地讲解顺序统计量的联合渐近分布。这是一个连接描述性统计、极值理论和多元极限理论的重要概念。 第一步:从顺序统计量的精确定义开始 首先,我们需要明确基础。设 \( X_ 1, X_ 2, \dots, X_ n \) 是来自同一总体分布函数 \( F(x) \) 的独立同分布随机变量。将它们按从小到大的顺序排列,得到: \[ X_ {(1)} \le X_ {(2)} \le \dots \le X_ {(n)} \] 其中 \( X_ {(k)} \) 被称为第 \( k \) 个顺序统计量。之前我们已讨论过顺序统计量的(精确)联合分布。其核心结论是:若 \( F \) 是连续的,则顺序统计量 \( (X_ {(1)}, \dots, X_ {(n)}) \) 的联合概率密度函数在区域 \( x_ 1 \le x_ 2 \le \dots \le x_ n \) 上为: \[ f_ {X_ {(1)}, \dots, X_ {(n)}}(x_ 1, \dots, x_ n) = n! \prod_ {i=1}^{n} f(x_ i) \] 其中 \( f \) 是总体概率密度函数。这是精确分布。 第二步:引入“渐近”的动机和核心思想 当样本量 \( n \) 很大时,精确分布表达式可能非常复杂,难以直接使用。我们转而关心:当 \( n \to \infty \) 时,某几个特定的顺序统计量(比如第 \( k_ 1, k_ 2, \dots, k_ m \) 个)的联合分布会收敛到什么形式? 核心思想是:我们将顺序统计量的“位置”参数化。具体来说,不固定 \( k \),而是固定一个分位数 \( p \in (0,1) \),然后考虑与 \( p \) 对应的第 \( k = \lfloor np \rfloor + 1 \) 个顺序统计量 \( X_ {(\lfloor np \rfloor + 1)} \)。这个顺序统计量是总体 \( p \) 分位数 \( \xi_ p = F^{-1}(p) \) 的一个自然估计。我们研究当 \( n \to \infty \) 时, 若干个 这样的顺序统计量(对应不同的 \( p \) 值)的联合极限行为。 第三步:核心的标准化与极限定理 设 \( 0 < p_ 1 < p_ 2 < \dots < p_ m < 1 \) 是 \( m \) 个固定的概率。对每个 \( p_ j \),令 \( k_ {j,n} = \lfloor np_ j \rfloor + 1 \)。我们考虑 \( m \) 个标准化后的顺序统计量: \[ Y_ {j, n} = \sqrt{n} ( X_ {(k_ {j,n})} - \xi_ {p_ j} ), \quad j=1, \dots, m \] 其中 \( \xi_ {p_ j} = F^{-1}(p_ j) \) 是总体的 \( p_ j \) 分位数。 为了使极限是非退化的,我们需要一个基本的正则性条件:假设总体分布函数 \( F \) 在分位数点 \( \xi_ {p_ j} \) 处连续可微,且其概率密度函数 \( f(\xi_ {p_ j}) = F'(\xi_ {p_ j}) > 0 \)。 在这些条件下,经典的 Bahadur表示 (或其相关结论)告诉我们,这 \( m \) 个标准化顺序统计量的联合分布在 \( n \to \infty \) 时,收敛于一个 \( m \) 维的 多元正态分布 。 第四步:极限分布的精确协方差结构 这是理解“联合渐近分布”的关键细节。极限结果是: \[ (Y_ {1, n}, \dots, Y_ {m, n}) \overset{d}{\to} N_ m(\mathbf{0}, \mathbf{\Sigma}) \] 其中 \( N_ m(\mathbf{0}, \mathbf{\Sigma}) \) 表示均值为零向量、协方差矩阵为 \( \mathbf{\Sigma} = (\sigma_ {ij}) \) 的 \( m \) 维多元正态分布。 协方差矩阵 \( \mathbf{\Sigma} \) 的元素由下式给出: \[ \sigma_ {ij} = \frac{p_ i(1-p_ j)}{f(\xi_ {p_ i}) f(\xi_ {p_ j})}, \quad \text{对于所有 } 1 \le i \le j \le m \] 请注意,当 \( i \le j \) 时,公式中的分子是 \( p_ i(1-p_ j) \),而不是 \( p_ i(1-p_ i) \)。这是因为顺序统计量是相关的。特别地,当 \( i = j \) 时,方差为: \[ \sigma_ {ii} = \frac{p_ i(1-p_ i)}{[ f(\xi_ {p_ i}) ]^2} \] 这与单样本分位数的渐近方差公式一致。当 \( i < j \) 时,协方差为: \[ \sigma_ {ij} = \frac{p_ i(1-p_ j)}{f(\xi_ {p_ i}) f(\xi_ {p_ j})} \] 这个非对称的公式反映了顺序统计量自然的次序约束:\( X_ {(k_ {i,n})} \le X_ {(k_ {j,n})} \)。 第五步:直观理解与一个简单例子 为什么协方差分子是 \( p_ i(1-p_ j) \) ?我们可以借助 经验分布函数 \( F_ n(x) = \frac{1}{n} \sum_ {i=1}^n I(X_ i \le x) \) 来理解。由定义,\( X_ {(k)} \le t \) 等价于 \( F_ n(t) \ge k/n \)。在分位数点 \( \xi_ p \) 附近,有近似关系: \[ X_ {(k)} - \xi_ p \approx \frac{p - F_ n(\xi_ p)}{f(\xi_ p)} \] (这是Bahadur表示的核心思想)。因此,两个顺序统计量的协方差,主要由经验过程 \( \sqrt{n}(F_ n(\xi_ {p_ i}) - p_ i) \) 和 \( \sqrt{n}(F_ n(\xi_ {p_ j}) - p_ j) \) 的协方差决定。而对于经验过程,其协方差为 \( \min(p_ i, p_ j) - p_ i p_ j = p_ i - p_ i p_ j = p_ i(1-p_ j) \) (当 \( p_ i \le p_ j \) 时)。这就完美解释了极限协方差公式的来源。 举例 :考虑中位数和上四分位数。设 \( p_ 1 = 0.5 \) (中位数), \( p_ 2 = 0.75 \) (上四分位数)。假设总体是标准正态分布 \( N(0,1) \)。 则 \( \xi_ {0.5} = 0, \quad f(0) = 1/\sqrt{2\pi} \approx 0.3989 \)。 \( \xi_ {0.75} \approx 0.6745, \quad f(0.6745) \approx 0.3178 \)。 那么,标准化后的样本中位数 \( M_ n \) 和样本上四分位数 \( Q_ n \) 的联合渐近分布是二元正态,协方差矩阵为: \[ \sigma_ {11} = \frac{0.5 \times 0.5}{[ f(0) ]^2} = \frac{0.25}{(0.3989)^2} \approx 1.571 \] \[ \sigma_ {22} = \frac{0.75 \times 0.25}{[ f(0.6745) ]^2} = \frac{0.1875}{(0.3178)^2} \approx 1.856 \] \[ \sigma_ {12} = \frac{0.5 \times 0.25}{f(0) f(0.6745)} = \frac{0.125}{0.3989 \times 0.3178} \approx 0.987 \] 第六步:重要推论与应用 分位数的渐近独立性 :从协方差公式看,如果两个分位数 \( p_ i \) 和 \( p_ j \) 对应的密度函数值 \( f(\xi_ {p_ i}) \) 和 \( f(\xi_ {p_ j}) \) 都为正,它们总是相关的,除非在特殊情况下协方差为零。当且仅当 \( p_ i \) 或 \( p_ j \) 为0或1时(在分布的边界),相关性结构会变化,此时收敛到极值分布,这是极值理论的内容,与本词条讨论的“内部”顺序统计量(\( 0<p <1 \))不同。 构造联合置信区域 :此联合渐近分布可用于为多个分位数(如四分位数、中位数)同时构造联合置信域或进行联合假设检验。 Q-Q图的合理性基础 :Q-Q图用于比较两个分布,其理论依据之一就是顺序统计量的渐近分布。当比较两个样本是否来自同一分布时,比较的就是它们顺序统计量(分位数)的散点图是否围绕直线 \( y=x \) 分布,而该散点图中点的波动性就由上述渐近协方差结构所描述。 总结 : 顺序统计量的联合渐近分布揭示了:多个样本分位数(对应固定的概率水平 \( p \))在大样本下,其联合分布收敛于一个多元正态分布。此极限分布的协方差结构具有特定形式 \( \sigma_ {ij} = p_ i(1-p_ j) / [ f(\xi_ {p_ i}) f(\xi_ {p_ j}) ] \) (对 \( i \le j \)),它完全由总体分布在对应分位数点的密度值以及概率水平本身决定。这一结果为基于分位数的统计推断(如稳健估计、拟合优度检验、极端风险度量等)提供了坚实的理论基础。