次序统计量的联合分布
我们来详细学习次序统计量的联合分布。为了确保清晰,我将从最基础的定义开始,逐步深入到其联合分布的推导、形式、特性和应用。
第一步:回顾次序统计量的基本定义
设想我们有一个来自同一分布的、独立同分布 的随机样本 \(X_1, X_2, \ldots, X_n\)。如果我们把这些观测值按照从小到大的顺序重新排列,得到:
\[X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)} \]
那么,\(X_{(k)}\) 就被称为这个样本的第 \(k\) 个次序统计量。其中:
- \(X_{(1)}\) 是最小观测值。
- \(X_{(n)}\) 是最大观测值。
- \(X_{(k)}\) 是第 \(k\) 小的观测值。
理解次序统计量联合分布的关键在于,我们不再孤立地看其中某一个(比如中位数或极值),而是同时考虑多个次序统计量(比如 \(X_{(i)}\) 和 \(X_{(j)}\),其中 \(i < j\))共同取值的概率规律。
第二步:从直观理解到精确描述
假设我们观测到的随机样本来自一个连续型分布,其概率密度函数为 \(f(x)\),累积分布函数为 \(F(x)\)。连续性的假设非常重要,因为这确保了样本值几乎必然各不相同,从而次序是严格递增的,避免了处理相等值带来的复杂性。
现在考虑任意两个次序统计量 \(X_{(i)}\) 和 \(X_{(j)}\),其中 \(1 \le i < j \le n\)。我们想要求它们的联合概率密度函数 \(f_{X_{(i)}, X_{(j)}} (u, v)\)。
推导思路(核心思想):
事件“\(u < X_{(i)} \le u + du\) 且 \(v < X_{(j)} \le v + dv\)”的概率,本质上描述了样本是如何“分配”到几个区间里的。这个过程可以分解为以下多重组合计数问题:
- 在 \(n\) 个独立观测值中,我们需要:
- 1个观测值落在以 \(u\) 为中心的无穷小区间 \((u, u+du]\) 内(这将成为第 \(i\) 个次序统计量 \(X_{(i)}\))。
- 1个观测值落在以 \(v\) 为中心的无穷小区间 \((v, v+dv]\) 内(这将成为第 \(j\) 个次序统计量 \(X_{(j)}\))。
- 由于次序已定,必须满足 \(u < v\)。
- 除了这两个特定的观测值,剩余的 \(n-2\) 个观测值必须分布在三个由 \(u\) 和 \(v\) 分割出的区间内,并且要满足次序统计量的定义:
- 必须有 \(i-1\) 个观测值小于 \(u\)(它们会成为 \(X_{(1)}, \ldots, X_{(i-1)}\))。
- 必须有 \(j-i-1\) 个观测值严格落在 \(u\) 和 \(v\) 之间(它们会成为 \(X_{(i+1)}, \ldots, X_{(j-1)}\))。
- 剩余的 \(n-j\) 个观测值必须大于 \(v\)(它们会成为 \(X_{(j+1)}, \ldots, X_{(n)}\))。
第三步:推导联合密度公式
根据上述组合思想,我们可以将概率写为:
\[\begin{aligned} &P(u < X_{(i)} \le u+du, \; v < X_{(j)} \le v+dv) \\ &= \frac{n!}{(i-1)! \cdot 1! \cdot (j-i-1)! \cdot 1! \cdot (n-j)!} \\ &\quad \times [F(u)]^{i-1} \quad &\text{(小于 $ u $ 的观测值数量及概率)} \\ &\quad \times [f(u)du] \quad &\text{(第 $ i $ 个次序统计量本身的概率)} \\ &\quad \times [F(v)-F(u)]^{j-i-1} \quad &\text{(在 $ u, v $ 之间的观测值数量及概率)} \\ &\quad \times [f(v)dv] \quad &\text{(第 $ j $ 个次序统计量本身的概率)} \\ &\quad \times [1-F(v)]^{n-j} \quad &\text{(大于 $ v $ 的观测值数量及概率)} \end{aligned} \]
其中,开头的多重组合系数 \(\frac{n!}{(i-1)!1!(j-i-1)!1!(n-j)!}\) 计算了将 \(n\) 个观测值分配到所述五个类别(即:小于u的个数,等于X_{(i)}的1个,u和v之间的个数,等于X_{(j)}的1个,大于v的个数)的所有可能排列方式。由于样本是独立同分布的,每一种特定的分配方式(即指定哪些观测值落入哪个区间)的概率是相同的,所以乘以这个组合数。
将上述表达式中的 \(du\) 和 \(dv\) 移到左边,就得到了联合概率密度函数:
\[\boxed{f_{X_{(i)}, X_{(j)}} (u, v) = \frac{n!}{(i-1)!(j-i-1)!(n-j)!} [F(u)]^{i-1} f(u) [F(v)-F(u)]^{j-i-1} f(v) [1-F(v)]^{n-j}} \]
其中,定义域为 \(-\infty < u < v < \infty\)。当 \(u \ge v\) 时,密度为0。
第四步:公式的解读与推广
- 多项分布形式:这个公式本质上是一个三项分布(区间为 \((-∞, u]\), \((u, v]\), \((v, ∞)\))的连续化版本,再乘上两个边界点(次序统计量本身)的密度 \(f(u)f(v)\),并乘以所有可能的排列数。
- 扩展到任意维数:这个思路可以推广到任意 \(k\) 个次序统计量的联合分布。例如,对于 \(X_{(r_1)}, X_{(r_2)}, \ldots, X_{(r_k)}\) (其中 \(1 \le r_1 < r_2 < \ldots < r_k \le n\)),其联合密度公式具有类似的形式,但分割的区间更多,组合系数也更复杂。
- 特殊情形:
- 当 \(i=1, j=n\) 时,我们就得到了样本极差(最大值与最小值)的联合分布。
- 当 \(j = i+1\) 时,公式中的 \([F(v)-F(u)]^{j-i-1} = 1\),得到的是相邻次序统计量的联合分布。
第五步:应用举例
- 计算次序统计量的协方差和相关性:利用上述联合密度,可以通过二重积分计算 \(E[X_{(i)}X_{(j)}]\),进而求得 \(\operatorname{Cov}(X_{(i)}, X_{(j)})\) 和 \(\operatorname{Corr}(X_{(i)}, X_{(j)})\)。这对于理解样本中不同次序位置统计量之间的依赖关系至关重要。
- 推导单个次序统计量的边际分布:对联合密度 \(f_{X_{(i)}, X_{(j)}} (u, v)\) 关于 \(v\) 积分(从 \(u\) 到 \(∞\)),可以得到 \(X_{(i)}\) 的边际分布密度。这提供了一种推导验证的途径,结果应与熟知的公式 \(f_{X_{(i)}}(x) = \frac{n!}{(i-1)!(n-i)!} [F(x)]^{i-1} [1-F(x)]^{n-i} f(x)\) 一致。
- 在非参数统计和稳健统计中的应用:许多稳健估计量(如截尾均值、中位数、四分位数间距)都是次序统计量的函数。了解它们的联合分布是分析这些估计量性质(如方差、偏差)的基础。
- 构建统计容忍区间:次序统计量常用于构造总体百分位数的非参数置信区间或容忍区间。例如,\((X_{(r)}, X_{(s)})\) 可以作为一个置信区间,其置信水平可以通过次序统计量的联合分布计算出来。
总结来说,次序统计量的联合分布公式完美地体现了组合概率思想在连续分布下的应用,它将样本的随机性、排序的确定性以及分布函数的信息紧密结合起来,是深入理解样本结构、进行非参数推断和稳健分析的基石。