随机变量的变换的Bahadur-Kiefer表示
首先,我们从一个直观的问题开始。在统计学中,经验分布函数是一个极其重要的工具,它用我们收集到的样本数据来近似真实的、未知的总体分布。经验分布函数 是理解 Bahadur-Kiefer 表示的基础。对于一组独立同分布的样本 \(X_1, X_2, \ldots, X_n\),经验分布函数 \(F_n(x)\) 定义为小于等于 \(x\) 的样本所占的比例,即 \(F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \le x)\)。其中 \(I(\cdot)\) 是示性函数。当样本量 \(n\) 增大时,根据格里文科-坎泰利定理,\(F_n\) 会一致地收敛到真实的分布函数 \(F\)。
然而,仅仅知道收敛是不够的。统计学家关心收敛的速度有多快,以及经验过程(即 \(F_n\) 与 \(F\) 的偏差过程)的精细结构。这就引入了经验过程的概念。我们考虑一个中心化并缩放后的过程:\(R_n(x) = \sqrt{n}(F_n(x) - F(x))\)。这个过程是统计学中许多极限定理和检验(如 Kolmogorov-Smirnov 检验)的核心。\(R_n(x)\) 本身收敛到一个称为布朗桥的高斯过程。
现在,考虑一个统计学中常见的问题:用样本分位数估计总体分位数。第 \(p\) 分位数 \(Q(p)\) 是满足 \(F(Q(p)) \ge p\) 的最小值。自然地,我们可以用经验分布函数的反函数,即经验分位数 \(Q_n(p) = \inf\{x: F_n(x) \ge p\}\) 来估计它。一个重要的问题是:经验分位数 \(Q_n(p)\) 与真实分位数 \(Q(p)\) 之间的偏差有多大?
为了研究这个偏差,一个非常巧妙的工具是Bahadur表示。它是由 Raghu Raj Bahadur 在 1966 年提出的。Bahadur 表示的核心思想是,将经验分位数(一个复杂的、非线性的统计量)线性化,用一个关于经验分布函数的简单线性项加上一个高阶余项来表示。具体来说,对于固定的 \(p \in (0, 1)\),在一定的正则条件下,有:
\[Q_n(p) = Q(p) + \frac{p - F_n(Q(p))}{f(Q(p))} + R_n \]
其中,\(f = F'\) 是概率密度函数,余项 \(R_n = o_p(n^{-1/2})\)。这个表示非常强大,因为它将分位数的估计问题,转化为了我们熟知的、关于经验分布函数在单一点 \(Q(p)\) 处的值的问题。右边的线性项主导了 \(Q_n(p)\) 的渐近正态性。
但是,故事到这里并没有结束。Bahadur 表示给出了 \(Q_n\) 用 \(F_n\) 的表达。一个很自然的问题是:反过来,\(F_n(Q(p))\) 用 \(Q_n(p)\) 表达,会得到什么样的关系?或者说,如果我们考虑经验分位数过程与经验分布函数过程在分位数点附近的联合行为,会有什么更精确的描述?这就是 Kiefer 过程 和 Bahadur-Kiefer 表示 登场的舞台。
J. Kiefer 在 1967 年(紧随 Bahadur 之后)和 1970 年做出了里程碑式的工作。他研究的是经验分位数过程 \(\{\sqrt{n}(Q_n(p) - Q(p)): 0 < p < 1\}\) 和经验分布函数过程 \(\{\sqrt{n}(F_n(x) - F(x)): x \in \mathbb{R}\}\) 之间的一个深刻而精确的渐近关系。他发现的这个关系,现在被称为 Bahadur-Kiefer 表示。
Bahadur-Kiefer 表示可以表述如下。令 \(U\) 是一个服从标准均匀分布的随机变量,\(U_1, \ldots, U_n\) 是独立同分布的样本,其经验分布函数为 \(G_n\)。那么,均匀经验分位数过程 \(R_n^{(1)}(t) = \sqrt{n}(G_n^{-1}(t) - t)\) 和均匀经验过程 \(R_n^{(2)}(t) = \sqrt{n}(G_n(t) - t)\) 之间,存在以下几乎确定的关系:
\[R_n^{(1)}(t) = -R_n^{(2)}(t) + n^{-1/4} L_n(t) \]
其中,余项过程 \(L_n(t)\) 是“慢变化的”。更精确的经典结论是:
\[\sup_{0 \le t \le 1} |R_n^{(1)}(t) + R_n^{(2)}(t)| = O_p(n^{-1/4} (\log n)^{1/2} (\log \log n)^{1/4}) \]
并且这个收敛速率是精确的(在依概率收敛的意义下不能再改进)。这个结果极其引人注目,因为它揭示出,两个一阶收敛速度为 \(O_p(1)\) 的随机过程,它们的和却以更快的速度 \(O_p(n^{-1/4} \cdot \text{多对数因子})\) 收敛到零。这意味着经验分位数过程与(负的)经验过程在极限下并非独立,而是近乎完全“抵消”的。
为了深入理解这个抵消为何发生,以及其极限结构,需要引入 Kiefer 过程。Kiefer 过程 \(K(t, s)\) 是一个中心化的高斯过程,定义在 \([0,1] \times [0, \infty)\) 上,是经验过程极限——布朗桥在时间维度上的独立增量扩展。可以构造概率空间使得经验过程 \(R_n^{(2)}(t)\) 一致地收敛到 Kiefer 过程的时间切片 \(K(t, 1)\)。而 Bahadur-Kiefer 表示本质上反映了,在适当的构造下,经验分位数过程 \(R_n^{(1)}(t)\) 收敛到 \(-K(t, 1)\),并且它们之间的差由 Kiefer 过程的局部二次变差行为所控制。
这个表示具有重要的理论和应用价值:
- 理论价值:它提供了经验分位数过程强逼近的精确工具,是研究分位数过程极限理论、推导其各种模收敛和泛函极限定理的关键基石。
- 应用价值:在构建分位数的置信带、研究各种基于分位数的统计量(如四分位距、中位数绝对偏差)的渐近性质时,Bahadur-Kiefer 表示能提供更精细的近似误差界,比仅使用中心极限定理或 Bahadur 表示更精确。
总结来说,Bahadur-Kiefer 表示 深刻刻画了经验分布函数与经验分位数这两个对偶的、非参数的基本统计量,在极限情况下相互“镜像”的精细关系。它始于对经验分位数线性化(Bahadur表示)的探索,最终在Kiefer的工作中,揭示了两者之差以 \(n^{-1/4}\) 阶收敛这一令人惊讶的精确速率,成为连接经验过程与分位数过程理论的经典桥梁。