随机变量的变换的Dvoretzky–Kiefer–Wolfowitz 不等式
好的,我们来系统地学习这个概念。这是一个描述经验分布函数均匀收敛到真实分布函数的速率的重要不等式,是统计理论,特别是非参数统计和渐近理论的基石之一。
首先,我们从最基础的概念开始构建。
第一步:核心研究对象——经验分布函数
- 定义:假设我们有一个独立同分布的随机样本 \(X_1, X_2, \dots, X_n\),它们都来自一个未知的、共同的累积分布函数。这个CDF记作 \(F(x) = P(X \le x)\),它完整地描述了这个随机变量的概率行为。
- 目标:我们的目标是从有限的样本 \(X_1, \dots, X_n\) 中,去估计这个未知的真实分布函数 \(F(x)\)。
- 构造估计量:一个非常直观且自然的估计量是经验分布函数。它的构造思想是“用频率估计概率”。
- 对于任何一个给定的实数 \(x\),我们去数一数,在 \(n\) 个样本点中,有多少个是小于等于 \(x\) 的。这个数量记作:
\[ \sum_{i=1}^{n} I(X_i \le x) \]
其中 \(I(\cdot)\) 是示性函数(当括号内条件为真时取1,否则取0)。
- 然后,我们用这个数量除以总样本数 \(n\),就得到了“小于等于 \(x\) 的样本比例”。我们将这个比例函数定义为经验分布函数 \(F_n(x)\):
\[ F_n(x) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \le x) \]
- 直观理解:\(F_n(x)\) 是一个阶梯函数,它在每个样本点 \(X_i\) 处有一个大小为 \(1/n\) 的向上跳跃。当 \(n\) 很大时,我们希望这个阶梯函数能很好地逼近光滑(或不光滑)的真实分布函数 \(F(x)\)。
第二步:衡量估计的误差——Kolmogorov-Smirnov 统计量
- 问题:如何衡量经验分布函数 \(F_n\) 与真实分布函数 \(F\) 之间的“差距”或误差?
- 度量:一个非常强大和常用的度量是一致范数,即考虑两个函数在整个实数轴上的最大垂直距离。这个距离被称为 Kolmogorov-Smirnov (KS) 距离 或 KS 统计量:
\[ D_n = \sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \]
这里的“\(\sup\)”表示上确界,可以直观理解为“最大值”。
3. 统计意义:\(D_n\) 度量了 \(F_n\) 对 \(F\) 的最坏情况下的拟合误差。它是一个随机变量(因为 \(F_n\) 依赖于随机样本)。我们关心 \(D_n\) 的概率行为,特别是当样本量 \(n\) 增大时,它有多大可能会超过某个给定的误差容忍边界 \(\epsilon\)。
第三步:Dvoretzky–Kiefer–Wolfowitz (DKW) 不等式的引入
- 核心问题:对于任意一个我们设定的、小的正数 \(\epsilon > 0\),最大的偏离概率 \(P(D_n > \epsilon)\) 是多少?或者说,我们能以多高的概率保证,经验分布函数 \(F_n\) 在整个实轴上都落在真实函数 \(F\) 的一个“宽度为 \(\epsilon\) 的均匀带状区间”内?
- 历史与结论:这个问题由 Dvoretzky, Kiefer 和 Wolfowitz 在1956年的一篇经典论文中近乎解决。他们证明,存在一个不依赖于真实分布 \(F\) 的、有限的常数 \(C\),使得对于所有 \(n\) 和所有 \(\epsilon > 0\),有:
\[ P(D_n > \epsilon) \le C e^{-2n\epsilon^2} \]
- 常数确定:这个结果令人惊叹,因为它给出了一个指数型衰减的概率上界,且衰减速率 \(e^{-2n\epsilon^2}\) 与分布 \(F\) 无关。然而,他们未能确定常数 \(C\) 的最佳值。直到1990年,P. Massart 证明了常数 \(C\) 可以取为 \(2\),并且这个常数是最优的(不能再小了)。因此,我们现在所说的完整、精确的 DKW 不等式是:
\[ P(D_n > \epsilon) \le 2 e^{-2n\epsilon^2} \quad \text{对所有 } \epsilon > 0 \text{ 成立}。 \]
有时也写作等价形式:
\[ P\left( \sup_{x \in \mathbb{R}} |F_n(x) - F(x)| > \epsilon \right) \le 2 e^{-2n\epsilon^2}。 \]
第四步:对不等式的解读、推论与应用
- 非渐近性:这是 DKW 不等式最强大的特性之一。它不是一个极限定理(如大数定律或中心极限定理),而是一个对有限样本 \(n\) 都成立的、非渐近的、一致的概率上界。这意味着即使对于小样本,我们也可以使用它进行严格的概率推断。
- 置信带构造:DKW 不等式的一个直接、重要的应用是为整个分布函数 \(F(x)\) 构造非参数的、同时成立的置信带。
- 给定一个置信水平 \(1 - \alpha\)(例如 95%),我们希望找到一个带状区域,使得真实函数 \(F(x)\) 以至少 \(1-\alpha\) 的概率完全落在这个带子里。
- 根据 DKW 不等式,设 \(P(D_n > \epsilon) = \alpha\),解出 \(\epsilon_n(\alpha)\):
\[ 2e^{-2n\epsilon_n^2} = \alpha \quad \Rightarrow \quad \epsilon_n(\alpha) = \sqrt{\frac{\ln(2/\alpha)}{2n}}。 \]
- 那么,以概率至少 \(1-\alpha\),对于所有的 \(x\),有:
\[ F_n(x) - \epsilon_n(\alpha) \le F(x) \le F_n(x) + \epsilon_n(\alpha)。 \]
这就构成了一个以 \(F_n(x)\) 为中心,宽度为 \(2\epsilon_n(\alpha)\) 的置信带。这个带子的宽度以大约 \(1/\sqrt{n}\) 的速率收缩。
3. 与Glivenko-Cantelli定理的联系:DKW 不等式是一致大数定律(即 Glivenko-Cantelli 定理)的定量化和强化版本。Glivenko-Cantelli 定理只是说 \(D_n\) 几乎必然收敛到 0。而 DKW 不等式告诉我们这个收敛有多“快”——它是指数级的、可量化的速度。
第五步:总结与核心要点
- 核心:DKW 不等式为经验分布函数与真实分布函数之间的 Kolmogorov-Smirnov 最大偏差 \(D_n\),提供了一个与分布 \(F\) 无关的、指数衰减的非渐近概率上界:\(P(D_n > \epsilon) \le 2e^{-2n\epsilon^2}\)。
- 特性:
- 非渐近:适用于任何有限的样本量 \(n\)。
- 分布自由:上界不依赖于未知的总体分布 \(F\),具有普适性。
3. 指数尾部:保证了经验过程的强集中性。
- 主要应用:为非参数统计中的分布函数 \(F\) 构造同时置信带,为 Kolmogorov-Smirnov 拟合优度检验等提供理论支撑,是经验过程理论的基石性结果之一。
通过以上五个步骤,我们从最基础的经验分布函数定义出发,逐步引入了衡量误差的 KS 距离,最终导出了强大而优美的 DKW 不等式,并理解了其核心含义和重要应用。