随机变量的变换的Bahadur-Kiefer表示
字数 1891 2025-12-09 17:46:48

随机变量的变换的Bahadur-Kiefer表示


第一步:理解背景与动机
在实际的统计推断中,我们经常关心样本分位数(如中位数)与理论分位数之间的关系。例如,用样本中位数估计总体中位数时,需要知道其波动大小。Bahadur(1966)和Kiefer(1967)等人建立了一个重要的表示方法,它将样本分位数与理论分位数之差,用经验分布函数在理论分位数处的值表示出来,从而为分位数的极限分布提供更精细的分析工具。


第二步:基本定义与记号
\(X_1, X_2, \dots, X_n\) 是独立同分布的随机变量,其共同的分布函数为 \(F\)
定义经验分布函数

\[F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \le x), \]

其中 \(I(\cdot)\) 是示性函数。

对于给定的概率 \(p \in (0,1)\)理论分位数为:

\[\xi_p = F^{-1}(p) = \inf\{ x: F(x) \ge p \}. \]

对应的样本分位数为:

\[\hat{\xi}_{p,n} = F_n^{-1}(p) = \inf\{ x: F_n(x) \ge p \}. \]


第三步:Bahadur–Kiefer表示的核心形式
Bahadur–Kiefer 表示指出,在一定的正则条件下(如 \(F\)\(\xi_p\) 处连续可导且导数 \(f(\xi_p) > 0\)),有:

\[\hat{\xi}_{p,n} - \xi_p = -\frac{F_n(\xi_p) - p}{f(\xi_p)} + R_n, \]

其中余项 \(R_n\) 满足:

\[n^{3/4} R_n \xrightarrow{P} 0 \quad \text{(依概率收敛)}, \]

甚至更强的几乎必然收敛速率结果也可得到(如 Kiefer 证明了 \(n^{3/4} (\log n)^{-1/2} R_n \to 0\) 几乎必然)。

这个等式可以直观理解:

  • 左边是样本分位数与理论分位数之差。
  • 右边第一项是经验分布函数在 \(\xi_p\) 处的偏差 \((F_n(\xi_p)-p)\) 除以密度 \(f(\xi_p)\),这可以看作一个“线性化”的主项。
  • 第二项 \(R_n\) 是高阶余项,其收敛速度比主项(阶为 \(n^{-1/2}\))更快。

第四步:为什么这个表示有用?

  1. 推导极限分布:主项 \(-\frac{F_n(\xi_p)-p}{f(\xi_p)}\) 的渐近分布是正态的,因为 \(n^{1/2}(F_n(\xi_p)-p)\) 渐近正态 \((0, p(1-p))\)。于是:

\[ n^{1/2}(\hat{\xi}_{p,n} - \xi_p) \xrightarrow{d} N\left(0, \frac{p(1-p)}{[f(\xi_p)]^2}\right). \]

  1. 强逼近与精确渐近:Bahadur–Kiefer 表示给出了余项的精确阶,可用于构造置信区间时的误差控制,以及研究分位数过程的强近似性质。

  2. 与其他表示的关系:它可看作分位数函数的“线性化”或“泛函 Delta 方法”的一个具体实现,但比一般的 Delta 方法更精确地给出了余项阶。


第五步:一个简单特例
\(p=1/2\)(中位数),且总体分布在中位数处密度为正,则:

\[\hat{\xi}_{1/2,n} - \xi_{1/2} = -\frac{F_n(\xi_{1/2}) - 1/2}{f(\xi_{1/2})} + o_p(n^{-3/4}). \]

这表明样本中位数估计误差的主要随机性来自经验分布在真实中位数处的波动。


第六步:深入推广与相关概念

  • Bahadur–Kiefer 过程:进一步考虑过程

\[ B_n(t) = n^{1/2}(F_n(\xi_p + n^{-1/2}t) - F(\xi_p + n^{-1/2}t) - f(\xi_p)t), \]

其与经验分位数过程的关系由 Bahadur–Kiefer 表示精确描述。

  • 多维分位数与回归分位数:表示可推广到多元分位数与分位数回归中,用于研究估计量的渐近性质。
  • 在稳健统计中的应用:分位数估计对异常值不敏感,Bahadur–Kiefer 表示为这类稳健估计的波动提供了理论工具。
随机变量的变换的Bahadur-Kiefer表示 第一步:理解背景与动机 在实际的统计推断中,我们经常关心 样本分位数 (如中位数)与 理论分位数 之间的关系。例如,用样本中位数估计总体中位数时,需要知道其波动大小。Bahadur(1966)和Kiefer(1967)等人建立了一个重要的表示方法,它将样本分位数与理论分位数之差,用 经验分布函数 在理论分位数处的值表示出来,从而为分位数的极限分布提供更精细的分析工具。 第二步:基本定义与记号 设 \(X_ 1, X_ 2, \dots, X_ n\) 是独立同分布的随机变量,其共同的分布函数为 \(F\)。 定义 经验分布函数 : \[ F_ n(x) = \frac{1}{n} \sum_ {i=1}^n I(X_ i \le x), \] 其中 \(I(\cdot)\) 是示性函数。 对于给定的概率 \(p \in (0,1)\), 理论分位数 为: \[ \xi_ p = F^{-1}(p) = \inf\{ x: F(x) \ge p \}. \] 对应的 样本分位数 为: \[ \hat{\xi}_ {p,n} = F_ n^{-1}(p) = \inf\{ x: F_ n(x) \ge p \}. \] 第三步:Bahadur–Kiefer表示的核心形式 Bahadur–Kiefer 表示指出,在一定的正则条件下(如 \(F\) 在 \(\xi_ p\) 处连续可导且导数 \(f(\xi_ p) > 0\)),有: \[ \hat{\xi}_ {p,n} - \xi_ p = -\frac{F_ n(\xi_ p) - p}{f(\xi_ p)} + R_ n, \] 其中 余项 \(R_ n\) 满足: \[ n^{3/4} R_ n \xrightarrow{P} 0 \quad \text{(依概率收敛)}, \] 甚至更强的几乎必然收敛速率结果也可得到(如 Kiefer 证明了 \(n^{3/4} (\log n)^{-1/2} R_ n \to 0\) 几乎必然)。 这个等式可以直观理解: 左边是样本分位数与理论分位数之差。 右边第一项是经验分布函数在 \(\xi_ p\) 处的偏差 \((F_ n(\xi_ p)-p)\) 除以密度 \(f(\xi_ p)\),这可以看作一个“线性化”的主项。 第二项 \(R_ n\) 是高阶余项,其收敛速度比主项(阶为 \(n^{-1/2}\))更快。 第四步:为什么这个表示有用? 推导极限分布 :主项 \(-\frac{F_ n(\xi_ p)-p}{f(\xi_ p)}\) 的渐近分布是正态的,因为 \(n^{1/2}(F_ n(\xi_ p)-p)\) 渐近正态 \((0, p(1-p))\)。于是: \[ n^{1/2}(\hat{\xi}_ {p,n} - \xi_ p) \xrightarrow{d} N\left(0, \frac{p(1-p)}{[ f(\xi_ p) ]^2}\right). \] 强逼近与精确渐近 :Bahadur–Kiefer 表示给出了余项的精确阶,可用于构造置信区间时的误差控制,以及研究分位数过程的强近似性质。 与其他表示的关系 :它可看作 分位数函数 的“线性化”或“泛函 Delta 方法”的一个具体实现,但比一般的 Delta 方法更精确地给出了余项阶。 第五步:一个简单特例 若 \(p=1/2\)(中位数),且总体分布在中位数处密度为正,则: \[ \hat{\xi} {1/2,n} - \xi {1/2} = -\frac{F_ n(\xi_ {1/2}) - 1/2}{f(\xi_ {1/2})} + o_ p(n^{-3/4}). \] 这表明样本中位数估计误差的主要随机性来自经验分布在真实中位数处的波动。 第六步:深入推广与相关概念 Bahadur–Kiefer 过程 :进一步考虑过程 \[ B_ n(t) = n^{1/2}(F_ n(\xi_ p + n^{-1/2}t) - F(\xi_ p + n^{-1/2}t) - f(\xi_ p)t), \] 其与经验分位数过程的关系由 Bahadur–Kiefer 表示精确描述。 多维分位数与回归分位数 :表示可推广到多元分位数与分位数回归中,用于研究估计量的渐近性质。 在稳健统计中的应用 :分位数估计对异常值不敏感,Bahadur–Kiefer 表示为这类稳健估计的波动提供了理论工具。