随机变量的变换的Bahadur表示
字数 3036 2025-12-08 11:26:06

随机变量的变换的Bahadur表示

我们来逐步学习“随机变量的变换的Bahadur表示”。

第一步:理解核心概念与目标

首先,你需要知道什么是“表示”和“Bahadur”。在统计学中,一个“表示”通常指的是用一组更简单、更基础或更具解释性的量(比如其他随机变量、已知分布、或极限量)来表达一个复杂的统计量。R. R. Bahadur 是一位杰出的统计学家,他提出了一种用“经验过程”来精确表示样本分位数等统计量的方法。

核心目标:Bahadur 表示的核心是,将样本分位数(如中位数)这类复杂统计量,表达为样本经验分布函数的线性函数(主要部分)加上一个高阶的、可忽略的余项。这让我们能够像研究样本均值一样,利用中心极限定理等工具来研究样本分位数的渐近分布。


第二步:建立必要的前置知识

要理解 Bahadur 表示,你需要清楚以下几点:

  1. 总体分位数:对于一个随机变量 \(X\),其分布函数为 \(F(x) = P(X \le x)\)。对于 \(0 < p < 1\),第 \(p\) 分位数 \(\xi_p\) 定义为满足 \(F(\xi_p-) \le p \le F(\xi_p)\) 的点。如果 \(F\) 是严格递增且连续的,则 \(\xi_p = F^{-1}(p)\),即分布函数的反函数。
  2. 样本分位数:给定独立同分布的样本 \(X_1, X_2, ..., X_n\),经验分布函数 \(F_n(x) = (1/n) \sum_{i=1}^{n} I(X_i \le x)\),其中 \(I(\cdot)\) 是示性函数。样本的 \(p\) 分位数 \(\hat{\xi}_{p,n}\) 通常定义为 \(F_n^{-1}(p)\),或更精确地,定义为顺序统计量 \(X_{(1)} \le ... \le X_{(n)}\) 中下标为 \(\lceil np \rceil\) 的那个。
  3. 经验过程:这是联系总体和样本的关键对象。定义为 \(G_n(x) = \sqrt{n}[F_n(x) - F(x)]\)。由 Donsker 定理(泛函中心极限定理),在适当条件下,\(G_n\) 收敛到一个高斯过程。

第三步:Bahadur 表示的基本形式

Bahadur 表示建立了样本分位数 \(\hat{\xi}_{p,n}\) 和总体分位数 \(\xi_p\) 之间的精确关系。其最经典的形式如下:

假设在 \(\xi_p\) 的邻域内,总体分布函数 \(F\) 可导,且概率密度 \(f(\xi_p) > 0\)。那么,样本 \(p\) 分位数 \(\hat{\xi}_{p,n}\) 可以表示为:

\[\hat{\xi}_{p,n} = \xi_p - \frac{ F_n(\xi_p) - p }{ f(\xi_p) } + R_n \]

其中,余项 \(R_n\)\(o_p(n^{-1/2})\)。这意味着 \(\sqrt{n} R_n\) 依概率收敛到 0。

让我们仔细拆解这个公式

  • \(\xi_p\):这是我们想要估计的、未知的总体分位数。
  • \(F_n(\xi_p)\):这是经验分布函数在真实分位数 \(\xi_p\) 处的取值。它等于样本中小于等于 \(\xi_p\) 的比例。根据大数定律,\(F_n(\xi_p) \to F(\xi_p) = p\)
  • \(F_n(\xi_p) - p\):这衡量了样本比例与目标概率 \(p\) 的偏差。它乘以了一个缩放因子 \(-1/f(\xi_p)\)
  • 关键系数 \(-1/f(\xi_p)\):这是密度函数的倒数。直观理解:在密度 \(f(\xi_p)\) 大的地方(数据点密集),分位数估计值对样本比例偏差的敏感度低(系数小),轻微调整就能达到目标概率 \(p\)。在密度小的地方(数据点稀疏),敏感度高(系数大),需要更大的水平移动来达到 \(p\)
  • 余项 \(R_n = o_p(n^{-1/2})\):这表示 \(R_n\) 趋于 0 的速度比 \(n^{-1/2}\) 还快。在推导 \(\sqrt{n}(\hat{\xi}_{p,n} - \xi_p)\) 的渐近分布时,这个余项可以被忽略。

第四步:推导渐近正态性

利用 Bahadur 表示,我们可以轻松得到样本分位数的渐近分布。

  1. 从 Bahadur 表示出发:

\[ \sqrt{n}(\hat{\xi}_{p,n} - \xi_p) = -\frac{\sqrt{n}[F_n(\xi_p) - p]}{f(\xi_p)} + \sqrt{n}R_n \]

  1. 注意到 \(\sqrt{n}R_n = o_p(1)\),依概率收敛到 0。
  2. 中心项 \(\sqrt{n}[F_n(\xi_p) - p]\) 是关键。因为 \(F_n(\xi_p) = (1/n)\sum I(X_i \le \xi_p)\),而 \(I(X_i \le \xi_p)\) 是独立的伯努利随机变量,其成功概率为 \(p\)。根据中心极限定理:

\[ \sqrt{n}[F_n(\xi_p) - p] \xrightarrow{d} N(0, p(1-p)) \]

  1. 应用 Slutsky 定理,我们得到:

\[ \sqrt{n}(\hat{\xi}_{p,n} - \xi_p) \xrightarrow{d} N\left(0, \frac{p(1-p)}{[f(\xi_p)]^2}\right) \]

这就是样本分位数的著名渐近正态分布结果,其方差依赖于密度函数的平方的倒数。

第五步:更精确的表示与扩展

最初的 Bahadur 表示是线性的。实际上,Bahadur 本人和后续研究者得到了更精确的展开:

\[\hat{\xi}_{p,n} = \xi_p - \frac{ F_n(\xi_p) - p }{ f(\xi_p) } + \frac{ (F_n(\xi_p) - p)(F_n'(\xi_p) - f(\xi_p)) }{ [f(\xi_p)]^3 } + ... + \text{更高阶余项} \]

其中 \(F_n'\) 可以视为一个核密度估计。这揭示了样本分位数对经验过程及其导数的依赖性。

应用与意义

  1. 简化渐近理论:它将一个非光滑的泛函(分位数是经验分布函数的反函数)的渐近行为,转化为一个光滑的线性泛函(经验分布函数在一点的值)的渐近行为,后者更容易处理。
  2. 统计推断:基于此渐近方差公式,可以构造分位数的置信区间和进行假设检验。
  3. 稳健统计:Bahadur 表示是研究 L-估计量(线性组合顺序统计量,包括分位数)的强有力工具。
  4. 自举的合理性:它为用 Bootstrap 方法估计分位数估计量的方差和分布提供了理论依据。

总结:Bahadur 表示是连接样本分位数与经验过程的一座关键桥梁。它通过一个简洁的线性化公式,将复杂的反函数估计问题,转化为我们熟知的样本均值(或比例)问题,从而极大地简化了其渐近性质的研究。它的核心思想是“线性化”,并通过余项分析来保证线性主项的主导性。

随机变量的变换的Bahadur表示 我们来逐步学习“随机变量的变换的Bahadur表示”。 第一步:理解核心概念与目标 首先,你需要知道什么是“表示”和“Bahadur”。在统计学中,一个“表示”通常指的是用一组更简单、更基础或更具解释性的量(比如其他随机变量、已知分布、或极限量)来表达一个复杂的统计量。R. R. Bahadur 是一位杰出的统计学家,他提出了一种用“经验过程”来精确表示样本分位数等统计量的方法。 核心目标 :Bahadur 表示的核心是,将样本分位数(如中位数)这类复杂统计量,表达为样本经验分布函数的线性函数(主要部分)加上一个高阶的、可忽略的余项。这让我们能够像研究样本均值一样,利用中心极限定理等工具来研究样本分位数的渐近分布。 第二步:建立必要的前置知识 要理解 Bahadur 表示,你需要清楚以下几点: 总体分位数 :对于一个随机变量 \(X\),其分布函数为 \(F(x) = P(X \le x)\)。对于 \(0 < p < 1\),第 \(p\) 分位数 \(\xi_ p\) 定义为满足 \(F(\xi_ p-) \le p \le F(\xi_ p)\) 的点。如果 \(F\) 是严格递增且连续的,则 \(\xi_ p = F^{-1}(p)\),即分布函数的反函数。 样本分位数 :给定独立同分布的样本 \(X_ 1, X_ 2, ..., X_ n\),经验分布函数 \(F_ n(x) = (1/n) \sum_ {i=1}^{n} I(X_ i \le x)\),其中 \(I(\cdot)\) 是示性函数。样本的 \(p\) 分位数 \(\hat{\xi} {p,n}\) 通常定义为 \(F_ n^{-1}(p)\),或更精确地,定义为顺序统计量 \(X {(1)} \le ... \le X_ {(n)}\) 中下标为 \(\lceil np \rceil\) 的那个。 经验过程 :这是联系总体和样本的关键对象。定义为 \(G_ n(x) = \sqrt{n}[ F_ n(x) - F(x)]\)。由 Donsker 定理(泛函中心极限定理),在适当条件下,\(G_ n\) 收敛到一个高斯过程。 第三步:Bahadur 表示的基本形式 Bahadur 表示建立了样本分位数 \(\hat{\xi}_ {p,n}\) 和总体分位数 \(\xi_ p\) 之间的精确关系。其最经典的形式如下: 假设在 \(\xi_ p\) 的邻域内,总体分布函数 \(F\) 可导,且概率密度 \(f(\xi_ p) > 0\)。那么,样本 \(p\) 分位数 \(\hat{\xi}_ {p,n}\) 可以表示为: \[ \hat{\xi}_ {p,n} = \xi_ p - \frac{ F_ n(\xi_ p) - p }{ f(\xi_ p) } + R_ n \] 其中,余项 \(R_ n\) 是 \(o_ p(n^{-1/2})\)。这意味着 \(\sqrt{n} R_ n\) 依概率收敛到 0。 让我们仔细拆解这个公式 : \(\xi_ p\) :这是我们想要估计的、未知的总体分位数。 \(F_ n(\xi_ p)\) :这是经验分布函数在真实分位数 \(\xi_ p\) 处的取值。它等于样本中小于等于 \(\xi_ p\) 的比例。根据大数定律,\(F_ n(\xi_ p) \to F(\xi_ p) = p\)。 \(F_ n(\xi_ p) - p\) :这衡量了样本比例与目标概率 \(p\) 的偏差。它乘以了一个缩放因子 \(-1/f(\xi_ p)\)。 关键系数 \(-1/f(\xi_ p)\) :这是 密度函数的倒数 。直观理解:在密度 \(f(\xi_ p)\) 大的地方(数据点密集),分位数估计值对样本比例偏差的敏感度低(系数小),轻微调整就能达到目标概率 \(p\)。在密度小的地方(数据点稀疏),敏感度高(系数大),需要更大的水平移动来达到 \(p\)。 余项 \(R_ n = o_ p(n^{-1/2})\) :这表示 \(R_ n\) 趋于 0 的速度比 \(n^{-1/2}\) 还快。在推导 \(\sqrt{n}(\hat{\xi}_ {p,n} - \xi_ p)\) 的渐近分布时,这个余项可以被忽略。 第四步:推导渐近正态性 利用 Bahadur 表示,我们可以轻松得到样本分位数的渐近分布。 从 Bahadur 表示出发: \[ \sqrt{n}(\hat{\xi}_ {p,n} - \xi_ p) = -\frac{\sqrt{n}[ F_ n(\xi_ p) - p]}{f(\xi_ p)} + \sqrt{n}R_ n \] 注意到 \(\sqrt{n}R_ n = o_ p(1)\),依概率收敛到 0。 中心项 \(\sqrt{n}[ F_ n(\xi_ p) - p]\) 是关键。因为 \(F_ n(\xi_ p) = (1/n)\sum I(X_ i \le \xi_ p)\),而 \(I(X_ i \le \xi_ p)\) 是独立的伯努利随机变量,其成功概率为 \(p\)。根据中心极限定理: \[ \sqrt{n}[ F_ n(\xi_ p) - p ] \xrightarrow{d} N(0, p(1-p)) \] 应用 Slutsky 定理,我们得到: \[ \sqrt{n}(\hat{\xi}_ {p,n} - \xi_ p) \xrightarrow{d} N\left(0, \frac{p(1-p)}{[ f(\xi_ p) ]^2}\right) \] 这就是样本分位数的著名渐近正态分布结果,其方差依赖于密度函数的平方的倒数。 第五步:更精确的表示与扩展 最初的 Bahadur 表示是线性的。实际上,Bahadur 本人和后续研究者得到了更精确的展开: \[ \hat{\xi}_ {p,n} = \xi_ p - \frac{ F_ n(\xi_ p) - p }{ f(\xi_ p) } + \frac{ (F_ n(\xi_ p) - p)(F_ n'(\xi_ p) - f(\xi_ p)) }{ [ f(\xi_ p) ]^3 } + ... + \text{更高阶余项} \] 其中 \(F_ n'\) 可以视为一个核密度估计。这揭示了样本分位数对经验过程及其导数的依赖性。 应用与意义 : 简化渐近理论 :它将一个非光滑的泛函(分位数是经验分布函数的反函数)的渐近行为,转化为一个光滑的线性泛函(经验分布函数在一点的值)的渐近行为,后者更容易处理。 统计推断 :基于此渐近方差公式,可以构造分位数的置信区间和进行假设检验。 稳健统计 :Bahadur 表示是研究 L-估计量(线性组合顺序统计量,包括分位数)的强有力工具。 自举的合理性 :它为用 Bootstrap 方法估计分位数估计量的方差和分布提供了理论依据。 总结 :Bahadur 表示是连接样本分位数与经验过程的一座关键桥梁。它通过一个简洁的线性化公式,将复杂的反函数估计问题,转化为我们熟知的样本均值(或比例)问题,从而极大地简化了其渐近性质的研究。它的核心思想是“线性化”,并通过余项分析来保证线性主项的主导性。