随机变量的变换的Bootstrap方法
字数 1936 2025-11-10 20:02:54
随机变量的变换的Bootstrap方法
-
基本概念与动机
Bootstrap方法是一种基于计算机的重抽样技术,用于评估统计量的抽样分布。其核心思想是:既然我们手头只有一组来自未知总体的样本数据,那么这组样本数据本身就是我们对总体最好的估计。因此,我们可以通过从这份“经验分布”(即样本本身)中反复地、有放回地抽取新样本,来模拟从真实总体中抽样的过程,从而近似统计量的变异性。 -
非参数Bootstrap的步骤
这是最常用的一种Bootstrap,步骤如下:
- 步骤一:原始样本。 假设我们有一个观测到的随机样本 \(X = (X_1, X_2, ..., X_n)\),它来自某个未知分布 \(F\)。
- 步骤二:Bootstrap抽样。 从原始样本 \(X\) 中,进行有放回的随机抽样,抽取 \(n\) 次。这样得到的一个新样本称为一个 Bootstrap样本,记为 \(X^* = (X_1^*, X_2^*, ..., X_n^*)\)。由于是有放回抽样,\(X^*\) 中的某些原始数据点可能会出现多次,而有些则一次都不会出现。
- 步骤三:计算统计量。 对这个Bootstrap样本 \(X^*\),计算我们关心的统计量(例如样本均值 \(\bar{X}^*\)、中位数、标准差等),记为 \(\hat{\theta}^*\)(它是对应于原始统计量 \(\hat{\theta}\) 的Bootstrap复制品)。
- 步骤四:重复。 独立地重复步骤二和步骤三大量的次数(例如 \(B = 1000\) 或 \(10000\) 次),得到 \(B\) 个Bootstrap统计量 \(\hat{\theta}^*(1), \hat{\theta}^*(2), ..., \hat{\theta}^*(B)\)。
- 步骤五:形成经验分布。 这 \(B\) 个Bootstrap统计量的集合 \(\{\hat{\theta}^*(b)\}_{b=1}^B\) 就形成了统计量 \(\hat{\theta}\) 的 Bootstrap经验分布。这个分布可以用来近似 \(\hat{\theta}\) 的真实抽样分布。
- Bootstrap的应用
- 估计标准误: Bootstrap经验分布的标准差,就是统计量 \(\hat{\theta}\) 的标准误的Bootstrap估计:
\[ \widehat{se}_{B} = \sqrt{ \frac{1}{B-1} \sum_{b=1}^{B} \left( \hat{\theta}^*(b) - \bar{\hat{\theta}}^* \right)^2 } \]
其中 \(\bar{\hat{\theta}}^* = \frac{1}{B} \sum_{b=1}^{B} \hat{\theta}^*(b)\)。
* 计算置信区间: 有多种方法,最常见的是 百分位数法。对于95%的置信区间,我们只需找到Bootstrap经验分布的2.5%分位数和97.5%分位数,它们就构成了置信区间的上下限。这种方法直观且无需对统计量的分布形状做假设。
- 估计偏差: 统计量 \(\hat{\theta}\) 的估计偏差(估计值的期望与真实参数之差)可以用Bootstrap来近似:\(\widehat{Bias} = \bar{\hat{\theta}}^* - \hat{\theta}\)。
- 理论基础与注意事项
- 为何有效? Bootstrap的合理性基于一个深刻的统计思想:当样本量 \(n\) 足够大时,经验分布 \(F_n\) 会非常接近真实分布 \(F\)。因此,从 \(F_n\) 中抽样(即Bootstrap)的性质,应该与从 \(F\) 中抽样的性质相似。这由格利文科-坎泰利定理等提供理论支持。
- 局限性: Bootstrap并非万能。当原始样本量 \(n\) 很小时,Bootstrap结果可能不可靠。对于某些极端统计量(如样本最大值)或光滑性很差的统计量,Bootstrap可能失效。此外,如果原始样本不能很好地代表总体(存在严重偏差),Bootstrap的结果也会是有偏的。
- 参数化Bootstrap: 如果对总体分布 \(F\) 的形式有一个假设(例如假设它服从正态分布),我们可以先用样本估计出分布的参数(如均值和方差),然后从这个估计出的参数分布中进行重抽样。这种方法称为参数Bootstrap,通常在假设成立时效率更高。