随机变量的变换的Bootstrap方法
字数 1936 2025-11-10 20:02:54

随机变量的变换的Bootstrap方法

  1. 基本概念与动机
    Bootstrap方法是一种基于计算机的重抽样技术,用于评估统计量的抽样分布。其核心思想是:既然我们手头只有一组来自未知总体的样本数据,那么这组样本数据本身就是我们对总体最好的估计。因此,我们可以通过从这份“经验分布”(即样本本身)中反复地、有放回地抽取新样本,来模拟从真实总体中抽样的过程,从而近似统计量的变异性。

  2. 非参数Bootstrap的步骤
    这是最常用的一种Bootstrap,步骤如下:

  • 步骤一:原始样本。 假设我们有一个观测到的随机样本 \(X = (X_1, X_2, ..., X_n)\),它来自某个未知分布 \(F\)
  • 步骤二:Bootstrap抽样。 从原始样本 \(X\) 中,进行有放回的随机抽样,抽取 \(n\) 次。这样得到的一个新样本称为一个 Bootstrap样本,记为 \(X^* = (X_1^*, X_2^*, ..., X_n^*)\)。由于是有放回抽样,\(X^*\) 中的某些原始数据点可能会出现多次,而有些则一次都不会出现。
  • 步骤三:计算统计量。 对这个Bootstrap样本 \(X^*\),计算我们关心的统计量(例如样本均值 \(\bar{X}^*\)、中位数、标准差等),记为 \(\hat{\theta}^*\)(它是对应于原始统计量 \(\hat{\theta}\) 的Bootstrap复制品)。
  • 步骤四:重复。 独立地重复步骤二和步骤三大量的次数(例如 \(B = 1000\)\(10000\) 次),得到 \(B\) 个Bootstrap统计量 \(\hat{\theta}^*(1), \hat{\theta}^*(2), ..., \hat{\theta}^*(B)\)
  • 步骤五:形成经验分布。\(B\) 个Bootstrap统计量的集合 \(\{\hat{\theta}^*(b)\}_{b=1}^B\) 就形成了统计量 \(\hat{\theta}\)Bootstrap经验分布。这个分布可以用来近似 \(\hat{\theta}\) 的真实抽样分布。
  1. Bootstrap的应用
  • 估计标准误: Bootstrap经验分布的标准差,就是统计量 \(\hat{\theta}\) 的标准误的Bootstrap估计:

\[ \widehat{se}_{B} = \sqrt{ \frac{1}{B-1} \sum_{b=1}^{B} \left( \hat{\theta}^*(b) - \bar{\hat{\theta}}^* \right)^2 } \]

其中 \(\bar{\hat{\theta}}^* = \frac{1}{B} \sum_{b=1}^{B} \hat{\theta}^*(b)\)
* 计算置信区间: 有多种方法,最常见的是 百分位数法。对于95%的置信区间,我们只需找到Bootstrap经验分布的2.5%分位数和97.5%分位数,它们就构成了置信区间的上下限。这种方法直观且无需对统计量的分布形状做假设。

  • 估计偏差: 统计量 \(\hat{\theta}\) 的估计偏差(估计值的期望与真实参数之差)可以用Bootstrap来近似:\(\widehat{Bias} = \bar{\hat{\theta}}^* - \hat{\theta}\)
  1. 理论基础与注意事项
  • 为何有效? Bootstrap的合理性基于一个深刻的统计思想:当样本量 \(n\) 足够大时,经验分布 \(F_n\) 会非常接近真实分布 \(F\)。因此,从 \(F_n\) 中抽样(即Bootstrap)的性质,应该与从 \(F\) 中抽样的性质相似。这由格利文科-坎泰利定理等提供理论支持。
  • 局限性: Bootstrap并非万能。当原始样本量 \(n\) 很小时,Bootstrap结果可能不可靠。对于某些极端统计量(如样本最大值)或光滑性很差的统计量,Bootstrap可能失效。此外,如果原始样本不能很好地代表总体(存在严重偏差),Bootstrap的结果也会是有偏的。
  • 参数化Bootstrap: 如果对总体分布 \(F\) 的形式有一个假设(例如假设它服从正态分布),我们可以先用样本估计出分布的参数(如均值和方差),然后从这个估计出的参数分布中进行重抽样。这种方法称为参数Bootstrap,通常在假设成立时效率更高。
随机变量的变换的Bootstrap方法 基本概念与动机 Bootstrap方法是一种基于计算机的重抽样技术,用于评估统计量的抽样分布。其核心思想是:既然我们手头只有一组来自未知总体的样本数据,那么这组样本数据本身就是我们对总体最好的估计。因此,我们可以通过从这份“经验分布”(即样本本身)中反复地、有放回地抽取新样本,来模拟从真实总体中抽样的过程,从而近似统计量的变异性。 非参数Bootstrap的步骤 这是最常用的一种Bootstrap,步骤如下: 步骤一:原始样本。 假设我们有一个观测到的随机样本 \( X = (X_ 1, X_ 2, ..., X_ n) \),它来自某个未知分布 \( F \)。 步骤二:Bootstrap抽样。 从原始样本 \( X \) 中,进行有放回的随机抽样,抽取 \( n \) 次。这样得到的一个新样本称为一个 Bootstrap样本 ,记为 \( X^* = (X_ 1^ , X_ 2^ , ..., X_ n^ ) \)。由于是有放回抽样,\( X^ \) 中的某些原始数据点可能会出现多次,而有些则一次都不会出现。 步骤三:计算统计量。 对这个Bootstrap样本 \( X^* \),计算我们关心的统计量(例如样本均值 \( \bar{X}^* \)、中位数、标准差等),记为 \( \hat{\theta}^* \)(它是对应于原始统计量 \( \hat{\theta} \) 的Bootstrap复制品)。 步骤四:重复。 独立地重复步骤二和步骤三大量的次数(例如 \( B = 1000 \) 或 \( 10000 \) 次),得到 \( B \) 个Bootstrap统计量 \( \hat{\theta}^ (1), \hat{\theta}^ (2), ..., \hat{\theta}^* (B) \)。 步骤五:形成经验分布。 这 \( B \) 个Bootstrap统计量的集合 \( \{\hat{\theta}^* (b)\}_ {b=1}^B \) 就形成了统计量 \( \hat{\theta} \) 的 Bootstrap经验分布 。这个分布可以用来近似 \( \hat{\theta} \) 的真实抽样分布。 Bootstrap的应用 估计标准误: Bootstrap经验分布的标准差,就是统计量 \( \hat{\theta} \) 的标准误的Bootstrap估计: \[ \widehat{se} {B} = \sqrt{ \frac{1}{B-1} \sum {b=1}^{B} \left( \hat{\theta}^ (b) - \bar{\hat{\theta}}^ \right)^2 } \] 其中 \( \bar{\hat{\theta}}^* = \frac{1}{B} \sum_ {b=1}^{B} \hat{\theta}^* (b) \)。 计算置信区间: 有多种方法,最常见的是 百分位数法 。对于95%的置信区间,我们只需找到Bootstrap经验分布的2.5%分位数和97.5%分位数,它们就构成了置信区间的上下限。这种方法直观且无需对统计量的分布形状做假设。 估计偏差: 统计量 \( \hat{\theta} \) 的估计偏差(估计值的期望与真实参数之差)可以用Bootstrap来近似:\( \widehat{Bias} = \bar{\hat{\theta}}^* - \hat{\theta} \)。 理论基础与注意事项 为何有效? Bootstrap的合理性基于一个深刻的统计思想:当样本量 \( n \) 足够大时,经验分布 \( F_ n \) 会非常接近真实分布 \( F \)。因此,从 \( F_ n \) 中抽样(即Bootstrap)的性质,应该与从 \( F \) 中抽样的性质相似。这由格利文科-坎泰利定理等提供理论支持。 局限性: Bootstrap并非万能。当原始样本量 \( n \) 很小时,Bootstrap结果可能不可靠。对于某些极端统计量(如样本最大值)或光滑性很差的统计量,Bootstrap可能失效。此外,如果原始样本不能很好地代表总体(存在严重偏差),Bootstrap的结果也会是有偏的。 参数化Bootstrap: 如果对总体分布 \( F \) 的形式有一个假设(例如假设它服从正态分布),我们可以先用样本估计出分布的参数(如均值和方差),然后从这个估计出的参数分布中进行重抽样。这种方法称为参数Bootstrap,通常在假设成立时效率更高。