随机变量的变换的Bootstrap方法

字数 1936 2025-11-10 20:02:54

随机变量的变换的Bootstrap方法

基本概念与动机
Bootstrap方法是一种基于计算机的重抽样技术，用于评估统计量的抽样分布。其核心思想是：既然我们手头只有一组来自未知总体的样本数据，那么这组样本数据本身就是我们对总体最好的估计。因此，我们可以通过从这份“经验分布”（即样本本身）中反复地、有放回地抽取新样本，来模拟从真实总体中抽样的过程，从而近似统计量的变异性。
非参数Bootstrap的步骤
这是最常用的一种Bootstrap，步骤如下：

步骤一：原始样本。 假设我们有一个观测到的随机样本 \(X = (X_1, X_2, ..., X_n)\)，它来自某个未知分布 \(F\)。
步骤二：Bootstrap抽样。 从原始样本 \(X\) 中，进行有放回的随机抽样，抽取 \(n\) 次。这样得到的一个新样本称为一个 Bootstrap样本，记为 \(X^* = (X_1^*, X_2^*, ..., X_n^*)\)。由于是有放回抽样，\(X^*\) 中的某些原始数据点可能会出现多次，而有些则一次都不会出现。
步骤三：计算统计量。 对这个Bootstrap样本 \(X^*\)，计算我们关心的统计量（例如样本均值 \(\bar{X}^*\)、中位数、标准差等），记为 \(\hat{\theta}^*\)（它是对应于原始统计量 \(\hat{\theta}\) 的Bootstrap复制品）。
步骤四：重复。 独立地重复步骤二和步骤三大量的次数（例如 \(B = 1000\) 或 \(10000\) 次），得到 \(B\) 个Bootstrap统计量 \(\hat{\theta}^*(1), \hat{\theta}^*(2), ..., \hat{\theta}^*(B)\)。
步骤五：形成经验分布。 这 \(B\) 个Bootstrap统计量的集合 \(\{\hat{\theta}^*(b)\}_{b=1}^B\) 就形成了统计量 \(\hat{\theta}\) 的 Bootstrap经验分布。这个分布可以用来近似 \(\hat{\theta}\) 的真实抽样分布。

Bootstrap的应用

估计标准误： Bootstrap经验分布的标准差，就是统计量 \(\hat{\theta}\) 的标准误的Bootstrap估计：

\[ \widehat{se}_{B} = \sqrt{ \frac{1}{B-1} \sum_{b=1}^{B} \left( \hat{\theta}^*(b) - \bar{\hat{\theta}}^* \right)^2 } \]

其中 \(\bar{\hat{\theta}}^* = \frac{1}{B} \sum_{b=1}^{B} \hat{\theta}^*(b)\)。
* 计算置信区间： 有多种方法，最常见的是 百分位数法。对于95%的置信区间，我们只需找到Bootstrap经验分布的2.5%分位数和97.5%分位数，它们就构成了置信区间的上下限。这种方法直观且无需对统计量的分布形状做假设。

估计偏差： 统计量 \(\hat{\theta}\) 的估计偏差（估计值的期望与真实参数之差）可以用Bootstrap来近似：\(\widehat{Bias} = \bar{\hat{\theta}}^* - \hat{\theta}\)。

理论基础与注意事项

为何有效？ Bootstrap的合理性基于一个深刻的统计思想：当样本量 \(n\) 足够大时，经验分布 \(F_n\) 会非常接近真实分布 \(F\)。因此，从 \(F_n\) 中抽样（即Bootstrap）的性质，应该与从 \(F\) 中抽样的性质相似。这由格利文科-坎泰利定理等提供理论支持。
局限性： Bootstrap并非万能。当原始样本量 \(n\) 很小时，Bootstrap结果可能不可靠。对于某些极端统计量（如样本最大值）或光滑性很差的统计量，Bootstrap可能失效。此外，如果原始样本不能很好地代表总体（存在严重偏差），Bootstrap的结果也会是有偏的。
参数化Bootstrap： 如果对总体分布 \(F\) 的形式有一个假设（例如假设它服从正态分布），我们可以先用样本估计出分布的参数（如均值和方差），然后从这个估计出的参数分布中进行重抽样。这种方法称为参数Bootstrap，通常在假设成立时效率更高。

随机变量的变换的Bootstrap方法基本概念与动机 Bootstrap方法是一种基于计算机的重抽样技术，用于评估统计量的抽样分布。其核心思想是：既然我们手头只有一组来自未知总体的样本数据，那么这组样本数据本身就是我们对总体最好的估计。因此，我们可以通过从这份“经验分布”（即样本本身）中反复地、有放回地抽取新样本，来模拟从真实总体中抽样的过程，从而近似统计量的变异性。非参数Bootstrap的步骤这是最常用的一种Bootstrap，步骤如下：步骤一：原始样本。假设我们有一个观测到的随机样本 \( X = (X_ 1, X_ 2, ..., X_ n) \)，它来自某个未知分布 \( F \)。步骤二：Bootstrap抽样。从原始样本 \( X \) 中，进行有放回的随机抽样，抽取 \( n \) 次。这样得到的一个新样本称为一个 Bootstrap样本，记为 \( X^* = (X_ 1^ , X_ 2^ , ..., X_ n^ ) \)。由于是有放回抽样，\( X^ \) 中的某些原始数据点可能会出现多次，而有些则一次都不会出现。步骤三：计算统计量。对这个Bootstrap样本 \( X^* \)，计算我们关心的统计量（例如样本均值 \( \bar{X}^* \)、中位数、标准差等），记为 \( \hat{\theta}^* \)（它是对应于原始统计量 \( \hat{\theta} \) 的Bootstrap复制品）。步骤四：重复。独立地重复步骤二和步骤三大量的次数（例如 \( B = 1000 \) 或 \( 10000 \) 次），得到 \( B \) 个Bootstrap统计量 \( \hat{\theta}^ (1), \hat{\theta}^ (2), ..., \hat{\theta}^* (B) \)。步骤五：形成经验分布。这 \( B \) 个Bootstrap统计量的集合 \( \{\hat{\theta}^* (b)\}_ {b=1}^B \) 就形成了统计量 \( \hat{\theta} \) 的 Bootstrap经验分布。这个分布可以用来近似 \( \hat{\theta} \) 的真实抽样分布。 Bootstrap的应用估计标准误： Bootstrap经验分布的标准差，就是统计量 \( \hat{\theta} \) 的标准误的Bootstrap估计： \[ \widehat{se} {B} = \sqrt{ \frac{1}{B-1} \sum {b=1}^{B} \left( \hat{\theta}^ (b) - \bar{\hat{\theta}}^ \right)^2 } \] 其中 \( \bar{\hat{\theta}}^* = \frac{1}{B} \sum_ {b=1}^{B} \hat{\theta}^* (b) \)。计算置信区间：有多种方法，最常见的是百分位数法。对于95%的置信区间，我们只需找到Bootstrap经验分布的2.5%分位数和97.5%分位数，它们就构成了置信区间的上下限。这种方法直观且无需对统计量的分布形状做假设。估计偏差：统计量 \( \hat{\theta} \) 的估计偏差（估计值的期望与真实参数之差）可以用Bootstrap来近似：\( \widehat{Bias} = \bar{\hat{\theta}}^* - \hat{\theta} \)。理论基础与注意事项为何有效？ Bootstrap的合理性基于一个深刻的统计思想：当样本量 \( n \) 足够大时，经验分布 \( F_ n \) 会非常接近真实分布 \( F \)。因此，从 \( F_ n \) 中抽样（即Bootstrap）的性质，应该与从 \( F \) 中抽样的性质相似。这由格利文科-坎泰利定理等提供理论支持。局限性： Bootstrap并非万能。当原始样本量 \( n \) 很小时，Bootstrap结果可能不可靠。对于某些极端统计量（如样本最大值）或光滑性很差的统计量，Bootstrap可能失效。此外，如果原始样本不能很好地代表总体（存在严重偏差），Bootstrap的结果也会是有偏的。参数化Bootstrap：如果对总体分布 \( F \) 的形式有一个假设（例如假设它服从正态分布），我们可以先用样本估计出分布的参数（如均值和方差），然后从这个估计出的参数分布中进行重抽样。这种方法称为参数Bootstrap，通常在假设成立时效率更高。