随机变量的变换的Delta方法
字数 3980 2025-11-06 22:52:54

随机变量的变换的Delta方法

  1. 引言与基本思想
    在概率论与统计学中,我们经常需要估计一个随机变量函数的某些性质(例如其期望或方差)。Delta方法是一种利用泰勒展开来近似计算随机变量函数(通常是估计量)的渐近分布的技术。其核心思想是:如果一个估计量(例如样本均值 $\bar{X}_n$)是渐近正态的,那么它的一个平滑函数 $g(\bar{X}_n)$ 在经过适当的标准化后,其分布也可以由一个正态分布来近似。

  2. 一阶单变量Delta方法
    这是Delta方法最基本和常用的形式。

  • 前提条件:假设我们有一个随机变量序列 $\{T_n\}$(例如,基于样本量为 $n$ 的某个估计量),满足如下渐近正态性:
    `

\[\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2) \]

其中,\(\theta\) 是一个实数参数,\(\sigma^2 > 0\)\(\xrightarrow{d}\)` 表示依分布收敛。

  • 函数要求:设 $g(x)$ 是一个在 $\theta$ 处可导的函数,且其导数 $g'(\theta) \neq 0$
  • 结论:那么,函数 $g(T_n)$ 也满足渐近正态性:
    `

\[\sqrt{n}(g(T_n) - g(\theta)) \xrightarrow{d} N(0, [g'(\theta)]^2 \sigma^2) \]

  • 直观解释:我们对 $g(T_n)$$\theta$ 处进行一阶泰勒展开:
    $g(T_n) \approx g(\theta) + g'(\theta)(T_n - \theta)$
    然后,我们考察 $g(T_n) - g(\theta)$
    $g(T_n) - g(\theta) \approx g'(\theta)(T_n - \theta)$
    两边同时乘以 $\sqrt{n}$
    $\sqrt{n}(g(T_n) - g(\theta)) \approx g'(\theta) \cdot \sqrt{n}(T_n - \theta)$
    由于 $\sqrt{n}(T_n - \theta)$ 依分布收敛于 $N(0, \sigma^2)$,根据Slutsky定理和连续映射定理,$g'(\theta) \cdot \sqrt{n}(T_n - \theta)$ 就依分布收敛于 $N(0, [g'(\theta)]^2 \sigma^2)$
  1. 一阶多变量Delta方法
    当我们的估计量是一个随机向量时,需要将其推广到多元情形。
  • 前提条件:假设 $\{\mathbf{T}_n\}$ 是一个 $k$ 维随机向量序列,满足:
    `

\[\sqrt{n}(\mathbf{T}_n - \boldsymbol{\theta}) \xrightarrow{d} N_k(\mathbf{0}, \Sigma) \]

其中,$\boldsymbol{\theta}$ 是一个 $k$ 维常数向量,$\Sigma$ 是一个 $k \times k$ 的协方差矩阵。

  • 函数要求:设 $g: \mathbb{R}^k \to \mathbb{R}^m$ 是一个函数,其在 $\boldsymbol{\theta}$ 处可微。记其雅可比矩阵(Jacobi Matrix)为 $J_g(\boldsymbol{\theta})$,这是一个 $m \times k$ 的矩阵,其第 $(i, j)$ 元素为 $\partial g_i / \partial x_j |_{\mathbf{x}=\boldsymbol{\theta}}$
  • 结论:那么,函数 $g(\mathbf{T}_n)$ 满足如下渐近正态性:
    `

\[\sqrt{n}(g(\mathbf{T}_n) - g(\boldsymbol{\theta})) \xrightarrow{d} N_m(\mathbf{0}, J_g(\boldsymbol{\theta}) \Sigma J_g(\boldsymbol{\theta})^T) \]

*   **直观解释**:与单变量情形类似,我们使用多元泰勒展开:

$g(\mathbf{T}_n) \approx g(\boldsymbol{\theta}) + J_g(\boldsymbol{\theta})(\mathbf{T}_n - \boldsymbol{\theta})$
然后进行类似的推导。这个结论在推导多个估计量组合的联合分布时非常有用,例如,样本方差和样本协方差的渐近分布。

  1. 二阶Delta方法
    当一阶导数 $g'(\theta) = 0$ 时,一阶项在泰勒展开中消失,此时一阶Delta方法给出的渐近方差为零,这意味着我们需要考虑更高阶的项来获得有意义的渐近分布。
  • 前提条件:与一阶单变量方法相同,$\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2)$
  • 函数要求$g(x)$$\theta$ 处二阶可导,且一阶导数 $g'(\theta) = 0$,但二阶导数 $g''(\theta) \neq 0$
  • 结论:此时,$g(T_n)$ 的缩放速率不再是 $\sqrt{n}$,而是 $n$。其渐近分布是一个缩放后的卡方分布:
    `

\[n(g(T_n) - g(\theta)) \xrightarrow{d} \frac{g''(\theta) \sigma^2}{2} \cdot \chi_1^2 \]

其中 $\chi_1^2$ 是自由度为1的卡方分布。
* 直观解释:我们使用二阶泰勒展开:
$g(T_n) \approx g(\theta) + g'(\theta)(T_n - \theta) + \frac{1}{2}g''(\theta)(T_n - \theta)^2 = g(\theta) + \frac{1}{2}g''(\theta)(T_n - \theta)^2$
因此,
$g(T_n) - g(\theta) \approx \frac{1}{2}g''(\theta)(T_n - \theta)^2$
两边乘以 $n$
$n(g(T_n) - g(\theta)) \approx \frac{1}{2}g''(\theta) \cdot [\sqrt{n}(T_n - \theta)]^2$
由于 $\sqrt{n}(T_n - \theta) \xrightarrow{d} Z \sim N(0, \sigma^2)$,根据连续映射定理,$[\sqrt{n}(T_n - \theta)]^2 \xrightarrow{d} Z^2 \sim \sigma^2 \chi_1^2$。因此,最终的渐近分布是 $\frac{1}{2}g''(\theta) \sigma^2 \chi_1^2$

  1. 应用实例
    Delta方法在统计学中有广泛的应用。
    • 实例:样本标准差的渐近分布
      $X_1, X_2, ..., X_n$ 是独立同分布的随机变量,均值为 $\mu$,方差为 $\sigma^2$。样本方差 $S_n^2$$\sigma^2$ 的估计量。已知 $\sqrt{n}(S_n^2 - \sigma^2) \xrightarrow{d} N(0, \mu_4 - \sigma^4)$,其中 $\mu_4 = E[(X-\mu)^4]$ 是四阶中心矩。
      现在我们想求样本标准差 $S_n = g(S_n^2) = \sqrt{S_n^2}$ 的渐近分布。这里 $g(x) = \sqrt{x}$$g'(x) = \frac{1}{2\sqrt{x}}$,所以 $g'(\sigma^2) = \frac{1}{2\sigma}$
      应用一阶Delta方法:
      `

\[\sqrt{n}(S_n - \sigma) = \sqrt{n}(g(S_n^2) - g(\sigma^2)) \xrightarrow{d} N\left(0, \left(\frac{1}{2\sigma}\right)^2 (\mu_4 - \sigma^4)\right) = N\left(0, \frac{\mu_4 - \sigma^4}{4\sigma^2}\right) \]

    这个结果告诉我们样本标准差围绕真实标准差波动的幅度。
  1. 注意事项与局限性
  • 函数的光滑性:Delta方法严重依赖于函数 $g$ 在参数真值 $\theta$ 附近的光滑性(可导性)。如果函数在该点不可导(如有尖点),Delta方法可能不适用。
  • 渐近性质:Delta方法给出的是渐近分布(即当样本量 $n$ 趋于无穷大时的近似),对于小样本情形,近似效果可能不佳。
  • 导数不能为零:在一阶方法中,要求 $g'(\theta) \neq 0$。如果导数为零,则必须使用二阶或更高阶的Delta方法。
随机变量的变换的Delta方法 引言与基本思想 在概率论与统计学中,我们经常需要估计一个随机变量函数的某些性质(例如其期望或方差)。Delta方法是一种利用泰勒展开来近似计算随机变量函数(通常是估计量)的渐近分布的技术。其核心思想是:如果一个估计量(例如样本均值 \(\bar{X}_n\) )是渐近正态的,那么它的一个平滑函数 \(g(\bar{X}_n)\) 在经过适当的标准化后,其分布也可以由一个正态分布来近似。 一阶单变量Delta方法 这是Delta方法最基本和常用的形式。 前提条件 :假设我们有一个随机变量序列 \(\{T_n\}\) (例如,基于样本量为 \(n\) 的某个估计量),满足如下渐近正态性: \[\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2)\] 其中, \(\theta\) 是一个实数参数, \(\sigma^2 > 0\) , \(\xrightarrow{d}\) 表示依分布收敛。 函数要求 :设 \(g(x)\) 是一个在 \(\theta\) 处可导的函数,且其导数 \(g'(\theta) \neq 0\) 。 结论 :那么,函数 \(g(T_n)\) 也满足渐近正态性: `\[\sqrt{n}(g(T_ n) - g(\theta)) \xrightarrow{d} N(0, [ g'(\theta) ]^2 \sigma^2)\] 直观解释 :我们对 \(g(T_n)\) 在 \(\theta\) 处进行一阶泰勒展开: \(g(T_n) \approx g(\theta) + g'(\theta)(T_n - \theta)\) 然后,我们考察 \(g(T_n) - g(\theta)\) : \(g(T_n) - g(\theta) \approx g'(\theta)(T_n - \theta)\) 两边同时乘以 \(\sqrt{n}\) : \(\sqrt{n}(g(T_n) - g(\theta)) \approx g'(\theta) \cdot \sqrt{n}(T_n - \theta)\) 由于 \(\sqrt{n}(T_n - \theta)\) 依分布收敛于 \(N(0, \sigma^2)\) ,根据Slutsky定理和连续映射定理, \(g'(\theta) \cdot \sqrt{n}(T_n - \theta)\) 就依分布收敛于 \(N(0, [g'(\theta)]^2 \sigma^2)\) 。 一阶多变量Delta方法 当我们的估计量是一个随机向量时,需要将其推广到多元情形。 前提条件 :假设 \(\{\mathbf{T}_n\}\) 是一个 \(k\) 维随机向量序列,满足: \[\sqrt{n}(\mathbf{T}_n - \boldsymbol{\theta}) \xrightarrow{d} N_k(\mathbf{0}, \Sigma)\] 其中, \(\boldsymbol{\theta}\) 是一个 \(k\) 维常数向量, \(\Sigma\) 是一个 \(k \times k\) ` 的协方差矩阵。 函数要求 :设 \(g: \mathbb{R}^k \to \mathbb{R}^m\) 是一个函数,其在 \(\boldsymbol{\theta}\) 处可微。记其雅可比矩阵(Jacobi Matrix)为 \(J_g(\boldsymbol{\theta})\) ,这是一个 \(m \times k\) 的矩阵,其第 \((i, j)\) 元素为 \(\partial g_i / \partial x_j |_{\mathbf{x}=\boldsymbol{\theta}}\) 。 结论 :那么,函数 \(g(\mathbf{T}_n)\) 满足如下渐近正态性: `\[\sqrt{n}(g(\mathbf{T}_ n) - g(\boldsymbol{\theta})) \xrightarrow{d} N_ m(\mathbf{0}, J_ g(\boldsymbol{\theta}) \Sigma J_ g(\boldsymbol{\theta})^T)\] 直观解释 :与单变量情形类似,我们使用多元泰勒展开: \(g(\mathbf{T}_n) \approx g(\boldsymbol{\theta}) + J_g(\boldsymbol{\theta})(\mathbf{T}_n - \boldsymbol{\theta})\) 然后进行类似的推导。这个结论在推导多个估计量组合的联合分布时非常有用,例如,样本方差和样本协方差的渐近分布。 二阶Delta方法 当一阶导数 \(g'(\theta) = 0\) 时,一阶项在泰勒展开中消失,此时一阶Delta方法给出的渐近方差为零,这意味着我们需要考虑更高阶的项来获得有意义的渐近分布。 前提条件 :与一阶单变量方法相同, \(\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2)\) 。 函数要求 : \(g(x)\) 在 \(\theta\) 处二阶可导,且一阶导数 \(g'(\theta) = 0\) ,但二阶导数 \(g''(\theta) \neq 0\) 。 结论 :此时, \(g(T_n)\) 的缩放速率不再是 \(\sqrt{n}\) ,而是 \(n\) 。其渐近分布是一个缩放后的卡方分布: \[n(g(T_n) - g(\theta)) \xrightarrow{d} \frac{g''(\theta) \sigma^2}{2} \cdot \chi_1^2\] 其中 \(\chi_ 1^2\) ` 是自由度为1的卡方分布。 直观解释 :我们使用二阶泰勒展开: \(g(T_n) \approx g(\theta) + g'(\theta)(T_n - \theta) + \frac{1}{2}g''(\theta)(T_n - \theta)^2 = g(\theta) + \frac{1}{2}g''(\theta)(T_n - \theta)^2\) 因此, \(g(T_n) - g(\theta) \approx \frac{1}{2}g''(\theta)(T_n - \theta)^2\) 两边乘以 \(n\) : \(n(g(T_n) - g(\theta)) \approx \frac{1}{2}g''(\theta) \cdot [\sqrt{n}(T_n - \theta)]^2\) 由于 \(\sqrt{n}(T_n - \theta) \xrightarrow{d} Z \sim N(0, \sigma^2)\) ,根据连续映射定理, \([\sqrt{n}(T_n - \theta)]^2 \xrightarrow{d} Z^2 \sim \sigma^2 \chi_1^2\) 。因此,最终的渐近分布是 \(\frac{1}{2}g''(\theta) \sigma^2 \chi_1^2\) 。 应用实例 Delta方法在统计学中有广泛的应用。 实例:样本标准差的渐近分布 设 \(X_1, X_2, ..., X_n\) 是独立同分布的随机变量,均值为 \(\mu\) ,方差为 \(\sigma^2\) 。样本方差 \(S_n^2\) 是 \(\sigma^2\) 的估计量。已知 \(\sqrt{n}(S_n^2 - \sigma^2) \xrightarrow{d} N(0, \mu_4 - \sigma^4)\) ,其中 \(\mu_4 = E[(X-\mu)^4]\) 是四阶中心矩。 现在我们想求样本标准差 \(S_n = g(S_n^2) = \sqrt{S_n^2}\) 的渐近分布。这里 \(g(x) = \sqrt{x}\) , \(g'(x) = \frac{1}{2\sqrt{x}}\) ,所以 \(g'(\sigma^2) = \frac{1}{2\sigma}\) 。 应用一阶Delta方法: `\[\sqrt{n}(S_ n - \sigma) = \sqrt{n}(g(S_ n^2) - g(\sigma^2)) \xrightarrow{d} N\left(0, \left(\frac{1}{2\sigma}\right)^2 (\mu_ 4 - \sigma^4)\right) = N\left(0, \frac{\mu_ 4 - \sigma^4}{4\sigma^2}\right)\] 这个结果告诉我们样本标准差围绕真实标准差波动的幅度。 注意事项与局限性 函数的光滑性 :Delta方法严重依赖于函数 \(g\) 在参数真值 \(\theta\) 附近的光滑性(可导性)。如果函数在该点不可导(如有尖点),Delta方法可能不适用。 渐近性质 :Delta方法给出的是渐近分布(即当样本量 \(n\) 趋于无穷大时的近似),对于小样本情形,近似效果可能不佳。 导数不能为零 :在一阶方法中,要求 \(g'(\theta) \neq 0\) 。如果导数为零,则必须使用二阶或更高阶的Delta方法。