随机变量的变换的Delta方法
-
引言与基本思想
在概率论与统计学中,我们经常需要估计一个随机变量函数的某些性质(例如其期望或方差)。Delta方法是一种利用泰勒展开来近似计算随机变量函数(通常是估计量)的渐近分布的技术。其核心思想是:如果一个估计量(例如样本均值$\bar{X}_n$)是渐近正态的,那么它的一个平滑函数$g(\bar{X}_n)$在经过适当的标准化后,其分布也可以由一个正态分布来近似。 -
一阶单变量Delta方法
这是Delta方法最基本和常用的形式。
- 前提条件:假设我们有一个随机变量序列
$\{T_n\}$(例如,基于样本量为$n$的某个估计量),满足如下渐近正态性:
`
\[\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2) \]
其中,\(\theta\) 是一个实数参数,\(\sigma^2 > 0\),\(\xrightarrow{d}\)` 表示依分布收敛。
- 函数要求:设
$g(x)$是一个在$\theta$处可导的函数,且其导数$g'(\theta) \neq 0$。 - 结论:那么,函数
$g(T_n)$也满足渐近正态性:
`
\[\sqrt{n}(g(T_n) - g(\theta)) \xrightarrow{d} N(0, [g'(\theta)]^2 \sigma^2) \]
- 直观解释:我们对
$g(T_n)$在$\theta$处进行一阶泰勒展开:
$g(T_n) \approx g(\theta) + g'(\theta)(T_n - \theta)$
然后,我们考察$g(T_n) - g(\theta)$:
$g(T_n) - g(\theta) \approx g'(\theta)(T_n - \theta)$
两边同时乘以$\sqrt{n}$:
$\sqrt{n}(g(T_n) - g(\theta)) \approx g'(\theta) \cdot \sqrt{n}(T_n - \theta)$
由于$\sqrt{n}(T_n - \theta)$依分布收敛于$N(0, \sigma^2)$,根据Slutsky定理和连续映射定理,$g'(\theta) \cdot \sqrt{n}(T_n - \theta)$就依分布收敛于$N(0, [g'(\theta)]^2 \sigma^2)$。
- 一阶多变量Delta方法
当我们的估计量是一个随机向量时,需要将其推广到多元情形。
- 前提条件:假设
$\{\mathbf{T}_n\}$是一个$k$维随机向量序列,满足:
`
\[\sqrt{n}(\mathbf{T}_n - \boldsymbol{\theta}) \xrightarrow{d} N_k(\mathbf{0}, \Sigma) \]
其中,$\boldsymbol{\theta}$ 是一个 $k$ 维常数向量,$\Sigma$ 是一个 $k \times k$ 的协方差矩阵。
- 函数要求:设
$g: \mathbb{R}^k \to \mathbb{R}^m$是一个函数,其在$\boldsymbol{\theta}$处可微。记其雅可比矩阵(Jacobi Matrix)为$J_g(\boldsymbol{\theta})$,这是一个$m \times k$的矩阵,其第$(i, j)$元素为$\partial g_i / \partial x_j |_{\mathbf{x}=\boldsymbol{\theta}}$。 - 结论:那么,函数
$g(\mathbf{T}_n)$满足如下渐近正态性:
`
\[\sqrt{n}(g(\mathbf{T}_n) - g(\boldsymbol{\theta})) \xrightarrow{d} N_m(\mathbf{0}, J_g(\boldsymbol{\theta}) \Sigma J_g(\boldsymbol{\theta})^T) \]
* **直观解释**:与单变量情形类似,我们使用多元泰勒展开:
$g(\mathbf{T}_n) \approx g(\boldsymbol{\theta}) + J_g(\boldsymbol{\theta})(\mathbf{T}_n - \boldsymbol{\theta})$
然后进行类似的推导。这个结论在推导多个估计量组合的联合分布时非常有用,例如,样本方差和样本协方差的渐近分布。
- 二阶Delta方法
当一阶导数$g'(\theta) = 0$时,一阶项在泰勒展开中消失,此时一阶Delta方法给出的渐近方差为零,这意味着我们需要考虑更高阶的项来获得有意义的渐近分布。
- 前提条件:与一阶单变量方法相同,
$\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \sigma^2)$。 - 函数要求:
$g(x)$在$\theta$处二阶可导,且一阶导数$g'(\theta) = 0$,但二阶导数$g''(\theta) \neq 0$。 - 结论:此时,
$g(T_n)$的缩放速率不再是$\sqrt{n}$,而是$n$。其渐近分布是一个缩放后的卡方分布:
`
\[n(g(T_n) - g(\theta)) \xrightarrow{d} \frac{g''(\theta) \sigma^2}{2} \cdot \chi_1^2 \]
其中 $\chi_1^2$ 是自由度为1的卡方分布。
* 直观解释:我们使用二阶泰勒展开:
$g(T_n) \approx g(\theta) + g'(\theta)(T_n - \theta) + \frac{1}{2}g''(\theta)(T_n - \theta)^2 = g(\theta) + \frac{1}{2}g''(\theta)(T_n - \theta)^2$
因此,
$g(T_n) - g(\theta) \approx \frac{1}{2}g''(\theta)(T_n - \theta)^2$
两边乘以 $n$:
$n(g(T_n) - g(\theta)) \approx \frac{1}{2}g''(\theta) \cdot [\sqrt{n}(T_n - \theta)]^2$
由于 $\sqrt{n}(T_n - \theta) \xrightarrow{d} Z \sim N(0, \sigma^2)$,根据连续映射定理,$[\sqrt{n}(T_n - \theta)]^2 \xrightarrow{d} Z^2 \sim \sigma^2 \chi_1^2$。因此,最终的渐近分布是 $\frac{1}{2}g''(\theta) \sigma^2 \chi_1^2$。
- 应用实例
Delta方法在统计学中有广泛的应用。- 实例:样本标准差的渐近分布
设$X_1, X_2, ..., X_n$是独立同分布的随机变量,均值为$\mu$,方差为$\sigma^2$。样本方差$S_n^2$是$\sigma^2$的估计量。已知$\sqrt{n}(S_n^2 - \sigma^2) \xrightarrow{d} N(0, \mu_4 - \sigma^4)$,其中$\mu_4 = E[(X-\mu)^4]$是四阶中心矩。
现在我们想求样本标准差$S_n = g(S_n^2) = \sqrt{S_n^2}$的渐近分布。这里$g(x) = \sqrt{x}$,$g'(x) = \frac{1}{2\sqrt{x}}$,所以$g'(\sigma^2) = \frac{1}{2\sigma}$。
应用一阶Delta方法:
`
- 实例:样本标准差的渐近分布
\[\sqrt{n}(S_n - \sigma) = \sqrt{n}(g(S_n^2) - g(\sigma^2)) \xrightarrow{d} N\left(0, \left(\frac{1}{2\sigma}\right)^2 (\mu_4 - \sigma^4)\right) = N\left(0, \frac{\mu_4 - \sigma^4}{4\sigma^2}\right) \]
这个结果告诉我们样本标准差围绕真实标准差波动的幅度。
- 注意事项与局限性
- 函数的光滑性:Delta方法严重依赖于函数
$g$在参数真值$\theta$附近的光滑性(可导性)。如果函数在该点不可导(如有尖点),Delta方法可能不适用。 - 渐近性质:Delta方法给出的是渐近分布(即当样本量
$n$趋于无穷大时的近似),对于小样本情形,近似效果可能不佳。 - 导数不能为零:在一阶方法中,要求
$g'(\theta) \neq 0$。如果导数为零,则必须使用二阶或更高阶的Delta方法。