随机变量的变换的渐近正态性
我们首先明确“随机变量的变换”这一背景。当我们有一个随机变量序列,其渐近分布已知(例如依分布收敛到正态分布),而我们对这个序列的函数(变换)感兴趣时,如何确定这个变换后序列的渐近分布?这就是“随机变量的变换的渐近正态性”要解决的核心问题。
步骤1:基础——依分布收敛与中心极限定理
- 依分布收敛:设有一列随机变量 \(X_1, X_2, \dots\) 和一个随机变量 \(X\),其对应的分布函数分别为 \(F_n\) 和 \(F\)。如果对于 \(F\) 的所有连续点 \(x\),都有 \(\lim_{n \to \infty} F_n(x) = F(x)\),则称 \(X_n\) 依分布收敛 于 \(X\),记作 \(X_n \xrightarrow{d} X\)。
- 中心极限定理(CLT):这是最重要的渐近正态性来源。设 \(X_1, X_2, \dots, X_n\) 是独立同分布的随机变量,具有均值 \(\mu\) 和方差 \(\sigma^2 > 0\)。定义样本均值 \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\)。则标准化后的样本均值依分布收敛于标准正态分布:
\[\sqrt{n} (\bar{X}_n - \mu) \xrightarrow{d} N(0, \sigma^2)。 \]
更一般地,许多估计量(如最大似然估计)在正则条件下都有类似形式的渐近正态性。
步骤2:问题的核心表述
假设我们有一个随机变量序列 \(\{T_n\}\),满足:
\[\sqrt{n} (T_n - \theta) \xrightarrow{d} N(0, \Sigma), \]
其中 \(\theta\) 是一个 \(k\) 维参数,\(\Sigma\) 是一个 \(k \times k\) 的协方差矩阵。这表示 \(T_n\) 是 \(\theta\) 的一个“渐近正态”估计量。
现在,考虑一个函数 \(g: \mathbb{R}^k \rightarrow \mathbb{R}^m\)。我们想知道变换后的序列 \(g(T_n)\) 的渐近分布是什么?特别是,它是否也具有渐近正态性?
步骤3:关键工具——Delta方法
Delta方法(Δ方法)是解决此问题的核心定理,它是多元微积分中的一阶泰勒展开在概率收敛下的应用。
- 基本思想:由于 \(T_n\) 在概率上收敛到常数 \(\theta\)(这是依分布收敛到正态所隐含的),我们可以将 \(g(T_n)\) 在 \(\theta\) 处进行一阶泰勒展开:
\[g(T_n) = g(\theta) + \nabla g(\theta)^\top (T_n - \theta) + \text{余项}, \]
其中 \(\nabla g(\theta)\) 是 \(g\) 在 \(\theta\) 处的梯度向量(对于多元函数,是雅可比矩阵)。
2. 核心假设:函数 \(g\) 在 \(\theta\) 处可微。
3. 定理(一阶Delta方法):在以上条件下,余项在乘以 \(\sqrt{n}\) 后会依概率收敛到零。因此,\(\sqrt{n}\) 乘以展开式的主要部分决定了渐近分布:
\[\sqrt{n} [g(T_n) - g(\theta)] \approx \nabla g(\theta)^\top [\sqrt{n}(T_n - \theta)]。 \]
由于 \(\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \Sigma)\),根据连续映射定理(线性变换是连续的),我们得到:
\[\sqrt{n} [g(T_n) - g(\theta)] \xrightarrow{d} N(0, \nabla g(\theta)^\top \Sigma \nabla g(\theta))。 \]
对于 \(g\) 为向量值函数(\(m>1\))的情形,\(\nabla g(\theta)\) 是 \(m \times k\) 的雅可比矩阵 \(J_g(\theta)\),结论变为:
\[\sqrt{n} [g(T_n) - g(\theta)] \xrightarrow{d} N_m(0, J_g(\theta) \Sigma J_g(\theta)^\top)。 \]
这里 \(N_m\) 表示 \(m\) 维正态分布。
步骤4:一个经典例子
假设 \(X_1, \dots, X_n\) 独立同分布于 Bernoulli(\(p\)),即 \(P(X=1)=p, P(X=0)=1-p\)。样本均值 \(\bar{X}_n\) 是 \(p\) 的估计量。由CLT:
\[\sqrt{n}(\bar{X}_n - p) \xrightarrow{d} N(0, p(1-p))。 \]
现在我们想估计优势比(odds ratio) \(g(p) = \frac{p}{1-p}\)。
应用Delta方法:\(g'(p) = \frac{1}{(1-p)^2}\)。
因此,
\[\sqrt{n} \left( \frac{\bar{X}_n}{1-\bar{X}_n} - \frac{p}{1-p} \right) \xrightarrow{d} N\left( 0, \left(\frac{1}{(1-p)^2}\right)^2 \cdot p(1-p) \right) = N\left( 0, \frac{p}{(1-p)^3} \right)。 \]
这给出了优势比估计量的渐近方差。
步骤5:高阶Delta方法与注意事项
- 失效情形:如果 \(g\) 在 \(\theta\) 处的导数为零(即 \(\nabla g(\theta) = 0\)),那么一阶项消失,一阶Delta方法失效。此时需要用到二阶Delta方法,即考虑二阶泰勒展开(Hessian矩阵),此时渐近分布将不再是正态分布,而是一个卡方型分布(与二次型相关)。
- 应用前提:Delta方法强烈依赖于 \(T_n\) 本身的渐近正态性。如果 \(T_n\) 的收敛速率不是 \(\sqrt{n}\),或者极限分布不是正态的,则结论不成立。
- 方差估计:在实际应用中,\(\theta\) 和 \(\Sigma\) 通常是未知的。我们常用 \(T_n\) 代替 \(\theta\) 来计算梯度,用 \(\hat{\Sigma}_n\)(一个协方差矩阵的相合估计)代替 \(\Sigma\),通过Slutsky定理,最终的渐近正态性仍然成立。
总结
随机变量的变换的渐近正态性,其理论支柱是Delta方法。该方法通过局部线性化,将变换函数的渐近分布与原始估计量的渐近正态性联系起来。其核心步骤是:(1) 确认原始估计量的渐近正态性;(2) 验证变换函数在真值处的可微性;(3) 利用梯度(雅可比矩阵)将原始渐近分布的协方差结构“传递”给变换后的估计量。这使得我们能轻松推导出许多复杂估计量(如比率、回归系数函数、风险比等)的标准误和置信区间,是统计推断中极其重要的工具。