随机变量的变换的渐近正态性

字数 3046 2025-12-11 10:29:54

随机变量的变换的渐近正态性

我们首先明确“随机变量的变换”这一背景。当我们有一个随机变量序列，其渐近分布已知（例如依分布收敛到正态分布），而我们对这个序列的函数（变换）感兴趣时，如何确定这个变换后序列的渐近分布？这就是“随机变量的变换的渐近正态性”要解决的核心问题。

步骤1：基础——依分布收敛与中心极限定理

依分布收敛：设有一列随机变量 \(X_1, X_2, \dots\) 和一个随机变量 \(X\)，其对应的分布函数分别为 \(F_n\) 和 \(F\)。如果对于 \(F\) 的所有连续点 \(x\)，都有 \(\lim_{n \to \infty} F_n(x) = F(x)\)，则称 \(X_n\) 依分布收敛 于 \(X\)，记作 \(X_n \xrightarrow{d} X\)。
中心极限定理（CLT）：这是最重要的渐近正态性来源。设 \(X_1, X_2, \dots, X_n\) 是独立同分布的随机变量，具有均值 \(\mu\) 和方差 \(\sigma^2 > 0\)。定义样本均值 \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\)。则标准化后的样本均值依分布收敛于标准正态分布：

\[\sqrt{n} (\bar{X}_n - \mu) \xrightarrow{d} N(0, \sigma^2)。 \]

更一般地，许多估计量（如最大似然估计）在正则条件下都有类似形式的渐近正态性。

步骤2：问题的核心表述

假设我们有一个随机变量序列 \(\{T_n\}\)，满足：

\[\sqrt{n} (T_n - \theta) \xrightarrow{d} N(0, \Sigma)， \]

其中 \(\theta\) 是一个 \(k\) 维参数，\(\Sigma\) 是一个 \(k \times k\) 的协方差矩阵。这表示 \(T_n\) 是 \(\theta\) 的一个“渐近正态”估计量。
现在，考虑一个函数 \(g: \mathbb{R}^k \rightarrow \mathbb{R}^m\)。我们想知道变换后的序列 \(g(T_n)\) 的渐近分布是什么？特别是，它是否也具有渐近正态性？

步骤3：关键工具——Delta方法

Delta方法（Δ方法）是解决此问题的核心定理，它是多元微积分中的一阶泰勒展开在概率收敛下的应用。

基本思想：由于 \(T_n\) 在概率上收敛到常数 \(\theta\)（这是依分布收敛到正态所隐含的），我们可以将 \(g(T_n)\) 在 \(\theta\) 处进行一阶泰勒展开：

\[g(T_n) = g(\theta) + \nabla g(\theta)^\top (T_n - \theta) + \text{余项}， \]

其中 \(\nabla g(\theta)\) 是 \(g\) 在 \(\theta\) 处的梯度向量（对于多元函数，是雅可比矩阵）。
2. 核心假设：函数 \(g\) 在 \(\theta\) 处可微。
3. 定理（一阶Delta方法）：在以上条件下，余项在乘以 \(\sqrt{n}\) 后会依概率收敛到零。因此，\(\sqrt{n}\) 乘以展开式的主要部分决定了渐近分布：

\[\sqrt{n} [g(T_n) - g(\theta)] \approx \nabla g(\theta)^\top [\sqrt{n}(T_n - \theta)]。 \]

由于 \(\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \Sigma)\)，根据连续映射定理（线性变换是连续的），我们得到：

\[\sqrt{n} [g(T_n) - g(\theta)] \xrightarrow{d} N(0, \nabla g(\theta)^\top \Sigma \nabla g(\theta))。 \]

对于 \(g\) 为向量值函数（\(m>1\)）的情形，\(\nabla g(\theta)\) 是 \(m \times k\) 的雅可比矩阵 \(J_g(\theta)\)，结论变为：

\[\sqrt{n} [g(T_n) - g(\theta)] \xrightarrow{d} N_m(0, J_g(\theta) \Sigma J_g(\theta)^\top)。 \]

这里 \(N_m\) 表示 \(m\) 维正态分布。

步骤4：一个经典例子

假设 \(X_1, \dots, X_n\) 独立同分布于 Bernoulli(\(p\))，即 \(P(X=1)=p, P(X=0)=1-p\)。样本均值 \(\bar{X}_n\) 是 \(p\) 的估计量。由CLT：

\[\sqrt{n}(\bar{X}_n - p) \xrightarrow{d} N(0, p(1-p))。 \]

现在我们想估计优势比（odds ratio） \(g(p) = \frac{p}{1-p}\)。
应用Delta方法：\(g'(p) = \frac{1}{(1-p)^2}\)。
因此，

\[\sqrt{n} \left( \frac{\bar{X}_n}{1-\bar{X}_n} - \frac{p}{1-p} \right) \xrightarrow{d} N\left( 0, \left(\frac{1}{(1-p)^2}\right)^2 \cdot p(1-p) \right) = N\left( 0, \frac{p}{(1-p)^3} \right)。 \]

这给出了优势比估计量的渐近方差。

步骤5：高阶Delta方法与注意事项

失效情形：如果 \(g\) 在 \(\theta\) 处的导数为零（即 \(\nabla g(\theta) = 0\)），那么一阶项消失，一阶Delta方法失效。此时需要用到二阶Delta方法，即考虑二阶泰勒展开（Hessian矩阵），此时渐近分布将不再是正态分布，而是一个卡方型分布（与二次型相关）。
应用前提：Delta方法强烈依赖于 \(T_n\) 本身的渐近正态性。如果 \(T_n\) 的收敛速率不是 \(\sqrt{n}\)，或者极限分布不是正态的，则结论不成立。
方差估计：在实际应用中，\(\theta\) 和 \(\Sigma\) 通常是未知的。我们常用 \(T_n\) 代替 \(\theta\) 来计算梯度，用 \(\hat{\Sigma}_n\)（一个协方差矩阵的相合估计）代替 \(\Sigma\)，通过Slutsky定理，最终的渐近正态性仍然成立。

总结

随机变量的变换的渐近正态性，其理论支柱是Delta方法。该方法通过局部线性化，将变换函数的渐近分布与原始估计量的渐近正态性联系起来。其核心步骤是：(1) 确认原始估计量的渐近正态性；(2) 验证变换函数在真值处的可微性；(3) 利用梯度（雅可比矩阵）将原始渐近分布的协方差结构“传递”给变换后的估计量。这使得我们能轻松推导出许多复杂估计量（如比率、回归系数函数、风险比等）的标准误和置信区间，是统计推断中极其重要的工具。

随机变量的变换的渐近正态性我们首先明确“随机变量的变换”这一背景。当我们有一个随机变量序列，其渐近分布已知（例如依分布收敛到正态分布），而我们对这个序列的函数（变换）感兴趣时，如何确定这个变换后序列的渐近分布？这就是“随机变量的变换的渐近正态性”要解决的核心问题。步骤1：基础——依分布收敛与中心极限定理依分布收敛：设有一列随机变量 \(X_ 1, X_ 2, \dots\) 和一个随机变量 \(X\)，其对应的分布函数分别为 \(F_ n\) 和 \(F\)。如果对于 \(F\) 的所有连续点 \(x\)，都有 \(\lim_ {n \to \infty} F_ n(x) = F(x)\)，则称 \(X_ n\) 依分布收敛于 \(X\)，记作 \(X_ n \xrightarrow{d} X\)。中心极限定理（CLT）：这是最重要的渐近正态性来源。设 \(X_ 1, X_ 2, \dots, X_ n\) 是独立同分布的随机变量，具有均值 \(\mu\) 和方差 \(\sigma^2 > 0\)。定义样本均值 \(\bar{X} n = \frac{1}{n}\sum {i=1}^n X_ i\)。则标准化后的样本均值依分布收敛于标准正态分布： \[ \sqrt{n} (\bar{X}_ n - \mu) \xrightarrow{d} N(0, \sigma^2)。 \] 更一般地，许多估计量（如最大似然估计）在正则条件下都有类似形式的渐近正态性。步骤2：问题的核心表述假设我们有一个随机变量序列 \(\{T_ n\}\)，满足： \[ \sqrt{n} (T_ n - \theta) \xrightarrow{d} N(0, \Sigma)， \] 其中 \(\theta\) 是一个 \(k\) 维参数，\(\Sigma\) 是一个 \(k \times k\) 的协方差矩阵。这表示 \(T_ n\) 是 \(\theta\) 的一个“渐近正态”估计量。现在，考虑一个函数 \(g: \mathbb{R}^k \rightarrow \mathbb{R}^m\)。我们想知道变换后的序列 \(g(T_ n)\) 的渐近分布是什么？特别是，它是否也具有渐近正态性？步骤3：关键工具——Delta方法 Delta方法（Δ方法）是解决此问题的核心定理，它是多元微积分中的一阶泰勒展开在概率收敛下的应用。基本思想：由于 \(T_ n\) 在概率上收敛到常数 \(\theta\)（这是依分布收敛到正态所隐含的），我们可以将 \(g(T_ n)\) 在 \(\theta\) 处进行一阶泰勒展开： \[ g(T_ n) = g(\theta) + \nabla g(\theta)^\top (T_ n - \theta) + \text{余项}， \] 其中 \(\nabla g(\theta)\) 是 \(g\) 在 \(\theta\) 处的梯度向量（对于多元函数，是雅可比矩阵）。核心假设：函数 \(g\) 在 \(\theta\) 处可微。定理（一阶Delta方法）：在以上条件下，余项在乘以 \(\sqrt{n}\) 后会依概率收敛到零。因此，\(\sqrt{n}\) 乘以展开式的主要部分决定了渐近分布： \[ \sqrt{n} [ g(T_ n) - g(\theta)] \approx \nabla g(\theta)^\top [ \sqrt{n}(T_ n - \theta) ]。 \] 由于 \(\sqrt{n}(T_ n - \theta) \xrightarrow{d} N(0, \Sigma)\)，根据连续映射定理（线性变换是连续的），我们得到： \[ \sqrt{n} [ g(T_ n) - g(\theta) ] \xrightarrow{d} N(0, \nabla g(\theta)^\top \Sigma \nabla g(\theta))。 \] 对于 \(g\) 为向量值函数（\(m>1\)）的情形，\(\nabla g(\theta)\) 是 \(m \times k\) 的雅可比矩阵 \(J_ g(\theta)\)，结论变为： \[ \sqrt{n} [ g(T_ n) - g(\theta)] \xrightarrow{d} N_ m(0, J_ g(\theta) \Sigma J_ g(\theta)^\top)。 \] 这里 \(N_ m\) 表示 \(m\) 维正态分布。步骤4：一个经典例子假设 \(X_ 1, \dots, X_ n\) 独立同分布于 Bernoulli(\(p\))，即 \(P(X=1)=p, P(X=0)=1-p\)。样本均值 \(\bar{X}_ n\) 是 \(p\) 的估计量。由CLT： \[ \sqrt{n}(\bar{X}_ n - p) \xrightarrow{d} N(0, p(1-p))。 \] 现在我们想估计优势比（odds ratio） \(g(p) = \frac{p}{1-p}\)。应用Delta方法：\(g'(p) = \frac{1}{(1-p)^2}\)。因此， \[ \sqrt{n} \left( \frac{\bar{X}_ n}{1-\bar{X}_ n} - \frac{p}{1-p} \right) \xrightarrow{d} N\left( 0, \left(\frac{1}{(1-p)^2}\right)^2 \cdot p(1-p) \right) = N\left( 0, \frac{p}{(1-p)^3} \right)。 \] 这给出了优势比估计量的渐近方差。步骤5：高阶Delta方法与注意事项失效情形：如果 \(g\) 在 \(\theta\) 处的导数为零（即 \(\nabla g(\theta) = 0\)），那么一阶项消失，一阶Delta方法失效。此时需要用到二阶Delta方法，即考虑二阶泰勒展开（Hessian矩阵），此时渐近分布将不再是正态分布，而是一个卡方型分布（与二次型相关）。应用前提：Delta方法强烈依赖于 \(T_ n\) 本身的渐近正态性。如果 \(T_ n\) 的收敛速率不是 \(\sqrt{n}\)，或者极限分布不是正态的，则结论不成立。方差估计：在实际应用中，\(\theta\) 和 \(\Sigma\) 通常是未知的。我们常用 \(T_ n\) 代替 \(\theta\) 来计算梯度，用 \(\hat{\Sigma}_ n\)（一个协方差矩阵的相合估计）代替 \(\Sigma\)，通过 Slutsky定理，最终的渐近正态性仍然成立。总结随机变量的变换的渐近正态性，其理论支柱是 Delta方法。该方法通过局部线性化，将变换函数的渐近分布与原始估计量的渐近正态性联系起来。其核心步骤是：(1) 确认原始估计量的渐近正态性；(2) 验证变换函数在真值处的可微性；(3) 利用梯度（雅可比矩阵）将原始渐近分布的协方差结构“传递”给变换后的估计量。这使得我们能轻松推导出许多复杂估计量（如比率、回归系数函数、风险比等）的标准误和置信区间，是统计推断中极其重要的工具。