随机变量的变换的渐近正态性
字数 3046 2025-12-11 10:29:54

随机变量的变换的渐近正态性

我们首先明确“随机变量的变换”这一背景。当我们有一个随机变量序列,其渐近分布已知(例如依分布收敛到正态分布),而我们对这个序列的函数(变换)感兴趣时,如何确定这个变换后序列的渐近分布?这就是“随机变量的变换的渐近正态性”要解决的核心问题。

步骤1:基础——依分布收敛与中心极限定理

  1. 依分布收敛:设有一列随机变量 \(X_1, X_2, \dots\) 和一个随机变量 \(X\),其对应的分布函数分别为 \(F_n\)\(F\)。如果对于 \(F\) 的所有连续点 \(x\),都有 \(\lim_{n \to \infty} F_n(x) = F(x)\),则称 \(X_n\) 依分布收敛\(X\),记作 \(X_n \xrightarrow{d} X\)
  2. 中心极限定理(CLT):这是最重要的渐近正态性来源。设 \(X_1, X_2, \dots, X_n\) 是独立同分布的随机变量,具有均值 \(\mu\) 和方差 \(\sigma^2 > 0\)。定义样本均值 \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\)。则标准化后的样本均值依分布收敛于标准正态分布:

\[\sqrt{n} (\bar{X}_n - \mu) \xrightarrow{d} N(0, \sigma^2)。 \]

更一般地,许多估计量(如最大似然估计)在正则条件下都有类似形式的渐近正态性。

步骤2:问题的核心表述

假设我们有一个随机变量序列 \(\{T_n\}\),满足:

\[\sqrt{n} (T_n - \theta) \xrightarrow{d} N(0, \Sigma), \]

其中 \(\theta\) 是一个 \(k\) 维参数,\(\Sigma\) 是一个 \(k \times k\) 的协方差矩阵。这表示 \(T_n\)\(\theta\) 的一个“渐近正态”估计量。
现在,考虑一个函数 \(g: \mathbb{R}^k \rightarrow \mathbb{R}^m\)。我们想知道变换后的序列 \(g(T_n)\) 的渐近分布是什么?特别是,它是否也具有渐近正态性?

步骤3:关键工具——Delta方法

Delta方法(Δ方法)是解决此问题的核心定理,它是多元微积分中的一阶泰勒展开在概率收敛下的应用。

  1. 基本思想:由于 \(T_n\) 在概率上收敛到常数 \(\theta\)(这是依分布收敛到正态所隐含的),我们可以将 \(g(T_n)\)\(\theta\) 处进行一阶泰勒展开:

\[g(T_n) = g(\theta) + \nabla g(\theta)^\top (T_n - \theta) + \text{余项}, \]

其中 \(\nabla g(\theta)\)\(g\)\(\theta\) 处的梯度向量(对于多元函数,是雅可比矩阵)。
2. 核心假设:函数 \(g\)\(\theta\)可微
3. 定理(一阶Delta方法):在以上条件下,余项在乘以 \(\sqrt{n}\) 后会依概率收敛到零。因此,\(\sqrt{n}\) 乘以展开式的主要部分决定了渐近分布:

\[\sqrt{n} [g(T_n) - g(\theta)] \approx \nabla g(\theta)^\top [\sqrt{n}(T_n - \theta)]。 \]

由于 \(\sqrt{n}(T_n - \theta) \xrightarrow{d} N(0, \Sigma)\),根据连续映射定理(线性变换是连续的),我们得到:

\[\sqrt{n} [g(T_n) - g(\theta)] \xrightarrow{d} N(0, \nabla g(\theta)^\top \Sigma \nabla g(\theta))。 \]

对于 \(g\) 为向量值函数(\(m>1\))的情形,\(\nabla g(\theta)\)\(m \times k\) 的雅可比矩阵 \(J_g(\theta)\),结论变为:

\[\sqrt{n} [g(T_n) - g(\theta)] \xrightarrow{d} N_m(0, J_g(\theta) \Sigma J_g(\theta)^\top)。 \]

这里 \(N_m\) 表示 \(m\) 维正态分布。

步骤4:一个经典例子

假设 \(X_1, \dots, X_n\) 独立同分布于 Bernoulli(\(p\)),即 \(P(X=1)=p, P(X=0)=1-p\)。样本均值 \(\bar{X}_n\)\(p\) 的估计量。由CLT:

\[\sqrt{n}(\bar{X}_n - p) \xrightarrow{d} N(0, p(1-p))。 \]

现在我们想估计优势比(odds ratio) \(g(p) = \frac{p}{1-p}\)
应用Delta方法:\(g'(p) = \frac{1}{(1-p)^2}\)
因此,

\[\sqrt{n} \left( \frac{\bar{X}_n}{1-\bar{X}_n} - \frac{p}{1-p} \right) \xrightarrow{d} N\left( 0, \left(\frac{1}{(1-p)^2}\right)^2 \cdot p(1-p) \right) = N\left( 0, \frac{p}{(1-p)^3} \right)。 \]

这给出了优势比估计量的渐近方差。

步骤5:高阶Delta方法与注意事项

  1. 失效情形:如果 \(g\)\(\theta\) 处的导数为零(即 \(\nabla g(\theta) = 0\)),那么一阶项消失,一阶Delta方法失效。此时需要用到二阶Delta方法,即考虑二阶泰勒展开(Hessian矩阵),此时渐近分布将不再是正态分布,而是一个卡方型分布(与二次型相关)。
  2. 应用前提:Delta方法强烈依赖于 \(T_n\) 本身的渐近正态性。如果 \(T_n\) 的收敛速率不是 \(\sqrt{n}\),或者极限分布不是正态的,则结论不成立。
  3. 方差估计:在实际应用中,\(\theta\)\(\Sigma\) 通常是未知的。我们常用 \(T_n\) 代替 \(\theta\) 来计算梯度,用 \(\hat{\Sigma}_n\)(一个协方差矩阵的相合估计)代替 \(\Sigma\),通过Slutsky定理,最终的渐近正态性仍然成立。

总结

随机变量的变换的渐近正态性,其理论支柱是Delta方法。该方法通过局部线性化,将变换函数的渐近分布与原始估计量的渐近正态性联系起来。其核心步骤是:(1) 确认原始估计量的渐近正态性;(2) 验证变换函数在真值处的可微性;(3) 利用梯度(雅可比矩阵)将原始渐近分布的协方差结构“传递”给变换后的估计量。这使得我们能轻松推导出许多复杂估计量(如比率、回归系数函数、风险比等)的标准误和置信区间,是统计推断中极其重要的工具。

随机变量的变换的渐近正态性 我们首先明确“随机变量的变换”这一背景。当我们有一个随机变量序列,其渐近分布已知(例如依分布收敛到正态分布),而我们对这个序列的函数(变换)感兴趣时,如何确定这个变换后序列的渐近分布?这就是“随机变量的变换的渐近正态性”要解决的核心问题。 步骤1:基础——依分布收敛与中心极限定理 依分布收敛 :设有一列随机变量 \(X_ 1, X_ 2, \dots\) 和一个随机变量 \(X\),其对应的分布函数分别为 \(F_ n\) 和 \(F\)。如果对于 \(F\) 的所有连续点 \(x\),都有 \(\lim_ {n \to \infty} F_ n(x) = F(x)\),则称 \(X_ n\) 依分布收敛 于 \(X\),记作 \(X_ n \xrightarrow{d} X\)。 中心极限定理(CLT) :这是最重要的渐近正态性来源。设 \(X_ 1, X_ 2, \dots, X_ n\) 是独立同分布的随机变量,具有均值 \(\mu\) 和方差 \(\sigma^2 > 0\)。定义样本均值 \(\bar{X} n = \frac{1}{n}\sum {i=1}^n X_ i\)。则标准化后的样本均值依分布收敛于标准正态分布: \[ \sqrt{n} (\bar{X}_ n - \mu) \xrightarrow{d} N(0, \sigma^2)。 \] 更一般地,许多估计量(如最大似然估计)在正则条件下都有类似形式的渐近正态性。 步骤2:问题的核心表述 假设我们有一个随机变量序列 \(\{T_ n\}\),满足: \[ \sqrt{n} (T_ n - \theta) \xrightarrow{d} N(0, \Sigma), \] 其中 \(\theta\) 是一个 \(k\) 维参数,\(\Sigma\) 是一个 \(k \times k\) 的协方差矩阵。这表示 \(T_ n\) 是 \(\theta\) 的一个“渐近正态”估计量。 现在,考虑一个函数 \(g: \mathbb{R}^k \rightarrow \mathbb{R}^m\)。我们想知道变换后的序列 \(g(T_ n)\) 的渐近分布是什么?特别是,它是否也具有渐近正态性? 步骤3:关键工具——Delta方法 Delta方法(Δ方法)是解决此问题的核心定理,它是多元微积分中的一阶泰勒展开在概率收敛下的应用。 基本思想 :由于 \(T_ n\) 在概率上收敛到常数 \(\theta\)(这是依分布收敛到正态所隐含的),我们可以将 \(g(T_ n)\) 在 \(\theta\) 处进行一阶泰勒展开: \[ g(T_ n) = g(\theta) + \nabla g(\theta)^\top (T_ n - \theta) + \text{余项}, \] 其中 \(\nabla g(\theta)\) 是 \(g\) 在 \(\theta\) 处的梯度向量(对于多元函数,是雅可比矩阵)。 核心假设 :函数 \(g\) 在 \(\theta\) 处 可微 。 定理(一阶Delta方法) :在以上条件下,余项在乘以 \(\sqrt{n}\) 后会依概率收敛到零。因此,\(\sqrt{n}\) 乘以展开式的主要部分决定了渐近分布: \[ \sqrt{n} [ g(T_ n) - g(\theta)] \approx \nabla g(\theta)^\top [ \sqrt{n}(T_ n - \theta) ]。 \] 由于 \(\sqrt{n}(T_ n - \theta) \xrightarrow{d} N(0, \Sigma)\),根据 连续映射定理 (线性变换是连续的),我们得到: \[ \sqrt{n} [ g(T_ n) - g(\theta) ] \xrightarrow{d} N(0, \nabla g(\theta)^\top \Sigma \nabla g(\theta))。 \] 对于 \(g\) 为向量值函数(\(m>1\))的情形,\(\nabla g(\theta)\) 是 \(m \times k\) 的雅可比矩阵 \(J_ g(\theta)\),结论变为: \[ \sqrt{n} [ g(T_ n) - g(\theta)] \xrightarrow{d} N_ m(0, J_ g(\theta) \Sigma J_ g(\theta)^\top)。 \] 这里 \(N_ m\) 表示 \(m\) 维正态分布。 步骤4:一个经典例子 假设 \(X_ 1, \dots, X_ n\) 独立同分布于 Bernoulli(\(p\)),即 \(P(X=1)=p, P(X=0)=1-p\)。样本均值 \(\bar{X}_ n\) 是 \(p\) 的估计量。由CLT: \[ \sqrt{n}(\bar{X}_ n - p) \xrightarrow{d} N(0, p(1-p))。 \] 现在我们想估计 优势比(odds ratio) \(g(p) = \frac{p}{1-p}\)。 应用Delta方法:\(g'(p) = \frac{1}{(1-p)^2}\)。 因此, \[ \sqrt{n} \left( \frac{\bar{X}_ n}{1-\bar{X}_ n} - \frac{p}{1-p} \right) \xrightarrow{d} N\left( 0, \left(\frac{1}{(1-p)^2}\right)^2 \cdot p(1-p) \right) = N\left( 0, \frac{p}{(1-p)^3} \right)。 \] 这给出了优势比估计量的渐近方差。 步骤5:高阶Delta方法与注意事项 失效情形 :如果 \(g\) 在 \(\theta\) 处的导数为零(即 \(\nabla g(\theta) = 0\)),那么一阶项消失,一阶Delta方法失效。此时需要用到 二阶Delta方法 ,即考虑二阶泰勒展开(Hessian矩阵),此时渐近分布将不再是正态分布,而是一个卡方型分布(与二次型相关)。 应用前提 :Delta方法强烈依赖于 \(T_ n\) 本身的渐近正态性。如果 \(T_ n\) 的收敛速率不是 \(\sqrt{n}\),或者极限分布不是正态的,则结论不成立。 方差估计 :在实际应用中,\(\theta\) 和 \(\Sigma\) 通常是未知的。我们常用 \(T_ n\) 代替 \(\theta\) 来计算梯度,用 \(\hat{\Sigma}_ n\)(一个协方差矩阵的相合估计)代替 \(\Sigma\),通过 Slutsky定理 ,最终的渐近正态性仍然成立。 总结 随机变量的变换的渐近正态性,其理论支柱是 Delta方法 。该方法通过局部线性化,将变换函数的渐近分布与原始估计量的渐近正态性联系起来。其核心步骤是:(1) 确认原始估计量的渐近正态性;(2) 验证变换函数在真值处的可微性;(3) 利用梯度(雅可比矩阵)将原始渐近分布的协方差结构“传递”给变换后的估计量。这使得我们能轻松推导出许多复杂估计量(如比率、回归系数函数、风险比等)的标准误和置信区间,是统计推断中极其重要的工具。