随机变量的变换的渐近展开方法
-
基本概念:什么是渐近展开?
渐近展开是一种用一系列(通常是简单的)函数来近似复杂函数的方法。其核心思想是,当某个参数(如样本大小 n)趋于无穷大时,这个近似会变得越来越精确。一个典型的渐近展开形式如下:
\(f_n(x) = g_0(x) + \frac{g_1(x)}{n^{1/2}} + \frac{g_2(x)}{n} + \frac{g_3(x)}{n^{3/2}} + \cdots\)
其中,\(f_n(x)\) 是我们想要近似的函数(例如,一个统计量的概率密度函数),\(g_0(x), g_1(x), ...\) 是展开项。当 n 很大时,右边的和可以很好地逼近左边的复杂函数。我们通常只取前几项来获得一个实用的、且比只取第一项(即 \(g_0(x)\))更精确的近似。 -
动机:为什么我们需要对随机变量的变换进行渐近展开?
在统计学中,我们经常关心一个统计量(它是随机变量的函数)的分布。例如,样本均值。中心极限定理告诉我们,样本均值经过标准化后,其分布渐近于标准正态分布。这就是一个“零阶”渐近展开(只取第一项 \(g_0(x)\),即正态分布)。然而,当样本量 n 不是无限大时,真实分布与正态分布之间存在误差。渐近展开的目的就是系统地修正这种误差,通过加入更高阶的项(如 \(1/\sqrt{n}, 1/n\) 等项)来获得更精确的近似,特别是在分布的尾部区域。 -
核心工具:特征函数与累积量
要对分布进行渐近展开,一个非常强大的工具是特征函数。随机变量 X 的特征函数定义为 \(\phi_X(t) = E[e^{itX}]\)。它的一个关键优势是:独立随机变量和的特征函数等于其特征函数的乘积。
对特征函数取对数,我们得到累积量生成函数:\(K_X(t) = \log \phi_X(t)\)。\(K_X(t)\) 的泰勒展开系数称为累积量。正态分布的所有三阶及以上的累积量为零。因此,当我们研究一个渐近于正态分布的统计量时,其累积量生成函数的展开式中,三阶及以上的项通常以 \(1/\sqrt{n}, 1/n\) 等的速度衰减。这为构造渐近展开提供了自然的框架。 -
展开过程:Edgeworth 展开
Edgeworth 展开是概率分布函数的一种渐近展开方法,它是对中心极限定理的精细化。其基本步骤如下:
a. 标准化:设 \(X_1, X_2, ..., X_n\) 是独立同分布的随机变量,均值为 \(\mu\),方差为 \(\sigma^2\)。构造标准化和 \(S_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma \sqrt{n}}\)。根据中心极限定理,\(S_n\) 依分布收敛于标准正态分布 \(Z \sim N(0,1)\)。
b. 比较特征函数:计算 \(S_n\) 的特征函数 \(\phi_{S_n}(t)\) 和标准正态特征函数 \(\phi_Z(t) = e^{-t^2/2}\)。
c. 取对数并展开:对特征函数之比取对数,并利用累积量进行展开:
\(\log \left( \frac{\phi_{S_n}(t)}{\phi_Z(t)} \right) = \frac{\kappa_3}{6\sqrt{n}} (it)^3 + \frac{\kappa_4}{24n}(it)^4 + \frac{\kappa_3^2}{72 n}(it)^6 + \cdots\)
其中 \(\kappa_3, \kappa_4\) 是原变量 \(X_i\) 的三阶和四阶累积量(分别对应偏度和峰度)。
d. 指数化与傅里叶逆变换:将上述展开式指数化,得到 \(\phi_{S_n}(t)\) 的近似表达式。然后,利用傅里叶逆变换,将特征函数的展开式转换回分布函数或密度函数的展开式。最终得到的密度函数展开形式为:
\(f_{S_n}(x) \approx \phi(x) \left[ 1 + \frac{\kappa_3}{6\sqrt{n}} H_3(x) + \frac{1}{n} \left( \frac{\kappa_4}{24} H_4(x) + \frac{\kappa_3^2}{72} H_6(x) \right) + \cdots \right]\)
其中 \(\phi(x)\) 是标准正态密度,\(H_k(x)\) 是 k 阶 Hermite 多项式(例如,\(H_3(x) = x^3 - 3x\),\(H_4(x) = x^4 - 6x^2 + 3\))。 -
应用与注意事项
Edgeworth 展开主要用于:- 提高近似精度:在样本量中等时,对正态近似的尾部概率提供更精确的估计。
- 构造更精确的置信区间。
- 逼近分位数。
需要注意的是,Edgeworth 展开是一个渐近展开。在分布的极端尾部(x 非常大时),展开可能表现不佳,甚至可能产生负的“概率”值。在这种情况下,可能需要使用其他类型的展开,如鞍点近似,它在尾部通常有更好的表现。