随机变量的变换的Edgeworth展开

字数 3013 2025-11-08 10:03:08

随机变量的变换的Edgeworth展开

Edgeworth展开是一种用于逼近概率分布函数的渐近展开方法，它通过修正中心极限定理中的正态近似，以提高逼近的精度。其核心思想是利用随机变量的累积量（或矩）来构造一个包含高阶项的级数展开。

背景与动机：中心极限定理的局限性
- 中心极限定理指出，在满足一定条件下，独立同分布随机变量和的标准化形式依分布收敛于标准正态分布。

然而，在实际应用中，当样本量 \(n\) 有限时，用正态分布来近似随机变量和的分布可能会存在误差，特别是当原始随机变量的分布明显偏离正态分布（例如，存在偏度或峰度）时。
- Edgeworth展开的目的就是提供一个比单纯的正态近似更精确的逼近公式，它通过引入原始分布的高阶累积量（如三阶、四阶累积量，分别与偏度和峰度相关）来修正正态分布。

预备知识：累积量

设 \(X\) 是一个随机变量，其矩生成函数为 \(M_X(t) = E[e^{tX}]\)（如果存在）。累积量生成函数 \(K_X(t)\) 定义为矩生成函数的对数：\(K_X(t) = \log M_X(t)\)。
将 \(K_X(t)\) 在 \(t=0\) 处进行泰勒展开：
\(K_X(t) = \kappa_1 t + \frac{\kappa_2 t^2}{2!} + \frac{\kappa_3 t^3}{3!} + \frac{\kappa_4 t^4}{4!} + \cdots\)
其中，系数 \(\kappa_1, \kappa_2, \kappa_3, \kappa_4, \cdots\) 分别称为 \(X\) 的一阶、二阶、三阶、四阶……累积量。
累积量与矩有关：\(\kappa_1 = E[X]\)（均值），\(\kappa_2 = \text{Var}(X)\)（方差），\(\kappa_3 = E[(X-E[X])^3]\)（与偏度相关），\(\kappa_4 = E[(X-E[X])^4] - 3\kappa_2^2\)（与超额峰度相关）。

展开的核心：特征函数的展开

考虑标准化和 \(S_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma \sqrt{n}}\)，其中 \(X_i\) 独立同分布，\(E[X_i] = \mu\)，\(\text{Var}(X_i) = \sigma^2\)。
\(S_n\) 的特征函数为 \(\phi_{S_n}(t) = [\phi(\frac{t}{\sigma \sqrt{n}})]^n\)，其中 \(\phi(t)\) 是 \((X_i - \mu)\) 的特征函数。
对累积量生成函数 \(\log \phi(t)\) 进行泰勒展开，并将其代入 \(\phi_{S_n}(t)\) 的表达式。然后，对 \(\log \phi_{S_n}(t)\) 进行泰勒展开，并取指数，得到 \(\phi_{S_n}(t)\) 的展开式：
\(\phi_{S_n}(t) = e^{-t^2/2} \left[ 1 + \frac{\kappa_3}{6\sigma^3\sqrt{n}} (it)^3 + \frac{\kappa_4}{24\sigma^4 n}(it)^4 + \frac{\kappa_3^2}{72\sigma^6 n}(it)^6 + \cdots \right]\)。
这个展开式表明，\(S_n\) 的特征函数可以表示为标准正态特征函数 \(e^{-t^2/2}\) 乘以一个包含 \(1/\sqrt{n}\) 的各次幂的修正项。

逆变换得到分布函数：利用埃尔米特多项式
- 为了从特征函数的展开得到分布函数的展开，需要进行傅里叶逆变换。

标准正态分布的概率密度函数是 \(\phi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}\)。
埃尔米特多项式 \(He_k(x)\) 在这里起到关键作用，它们与正态密度函数的关系由以下等式定义：
\((-1)^k \frac{d^k \phi(x)}{dx^k} = He_k(x) \phi(x)\)。
例如，\(He_3(x) = x^3 - 3x\), \(He_4(x) = x^4 - 6x^2 + 3\), \(He_6(x) = x^6 - 15x^4 + 45x^2 - 15\)。
特征函数展开式中的 \((it)^k e^{-t^2/2}\) 项，其傅里叶逆变换正好对应于 \((-1)^k He_k(x) \phi(x)\)。

Edgeworth展开式

综合以上步骤，对标准化和 \(S_n\) 的概率密度函数 \(f_n(x)\) 的Edgeworth展开（到 \(n^{-1}\) 阶）为：
\(f_n(x) \approx \phi(x) \left[ 1 + \frac{\kappa_3}{6\sigma^3\sqrt{n}} He_3(x) + \frac{1}{n} \left( \frac{\kappa_4}{24\sigma^4} He_4(x) + \frac{\kappa_3^2}{72\sigma^6} He_6(x) \right) \right]\)。
对其积分，可以得到分布函数 \(F_n(x) = P(S_n \le x)\) 的Edgeworth展开：
\(F_n(x) \approx \Phi(x) - \phi(x) \left[ \frac{\kappa_3}{6\sigma^3\sqrt{n}} He_2(x) + \frac{1}{n} \left( \frac{\kappa_4}{24\sigma^4} He_3(x) + \frac{\kappa_3^2}{72\sigma^6} He_5(x) \right) \right]\)，
其中 \(\Phi(x)\) 是标准正态分布函数，\(He_2(x) = x^2 - 1\), \(He_5(x) = x^5 - 10x^3 + 15x\)。

性质与应用

精度：Edgeworth展开提供了比中心极限定理更精确的近似，误差通常为 \(o(n^{-1})\) 或更高阶，具体取决于所取的项数。
修正项的意义：\(1/\sqrt{n}\) 项包含了偏度 \(\kappa_3\) 的修正，反映了分布的不对称性。\(1/n\) 项包含了峰度 \(\kappa_4\) 和偏度平方 \(\kappa_3^2\) 的修正。
- 局限性：Edgeworth展开可能在分布的尾部区域表现不佳，甚至可能产生负的“概率”值，因为它是一个渐近展开而非真正的概率分布。
- 应用：常用于统计推断中提高近似的精度，例如构造更精确的置信区间、假设检验中的临界值计算等。它是许多更高级渐近理论的基础。

随机变量的变换的Edgeworth展开 Edgeworth展开是一种用于逼近概率分布函数的渐近展开方法，它通过修正中心极限定理中的正态近似，以提高逼近的精度。其核心思想是利用随机变量的累积量（或矩）来构造一个包含高阶项的级数展开。背景与动机：中心极限定理的局限性中心极限定理指出，在满足一定条件下，独立同分布随机变量和的标准化形式依分布收敛于标准正态分布。然而，在实际应用中，当样本量 \( n \) 有限时，用正态分布来近似随机变量和的分布可能会存在误差，特别是当原始随机变量的分布明显偏离正态分布（例如，存在偏度或峰度）时。 Edgeworth展开的目的就是提供一个比单纯的正态近似更精确的逼近公式，它通过引入原始分布的高阶累积量（如三阶、四阶累积量，分别与偏度和峰度相关）来修正正态分布。预备知识：累积量设 \( X \) 是一个随机变量，其矩生成函数为 \( M_ X(t) = E[ e^{tX}] \)（如果存在）。累积量生成函数 \( K_ X(t) \) 定义为矩生成函数的对数：\( K_ X(t) = \log M_ X(t) \)。将 \( K_ X(t) \) 在 \( t=0 \) 处进行泰勒展开： \( K_ X(t) = \kappa_ 1 t + \frac{\kappa_ 2 t^2}{2!} + \frac{\kappa_ 3 t^3}{3!} + \frac{\kappa_ 4 t^4}{4 !} + \cdots \) 其中，系数 \( \kappa_ 1, \kappa_ 2, \kappa_ 3, \kappa_ 4, \cdots \) 分别称为 \( X \) 的一阶、二阶、三阶、四阶……累积量。累积量与矩有关：\( \kappa_ 1 = E[ X] \)（均值），\( \kappa_ 2 = \text{Var}(X) \)（方差），\( \kappa_ 3 = E[ (X-E[ X])^3] \)（与偏度相关），\( \kappa_ 4 = E[ (X-E[ X])^4] - 3\kappa_ 2^2 \)（与超额峰度相关）。展开的核心：特征函数的展开考虑标准化和 \( S_ n = \frac{\sum_ {i=1}^n X_ i - n\mu}{\sigma \sqrt{n}} \)，其中 \( X_ i \) 独立同分布，\( E[ X_ i] = \mu \)，\( \text{Var}(X_ i) = \sigma^2 \)。 \( S_ n \) 的特征函数为 \( \phi_ {S_ n}(t) = [ \phi(\frac{t}{\sigma \sqrt{n}})]^n \)，其中 \( \phi(t) \) 是 \( (X_ i - \mu) \) 的特征函数。对累积量生成函数 \( \log \phi(t) \) 进行泰勒展开，并将其代入 \( \phi_ {S_ n}(t) \) 的表达式。然后，对 \( \log \phi_ {S_ n}(t) \) 进行泰勒展开，并取指数，得到 \( \phi_ {S_ n}(t) \) 的展开式： \( \phi_ {S_ n}(t) = e^{-t^2/2} \left[ 1 + \frac{\kappa_ 3}{6\sigma^3\sqrt{n}} (it)^3 + \frac{\kappa_ 4}{24\sigma^4 n}(it)^4 + \frac{\kappa_ 3^2}{72\sigma^6 n}(it)^6 + \cdots \right ] \)。这个展开式表明，\( S_ n \) 的特征函数可以表示为标准正态特征函数 \( e^{-t^2/2} \) 乘以一个包含 \( 1/\sqrt{n} \) 的各次幂的修正项。逆变换得到分布函数：利用埃尔米特多项式为了从特征函数的展开得到分布函数的展开，需要进行傅里叶逆变换。标准正态分布的概率密度函数是 \( \phi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} \)。埃尔米特多项式 \( He_ k(x) \) 在这里起到关键作用，它们与正态密度函数的关系由以下等式定义： \( (-1)^k \frac{d^k \phi(x)}{dx^k} = He_ k(x) \phi(x) \)。例如，\( He_ 3(x) = x^3 - 3x \), \( He_ 4(x) = x^4 - 6x^2 + 3 \), \( He_ 6(x) = x^6 - 15x^4 + 45x^2 - 15 \)。特征函数展开式中的 \( (it)^k e^{-t^2/2} \) 项，其傅里叶逆变换正好对应于 \( (-1)^k He_ k(x) \phi(x) \)。 Edgeworth展开式综合以上步骤，对标准化和 \( S_ n \) 的概率密度函数 \( f_ n(x) \) 的Edgeworth展开（到 \( n^{-1} \) 阶）为： \( f_ n(x) \approx \phi(x) \left[ 1 + \frac{\kappa_ 3}{6\sigma^3\sqrt{n}} He_ 3(x) + \frac{1}{n} \left( \frac{\kappa_ 4}{24\sigma^4} He_ 4(x) + \frac{\kappa_ 3^2}{72\sigma^6} He_ 6(x) \right) \right ] \)。对其积分，可以得到分布函数 \( F_ n(x) = P(S_ n \le x) \) 的Edgeworth展开： \( F_ n(x) \approx \Phi(x) - \phi(x) \left[ \frac{\kappa_ 3}{6\sigma^3\sqrt{n}} He_ 2(x) + \frac{1}{n} \left( \frac{\kappa_ 4}{24\sigma^4} He_ 3(x) + \frac{\kappa_ 3^2}{72\sigma^6} He_ 5(x) \right) \right ] \)，其中 \( \Phi(x) \) 是标准正态分布函数，\( He_ 2(x) = x^2 - 1 \), \( He_ 5(x) = x^5 - 10x^3 + 15x \)。性质与应用精度：Edgeworth展开提供了比中心极限定理更精确的近似，误差通常为 \( o(n^{-1}) \) 或更高阶，具体取决于所取的项数。修正项的意义：\( 1/\sqrt{n} \) 项包含了偏度 \( \kappa_ 3 \) 的修正，反映了分布的不对称性。\( 1/n \) 项包含了峰度 \( \kappa_ 4 \) 和偏度平方 \( \kappa_ 3^2 \) 的修正。局限性：Edgeworth展开可能在分布的尾部区域表现不佳，甚至可能产生负的“概率”值，因为它是一个渐近展开而非真正的概率分布。应用：常用于统计推断中提高近似的精度，例如构造更精确的置信区间、假设检验中的临界值计算等。它是许多更高级渐近理论的基础。