随机变量的变换的Edgeworth展开
字数 3013 2025-11-08 10:03:08

随机变量的变换的Edgeworth展开

Edgeworth展开是一种用于逼近概率分布函数的渐近展开方法,它通过修正中心极限定理中的正态近似,以提高逼近的精度。其核心思想是利用随机变量的累积量(或矩)来构造一个包含高阶项的级数展开。

  1. 背景与动机:中心极限定理的局限性
    • 中心极限定理指出,在满足一定条件下,独立同分布随机变量和的标准化形式依分布收敛于标准正态分布。
  • 然而,在实际应用中,当样本量 \(n\) 有限时,用正态分布来近似随机变量和的分布可能会存在误差,特别是当原始随机变量的分布明显偏离正态分布(例如,存在偏度或峰度)时。
    • Edgeworth展开的目的就是提供一个比单纯的正态近似更精确的逼近公式,它通过引入原始分布的高阶累积量(如三阶、四阶累积量,分别与偏度和峰度相关)来修正正态分布。
  1. 预备知识:累积量
  • \(X\) 是一个随机变量,其矩生成函数为 \(M_X(t) = E[e^{tX}]\)(如果存在)。累积量生成函数 \(K_X(t)\) 定义为矩生成函数的对数:\(K_X(t) = \log M_X(t)\)
  • \(K_X(t)\)\(t=0\) 处进行泰勒展开:
    \(K_X(t) = \kappa_1 t + \frac{\kappa_2 t^2}{2!} + \frac{\kappa_3 t^3}{3!} + \frac{\kappa_4 t^4}{4!} + \cdots\)
  • 其中,系数 \(\kappa_1, \kappa_2, \kappa_3, \kappa_4, \cdots\) 分别称为 \(X\) 的一阶、二阶、三阶、四阶……累积量。
  • 累积量与矩有关:\(\kappa_1 = E[X]\)(均值),\(\kappa_2 = \text{Var}(X)\)(方差),\(\kappa_3 = E[(X-E[X])^3]\)(与偏度相关),\(\kappa_4 = E[(X-E[X])^4] - 3\kappa_2^2\)(与超额峰度相关)。
  1. 展开的核心:特征函数的展开
  • 考虑标准化和 \(S_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma \sqrt{n}}\),其中 \(X_i\) 独立同分布,\(E[X_i] = \mu\)\(\text{Var}(X_i) = \sigma^2\)
  • \(S_n\) 的特征函数为 \(\phi_{S_n}(t) = [\phi(\frac{t}{\sigma \sqrt{n}})]^n\),其中 \(\phi(t)\)\((X_i - \mu)\) 的特征函数。
  • 对累积量生成函数 \(\log \phi(t)\) 进行泰勒展开,并将其代入 \(\phi_{S_n}(t)\) 的表达式。然后,对 \(\log \phi_{S_n}(t)\) 进行泰勒展开,并取指数,得到 \(\phi_{S_n}(t)\) 的展开式:
    \(\phi_{S_n}(t) = e^{-t^2/2} \left[ 1 + \frac{\kappa_3}{6\sigma^3\sqrt{n}} (it)^3 + \frac{\kappa_4}{24\sigma^4 n}(it)^4 + \frac{\kappa_3^2}{72\sigma^6 n}(it)^6 + \cdots \right]\)
  • 这个展开式表明,\(S_n\) 的特征函数可以表示为标准正态特征函数 \(e^{-t^2/2}\) 乘以一个包含 \(1/\sqrt{n}\) 的各次幂的修正项。
  1. 逆变换得到分布函数:利用埃尔米特多项式
    • 为了从特征函数的展开得到分布函数的展开,需要进行傅里叶逆变换。
  • 标准正态分布的概率密度函数是 \(\phi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}\)
  • 埃尔米特多项式 \(He_k(x)\) 在这里起到关键作用,它们与正态密度函数的关系由以下等式定义:
    \((-1)^k \frac{d^k \phi(x)}{dx^k} = He_k(x) \phi(x)\)
  • 例如,\(He_3(x) = x^3 - 3x\), \(He_4(x) = x^4 - 6x^2 + 3\), \(He_6(x) = x^6 - 15x^4 + 45x^2 - 15\)
  • 特征函数展开式中的 \((it)^k e^{-t^2/2}\) 项,其傅里叶逆变换正好对应于 \((-1)^k He_k(x) \phi(x)\)
  1. Edgeworth展开式
  • 综合以上步骤,对标准化和 \(S_n\) 的概率密度函数 \(f_n(x)\) 的Edgeworth展开(到 \(n^{-1}\) 阶)为:
    \(f_n(x) \approx \phi(x) \left[ 1 + \frac{\kappa_3}{6\sigma^3\sqrt{n}} He_3(x) + \frac{1}{n} \left( \frac{\kappa_4}{24\sigma^4} He_4(x) + \frac{\kappa_3^2}{72\sigma^6} He_6(x) \right) \right]\)
  • 对其积分,可以得到分布函数 \(F_n(x) = P(S_n \le x)\) 的Edgeworth展开:
    \(F_n(x) \approx \Phi(x) - \phi(x) \left[ \frac{\kappa_3}{6\sigma^3\sqrt{n}} He_2(x) + \frac{1}{n} \left( \frac{\kappa_4}{24\sigma^4} He_3(x) + \frac{\kappa_3^2}{72\sigma^6} He_5(x) \right) \right]\)
    其中 \(\Phi(x)\) 是标准正态分布函数,\(He_2(x) = x^2 - 1\), \(He_5(x) = x^5 - 10x^3 + 15x\)
  1. 性质与应用
  • 精度:Edgeworth展开提供了比中心极限定理更精确的近似,误差通常为 \(o(n^{-1})\) 或更高阶,具体取决于所取的项数。
  • 修正项的意义\(1/\sqrt{n}\) 项包含了偏度 \(\kappa_3\) 的修正,反映了分布的不对称性。\(1/n\) 项包含了峰度 \(\kappa_4\) 和偏度平方 \(\kappa_3^2\) 的修正。
    • 局限性:Edgeworth展开可能在分布的尾部区域表现不佳,甚至可能产生负的“概率”值,因为它是一个渐近展开而非真正的概率分布。
    • 应用:常用于统计推断中提高近似的精度,例如构造更精确的置信区间、假设检验中的临界值计算等。它是许多更高级渐近理论的基础。
随机变量的变换的Edgeworth展开 Edgeworth展开是一种用于逼近概率分布函数的渐近展开方法,它通过修正中心极限定理中的正态近似,以提高逼近的精度。其核心思想是利用随机变量的累积量(或矩)来构造一个包含高阶项的级数展开。 背景与动机:中心极限定理的局限性 中心极限定理指出,在满足一定条件下,独立同分布随机变量和的标准化形式依分布收敛于标准正态分布。 然而,在实际应用中,当样本量 \( n \) 有限时,用正态分布来近似随机变量和的分布可能会存在误差,特别是当原始随机变量的分布明显偏离正态分布(例如,存在偏度或峰度)时。 Edgeworth展开的目的就是提供一个比单纯的正态近似更精确的逼近公式,它通过引入原始分布的高阶累积量(如三阶、四阶累积量,分别与偏度和峰度相关)来修正正态分布。 预备知识:累积量 设 \( X \) 是一个随机变量,其矩生成函数为 \( M_ X(t) = E[ e^{tX}] \)(如果存在)。累积量生成函数 \( K_ X(t) \) 定义为矩生成函数的对数:\( K_ X(t) = \log M_ X(t) \)。 将 \( K_ X(t) \) 在 \( t=0 \) 处进行泰勒展开: \( K_ X(t) = \kappa_ 1 t + \frac{\kappa_ 2 t^2}{2!} + \frac{\kappa_ 3 t^3}{3!} + \frac{\kappa_ 4 t^4}{4 !} + \cdots \) 其中,系数 \( \kappa_ 1, \kappa_ 2, \kappa_ 3, \kappa_ 4, \cdots \) 分别称为 \( X \) 的一阶、二阶、三阶、四阶……累积量。 累积量与矩有关:\( \kappa_ 1 = E[ X] \)(均值),\( \kappa_ 2 = \text{Var}(X) \)(方差),\( \kappa_ 3 = E[ (X-E[ X])^3] \)(与偏度相关),\( \kappa_ 4 = E[ (X-E[ X])^4] - 3\kappa_ 2^2 \)(与超额峰度相关)。 展开的核心:特征函数的展开 考虑标准化和 \( S_ n = \frac{\sum_ {i=1}^n X_ i - n\mu}{\sigma \sqrt{n}} \),其中 \( X_ i \) 独立同分布,\( E[ X_ i] = \mu \),\( \text{Var}(X_ i) = \sigma^2 \)。 \( S_ n \) 的特征函数为 \( \phi_ {S_ n}(t) = [ \phi(\frac{t}{\sigma \sqrt{n}})]^n \),其中 \( \phi(t) \) 是 \( (X_ i - \mu) \) 的特征函数。 对累积量生成函数 \( \log \phi(t) \) 进行泰勒展开,并将其代入 \( \phi_ {S_ n}(t) \) 的表达式。然后,对 \( \log \phi_ {S_ n}(t) \) 进行泰勒展开,并取指数,得到 \( \phi_ {S_ n}(t) \) 的展开式: \( \phi_ {S_ n}(t) = e^{-t^2/2} \left[ 1 + \frac{\kappa_ 3}{6\sigma^3\sqrt{n}} (it)^3 + \frac{\kappa_ 4}{24\sigma^4 n}(it)^4 + \frac{\kappa_ 3^2}{72\sigma^6 n}(it)^6 + \cdots \right ] \)。 这个展开式表明,\( S_ n \) 的特征函数可以表示为标准正态特征函数 \( e^{-t^2/2} \) 乘以一个包含 \( 1/\sqrt{n} \) 的各次幂的修正项。 逆变换得到分布函数:利用埃尔米特多项式 为了从特征函数的展开得到分布函数的展开,需要进行傅里叶逆变换。 标准正态分布的概率密度函数是 \( \phi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} \)。 埃尔米特多项式 \( He_ k(x) \) 在这里起到关键作用,它们与正态密度函数的关系由以下等式定义: \( (-1)^k \frac{d^k \phi(x)}{dx^k} = He_ k(x) \phi(x) \)。 例如,\( He_ 3(x) = x^3 - 3x \), \( He_ 4(x) = x^4 - 6x^2 + 3 \), \( He_ 6(x) = x^6 - 15x^4 + 45x^2 - 15 \)。 特征函数展开式中的 \( (it)^k e^{-t^2/2} \) 项,其傅里叶逆变换正好对应于 \( (-1)^k He_ k(x) \phi(x) \)。 Edgeworth展开式 综合以上步骤,对标准化和 \( S_ n \) 的概率密度函数 \( f_ n(x) \) 的Edgeworth展开(到 \( n^{-1} \) 阶)为: \( f_ n(x) \approx \phi(x) \left[ 1 + \frac{\kappa_ 3}{6\sigma^3\sqrt{n}} He_ 3(x) + \frac{1}{n} \left( \frac{\kappa_ 4}{24\sigma^4} He_ 4(x) + \frac{\kappa_ 3^2}{72\sigma^6} He_ 6(x) \right) \right ] \)。 对其积分,可以得到分布函数 \( F_ n(x) = P(S_ n \le x) \) 的Edgeworth展开: \( F_ n(x) \approx \Phi(x) - \phi(x) \left[ \frac{\kappa_ 3}{6\sigma^3\sqrt{n}} He_ 2(x) + \frac{1}{n} \left( \frac{\kappa_ 4}{24\sigma^4} He_ 3(x) + \frac{\kappa_ 3^2}{72\sigma^6} He_ 5(x) \right) \right ] \), 其中 \( \Phi(x) \) 是标准正态分布函数,\( He_ 2(x) = x^2 - 1 \), \( He_ 5(x) = x^5 - 10x^3 + 15x \)。 性质与应用 精度 :Edgeworth展开提供了比中心极限定理更精确的近似,误差通常为 \( o(n^{-1}) \) 或更高阶,具体取决于所取的项数。 修正项的意义 :\( 1/\sqrt{n} \) 项包含了偏度 \( \kappa_ 3 \) 的修正,反映了分布的不对称性。\( 1/n \) 项包含了峰度 \( \kappa_ 4 \) 和偏度平方 \( \kappa_ 3^2 \) 的修正。 局限性 :Edgeworth展开可能在分布的尾部区域表现不佳,甚至可能产生负的“概率”值,因为它是一个渐近展开而非真正的概率分布。 应用 :常用于统计推断中提高近似的精度,例如构造更精确的置信区间、假设检验中的临界值计算等。它是许多更高级渐近理论的基础。