随机变量的变换的Edgeworth展开的高阶修正
字数 3194 2025-12-20 13:57:19

随机变量的变换的Edgeworth展开的高阶修正

好的,让我们来循序渐进地学习随机变量的变换的Edgeworth展开的高阶修正

第一步:回顾核心概念——中心极限定理与正态近似

为了理解高阶修正,我们必须从基础开始。

  1. 中心极限定理 (CLT): 对于一系列独立同分布的随机变量 \(X_1, X_2, \dots, X_n\),其均值为 \(\mu\),方差为 \(\sigma^2 > 0\)。定义标准化样本和(或样本均值)为:

\[ S_n^* = \frac{\sum_{i=1}^{n} X_i - n\mu}{\sigma \sqrt{n}} = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \]

CLT指出,当 \(n \to \infty\) 时, \(S_n^*\) 的分布收敛到标准正态分布 \(N(0,1)\)。记其分布函数为 \(F_n(x) = P(S_n^* \leq x)\),则有:

\[ \lim_{n \to \infty} F_n(x) = \Phi(x) \]

其中 \(\Phi(x)\) 是标准正态分布函数。
2. 正态近似: 在统计推断中,我们经常用一个有限样本量 \(n\) 下的 \(S_n^*\) 来近似 \(N(0,1)\) 分布。这种近似是“零阶”近似,误差为 \(O(n^{-1/2})\)。对于中等样本量,这个近似可能不够精确,尤其当我们关心分布尾部的概率时。

第二步:引入初步修正——Edgeworth展开(一阶)

为了改进正态近似,我们可以引入更高阶的项。这就是经典的Edgeworth展开的核心思想。

  1. 动机: 我们不仅仅满足于极限,还想知道 \(F_n(x)\)\(\Phi(x)\) 之间的是什么样子,并用一个包含 \(n\) 的负幂次的级数来描述它。
  2. 工具: 这个展开通常通过特征函数的对数展开(即累积量生成函数)来推导。设 \(X_i\) 的前 \(k\) 阶累积量为 \(\kappa_1 = \mu, \kappa_2 = \sigma^2, \kappa_3, \kappa_4, \dots\)
  3. 一阶Edgeworth展开: 对分布函数的一个常见一阶展开式为:

\[ F_n(x) \approx \Phi(x) - \frac{\gamma_1}{6\sqrt{n}} \phi(x) (x^2 - 1) + O(n^{-1}) \]

其中:
  • \(\phi(x) = \Phi'(x)\) 是标准正态密度函数。
  • \(\gamma_1 = \kappa_3 / \sigma^3\)\(X_i\)偏度。它衡量了分布的不对称性。
  1. 解释
  • 这个近似在正态近似 \(\Phi(x)\) 的基础上,增加了一个修正项,其阶为 \(O(n^{-1/2})\)
  • 修正项与偏度 \(\gamma_1\) 成正比。如果分布是对称的 (\(\gamma_1=0\)),这一项消失,近似会更快地接近正态。
  • 修正项的形状由 \((x^2-1)\phi(x)\) 描述,这是一个奇函数,反映了偏度修正对分布左右尾部的影响不对称。

第三步:深入核心——Edgeworth展开的高阶修正

经典的Edgeworth展开可以扩展到包含更高阶的项,以提供更精确的近似。这就是“高阶修正”。

  1. 展开结构: 一个更完整的Edgeworth展开(到 \(n^{-1}\) 阶)形式如下:

\[ F_n(x) \approx \Phi(x) + \frac{p_1(x)}{\sqrt{n}} \phi(x) + \frac{p_2(x)}{n} \phi(x) + O(n^{-3/2}) \]

其中 \(p_1(x)\)\(p_2(x)\) 是关于 \(x\) 的多项式。
2. 修正项详解

  • 一阶修正项 \(p_1(x)\): 我们已经见过,\(p_1(x) = -\frac{\gamma_1}{6}(x^2 - 1)\)。它修正了由三阶累积量(偏度) 引起的误差。
  • 二阶修正项 \(p_2(x)\): 这个项更复杂,通常形式为:

\[ p_2(x) = -x \left[ \frac{\gamma_2}{24}(x^2 - 3) + \frac{\gamma_1^2}{72}(x^4 - 10x^2 + 15) \right] \]

其中 \(\gamma_2 = \kappa_4 / \sigma^4\)\(X_i\)峰度(或更准确地说,超出正态分布部分的峰度,即超额峰度)。它衡量了分布的尖峭和尾部厚重程度。

  • 因此,二阶修正项 \(p_2(x)/n\) 同时包含了四阶累积量(峰度)\(\gamma_2\) 的直接影响,以及偏度 \(\gamma_1\) 的平方产生的间接影响。
  1. “高阶修正”的含义: 所谓高阶,指的是在展开式 (A) 中,包含了比初始的 \(O(n^{-1/2})\) 阶(即 \(n^{-1/2}\) 项)更高的项。通常:
  • 包含 \(n^{-1/2}\) 项: 一阶修正。
  • 包含 \(n^{-1}\) 项: 二阶修正。
  • 包含 \(n^{-3/2}\) 项: 三阶修正,以此类推。
    每增加一阶,就需要用到更高一阶的总体累积量(\(\kappa_5, \kappa_6, \dots\)),公式也急剧复杂化。

第四步:理解高阶修正的作用、优势与局限性

  1. 作用
  • 提高近似精度: 对于固定的、非正态的总体分布和有限的样本量 \(n\),包含的高阶项越多,近似分布 \(F_n(x)\) 的精度通常越高。这使得用解析公式逼近分位数、计算尾部概率或构造置信区间更为准确。
  • 揭示偏差来源: 它明确地将近似误差分解为不同来源:偏度效应 (\(n^{-1/2}\))、峰度效应与偏度的平方效应 (\(n^{-1}\)) 等,这有助于从理论上理解收敛速度。
  1. 优势
    • 解析表达式: 与蒙特卡洛模拟等数值方法相比,它提供了一个明确的公式,便于分析和理论推导。
    • 系统性改进: 提供了一种系统性的、可控制精度的改进正态近似的方法。
  2. 局限性
  • 非一致性有效性: Edgeworth展开在分布的尾部(即 \(|x|\) 很大时)可能失效。展开式中的修正项 \(\frac{p_k(x)}{\sqrt{n}^k} \phi(x)\)\(x\) 很大时,多项式 \(p_k(x)\) 的增长可能使得“修正项”变得与主项 \(\Phi(x)\) 可比甚至更大,从而破坏近似的有效性。这在构造置信区间时尤其需要注意。
  • 对矩的要求: 要使用包含 \(n^{-s/2}\) 阶的修正,需要假定总体的前 \(s+2\) 阶矩是有限的。例如,要进行二阶修正(用到 \(n^{-1}\) 项),需要总体的六阶矩有限。
  • 公式复杂性: 高阶修正项的表达式非常复杂,手工推导和使用困难。在实践中,二阶修正 (\(n^{-1}\) 阶) 已属常见,三阶及以上很少直接使用。

第五步:总结与联系

随机变量的变换的Edgeworth展开的高阶修正 是中心极限定理精度提升理论的核心工具之一。它通过在原有点估计(正态近似)的基础上,系统性地添加由总体高阶累积量(如偏度、峰度)决定的修正项,来更精确地描述标准化样本统计量在有限样本下的分布。从一阶修正(主要修正偏度)到二阶修正(进一步修正峰度及偏度的二次效应),每一次“高阶”延伸都旨在缩小近似与真实分布之间的差距,但其有效性在分布尾部需要谨慎对待。

随机变量的变换的Edgeworth展开的高阶修正 好的,让我们来循序渐进地学习 随机变量的变换的Edgeworth展开的高阶修正 。 第一步:回顾核心概念——中心极限定理与正态近似 为了理解高阶修正,我们必须从基础开始。 中心极限定理 (CLT) : 对于一系列独立同分布的随机变量 \(X_ 1, X_ 2, \dots, X_ n\),其均值为 \(\mu\),方差为 \(\sigma^2 > 0\)。定义标准化样本和(或样本均值)为: \[ S_ n^* = \frac{\sum_ {i=1}^{n} X_ i - n\mu}{\sigma \sqrt{n}} = \frac{\bar{X} n - \mu}{\sigma / \sqrt{n}} \] CLT指出,当 \(n \to \infty\) 时, \(S_ n^ \) 的分布 收敛到 标准正态分布 \(N(0,1)\)。记其分布函数为 \(F_ n(x) = P(S_ n^ \leq x)\),则有: \[ \lim {n \to \infty} F_ n(x) = \Phi(x) \] 其中 \(\Phi(x)\) 是标准正态分布函数。 正态近似 : 在统计推断中,我们经常用一个有限样本量 \(n\) 下的 \(S_ n^* \) 来近似 \(N(0,1)\) 分布。这种近似是“零阶”近似,误差为 \(O(n^{-1/2})\)。对于中等样本量,这个近似可能不够精确,尤其当我们关心分布尾部的概率时。 第二步:引入初步修正——Edgeworth展开(一阶) 为了改进正态近似,我们可以引入更高阶的项。这就是经典的 Edgeworth展开 的核心思想。 动机 : 我们不仅仅满足于极限,还想知道 \(F_ n(x)\) 与 \(\Phi(x)\) 之间的 差 是什么样子,并用一个包含 \(n\) 的负幂次的级数来描述它。 工具 : 这个展开通常通过 特征函数 的对数展开(即 累积量生成函数 )来推导。设 \(X_ i\) 的前 \(k\) 阶累积量为 \(\kappa_ 1 = \mu, \kappa_ 2 = \sigma^2, \kappa_ 3, \kappa_ 4, \dots\)。 一阶Edgeworth展开 : 对分布函数的一个常见一阶展开式为: \[ F_ n(x) \approx \Phi(x) - \frac{\gamma_ 1}{6\sqrt{n}} \phi(x) (x^2 - 1) + O(n^{-1}) \] 其中: \(\phi(x) = \Phi'(x)\) 是标准正态密度函数。 \(\gamma_ 1 = \kappa_ 3 / \sigma^3\) 是 \(X_ i\) 的 偏度 。它衡量了分布的不对称性。 解释 : 这个近似在正态近似 \(\Phi(x)\) 的基础上, 增加了一个修正项 ,其阶为 \(O(n^{-1/2})\)。 修正项与偏度 \(\gamma_ 1\) 成正比。如果分布是对称的 (\(\gamma_ 1=0\)),这一项消失,近似会更快地接近正态。 修正项的形状由 \( (x^2-1)\phi(x) \) 描述,这是一个奇函数,反映了偏度修正对分布左右尾部的影响不对称。 第三步:深入核心——Edgeworth展开的高阶修正 经典的Edgeworth展开可以扩展到包含更高阶的项,以提供更精确的近似。这就是“高阶修正”。 展开结构 : 一个更完整的Edgeworth展开(到 \(n^{-1}\) 阶)形式如下: \[ F_ n(x) \approx \Phi(x) + \frac{p_ 1(x)}{\sqrt{n}} \phi(x) + \frac{p_ 2(x)}{n} \phi(x) + O(n^{-3/2}) \] 其中 \(p_ 1(x)\) 和 \(p_ 2(x)\) 是关于 \(x\) 的多项式。 修正项详解 : 一阶修正项 \(p_ 1(x)\) : 我们已经见过,\(p_ 1(x) = -\frac{\gamma_ 1}{6}(x^2 - 1)\)。它修正了由 三阶累积量(偏度) 引起的误差。 二阶修正项 \(p_ 2(x)\) : 这个项更复杂,通常形式为: \[ p_ 2(x) = -x \left[ \frac{\gamma_ 2}{24}(x^2 - 3) + \frac{\gamma_ 1^2}{72}(x^4 - 10x^2 + 15) \right ] \] 其中 \(\gamma_ 2 = \kappa_ 4 / \sigma^4\) 是 \(X_ i\) 的 峰度 (或更准确地说,超出正态分布部分的峰度,即超额峰度)。它衡量了分布的尖峭和尾部厚重程度。 因此,二阶修正项 \(p_ 2(x)/n\) 同时包含了 四阶累积量(峰度)\(\gamma_ 2\) 的直接影响,以及 偏度 \(\gamma_ 1\) 的平方 产生的间接影响。 “高阶修正”的含义 : 所谓高阶,指的是在展开式 (A) 中,包含了比初始的 \(O(n^{-1/2})\) 阶(即 \(n^{-1/2}\) 项)更高的项。通常: 包含 \(n^{-1/2}\) 项: 一阶修正。 包含 \(n^{-1}\) 项: 二阶修正。 包含 \(n^{-3/2}\) 项: 三阶修正,以此类推。 每增加一阶,就需要用到更高一阶的总体累积量(\(\kappa_ 5, \kappa_ 6, \dots\)),公式也急剧复杂化。 第四步:理解高阶修正的作用、优势与局限性 作用 : 提高近似精度 : 对于固定的、非正态的总体分布和有限的样本量 \(n\),包含的高阶项越多,近似分布 \(F_ n(x)\) 的精度通常越高。这使得用解析公式逼近分位数、计算尾部概率或构造置信区间更为准确。 揭示偏差来源 : 它明确地将近似误差分解为不同来源:偏度效应 (\(n^{-1/2}\))、峰度效应与偏度的平方效应 (\(n^{-1}\)) 等,这有助于从理论上理解收敛速度。 优势 : 解析表达式 : 与蒙特卡洛模拟等数值方法相比,它提供了一个明确的公式,便于分析和理论推导。 系统性改进 : 提供了一种系统性的、可控制精度的改进正态近似的方法。 局限性 : 非一致性有效性 : Edgeworth展开在分布的 尾部 (即 \(|x|\) 很大时)可能失效。展开式中的修正项 \(\frac{p_ k(x)}{\sqrt{n}^k} \phi(x)\) 在 \(x\) 很大时,多项式 \(p_ k(x)\) 的增长可能使得“修正项”变得与主项 \(\Phi(x)\) 可比甚至更大,从而破坏近似的有效性。这在构造置信区间时尤其需要注意。 对矩的要求 : 要使用包含 \(n^{-s/2}\) 阶的修正,需要假定总体的前 \(s+2\) 阶矩是有限的。例如,要进行二阶修正(用到 \(n^{-1}\) 项),需要总体的六阶矩有限。 公式复杂性 : 高阶修正项的表达式非常复杂,手工推导和使用困难。在实践中,二阶修正 (\(n^{-1}\) 阶) 已属常见,三阶及以上很少直接使用。 第五步:总结与联系 随机变量的变换的Edgeworth展开的高阶修正 是中心极限定理精度提升理论的核心工具之一。它通过在原有点估计(正态近似)的基础上, 系统性地添加由总体高阶累积量(如偏度、峰度)决定的修正项 ,来更精确地描述标准化样本统计量在有限样本下的分布。从一阶修正(主要修正偏度)到二阶修正(进一步修正峰度及偏度的二次效应),每一次“高阶”延伸都旨在缩小近似与真实分布之间的差距,但其有效性在分布尾部需要谨慎对待。