随机变量的变换的Edgeworth展开的高阶修正
好的,我们现在来讲解随机变量的变换的Edgeworth展开的高阶修正。要理解这个概念,我们需要循序渐进地走完以下几步。
第一步:中心极限定理的核心与局限
我们知道经典的中心极限定理告诉我们:对于一个独立同分布的随机变量序列 \(X_1, X_2, ..., X_n\),假设其均值为 \(\mu\),方差为 \(\sigma^2 > 0\),那么其标准化和
\[Z_n = \frac{S_n - n\mu}{\sigma \sqrt{n}} = \frac{1}{\sqrt{n}} \sum_{i=1}^{n} \frac{X_i - \mu}{\sigma} \]
依分布收敛 到标准正态分布 \(N(0,1)\)。即:
\[\lim_{n \to \infty} P(Z_n \leq z) = \Phi(z) \]
其中 \(\Phi(z)\) 是标准正态分布的累积分布函数。
然而,这个结论本质上是一阶近似。它告诉我们当 \(n\) 很大时,\(Z_n\) 的分布可以用正态分布来近似,但没有告诉我们这个近似的精度有多高。对于有限的、特别是中等的样本量 \(n\),这个正态近似可能会有不小的误差。
第二步:Edgeworth展开的基本思想
为了量化并改进正态近似的精度,Edgeworth展开应运而生。它的核心思想是,将标准化和 \(Z_n\) 的分布函数 \(F_n(z) = P(Z_n \leq z)\) 展开成一个关于 \(n^{-1/2}\) 的渐近级数,其首项是正态分布,后续的项是修正项,这些修正项依赖于 \(X\) 的高阶累积量(如偏度、峰度)。
假设 \(X\) 的前 \(k\) 阶矩存在。令 \(\kappa_3, \kappa_4, ...\) 是标准化变量 \(Y = (X-\mu)/\sigma\) 的3阶、4阶...累积量。注意,\(\kappa_1=0, \kappa_2=1\)。
经典的三项Edgeworth展开(近似到 \(O(n^{-1})\) 阶)为:
\[P(Z_n \leq z) \approx \Phi(z) + \phi(z) \left[ \frac{\kappa_3}{6\sqrt{n}} (1 - z^2) + \frac{\kappa_4}{24n}(3z - z^3) + \frac{\kappa_3^2}{72n}(10z^3 - 15z) \right] \]
其中 \(\phi(z)\) 是标准正态密度。这里:
- \(\Phi(z)\) 是零阶(正态近似)项。
- 与 \(n^{-1/2}\) 成比例的项 \(\frac{\kappa_3}{6\sqrt{n}} (1 - z^2)\phi(z)\) 是一阶修正,它修正了分布由于偏度 (\(\kappa_3\)) 引起的非对称性。
- 与 \(n^{-1}\) 成比例的项(包含 \(\kappa_4\) 和 \(\kappa_3^2\) 的部分)是二阶修正,它进一步修正了峰度 (\(\kappa_4\)) 以及偏度的平方项带来的影响。
这个展开比单纯的正态近似更精确,特别是当分布明显不对称(偏度大)或与正态分布的尾部、峰部有差异时。
第三步:何为“高阶修正”?
上面给出的展开式只到 \(n^{-1}\) 阶。所谓“高阶修正”,就是将这个渐近展开式继续写下去,包含更高阶的 \(n^{-3/2}, n^{-2}, ...\) 项。
例如,一个包含 \(n^{-3/2}\) 阶项的Edgeworth展开(四阶展开)会更加复杂,它会引入 \(X\) 的5阶和6阶累积量(或其组合),以及 \(z\) 的更高次(如5次、7次)多项式乘以 \(\phi(z)\)。
用一般形式表示,Edgeworth展开可以写作:
\[F_n(z) = \Phi(z) + \phi(z) \sum_{j=1}^{s-2} n^{-j/2} P_j(z) + o(n^{-(s-2)/2}) \]
其中 \(P_j(z)\) 是系数依赖于原始分布前 \(j+2\) 阶累积量的多项式。这就是高阶修正的数学表述。每一阶更高的修正项 \(n^{-j/2} P_j(z)\phi(z)\) 都旨在更精细地刻画有限样本分布 \(F_n(z)\) 与极限正态分布 \(\Phi(z)\) 之间的偏差。
第四步:高阶修正的计算与“变换”的结合
现在,我们触及核心:“随机变量的变换”的Edgeworth展开高阶修正。我们通常关心的不仅是 \(Z_n\) 本身,而往往是 \(Z_n\) 的一个变换后的统计量,比如:
- 样本方差
- 样本相关系数
- t统计量
- 似然比统计量
- 或更一般地,一个光滑函数 \(g(Z_n)\)
假设我们关心 \(T_n = g(Z_n)\) 的分布。如果 \(g(\cdot)\) 是一个在0点附近光滑的函数,且 \(g'(0) \neq 0\),那么由Delta方法,\(T_n\) 也渐近正态。但同样,对于有限样本,我们需要更精确的近似。
高阶修正的步骤通常如下:
- 对 \(Z_n\) 进行Edgeworth展开:首先,获得 \(Z_n\) 的分布函数 \(F_n(z)\) 的高阶(比如到 \(n^{-k/2}\) 阶)Edgeworth展开式,如第三步所示。
- 应用变换:考虑变换 \(T_n = g(Z_n)\)。我们需要求 \(P(T_n \leq t)\)。这等价于 \(P(Z_n \leq g^{-1}(t))\),前提是 \(g\) 单调。更一般地,我们需要处理 \(g\) 的逆或泰勒展开。
- 代入并重新展开:将 \(z = g^{-1}(t)\) (或从 \(T_n\) 的泰勒展开反解出的 \(Z_n\) 表达式)代入第一步得到的 \(F_n(z)\) 的Edgeworth展开式中。
- 展开与化简:由于 \(g^{-1}(t)\) 本身可能依赖于 \(n\)(例如,当 \(t\) 对应 \(T_n\) 的分位数时),我们需要对复合表达式再次进行关于 \(n^{-1/2}\) 的渐近展开,合并同类项。
- 得到变换后统计量的高阶修正:最终,我们会得到 \(T_n\) 的分布函数的一个新的渐近展开式,形如:
\[ P(T_n \leq t) = \Phi(\xi) + \phi(\xi) \left[ q_1(\xi)n^{-1/2} + q_2(\xi)n^{-1} + q_3(\xi)n^{-3/2} + ... \right] + ... \]
其中 \(\xi\) 是与 \(t\) 和 \(g\) 相关的某个标准化变量(通常 \(\xi\) 是使得首项为 \(\Phi(\xi)\) 的“枢轴量”),而多项式 \(q_1, q_2, q_3, ...\) 不仅依赖于 \(X\) 的累积量 (\(\kappa_3, \kappa_4, ...\)),还依赖于变换函数 \(g\) 的导数 (\(g', g'', ...\))。这里的 \(q_3(\xi)n^{-3/2}\) 及更高阶项,就是针对变换后统计量 \(T_n\) 的高阶修正。
第五步:高阶修正的意义与应用
- 提高近似精度:在中、小样本情况下,加入高阶修正项(如 \(n^{-3/2}\) 或 \(n^{-2}\) 项)能显著提升对统计量(尤其是其尾部分位数)的分布近似精度。这对于假设检验的显著性水平和置信区间的覆盖概率的校准至关重要。
- 校正偏差与不对称性:即使经过变换,统计量 \(T_n\) 的分布可能仍有偏态和峰态。高阶修正项能系统性地校正这些特性,提供更准确的单侧或双侧概率。
- 应用于复杂统计量:在似然推断中,许多检验统计量(如似然比统计量、Wald统计量、得分统计量)都可以视为某个基本统计量的变换。对这些统计量的分布进行高阶Edgeworth修正,可以得到著名的 Bartlett校正 等结果,使得基于卡方近似的检验在有限样本下更可靠。
- 数值计算的优化:在计算分位数或临界值时,使用带有高阶修正的公式,可以在不增加模拟次数(如Bootstrap)的情况下,获得更准确的数值结果。
总结:
“随机变量的变换的Edgeworth展开的高阶修正”是一个系统的理论工具。它从中心极限定理的有限样本精度不足这一实际问题出发,通过引入基于累积量的渐近展开来逐阶提高近似精度。当我们的研究对象不是一个简单的标准化和,而是它的一个光滑变换时,我们需要将这个变换代入到基本和的Edgeworth展开中,并通过复杂的渐近运算,推导出变换后统计量自身分布的高阶修正公式。这一工具深刻体现了渐近理论如何通过精细的数学分析,来指导和改进实际的统计推断。