好的,我将为你讲解一个未在列表中出现的词条。
随机变量的变换的Cornish-Fisher展开
接下来,我将为你循序渐进地讲解这个知识点。我会从一个核心问题出发,逐步构建起整个理论框架。
第一步:核心问题——为什么需要Cornish-Fisher展开?
假设你熟悉中心极限定理:大量独立同分布随机变量之和(或均值),在标准化后,其分布会渐近于标准正态分布。即:
\[\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \overset{d}{\rightarrow} N(0, 1) \]
我们经常用这个结果来构造“近似”的分位数。例如,对于标准正态分布 \(Z \sim N(0,1)\),我们知道其95%的分位数(上α分位点,α=0.05)大约是 \(z_{0.95} \approx 1.645\)。基于CLT,我们可能会近似地认为,标准化后的统计量其95%分位数也是1.645。
但问题来了:这个近似有多好?如果原随机变量的分布不是正态的(例如偏斜、厚尾),即使样本量n较大,用正态分位数来近似真实分位数也可能带来显著误差。这在金融风险管理(计算风险价值VaR)、工程可靠性分析中是不可接受的。
因此,我们需要一种方法,在中心极限定理这个“一阶正态近似”的基础上,进行高阶修正,以得到更精确的分位数估计。这就是Cornish-Fisher展开的使命。
第二步:知识基石——Edgeworth展开与分位数函数
要理解Cornish-Fisher展开,必须先了解它的“兄弟”:Edgeworth展开。
- 累积量: 定义随机变量\(X\)的累积生成函数为 \(K(t) = \log E[e^{tX}]\)。其泰勒展开系数 \(\kappa_r\) 称为第\(r\)阶累积量。
- \(\kappa_1 = \mu\) (均值)
- \(\kappa_2 = \sigma^2\) (方差)
- \(\kappa_3\) 与偏度有关(衡量分布不对称性)
- \(\kappa_4\) 与峰度有关(衡量分布尾部厚度和峰尖程度)
- Edgeworth展开: 对于标准化后的样本均值 \(S_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}}\),其分布函数 \(F_{S_n}(x)\) 可以展开为以标准正态分布函数 \(\Phi(x)\) 为基础的级数:
\[ F_{S_n}(x) = \Phi(x) + \frac{\phi(x)}{\sqrt{n}} \left[ \frac{\kappa_3}{6\sigma^3} (1 - x^2) \right] + \frac{\phi(x)}{n} \left[ \frac{\kappa_4}{24\sigma^4} (x^3 - 3x) + \frac{\kappa_3^2}{72\sigma^6} (x^5 - 10x^3 + 15x) \right] + ... \]
- \(\phi(x)\)是标准正态密度函数。
- 这个展开式包含了基于偏度 (\(\kappa_3\)) 和峰度 (\(\kappa_4\)) 的修正项。
- 它是一个关于分布函数 \(F(x)\) 的渐近展开。
新的问题: 我们通常需要的是分位数 \(x_\alpha\),使得 \(F_{S_n}(x_\alpha) = \alpha\),而不是分布函数本身。如何从Edgeworth展开“反解”出分位数?这就是Cornish-Fisher展开的工作。
第三步:核心思想——分位数函数的逆向展开
Cornish-Fisher展开的基本思想,是寻找分位数 \(x_\alpha\) 的一个展开式,其形式为:
\[x_\alpha = z_\alpha + \frac{1}{\sqrt{n}} a_1(z_\alpha) + \frac{1}{n} a_2(z_\alpha) + \frac{1}{n^{3/2}} a_3(z_\alpha) + ... \]
其中:
- \(z_\alpha\) 是标准正态分布的 \(\alpha\) 分位数(已知的“一阶近似”)。
- \(a_1, a_2, a_3, ...\) 是 \(z_\alpha\) 的多项式函数,其系数由原分布的累积量(特别是偏度和峰度)决定。
推导思路(简述):
我们有两个关系:
- Edgeworth展开: \(F_{S_n}(x_\alpha) = \Phi(x_\alpha) + \text{小量修正} = \alpha\)。
- 正态分位数定义: \(\Phi(z_\alpha) = \alpha\)。
将 \(x_\alpha = z_\alpha + \delta\) 代入Edgeworth展开,并利用 \(\Phi(z_\alpha + \delta) \approx \Phi(z_\alpha) + \phi(z_\alpha) \delta\) 等近似,通过比较同阶项(如 \(1/\sqrt{n}, 1/n, ...\)),可以逐阶解出修正项 \(\delta\),从而得到 \(a_1, a_2, ...\) 的具体形式。
第四步:具体形式——Cornish-Fisher展开公式
设标准化变量 \(S\)(不一定是样本均值,只要是渐近正态的统计量即可)的累积量为 \(\kappa_r\)。记其偏度系数 \(\gamma_1 = \kappa_3 / \sigma^3\),峰度(超额)系数 \(\gamma_2 = \kappa_4 / \sigma^4\)。则其 \(\alpha\) 分位数 \(q_\alpha\) 的Cornish-Fisher展开到 \(O(1/n)\) 阶为:
\[q_\alpha = z_\alpha + \frac{1}{6\sqrt{n}} (z_\alpha^2 - 1) \gamma_1 + \frac{1}{24n} (z_\alpha^3 - 3z_\alpha) \gamma_2 - \frac{1}{36n} (2z_\alpha^3 - 5z_\alpha) \gamma_1^2 + ... \]
让我们仔细解读这个美妙的公式:
- 主项: \(z_\alpha\)。这就是中心极限定理给的简单正态近似。
- 一阶修正项(阶为 \(1/\sqrt{n}\)): \(\frac{1}{6\sqrt{n}} (z_\alpha^2 - 1) \gamma_1\)。
- 它的核心是偏度 \(\gamma_1\)。
- 函数 \((z_\alpha^2 - 1)\) 在 \(z_\alpha = \pm 1\) 时为0,在两侧符号相反。这意味着:
- 如果分布是右偏的 (\(\gamma_1 > 0\)),那么对于右侧尾部的分位数 (\(\alpha > 0.5, z_\alpha > 0\)),修正项为正,真实分位数 \(q_\alpha\) 比正态分位数 \(z_\alpha\) 更大。这是符合直觉的:右偏分布的长尾在右边,要达到同样的累积概率,需要向右走得更远。
- 对于左侧尾部 (\(\alpha < 0.5, z_\alpha < 0\)),修正项为负,\(q_\alpha\) 比 \(z_\alpha\) 更小(即更靠左),同样是因为质量被拖到了右侧,左侧尾部更薄。
- 二阶修正项(阶为 \(1/n\)): 包含两部分。
- \(\frac{1}{24n} (z_\alpha^3 - 3z_\alpha) \gamma_2\): 由峰度 \(\gamma_2\) 驱动。峰度高(厚尾)时,分位数需要向外调整。
- \(-\frac{1}{36n} (2z_\alpha^3 - 5z_\alpha) \gamma_1^2\): 这是偏度的平方项产生的效应,即使分布对称(\(\gamma_1=0\)),但如果存在非线性变换,二阶项仍可能通过其他方式存在。
第五步:应用、优势与局限性
应用场景:
- 金融风险管理: 计算资产组合的风险价值。金融收益率数据常呈现非正态性(偏斜、厚尾),直接用正态分位数会低估风险。使用Cornish-Fisher展开,结合样本估计的偏度和峰度,可以得到更准确的VaR估计。
- 统计推断: 构造更精确的置信区间或假设检验的临界值。当抽样分布未知且非正态时,可以用Cornish-Fisher展开来校准临界值。
- 工程与可靠性: 评估系统在极端情况下的性能分位数。
优势:
- 精度高: 在中等样本量下,比单纯的正态近似精度有显著提升。
- 基于矩: 只需要计算样本的均值、方差、偏度、峰度等低阶矩,计算相对简单。
- 通用框架: 适用于任何渐近正态的统计量。
局限性:
- 非一致性修正: Cornish-Fisher展开是一个渐近展开,而非收敛级数。加入过多高阶项(如超过 \(1/n^{3/2}\))不一定能提高精度,有时甚至会使结果变差。它通常只在前几项有效。
- 对极端尾部的敏感性: 当 \(\alpha\) 非常接近0或1(极端分位数)时,展开式的准确性会下降,因为高阶矩的估计本身变得非常不稳定。
- 有效性依赖原始展开: 它源于Edgeworth展开,因此要求统计量具有良好的渐近性质,并且累积量存在。对于非常重尾的分布(如方差无穷),该方法不适用。
总结
随机变量的变换的Cornish-Fisher展开,是一种利用随机变量(或统计量)的累积量(主要是偏度和峰度),对其分位数进行高阶渐进修正的强大工具。它从Edgeworth展开出发,通过逆向求解,得到了以标准正态分位数为基础、加上由偏度和峰度决定的修正项的展开式。它在金融、统计推断等领域为解决“非正态性下的分位数估计”问题提供了经典而实用的方案,但其应用也需注意其渐近性质和对于极端情况的局限性。