概率论与统计中的随机变量的变换的随机化鞍点近似
我们首先明确“鞍点近似”的核心目标:它是一种用于逼近概率分布(特别是尾部概率)或概率密度函数的高精度近似方法。而“随机化”意味着我们将随机性引入到这个近似过程中,通常是为了进一步提高其精度,或使之成为一个无偏估计。
第一步:理解常规的鞍点近似(非随机化)
常规鞍点近似源于复分析中的鞍点法(最速下降法),用于计算积分的渐近近似。在概率论中,我们处理的是累积量生成函数。
-
核心工具:累积量生成函数 (CGF)
对于一个随机变量 \(X\),其矩生成函数为 \(M_X(t) = E[e^{tX}]\),定义在其存在的一个区间内。累积量生成函数是 \(K_X(t) = \log M_X(t)\)。它包含了 \(X\) 的所有累积量(例如,一阶累积量是期望,二阶是方差)。 -
鞍点方程
假设我们想计算 \(S_n = \sum_{i=1}^n X_i\) 的概率密度函数 \(f_{S_n}(s)\) 或尾概率 \(P(S_n > s)\),其中 \(X_i\) 是独立同分布的。鞍点近似从 \(f_{S_n}(s)\) 的傅里叶逆积分表示出发:
\[ f_{S_n}(s) = \frac{1}{2\pi i} \int_{\tau - i\infty}^{\tau + i\infty} \exp\{ n[K_X(t) - t(s/n)] \} \, dt \]
这里积分路径平行于虚轴,穿过矩生成函数的收敛域。鞍点 \(\hat{t}\) 是使积分中被积函数指数部分关于实变量 \(t\) 的导数等于零的点,即它是以下方程的解:
\[ K_X'(\hat{t}) = \frac{s}{n} \]
这个方程被称为鞍点方程。其解 \(\hat{t}\) 依赖于目标值 \(s\)。直观上,鞍点是在复平面上选择的最优积分路径所经过的“山脊”上的点,使得积分值主要贡献来自于此点附近。
- 常规鞍点近似公式
在鞍点 \(\hat{t}\) 处对指数进行二阶展开,并进行拉普拉斯近似,可得到密度函数的鞍点近似:
\[ f_{S_n}(s) \approx \frac{1}{\sqrt{2\pi n K_X''(\hat{t})}} \exp\{ n[K_X(\hat{t}) - \hat{t} K_X'(\hat{t})] \} \]
对于尾概率 \(P(S_n > s)\),有更精细的 Lugannani-Rice 公式。关键点是,这个近似的相对误差是 \(O(n^{-1})\),这比中心极限定理提供的 \(O(n^{-1/2})\) 要好得多,尤其在分布尾部。
第二步:引入随机性——为什么需要“随机化”?
常规鞍点近似虽然精度高,但仍有局限:
- 它在非常接近分布中心或尾部极值处可能精度下降。
- 对于离散分布或某些复杂模型,近似公式可能需要连续性校正,处理起来繁琐。
- 随机化的核心思想是:用一个连续、光滑的随机扰动来“平滑”目标概率,然后再应用鞍点近似,从而得到理论上无偏或精度更高的近似。
具体做法通常如下:
假设我们想近似 \(P(S_n \le s)\) 或 \(P(S_n > s)\)。我们不直接近似这个跳跃的(对离散分布而言)或不那么平滑的函数,而是考虑:
\[P(S_n \le s) = E[I(S_n \le s)] \]
其中 \(I(\cdot)\) 是示性函数。我们用一个关于 \(S_n\) 的、光滑的随机函数 \(H(S_n; U)\) 来替代这个硬性的示性函数,其中 \(U\) 是一个独立的、服从简单已知分布(如均匀分布)的随机变量。这个函数满足:
\[E_U[H(s; U)] = I(s \le 0) \quad \text{(经过适当平移后)} \]
也就是说,在引入的随机变量 \(U\) 的条件期望下,光滑函数能精确地还原原始的示性函数。
第三步:随机化鞍点近似的机制
- 构造光滑无偏估计子
一个经典的随机化函数是 线性插值平滑。定义 \(Z = S_n - s\),我们想估计 \(P(Z \le 0)\)。引入一个独立的随机变量 \(U \sim \text{Uniform}(0, 1)\),并令:
\[ H(Z; U) = \begin{cases} 1, & \text{如果 } Z < -U, \\ 1 - (Z+U), & \text{如果 } -U \le Z < 1-U, \\ 0, & \text{如果 } Z \ge 1-U. \end{cases} \]
容易验证,对于固定的 \(Z\),有 \(E_U[H(Z; U)] = P(U > -Z) = I(Z \le 0)\)。因此,\(H(S_n - s; U)\) 是 \(I(S_n \le s)\) 的一个无偏估计,并且它关于 \(S_n\) 是连续的、分段线性的。
- 应用鞍点近似
我们现在要计算的不再是 \(E[I(S_n \le s)]\),而是 \(E[H(S_n - s; U)]\)。由于 \(H(\cdot; U)\) 是连续函数,我们可以对其矩生成函数(关于 \(S_n\) 的分布)应用鞍点近似技巧。
对于给定的一个 \(U\) 的实现 \(u\),函数 \(H(z; u)\) 在 \(z\) 上是定义明确的。我们可以计算“被平滑后的”随机变量 \(H(S_n - s; u)\) 的矩生成函数(或至少是它的期望,这等价于 \(H\) 的拉普拉斯变换与 \(S_n\) 的矩生成函数的某种组合)。
通过傅里叶/拉普拉斯分析,对 \(E[H(S_n - s; U)] = E_U[E_{S_n}[H(S_n - s; u)]]\) 的内层期望 \(E_{S_n}[H(S_n - s; u)]\) 应用鞍点近似。这个过程会涉及:- 找到平滑后函数的“有效”累积量生成函数。
- 求解对应于平滑后函数的鞍点方程。这个方程通常依赖于随机化的实现 \(u\)。
- 应用拉普拉斯近似得到 \(E_{S_n}[H(S_n - s; u)]\) 的近似表达式。
- 最终近似与期望
最终,我们对这个依赖于 \(u\) 的近似表达式,关于 \(U \sim \text{Uniform}(0,1)\) 求期望。这个最终的期望就是随机化鞍点近似的结果。数学上,它通常可以写成一个关于 \(u\) 的、形式相对简单的积分,而这个积分通常可以解析计算或高精度数值积分。
第四步:随机化鞍点近似的优势与特点
- 精度提升:对于连续和离散分布,随机化鞍点近似通常能达到非常高的相对精度,例如误差为 \(O(n^{-3/2})\) 或更小,尤其是在分布的中心区域。它有效地“平滑”了近似中的不连续点,从而提升了拉普拉斯近似的效果。
- 自动连续性校正:对于离散随机变量求和(如二项分布、泊松分布),常规鞍点近似需要手动添加如“+1/2”之类的连续性校正因子。而随机化方法通过平滑过程,自动、内在地包含了最优的连续性校正,无需额外步骤。
- 无偏性基础:由于其构造始于一个无偏的随机化估计子 \(H(S_n - s; U)\),因此最终的近似结果在某种意义上是这个无偏估计子的高精度近似,具有更好的统计性质。
- 应用范围:它广泛应用于统计推断中,用于计算复杂检验统计量的精确 \(p\) 值(尤其是在列联表、 logistic 回归等模型中),计算风险价值(VaR)等尾部概率,以及稀有事件模拟中的重要性抽样权重计算。
总结:随机化鞍点近似是一种将蒙特卡洛思想(引入辅助随机变量) 与高精度解析近似(鞍点法) 相结合的强大技术。它通过引入一个辅助的均匀随机变量来平滑目标概率,然后对这个平滑后的、期望值不变的问题应用鞍点近似,最终得到比常规鞍点近似精度更高、对离散数据更鲁棒的近似结果。