随机变量的变换的泰勒展开方法
- 基本概念回顾与问题引入
首先,我们明确“随机变量的变换”这一核心问题:设有一个随机变量 \(X\),其概率分布已知。现在我们考虑另一个随机变量 \(Y = g(X)\),其中 \(g\) 是一个已知的函数。我们的目标是求出 \(Y\) 的分布特征,例如其期望 \(E[Y]\)、方差 \(\text{Var}(Y)\),或者更一般的,其矩 \(E[Y^k]\)。
直接计算这些量有时很困难,特别是当函数 \(g\) 非常复杂或者 \(X\) 的分布不易处理时。此时,我们需要一种近似方法。泰勒展开,作为一种用多项式(其性质我们非常熟悉)来局部逼近复杂函数的强大工具,自然成为了一个候选方案。
- 一阶泰勒展开与Delta方法
我们从最简单的情况开始。假设函数 \(g(x)\) 在点 \(x = \mu\) 处是可导的,其中 \(\mu = E[X]\) 是随机变量 \(X\) 的期望。那么,\(g(x)\) 在 \(\mu\) 处的一阶泰勒展开为:
\[ g(X) \approx g(\mu) + g'(\mu)(X - \mu) \]
这里,\(g'(\mu)\) 是函数 \(g\) 在 \(\mu\) 处的导数。这个近似等式的含义是:在 \(X\) 的值接近其期望 \(\mu\) 的区域内,函数 \(g(X)\) 可以用一条通过点 \((\mu, g(\mu))\) 且斜率为 \(g'(\mu)\) 的直线来近似。
现在,我们对这个近似式两边取期望:
\[ E[Y] = E[g(X)] \approx E[g(\mu) + g'(\mu)(X - \mu)] = g(\mu) + g'(\mu)E[(X - \mu)] = g(\mu) \]
因为 \(E[X - \mu] = 0\)。这个结果非常直观:变换后随机变量 \(Y\) 的期望,大约等于将原随机变量 \(X\) 的期望代入函数 \(g\) 所得的值。
接下来,我们计算 \(Y\) 的方差的近似值。根据方差的定义 \(\text{Var}(Y) = E[Y^2] - (E[Y])^2\),但利用泰勒展开的线性形式直接推导更简便。由于 \(Y \approx g(\mu) + g'(\mu)(X - \mu)\),我们可以将 \(Y\) 近似看作一个关于 \(X\) 的线性函数。对于线性函数 \(a + bX\),其方差为 \(b^2 \text{Var}(X)\)。在这里,常数项 \(g(\mu)\) 不影响方差,斜率是 \(g'(\mu)\),因此:
\[ \text{Var}(Y) = \text{Var}(g(X)) \approx [g'(\mu)]^2 \text{Var}(X) \]
这种利用一阶泰勒展开来近似随机变量变换的均值和方差的方法,在统计学中非常著名,被称为 **Delta方法**。
-
二阶泰勒展开与更精确的近似
一阶近似(Delta方法)在很多时候已经足够好,特别是当 \(g(x)\) 在 \(\mu\) 附近接近线性,或者 \(X\) 的方差 \(\text{Var}(X)\) 很小时。然而,如果函数 \(g\) 在 \(\mu\) 附近有明显的曲率(即二阶导数不小),那么一阶近似可能会带来较大的误差。为了获得更精确的近似,我们使用二阶泰勒展开:
\[ g(X) \approx g(\mu) + g'(\mu)(X - \mu) + \frac{1}{2} g''(\mu)(X - \mu)^2 \]
其中 \(g''(\mu)\) 是函数 \(g\) 在 \(\mu\) 处的二阶导数。现在再次对两边取期望:
\[ E[Y] = E[g(X)] \approx E\left[ g(\mu) + g'(\mu)(X - \mu) + \frac{1}{2} g''(\mu)(X - \mu)^2 \right] \]
利用期望的线性性质,我们得到:
\[ E[Y] \approx g(\mu) + g'(\mu)E[X - \mu] + \frac{1}{2} g''(\mu) E[(X - \mu)^2] \]
由于 \(E[X - \mu] = 0\),且 \(E[(X - \mu)^2] = \text{Var}(X)\),所以:
\[ E[Y] \approx g(\mu) + \frac{1}{2} g''(\mu) \text{Var}(X) \]
这个公式表明,变换后的期望不仅依赖于 \(g(\mu)\),还依赖于 \(g\) 在 \(\mu\) 处的曲率(由二阶导数衡量)和 \(X\) 的方差。如果 \(g\) 是凸函数(\(g''(\mu) > 0\)),那么 \(E[g(X)] > g(E[X])\);如果 \(g\) 是凹函数(\(g''(\mu) < 0\)),那么 \(E[g(X)] < g(E[X])\)。这被称为 Jensen不等式 在局部近似下的体现。
- 应用场景与注意事项
- 统计推断:Delta方法最常见的应用之一是在渐近统计中。例如,设 \(\hat{\theta}_n\) 是参数 \(\theta\) 的一个估计量(如最大似然估计),满足 \(\sqrt{n}(\hat{\theta}_n - \theta) \overset{d}{\to} N(0, \sigma^2)\)(依分布收敛于正态分布)。如果我们想估计某个函数 \(\phi = g(\theta)\),可以利用Delta方法证明 \(\sqrt{n}(g(\hat{\theta}_n) - g(\theta)) \overset{d}{\to} N(0, [g'(\theta)]^2 \sigma^2)\),从而构造置信区间或进行假设检验。
- 误差传播:在物理实验和工程中,测量值 \(X\) 存在误差(方差),Delta方法可以用来估计经过函数变换后的量 \(Y = g(X)\) 的误差(方差)。
- 使用前提与局限性:
-
函数光滑性:函数 \(g\) 需要在点 \(\mu\) 的邻域内具有所需的各阶导数。
-
展开点的选择:通常围绕 \(E[X] = \mu\) 展开。如果 \(X\) 的分布使得 \(X\) 远离 \(\mu\) 的概率不可忽略,近似效果会变差。
-
近似精度:泰勒展开是局部近似。近似的质量取决于 \(X\) 的方差大小。方差越大,\(X\) 的取值越分散,在 \(\mu\) 处的局部近似就可能越不准确。高阶展开可以提高精度,但计算也会变得更复杂。
-
扩展到多元随机变量
泰勒展开方法可以自然地推广到多元情形。设 \(\mathbf{X} = (X_1, X_2, ..., X_p)^T\) 是一个随机向量,其期望向量为 \(\boldsymbol{\mu} = E[\mathbf{X}]\)。考虑标量值函数 \(Y = g(\mathbf{X})\)。
在 \(\boldsymbol{\mu}\) 处的一阶泰勒展开为:
\[ g(\mathbf{X}) \approx g(\boldsymbol{\mu}) + \nabla g(\boldsymbol{\mu})^T (\mathbf{X} - \boldsymbol{\mu}) \]
其中 \(\nabla g(\boldsymbol{\mu})\) 是梯度向量(一阶偏导数向量)。那么,\(Y\) 的期望和方差的近似为:
\[ E[Y] \approx g(\boldsymbol{\mu}) \]
\[ \text{Var}(Y) \approx \nabla g(\boldsymbol{\mu})^T \boldsymbol{\Sigma} \nabla g(\boldsymbol{\mu}) \]
其中 \(\boldsymbol{\Sigma}\) 是随机向量 \(\mathbf{X}\) 的协方差矩阵。这就是多元情况下的 Delta方法。二阶展开同样可以用于获得更精确的期望近似,但会涉及到Hessian矩阵(二阶偏导数矩阵)。