随机变量的变换的M估计的渐近理论
好的,我们现在来循序渐进地学习“随机变量的变换的M估计的渐近理论”。这个主题是数理统计渐近理论的核心,它将M估计的稳健思想与极限定理(如大数定律、中心极限定理)相结合,为我们提供了推断的基础。
第一步:理解核心概念——什么是M估计?
首先,我们明确“估计”的目标。假设我们观察到一个独立同分布的数据集 \(X_1, X_2, ..., X_n\),它们来自一个由未知参数 \(\theta\) 决定的概率分布 \(P_{\theta}\)。我们的目标是用这些数据来“猜”(估计)出 \(\theta\) 的真值。
M估计 的思想非常直观:它通过“最优化”一个目标函数来得到估计值。这个目标函数通常是数据的一个函数,其“最优点”(如最小值、最大值或零点)在某种意义上对应着我们想找的参数。
定义: 一个参数 \(\theta\) 的M估计量 \(\hat{\theta}_n\) 定义为某个目标函数 \(M_n(\theta)\) 的极小化点(或某个方程的解):
\[\hat{\theta}_n = \arg \min_{\theta \in \Theta} \frac{1}{n} \sum_{i=1}^{n} \rho(X_i, \theta) \]
或等价地,是下列方程的解(如果目标函数可微):
\[\frac{1}{n} \sum_{i=1}^{n} \psi(X_i, \hat{\theta}_n) = 0 \]
这里:
- \(\rho(x, \theta)\) 是“损失函数”或“目标函数”。
- \(\psi(x, \theta) = \frac{\partial}{\partial \theta} \rho(x, \theta)\) 被称为“影响函数”或“得分函数”。
- \(\Theta\) 是参数空间。
关键例子:
- 最大似然估计 是M估计的一个特例。此时,\(\rho(x, \theta) = -\log f(x; \theta)\),其中 \(f\) 是概率密度函数。\(\psi(x, \theta)\) 就是对数似然函数的导数(得分函数)。
- 样本中位数 也是一个M估计。取 \(\rho(x, \theta) = |x - \theta|\),其极小化点就是中位数。对应的 \(\psi\) 函数是符号函数 \(\psi(x, \theta) = \text{sign}(x - \theta)\)。
第二步:从直观到理论——为什么需要“渐近理论”?
计算出的 \(\hat{\theta}_n\) 只是一个基于有限样本 \(n\) 的数值。我们需要从理论上理解这个估计量的性质:
- 一致性: 当样本量 \(n\) 非常大时,\(\hat{\theta}_n\) 会“收敛”到真正的参数值 \(\theta_0\) 吗?
- 分布形态: 估计量 \(\hat{\theta}_n\) 的抽样分布(即反复抽样计算 \(\hat{\theta}_n\) 所形成的分布)长什么样?特别地,当 \(n\) 很大时,它是否近似某个我们熟知的分布(如正态分布)?
- 效率: 这个估计量的波动性有多大?它的方差(或更一般地,协方差矩阵)是多少?它是否达到了最优(比如Cramér-Rao下界)?
“渐近理论”就是用极限定理(\(n \to \infty\))来回答这些问题的理论框架。它允许我们在样本量足够大时,用简单的极限分布来近似复杂的有限样本分布,从而进行假设检验、构建置信区间等统计推断。
第三步:建立渐近理论的第一步——证明相合性
相合性是最基本的要求。我们通常从“依概率收敛”开始。
核心思想: 我们的样本目标函数 \(M_n(\theta) = \frac{1}{n}\sum \rho(X_i, \theta)\) 是随机的。由(你已学过的)大数定律,当 \(n\) 很大时,它会收敛到其期望值:
\[M_n(\theta) \overset{P}{\to} M(\theta) := E_{\theta_0}[\rho(X, \theta)] \]
这里期望 \(E_{\theta_0}\) 是在真实分布 \(P_{\theta_0}\) 下取的。如果函数 \(M(\theta)\) 在真实参数 \(\theta_0\) 处取得唯一的全局最小值,并且参数空间 \(\Theta\) 是紧致的,那么极小化 \(M_n(\theta)\) 得到的 \(\hat{\theta}_n\) 就会收敛到极小化 \(M(\theta)\) 的 \(\theta_0\)。这就是 M估计的(弱)相合性。
为什么这是合理的? 因为如果样本平均目标函数 \(M_n(\theta)\) 整体上很接近它的期望 \(M(\theta)\),那么前者的极小点也应该接近后者的极小点。
第四步:建立渐近理论的第二步——推导渐近正态性
这是理论的核心。我们想知道 \(\hat{\theta}_n\) 围绕 \(\theta_0\) 的波动情况,即 \(\sqrt{n}(\hat{\theta}_n - \theta_0)\) 的分布。
推导思路(基于一阶泰勒展开):
- 估计方程: 由于 \(\hat{\theta}_n\) 是方程 \(\sum \psi(X_i, \hat{\theta}_n) = 0\) 的解,而 \(\theta_0\) 是“总体方程” \(E[\psi(X, \theta_0)] = 0\) 的解(这通常是我们对估计量提出的“无偏性”要求)。
- 泰勒展开: 在 \(\theta_0\) 处对 \(\frac{1}{n}\sum \psi(X_i, \theta)\) 进行一阶泰勒展开:
\[ 0 = \frac{1}{n} \sum_{i=1}^{n} \psi(X_i, \hat{\theta}_n) \approx \frac{1}{n} \sum_{i=1}^{n} \psi(X_i, \theta_0) + \left[ \frac{1}{n} \sum_{i=1}^{n} \frac{\partial \psi}{\partial \theta}(X_i, \tilde{\theta}) \right] (\hat{\theta}_n - \theta_0) \]
其中 \(\tilde{\theta}\) 介于 \(\hat{\theta}_n\) 和 \(\theta_0\) 之间。
3. 应用极限定理:
* 由中心极限定理,第一项(经尺度变换后)依分布收敛于正态分布:
\[ \sqrt{n} \left( \frac{1}{n} \sum_{i=1}^{n} \psi(X_i, \theta_0) \right) \overset{d}{\to} N(0, V), \quad V = \text{Var}(\psi(X, \theta_0)) \]
\(V\) 被称为“散度”矩阵。
* 由大数定律,第二项的系数矩阵收敛于一个常数矩阵:
\[ \frac{1}{n} \sum_{i=1}^{n} \frac{\partial \psi}{\partial \theta}(X_i, \tilde{\theta}) \overset{P}{\to} A := E\left[ \frac{\partial \psi}{\partial \theta}(X, \theta_0) \right] \]
\(A\) 被称为“敏感度”或“海塞”矩阵(的期望的负值)。
4. 整理结果: 从泰勒展开式解出 \(\sqrt{n}(\hat{\theta}_n - \theta_0)\):
\[ \sqrt{n}(\hat{\theta}_n - \theta_0) \approx -A^{-1} \cdot \sqrt{n} \left( \frac{1}{n} \sum_{i=1}^{n} \psi(X_i, \theta_0) \right) \]
因为右边的随机向量是渐近正态的,乘以一个常数矩阵 \(-A^{-1}\) 后,结果仍然是多元正态分布。
最终结论(渐近正态性):
\[\sqrt{n}(\hat{\theta}_n - \theta_0) \overset{d}{\to} N\left( 0, A^{-1} V (A^{-1})^T \right) \]
这个公式极其重要。估计量的渐近方差-协方差矩阵是“三明治”形式:\(A^{-1} V (A^{-1})^T\)。
第五步:深入理解“三明治”方差及其含义
- 矩阵 \(V\)(外层面包):度量了 \(\psi\) 函数本身的波动性。如果 \(\psi\) 对异常值敏感(波动大),\(V\) 就大,导致估计量的方差也大。
- 矩阵 \(A\)(中间肉饼):度量了估计方程在 \(\theta_0\) 处的平均“陡峭”程度。\(A\) 的绝对值越大,意味着方程的解对参数变化越敏感,稍微偏离 \(\theta_0\) 就会导致方程值剧烈变化,这使得估计量更“稳定”,从而方差更小(体现在乘以 \(A^{-1}\) 上)。
与最大似然估计的联系:
在最大似然估计的特定条件下(模型设定正确):
- \(\psi\) 是得分函数。
- 信息等式 成立:\(V = \text{Var}(得分函数) = \text{Fisher信息矩阵} I(\theta_0)\),并且 \(A = -E[海塞矩阵] = -I(\theta_0)\)。
- 此时三明治方差简化为:\(A^{-1} V (A^{-1})^T = I(\theta_0)^{-1} I(\theta_0) I(\theta_0)^{-1} = I(\theta_0)^{-1}\)。
这正是著名的结论:极大似然估计是渐近有效的,其渐近方差达到Cramér-Rao下界。
稳健性的体现:
对于一般的M估计(如Huber估计),模型可能不完全正确,或者我们为了稳健性有意选择非似然的 \(\psi\) 函数。此时信息等式不成立,\(V \neq -A\),三明治形式完整保留。这个“三明治”方差公式允许我们在更宽松的条件下(不要求模型完全正确)进行有效的统计推断,这是M估计渐近理论强大和实用的体现。实践中,可以用样本矩来估计 \(A\) 和 \(V\),从而得到渐近方差的估计。
总结
随机变量的变换的M估计的渐近理论 提供了一个严谨的框架,来分析一大类通过最优化(或解方程)得到的统计量的极限行为:
- 起点 是定义明确的M估计量(目标函数/估计方程)。
- 基础 是证明其相合性,依赖于大数定律和极值函数/估计方程的连续性。
- 核心 是推导其渐近正态分布,关键在于对估计方程在真值处进行泰勒展开,并联合应用中心极限定理和大数定律。
- 成果 是得到形式为 \(N(0, A^{-1} V (A^{-1})^T)\) 的极限分布。这个“三明治”方差公式统一了经典的有效估计(如MLE)和稳健估计的渐近性质,是现代统计推断的基石。