随机变量的变换的Rao–Cramér不等式
我们先从参数估计的背景开始。在统计学中,当我们有一个包含未知参数的分布模型,我们经常通过样本来估计这个参数。一个自然的问题是:这个估计的精度最高能达到多少?Rao–Cramér不等式(也称为Cramér–Rao下界)给出了无偏估计量方差的一个下界,从而回答了这个问题。
第一步:定义费希尔信息量
为了建立这个下界,我们首先需要引入一个关键概念——费希尔信息量。假设我们有一个概率模型,其概率密度函数(或概率质量函数)为 \(f(x;\theta)\),其中 \(\theta\) 是未知参数。费希尔信息量 \(I(\theta)\) 定义为:
\[I(\theta) = \mathbb{E}\left[ \left( \frac{\partial}{\partial \theta} \log f(X;\theta) \right)^2 \right] \]
这里,\(\frac{\partial}{\partial \theta} \log f(X;\theta)\) 被称为得分函数(score function)。费希尔信息量直观地衡量了样本携带关于参数 \(\theta\) 的信息量;信息量越大,意味着我们从样本中能更精确地估计 \(\theta\)。
第二步:推导Rao–Cramér不等式
现在,假设我们有一个无偏估计量 \(\hat{\theta}\),即 \(\mathbb{E}[\hat{\theta}] = \theta\)。在一定的正则性条件下(例如,密度函数的支撑集不依赖于 \(\theta\),且可交换积分与求导的顺序),Rao–Cramér不等式指出:
\[\text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} \]
这个不等式告诉我们,任何无偏估计量的方差至少是费希尔信息量的倒数。因此,\(\frac{1}{I(\theta)}\) 被称为Cramér–Rao下界(CRLB)。如果某个估计量的方差达到这个下界,我们就称它为有效估计量。
第三步:扩展到多个参数的情形
当模型有多个参数(即 \(\theta\) 是一个向量)时,费希尔信息量扩展为一个矩阵(费希尔信息矩阵),记作 \(I(\theta)\)。此时,Rao–Cramér不等式推广为:
\[\text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} \]
这里,\(\text{Cov}(\hat{\theta})\) 是估计量的协方差矩阵,不等式表示右边减去左边是一个半正定矩阵。这为多元参数估计的精度提供了下界。
第四步:理解不等式的意义和应用
Rao–Cramér不等式在统计学中有几个重要作用:
- 它提供了一个基准,用于评估估计量的效率。例如,我们可以计算一个估计量的效率(efficiency)定义为 CRLB 与实际方差的比值。
- 它揭示了估计精度与模型信息量之间的基本关系:信息量 \(I(\theta)\) 越大,下界越小,意味着潜在估计精度越高。
- 它在假设检验和置信区间的构造中也有应用,因为方差下界直接影响这些推断的准确性。
总结来说,Rao–Cramér不等式是参数估计理论的一个基石,它通过费希尔信息量将估计量的方差下界量化,为我们理解和比较不同估计量的性能提供了基本工具。