随机变量的变换的Rao–Cramér不等式
字数 1434 2025-11-24 00:49:26

随机变量的变换的Rao–Cramér不等式

我们先从参数估计的背景开始。在统计学中,当我们有一个包含未知参数的分布模型,我们经常通过样本来估计这个参数。一个自然的问题是:这个估计的精度最高能达到多少?Rao–Cramér不等式(也称为Cramér–Rao下界)给出了无偏估计量方差的一个下界,从而回答了这个问题。

第一步:定义费希尔信息量
为了建立这个下界,我们首先需要引入一个关键概念——费希尔信息量。假设我们有一个概率模型,其概率密度函数(或概率质量函数)为 \(f(x;\theta)\),其中 \(\theta\) 是未知参数。费希尔信息量 \(I(\theta)\) 定义为:

\[I(\theta) = \mathbb{E}\left[ \left( \frac{\partial}{\partial \theta} \log f(X;\theta) \right)^2 \right] \]

这里,\(\frac{\partial}{\partial \theta} \log f(X;\theta)\) 被称为得分函数(score function)。费希尔信息量直观地衡量了样本携带关于参数 \(\theta\) 的信息量;信息量越大,意味着我们从样本中能更精确地估计 \(\theta\)

第二步:推导Rao–Cramér不等式
现在,假设我们有一个无偏估计量 \(\hat{\theta}\),即 \(\mathbb{E}[\hat{\theta}] = \theta\)。在一定的正则性条件下(例如,密度函数的支撑集不依赖于 \(\theta\),且可交换积分与求导的顺序),Rao–Cramér不等式指出:

\[\text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} \]

这个不等式告诉我们,任何无偏估计量的方差至少是费希尔信息量的倒数。因此,\(\frac{1}{I(\theta)}\) 被称为Cramér–Rao下界(CRLB)。如果某个估计量的方差达到这个下界,我们就称它为有效估计量。

第三步:扩展到多个参数的情形
当模型有多个参数(即 \(\theta\) 是一个向量)时,费希尔信息量扩展为一个矩阵(费希尔信息矩阵),记作 \(I(\theta)\)。此时,Rao–Cramér不等式推广为:

\[\text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} \]

这里,\(\text{Cov}(\hat{\theta})\) 是估计量的协方差矩阵,不等式表示右边减去左边是一个半正定矩阵。这为多元参数估计的精度提供了下界。

第四步:理解不等式的意义和应用
Rao–Cramér不等式在统计学中有几个重要作用:

  1. 它提供了一个基准,用于评估估计量的效率。例如,我们可以计算一个估计量的效率(efficiency)定义为 CRLB 与实际方差的比值。
  2. 它揭示了估计精度与模型信息量之间的基本关系:信息量 \(I(\theta)\) 越大,下界越小,意味着潜在估计精度越高。
  3. 它在假设检验和置信区间的构造中也有应用,因为方差下界直接影响这些推断的准确性。

总结来说,Rao–Cramér不等式是参数估计理论的一个基石,它通过费希尔信息量将估计量的方差下界量化,为我们理解和比较不同估计量的性能提供了基本工具。

随机变量的变换的Rao–Cramér不等式 我们先从参数估计的背景开始。在统计学中,当我们有一个包含未知参数的分布模型,我们经常通过样本来估计这个参数。一个自然的问题是:这个估计的精度最高能达到多少?Rao–Cramér不等式(也称为Cramér–Rao下界)给出了无偏估计量方差的一个下界,从而回答了这个问题。 第一步:定义费希尔信息量 为了建立这个下界,我们首先需要引入一个关键概念——费希尔信息量。假设我们有一个概率模型,其概率密度函数(或概率质量函数)为 \( f(x;\theta) \),其中 \(\theta\) 是未知参数。费希尔信息量 \( I(\theta) \) 定义为: \[ I(\theta) = \mathbb{E}\left[ \left( \frac{\partial}{\partial \theta} \log f(X;\theta) \right)^2 \right ] \] 这里,\( \frac{\partial}{\partial \theta} \log f(X;\theta) \) 被称为得分函数(score function)。费希尔信息量直观地衡量了样本携带关于参数 \(\theta\) 的信息量;信息量越大,意味着我们从样本中能更精确地估计 \(\theta\)。 第二步:推导Rao–Cramér不等式 现在,假设我们有一个无偏估计量 \( \hat{\theta} \),即 \( \mathbb{E}[ \hat{\theta} ] = \theta \)。在一定的正则性条件下(例如,密度函数的支撑集不依赖于 \(\theta\),且可交换积分与求导的顺序),Rao–Cramér不等式指出: \[ \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} \] 这个不等式告诉我们,任何无偏估计量的方差至少是费希尔信息量的倒数。因此,\( \frac{1}{I(\theta)} \) 被称为Cramér–Rao下界(CRLB)。如果某个估计量的方差达到这个下界,我们就称它为有效估计量。 第三步:扩展到多个参数的情形 当模型有多个参数(即 \(\theta\) 是一个向量)时,费希尔信息量扩展为一个矩阵(费希尔信息矩阵),记作 \( I(\theta) \)。此时,Rao–Cramér不等式推广为: \[ \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} \] 这里,\(\text{Cov}(\hat{\theta})\) 是估计量的协方差矩阵,不等式表示右边减去左边是一个半正定矩阵。这为多元参数估计的精度提供了下界。 第四步:理解不等式的意义和应用 Rao–Cramér不等式在统计学中有几个重要作用: 它提供了一个基准,用于评估估计量的效率。例如,我们可以计算一个估计量的效率(efficiency)定义为 CRLB 与实际方差的比值。 它揭示了估计精度与模型信息量之间的基本关系:信息量 \( I(\theta) \) 越大,下界越小,意味着潜在估计精度越高。 它在假设检验和置信区间的构造中也有应用,因为方差下界直接影响这些推断的准确性。 总结来说,Rao–Cramér不等式是参数估计理论的一个基石,它通过费希尔信息量将估计量的方差下界量化,为我们理解和比较不同估计量的性能提供了基本工具。