随机变量的变换的Rao–Cramér不等式

字数 1434 2025-11-24 00:49:26

随机变量的变换的Rao–Cramér不等式

我们先从参数估计的背景开始。在统计学中，当我们有一个包含未知参数的分布模型，我们经常通过样本来估计这个参数。一个自然的问题是：这个估计的精度最高能达到多少？Rao–Cramér不等式（也称为Cramér–Rao下界）给出了无偏估计量方差的一个下界，从而回答了这个问题。

第一步：定义费希尔信息量
为了建立这个下界，我们首先需要引入一个关键概念——费希尔信息量。假设我们有一个概率模型，其概率密度函数（或概率质量函数）为 \(f(x;\theta)\)，其中 \(\theta\) 是未知参数。费希尔信息量 \(I(\theta)\) 定义为：

\[I(\theta) = \mathbb{E}\left[ \left( \frac{\partial}{\partial \theta} \log f(X;\theta) \right)^2 \right] \]

这里，\(\frac{\partial}{\partial \theta} \log f(X;\theta)\) 被称为得分函数（score function）。费希尔信息量直观地衡量了样本携带关于参数 \(\theta\) 的信息量；信息量越大，意味着我们从样本中能更精确地估计 \(\theta\)。

第二步：推导Rao–Cramér不等式
现在，假设我们有一个无偏估计量 \(\hat{\theta}\)，即 \(\mathbb{E}[\hat{\theta}] = \theta\)。在一定的正则性条件下（例如，密度函数的支撑集不依赖于 \(\theta\)，且可交换积分与求导的顺序），Rao–Cramér不等式指出：

\[\text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} \]

这个不等式告诉我们，任何无偏估计量的方差至少是费希尔信息量的倒数。因此，\(\frac{1}{I(\theta)}\) 被称为Cramér–Rao下界（CRLB）。如果某个估计量的方差达到这个下界，我们就称它为有效估计量。

第三步：扩展到多个参数的情形
当模型有多个参数（即 \(\theta\) 是一个向量）时，费希尔信息量扩展为一个矩阵（费希尔信息矩阵），记作 \(I(\theta)\)。此时，Rao–Cramér不等式推广为：

\[\text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} \]

这里，\(\text{Cov}(\hat{\theta})\) 是估计量的协方差矩阵，不等式表示右边减去左边是一个半正定矩阵。这为多元参数估计的精度提供了下界。

第四步：理解不等式的意义和应用
Rao–Cramér不等式在统计学中有几个重要作用：

它提供了一个基准，用于评估估计量的效率。例如，我们可以计算一个估计量的效率（efficiency）定义为 CRLB 与实际方差的比值。
它揭示了估计精度与模型信息量之间的基本关系：信息量 \(I(\theta)\) 越大，下界越小，意味着潜在估计精度越高。
它在假设检验和置信区间的构造中也有应用，因为方差下界直接影响这些推断的准确性。

总结来说，Rao–Cramér不等式是参数估计理论的一个基石，它通过费希尔信息量将估计量的方差下界量化，为我们理解和比较不同估计量的性能提供了基本工具。

随机变量的变换的Rao–Cramér不等式我们先从参数估计的背景开始。在统计学中，当我们有一个包含未知参数的分布模型，我们经常通过样本来估计这个参数。一个自然的问题是：这个估计的精度最高能达到多少？Rao–Cramér不等式（也称为Cramér–Rao下界）给出了无偏估计量方差的一个下界，从而回答了这个问题。第一步：定义费希尔信息量为了建立这个下界，我们首先需要引入一个关键概念——费希尔信息量。假设我们有一个概率模型，其概率密度函数（或概率质量函数）为 \( f(x;\theta) \)，其中 \(\theta\) 是未知参数。费希尔信息量 \( I(\theta) \) 定义为： \[ I(\theta) = \mathbb{E}\left[ \left( \frac{\partial}{\partial \theta} \log f(X;\theta) \right)^2 \right ] \] 这里，\( \frac{\partial}{\partial \theta} \log f(X;\theta) \) 被称为得分函数（score function）。费希尔信息量直观地衡量了样本携带关于参数 \(\theta\) 的信息量；信息量越大，意味着我们从样本中能更精确地估计 \(\theta\)。第二步：推导Rao–Cramér不等式现在，假设我们有一个无偏估计量 \( \hat{\theta} \)，即 \( \mathbb{E}[ \hat{\theta} ] = \theta \)。在一定的正则性条件下（例如，密度函数的支撑集不依赖于 \(\theta\)，且可交换积分与求导的顺序），Rao–Cramér不等式指出： \[ \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} \] 这个不等式告诉我们，任何无偏估计量的方差至少是费希尔信息量的倒数。因此，\( \frac{1}{I(\theta)} \) 被称为Cramér–Rao下界（CRLB）。如果某个估计量的方差达到这个下界，我们就称它为有效估计量。第三步：扩展到多个参数的情形当模型有多个参数（即 \(\theta\) 是一个向量）时，费希尔信息量扩展为一个矩阵（费希尔信息矩阵），记作 \( I(\theta) \)。此时，Rao–Cramér不等式推广为： \[ \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} \] 这里，\(\text{Cov}(\hat{\theta})\) 是估计量的协方差矩阵，不等式表示右边减去左边是一个半正定矩阵。这为多元参数估计的精度提供了下界。第四步：理解不等式的意义和应用 Rao–Cramér不等式在统计学中有几个重要作用：它提供了一个基准，用于评估估计量的效率。例如，我们可以计算一个估计量的效率（efficiency）定义为 CRLB 与实际方差的比值。它揭示了估计精度与模型信息量之间的基本关系：信息量 \( I(\theta) \) 越大，下界越小，意味着潜在估计精度越高。它在假设检验和置信区间的构造中也有应用，因为方差下界直接影响这些推断的准确性。总结来说，Rao–Cramér不等式是参数估计理论的一个基石，它通过费希尔信息量将估计量的方差下界量化，为我们理解和比较不同估计量的性能提供了基本工具。