随机变量的变换的充分统计量
充分统计量是统计推断中的一个核心概念,它能够捕捉样本中关于未知参数的全部信息。下面我将从基本定义开始,逐步解释充分统计量的性质、判定方法及其在概率论与统计中的应用。
-
定义与直观理解
设有一个来自分布族 \(\{P_\theta: \theta \in \Theta\}\) 的随机样本 \(X = (X_1, X_2, ..., X_n)\),其联合概率密度函数(或概率质量函数)为 \(f(x|\theta)\)。一个统计量 \(T(X)\) 称为参数 \(\theta\) 的充分统计量,若在给定 \(T(X) = t\) 的条件下,样本 \(X\) 的条件分布与 \(\theta\) 无关。
直观意义:一旦知道了 \(T(X)\) 的值,样本中关于 \(\theta\) 的额外信息不再提供任何新信息。例如,对于独立同分布的正态样本 \(X_i \sim N(\mu, 1)\),样本均值 \(\bar{X}\) 是 \(\mu\) 的充分统计量——所有样本值在已知 \(\bar{X}\) 后的条件分布不依赖于 \(\mu\)。 -
因子分解定理
判定充分性的实用工具是Neyman因子分解定理:
\(T(X)\) 是 \(\theta\) 的充分统计量,当且仅当存在非负函数 \(g(t|\theta)\) 和 \(h(x)\),使得样本的联合密度可分解为:
\[ f(x|\theta) = g(T(x)|\theta) \cdot h(x) \]
解释:
- \(g(T(x)|\theta)\) 是仅通过 \(T(x)\) 依赖 \(\theta\) 的部分;
- \(h(x)\) 是与 \(\theta\) 无关的样本函数。
例子:对于泊松样本 \(X_i \sim \text{Poisson}(\lambda)\),联合概率质量为:
\[ f(x|\lambda) = \frac{e^{-n\lambda} \lambda^{\sum x_i}}{\prod x_i!} = \underbrace{e^{-n\lambda} \lambda^{\sum x_i}}_{g(T(x)|\lambda)} \cdot \underbrace{\frac{1}{\prod x_i!}}_{h(x)} \]
这里 \(T(X) = \sum X_i\) 是充分统计量。
-
最小充分统计量
若一个充分统计量 \(T(X)\) 可以表示为其他任何充分统计量的函数,则称其为最小充分统计量。它保留了全部信息且维度最低。
构造方法:基于似然比 \(\frac{f(x|\theta)}{f(y|\theta)}\),若该比值与 \(\theta\) 无关当且仅当 \(T(x) = T(y)\),则 \(T\) 是最小充分的。
例子:正态分布 \(N(\mu, \sigma^2)\) 的未知参数 \(\theta = (\mu, \sigma^2)\),最小充分统计量为 \(T(X) = \left(\sum X_i, \sum X_i^2\right)\)。 -
充分性与统计推断
- 充分性原则:任何统计推断应仅依赖于充分统计量,否则会损失信息。
- 与最大似然估计(MLE)的关系:若充分统计量存在,MLE 必为其函数。
- 在贝叶斯统计中的应用:后验分布 \(p(\theta|X)\) 仅通过充分统计量依赖样本,即 \(p(\theta|X) = p(\theta|T(X))\)。
-
指数族与充分性
指数族分布 \(f(x|\theta) = h(x) \exp\left\{ \eta(\theta)^\top T(x) - A(\theta) \right\}\) 天然具有充分统计量 \(T(X)\)。
重要性:指数族的充分统计量维度固定,便于构造最优估计与检验。 -
完备性概念
若分布族中满足 \(\mathbb{E}_\theta[g(T)] = 0 \ (\forall \theta)\) 的函数 \(g\) 只能是零函数,则称充分统计量 \(T\) 是完备的。
应用:结合充分性与完备性,可证明估计量的一致最小方差无偏性(UMVUE)。
通过以上步骤,我们明确了充分统计量的核心作用:它压缩数据而不损失信息,是参数估计和假设检验的基石。理解其判定方法(因子分解定理)与性质(最小性、完备性)是掌握现代统计理论的关键。