好的,接下来为你讲解:随机变量的变换的U统计量
- 核心思想与定义
U统计量是一种用于构造参数估计量的系统方法,其核心思想是构造一个“对称的”、“无偏的”估计量,并且它只利用样本中所有可能的、固定大小的子集(称为“核”)的信息。它是许多经典估计量(如样本均值、样本方差)的一般化形式。
- 参数:假设我们要估计总体中与分布 \(F\) 相关的一个参数 \(\theta\),这个参数可以表示为一个统计泛函的形式:\(\theta = \mathbb{E}[h(X_1, ..., X_m)]\)。其中,\(m\) 是一个固定的整数(称为“核的阶”),\(X_1, ..., X_m\) 是来自总体分布 \(F\) 的独立随机变量,\(h\) 是一个对称函数(即其值不依赖于自变量的排列顺序)。
- U统计量:给定一个来自 \(F\) 的独立同分布样本 \(X_1, ..., X_n\) (\(n \ge m\)),对应的U统计量 \(U_n\) 定义为:
\[ U_n = \frac{1}{\binom{n}{m}} \sum_{1 \le i_1 < i_2 < ... < i_m \le n} h(X_{i_1}, X_{i_2}, ..., X_{i_m}) \]
这里,求和是对所有大小为 \(m\) 的不同样本下标组合进行。由于对 \(h\) 的对称性要求,这个平均是无偏的,即 \(\mathbb{E}[U_n] = \theta\)。
- 经典例子
为了更好地理解,我们看两个最常见的U统计量例子:
- 样本均值:参数是总体均值 \(\theta = \mathbb{E}[X]\)。此时,核的阶 \(m=1\),核函数 \(h(x) = x\)。U统计量就是:
\[ U_n = \frac{1}{\binom{n}{1}} \sum_{i=1}^n X_i = \frac{1}{n} \sum_{i=1}^n X_i \]
这正是样本均值。
- 样本方差(无偏版本):参数是总体方差 \(\theta = \text{Var}(X) = \frac{1}{2}\mathbb{E}[(X_1 - X_2)^2]\)。我们可以将其重写为:\(\theta = \mathbb{E}[h(X_1, X_2)]\),其中 \(h(x_1, x_2) = \frac{1}{2}(x_1 - x_2)^2\),核的阶 \(m=2\)。对应的U统计量为:
\[ U_n = \frac{1}{\binom{n}{2}} \sum_{1 \le i < j \le n} \frac{1}{2}(X_i - X_j)^2 \]
可以证明,这个表达式等于样本方差 \(S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\),即通常的无偏样本方差。许多其他估计量,如样本协方差、基尼系数、Wilcoxon秩和检验统计量等,都可以表示为U统计量。
- 渐近理论:Hoeffding分解
U统计量的渐近性质(大样本行为)由Hoeffding在1948年提出的一个关键分解所阐明,称为Hoeffding分解。它将U统计量 \(U_n\) 分解为一个主项(样本均值之和)和一个余项(高阶的、方差更小的项)。
- 分解:对于核 \(h\) 和阶 \(m\),我们定义一系列“投影函数”:
\[ h_c(x_1, ..., x_c) = \mathbb{E}[h(X_1, ..., X_m) | X_1=x_1, ..., X_c=x_c] - \theta, \quad c=1,...,m \]
那么,U统计量可以分解为:
\[ U_n - \theta = \sum_{c=1}^m \binom{m}{c} U_n^{(c)} \]
其中 \(U_n^{(c)}\) 是基于核 \(h_c\) 的U统计量。特别地,第一项 (\(c=1\)) 是:
\[ m U_n^{(1)} = \frac{m}{n} \sum_{i=1}^n h_1(X_i) \]
这是一个独立同分布随机变量和的标准化形式,方差为 \(m^2 \text{Var}(h_1(X_1))/n\)。
- 渐近正态性:这个分解揭示,当 \(n \to \infty\) 时,U统计量 \(U_n\) 的渐近行为由其线性项(即 \(c=1\) 的项)主导。如果 \(\sigma_1^2 = \text{Var}(h_1(X_1)) > 0\),那么有:
\[ \sqrt{n} (U_n - \theta) \stackrel{d}{\longrightarrow} N(0, m^2 \sigma_1^2) \]
这个结论为U统计量的推断(如构造置信区间)提供了理论基础。
-
最优性质与稳健性
U统计量是参数 \(\theta = \mathbb{E}[h(X_1, ..., X_m)]\) 的最小方差无偏估计量(UMVUE),在所有无偏估计量中具有最小的方差。这源于其完全利用了所有子集信息并具有对称性。同时,U统计量通常比简单的矩估计量具有更好的稳健性。例如,样本方差(作为一个U统计量)在估计方差时,相比使用二阶样本矩减去样本均值的平方,对异常值不那么敏感。许多基于秩的非参数统计量(如Mann-Whitney U统计量)也是U统计量,它们对分布的具体形式假设更弱,因而具有很好的稳健性。 -
扩展应用与变体
U统计量的框架非常灵活,可以扩展至更复杂的场景:
- 多元U统计量:当核函数 \(h\) 是多个向量的函数时,可以定义多元U统计量,用于估计多个样本之间的关系参数。
- 非退化与退化情形:当主导渐近性质的 \(\sigma_1^2 = 0\) 时,称为“退化”U统计量,此时线性项消失,极限分布不再是正态分布,而可能是卡方分布或其他二次型分布。这种情况在基于核方法的独立性检验、方差分析等场景中出现。
- U过程:将U统计量视为一个随机过程,其索引是核函数所在的函数空间,可以研究其一致收敛性,这为建立基于U统计量的非参数检验(如两样本位置检验、独立性检验)的统一理论提供了工具。
总结来说,U统计量通过对称化样本子集的信息,提供了一套系统、最优的框架来构建和理论研究一大类参数估计量。其理论基石Hoeffding分解清晰地阐明了其渐近行为,而其本身兼具无偏性、最小方差性和一定稳健性的优良性质,使其在非参数统计、稳健统计、机器学习等领域有着广泛而重要的应用。