随机变量的变换的Cramér–von Mises准则
我将从基础概念开始,循序渐进地讲解这个重要的统计检验方法。
-
基本概念
Cramér–von Mises准则是一种非参数的拟合优度检验方法,用于检验一个样本是否来自某个特定的概率分布。与Kolmogorov-Smirnov检验不同,它基于经验分布函数与理论分布函数之间差异的平方积分,对分布的整个范围都给予同等重视。 -
经验分布函数(EDF)
设X₁, X₂, ..., Xₙ是来自某个未知分布的独立同分布随机变量。经验分布函数定义为:
Fₙ(x) = (1/n) × Σᵢ₌₁ⁿ I(Xᵢ ≤ x)
其中I(·)是指示函数,当条件成立时取值为1,否则为0。经验分布函数是在每个数据点处跳跃的阶梯函数。 -
Cramér–von Mises统计量
检验统计量定义为:
ω² = n ∫[Fₙ(x) - F(x)]² dF(x)
其中F(x)是假设的理论分布函数。这个统计量衡量了经验分布函数与理论分布函数之间的加权平方距离。 -
计算简化公式
在实际计算中,我们使用以下等价形式:
ω² = 1/(12n) + Σᵢ₌₁ⁿ [F(X₍ᵢ₎) - (2i-1)/(2n)]²
其中X₍₁₎ ≤ X₍₂₎ ≤ ... ≤ X₍ₙ₎是顺序统计量。这个公式避免了复杂的积分计算。 -
检验过程
- 设定原假设H₀:样本来自分布F(x)
- 计算检验统计量ω²
- 将计算值与临界值比较(临界值来自专门的表格或通过模拟得到)
- 如果ω²大于临界值,则拒绝原假设
-
渐近分布
当样本量n→∞时,nω²的极限分布是:
nω² → ∫₀¹ [B(t)]² dt
其中B(t)是布朗桥过程。这个极限分布不依赖于原假设分布F,使得检验具有分布自由性。 -
两样本Cramér–von Mises检验
该方法可扩展到比较两个样本是否来自相同分布:
ω² = (mn/(m+n)) ∫[Fₘ(x) - Gₙ(x)]² dHₘ₊ₙ(x)
其中Fₘ和Gₙ分别是两个样本的经验分布函数,Hₘ₊ₙ是合并样本的经验分布函数。 -
实际应用考虑
在实际应用中,需要注意:
- 对于复合假设(参数需要估计的情况),临界值会发生变化
- 该方法对分布的尾部差异比较敏感
- 计算时通常需要对连续分布假设进行连续性校正
Cramér–von Mises准则因其对分布整体形状的敏感性,在统计实践中有着广泛的应用价值。