随机变量的变换的Wilcoxon秩和检验
我们来循序渐进地学习Wilcoxon秩和检验的相关知识。这个过程将从最基础的概念开始,逐步构建起对该检验方法的完整理解。
第一步:核心问题与基本思想
假设我们有两组独立的样本,分别来自两个不同的总体(例如,两种不同教学方法下的学生成绩,或两种不同药物对患者的疗效)。我们关心的问题是:这两个总体的分布是否相同?更具体地说,在非参数统计的常见设定下,我们想检验“两个总体的中位数是否相等”这一原假设。Wilcoxon秩和检验(又称Mann-Whitney U检验,两者本质等价)就是一种用于解决此问题的非参数检验方法。它的核心思想是:如果两个总体分布相同(特别是位置相同),那么来自两个样本的数据值应该充分混合在一起。当我们把所有观测值混合后排序(即赋秩),其中一个样本的秩和不应该系统地偏大或偏小。
第二步:核心概念——“秩”的定义
“秩”是整个检验的基石。给定我们将来自两个样本A和B的所有观测值混合在一起,从小到大进行排序。每一个观测值在这个混合排序序列中所处的位置编号,就是它的“秩”。例如,最小的观测值秩为1,次小的秩为2,以此类推。如果出现并列的观测值(打结,ties),则通常取这些并列值所处位置的平均秩作为它们共同的秩。例如,如果第3、4、5位是三个相同的值,则它们每个的秩都是(3+4+5)/3=4。
第三步:检验统计量的构造(Wilcoxon秩和)
假设第一个样本有m个观测值,第二个样本有n个观测值。我们将所有N=m+n个观测值混合排序并赋秩。
- 令 \(R_1\) 表示第一个样本所有观测值在混合样本中的秩之和。
- 在“两总体分布相同”的原假设下,第一个样本的秩和 \(R_1\) 的期望值是 \(m(N+1)/2\)。这是因为,平均来看,第一个样本的m个观测值应该“抽到”混合排序中均匀分布的位置。
- 检验统计量 \(W\) 通常就定义为 \(R_1\),即第一个样本的秩和。如果第一个样本的观测值普遍偏大,那么它的秩和 \(R_1\) 就会远大于其期望值;如果普遍偏小,则 \(R_1\) 会远小于期望值。因此,\(R_1\) 显著偏离其期望值,就构成拒绝原假设(两总体分布相同)的证据。
第四步:等价的统计量(Mann-Whitney U统计量)
除了使用秩和 \(W\),更常见的是使用其线性变换得到的U统计量,两者检验等价。定义:
- \(U_1 = R_1 - \frac{m(m+1)}{2}\)
- \(U_2 = R_2 - \frac{n(n+1)}{2}\)
其中 \(R_2\) 是第二个样本的秩和,且 \(U_1 + U_2 = m \times n\)。
\(U_1\) 的直观解释是:在所有可能的“第一个样本观测值 vs 第二个样本观测值”的配对比较中,第一个样本的观测值大于第二个样本观测值的配对数量。\(U_2\) 则相反。通常取 \(U = \min(U_1, U_2)\) 或直接使用 \(U_1\) 作为检验统计量。小样本时,有精确的分布表可查。
第五步:检验的实施与渐近理论
- 建立假设:
- 原假设 \(H_0\):两个总体分布相同。
- 备择假设 \(H_1\):通常是双侧的(两总体分布不同,特别是位置参数不同),也可以是单侧的(例如,总体1的位置参数大于总体2)。
- 计算统计量:混合数据、赋秩、计算 \(R_1\) 或 \(U_1\)。
- 确定P值:
- 小样本(通常m, n均小于10):可查阅Wilcoxon秩和检验的精确分布表,通过统计量的值得到确切的概率(P值)。
- 大样本:当m和n都较大时(通常均大于10),在原假设下,\(R_1\) 近似服从正态分布:
\[ E(R_1) = \frac{m(N+1)}{2}, \quad Var(R_1) = \frac{mn(N+1)}{12} \]
如果存在打结的情况,需要对方差进行修正:
\[ Var(R_1) = \frac{mn}{N(N-1)} \left( \frac{N^3 - N}{12} - \sum_{k=1}^{g} \frac{t_k^3 - t_k}{12} \right) \]
其中,\(g\) 是打结的组数,\(t_k\) 是第k组中并列观测值的个数。修正项 \(\sum (t_k^3 - t_k)/12\) 是打结引起的调整。
标准化后得到Z统计量:\(Z = \frac{R_1 - E(R_1)}{\sqrt{Var(R_1)}}\),其近似服从标准正态分布,据此可计算P值。
第六步:方法特性、前提与注意事项
- 非参数特性:与t检验不同,Wilcoxon秩和检验不依赖于总体服从特定分布(如正态分布)的假设。它只要求数据至少是有序的(可比较大小),适用于连续型数据,对异常值不如t检验敏感。
- 检验的本质:它检验的是“两总体分布是否相同”,特别对位置参数(如中位数)的差异敏感。当两总体分布形状相同仅位置不同时,它是一个检验中位数是否相等的有效方法。如果分布形状不同,拒绝原假设可能意味着分布存在任何形式的差异,而不一定是单纯的位置偏移。
- 与参数检验的关系:当数据满足正态性和方差齐性条件时,t检验的效能(功效)通常高于Wilcoxon检验。但当这些条件不满足时,Wilcoxon检验往往更加稳健和可靠。
- 应用范围:广泛用于比较两组独立样本,是行为科学、医学、生物学等领域非常基础且重要的统计工具。
通过以上六个步骤,我们由浅入深地构建了关于Wilcoxon秩和检验的知识体系:从它要解决的问题和秩的基本概念出发,到具体统计量的构造与解释,再到假设检验的实施过程(包括精确分布和渐近正态近似),最后总结了其核心特性和应用要点。