随机变量的变换的Wilcoxon秩和检验
字数 2453 2025-12-06 16:08:22

随机变量的变换的Wilcoxon秩和检验

我们来循序渐进地学习Wilcoxon秩和检验的相关知识。这个过程将从最基础的概念开始,逐步构建起对该检验方法的完整理解。

第一步:核心问题与基本思想
假设我们有两组独立的样本,分别来自两个不同的总体(例如,两种不同教学方法下的学生成绩,或两种不同药物对患者的疗效)。我们关心的问题是:这两个总体的分布是否相同?更具体地说,在非参数统计的常见设定下,我们想检验“两个总体的中位数是否相等”这一原假设。Wilcoxon秩和检验(又称Mann-Whitney U检验,两者本质等价)就是一种用于解决此问题的非参数检验方法。它的核心思想是:如果两个总体分布相同(特别是位置相同),那么来自两个样本的数据值应该充分混合在一起。当我们把所有观测值混合后排序(即赋秩),其中一个样本的秩和不应该系统地偏大或偏小。

第二步:核心概念——“秩”的定义
“秩”是整个检验的基石。给定我们将来自两个样本A和B的所有观测值混合在一起,从小到大进行排序。每一个观测值在这个混合排序序列中所处的位置编号,就是它的“秩”。例如,最小的观测值秩为1,次小的秩为2,以此类推。如果出现并列的观测值(打结,ties),则通常取这些并列值所处位置的平均秩作为它们共同的秩。例如,如果第3、4、5位是三个相同的值,则它们每个的秩都是(3+4+5)/3=4。

第三步:检验统计量的构造(Wilcoxon秩和)
假设第一个样本有m个观测值,第二个样本有n个观测值。我们将所有N=m+n个观测值混合排序并赋秩。

  • \(R_1\) 表示第一个样本所有观测值在混合样本中的秩之和。
  • 在“两总体分布相同”的原假设下,第一个样本的秩和 \(R_1\) 的期望值是 \(m(N+1)/2\)。这是因为,平均来看,第一个样本的m个观测值应该“抽到”混合排序中均匀分布的位置。
  • 检验统计量 \(W\) 通常就定义为 \(R_1\),即第一个样本的秩和。如果第一个样本的观测值普遍偏大,那么它的秩和 \(R_1\) 就会远大于其期望值;如果普遍偏小,则 \(R_1\) 会远小于期望值。因此,\(R_1\) 显著偏离其期望值,就构成拒绝原假设(两总体分布相同)的证据。

第四步:等价的统计量(Mann-Whitney U统计量)
除了使用秩和 \(W\),更常见的是使用其线性变换得到的U统计量,两者检验等价。定义:

  • \(U_1 = R_1 - \frac{m(m+1)}{2}\)
  • \(U_2 = R_2 - \frac{n(n+1)}{2}\)
    其中 \(R_2\) 是第二个样本的秩和,且 \(U_1 + U_2 = m \times n\)
    \(U_1\) 的直观解释是:在所有可能的“第一个样本观测值 vs 第二个样本观测值”的配对比较中,第一个样本的观测值大于第二个样本观测值的配对数量。\(U_2\) 则相反。通常取 \(U = \min(U_1, U_2)\) 或直接使用 \(U_1\) 作为检验统计量。小样本时,有精确的分布表可查。

第五步:检验的实施与渐近理论

  1. 建立假设
    • 原假设 \(H_0\):两个总体分布相同。
    • 备择假设 \(H_1\):通常是双侧的(两总体分布不同,特别是位置参数不同),也可以是单侧的(例如,总体1的位置参数大于总体2)。
  2. 计算统计量:混合数据、赋秩、计算 \(R_1\)\(U_1\)
  3. 确定P值
    • 小样本(通常m, n均小于10):可查阅Wilcoxon秩和检验的精确分布表,通过统计量的值得到确切的概率(P值)。
    • 大样本:当m和n都较大时(通常均大于10),在原假设下,\(R_1\) 近似服从正态分布:

\[ E(R_1) = \frac{m(N+1)}{2}, \quad Var(R_1) = \frac{mn(N+1)}{12} \]

 如果存在打结的情况,需要对方差进行修正:

\[ Var(R_1) = \frac{mn}{N(N-1)} \left( \frac{N^3 - N}{12} - \sum_{k=1}^{g} \frac{t_k^3 - t_k}{12} \right) \]

其中,\(g\) 是打结的组数,\(t_k\) 是第k组中并列观测值的个数。修正项 \(\sum (t_k^3 - t_k)/12\) 是打结引起的调整。
标准化后得到Z统计量:\(Z = \frac{R_1 - E(R_1)}{\sqrt{Var(R_1)}}\),其近似服从标准正态分布,据此可计算P值。

第六步:方法特性、前提与注意事项

  1. 非参数特性:与t检验不同,Wilcoxon秩和检验不依赖于总体服从特定分布(如正态分布)的假设。它只要求数据至少是有序的(可比较大小),适用于连续型数据,对异常值不如t检验敏感。
  2. 检验的本质:它检验的是“两总体分布是否相同”,特别对位置参数(如中位数)的差异敏感。当两总体分布形状相同仅位置不同时,它是一个检验中位数是否相等的有效方法。如果分布形状不同,拒绝原假设可能意味着分布存在任何形式的差异,而不一定是单纯的位置偏移。
  3. 与参数检验的关系:当数据满足正态性和方差齐性条件时,t检验的效能(功效)通常高于Wilcoxon检验。但当这些条件不满足时,Wilcoxon检验往往更加稳健和可靠。
  4. 应用范围:广泛用于比较两组独立样本,是行为科学、医学、生物学等领域非常基础且重要的统计工具。

通过以上六个步骤,我们由浅入深地构建了关于Wilcoxon秩和检验的知识体系:从它要解决的问题和秩的基本概念出发,到具体统计量的构造与解释,再到假设检验的实施过程(包括精确分布和渐近正态近似),最后总结了其核心特性和应用要点。

随机变量的变换的Wilcoxon秩和检验 我们来循序渐进地学习Wilcoxon秩和检验的相关知识。这个过程将从最基础的概念开始,逐步构建起对该检验方法的完整理解。 第一步:核心问题与基本思想 假设我们有两组独立的样本,分别来自两个不同的总体(例如,两种不同教学方法下的学生成绩,或两种不同药物对患者的疗效)。我们关心的问题是:这两个总体的分布是否相同?更具体地说,在非参数统计的常见设定下,我们想检验“两个总体的中位数是否相等”这一原假设。Wilcoxon秩和检验(又称Mann-Whitney U检验,两者本质等价)就是一种用于解决此问题的非参数检验方法。它的核心思想是:如果两个总体分布相同(特别是位置相同),那么来自两个样本的数据值应该充分混合在一起。当我们把所有观测值混合后排序(即赋秩),其中一个样本的秩和不应该系统地偏大或偏小。 第二步:核心概念——“秩”的定义 “秩”是整个检验的基石。给定我们将来自两个样本A和B的所有观测值混合在一起,从小到大进行排序。每一个观测值在这个混合排序序列中所处的位置编号,就是它的“秩”。例如,最小的观测值秩为1,次小的秩为2,以此类推。如果出现并列的观测值(打结,ties),则通常取这些并列值所处位置的平均秩作为它们共同的秩。例如,如果第3、4、5位是三个相同的值,则它们每个的秩都是(3+4+5)/3=4。 第三步:检验统计量的构造(Wilcoxon秩和) 假设第一个样本有m个观测值,第二个样本有n个观测值。我们将所有N=m+n个观测值混合排序并赋秩。 令 \( R_ 1 \) 表示第一个样本所有观测值在混合样本中的秩之和。 在“两总体分布相同”的原假设下,第一个样本的秩和 \( R_ 1 \) 的期望值是 \( m(N+1)/2 \)。这是因为,平均来看,第一个样本的m个观测值应该“抽到”混合排序中均匀分布的位置。 检验统计量 \( W \) 通常就定义为 \( R_ 1 \),即第一个样本的秩和。如果第一个样本的观测值普遍偏大,那么它的秩和 \( R_ 1 \) 就会远大于其期望值;如果普遍偏小,则 \( R_ 1 \) 会远小于期望值。因此,\( R_ 1 \) 显著偏离其期望值,就构成拒绝原假设(两总体分布相同)的证据。 第四步:等价的统计量(Mann-Whitney U统计量) 除了使用秩和 \( W \),更常见的是使用其线性变换得到的U统计量,两者检验等价。定义: \( U_ 1 = R_ 1 - \frac{m(m+1)}{2} \) \( U_ 2 = R_ 2 - \frac{n(n+1)}{2} \) 其中 \( R_ 2 \) 是第二个样本的秩和,且 \( U_ 1 + U_ 2 = m \times n \)。 \( U_ 1 \) 的直观解释是:在所有可能的“第一个样本观测值 vs 第二个样本观测值”的配对比较中,第一个样本的观测值大于第二个样本观测值的配对数量。\( U_ 2 \) 则相反。通常取 \( U = \min(U_ 1, U_ 2) \) 或直接使用 \( U_ 1 \) 作为检验统计量。小样本时,有精确的分布表可查。 第五步:检验的实施与渐近理论 建立假设 : 原假设 \( H_ 0 \):两个总体分布相同。 备择假设 \( H_ 1 \):通常是双侧的(两总体分布不同,特别是位置参数不同),也可以是单侧的(例如,总体1的位置参数大于总体2)。 计算统计量 :混合数据、赋秩、计算 \( R_ 1 \) 或 \( U_ 1 \)。 确定P值 : 小样本(通常m, n均小于10) :可查阅Wilcoxon秩和检验的精确分布表,通过统计量的值得到确切的概率(P值)。 大样本 :当m和n都较大时(通常均大于10),在原假设下,\( R_ 1 \) 近似服从正态分布: \[ E(R_ 1) = \frac{m(N+1)}{2}, \quad Var(R_ 1) = \frac{mn(N+1)}{12} \] 如果存在打结的情况,需要对方差进行修正: \[ Var(R_ 1) = \frac{mn}{N(N-1)} \left( \frac{N^3 - N}{12} - \sum_ {k=1}^{g} \frac{t_ k^3 - t_ k}{12} \right) \] 其中,\( g \) 是打结的组数,\( t_ k \) 是第k组中并列观测值的个数。修正项 \( \sum (t_ k^3 - t_ k)/12 \) 是打结引起的调整。 标准化后得到Z统计量:\( Z = \frac{R_ 1 - E(R_ 1)}{\sqrt{Var(R_ 1)}} \),其近似服从标准正态分布,据此可计算P值。 第六步:方法特性、前提与注意事项 非参数特性 :与t检验不同,Wilcoxon秩和检验不依赖于总体服从特定分布(如正态分布)的假设。它只要求数据至少是有序的(可比较大小),适用于连续型数据,对异常值不如t检验敏感。 检验的本质 :它检验的是“两总体分布是否相同”,特别对位置参数(如中位数)的差异敏感。当两总体分布形状相同仅位置不同时,它是一个检验中位数是否相等的有效方法。如果分布形状不同,拒绝原假设可能意味着分布存在任何形式的差异,而不一定是单纯的位置偏移。 与参数检验的关系 :当数据满足正态性和方差齐性条件时,t检验的效能(功效)通常高于Wilcoxon检验。但当这些条件不满足时,Wilcoxon检验往往更加稳健和可靠。 应用范围 :广泛用于比较两组独立样本,是行为科学、医学、生物学等领域非常基础且重要的统计工具。 通过以上六个步骤,我们由浅入深地构建了关于Wilcoxon秩和检验的知识体系:从它要解决的问题和秩的基本概念出发,到具体统计量的构造与解释,再到假设检验的实施过程(包括精确分布和渐近正态近似),最后总结了其核心特性和应用要点。