随机变量的变换的Kendall Tau 相关系数
我们来深入探讨 Kendall Tau 相关系数,这是一种衡量两个随机变量之间关联性强弱和方向的非参数秩相关度量。与常见的皮尔逊相关系数不同,它不依赖于变量的具体数值,而只依赖于其大小顺序(秩),因此对异常值不敏感,且适用于等级数据或无法满足正态假设的情况。
第一步:核心概念与直觉理解
想象我们有n对观测值 (X₁, Y₁), (X₂, Y₂), …, (Xₙ, Yₙ)。Kendall Tau 的基本思想是考察这些配对之间“一致性”的程度。
- 一致对:取任意两对不同的观测值 (Xᵢ, Yᵢ) 和 (Xⱼ, Yⱼ)(其中 i < j)。如果 (Xᵢ - Xⱼ) 和 (Yᵢ - Yⱼ) 的符号相同,即 Xᵢ > Xⱼ 时 Yᵢ > Yⱼ,或 Xᵢ < Xⱼ 时 Yᵢ < Yⱼ,则称这个配对为一致对。这表示两对观测点在X和Y上的排序方向一致。
- 不一致对:如果 (Xᵢ - Xⱼ) 和 (Yᵢ - Yⱼ) 的符号相反,即X的排序方向与Y的排序方向相反,则为不一致对。
- Tau系数:Kendall Tau 系数 τ 本质上就是一致对的数量与不一致对的数量之差,再除以所有可能的配对总数。其值在 [-1, 1] 之间。
- τ = 1:表示所有配对都是一致的,即X和Y的排序完全一致(完美正相关)。
- τ = -1:表示所有配对都是不一致的,即X的排序与Y的排序完全相反(完美负相关)。
- τ = 0:表示一致对和不一致对数量相等,意味着X和Y的排序没有单调关联。
第二步:精确定义与计算步骤
设我们拥有n个观测对,没有“结”(即没有X值或Y值相等的情况)。总共有 C(n,2) = n(n-1)/2 个不同的观测对。
- 令
C= 一致对的总数。 - 令
D= 不一致对的总数。
则 Kendall Tau 系数 τ 定义为:
τ = (C - D) / (n(n-1)/2)
计算示例:假设我们有4对数据:(1,2), (2,3), (3,1), (4,4)。我们列出所有可能的6对 (i<j):
- (1,2) vs (2,3):X: 1<2, Y: 2<3 → 一致 (C+1)
- (1,2) vs (3,1):X: 1<3, Y: 2>1 → 不一致 (D+1)
- (1,2) vs (4,4):X: 1<4, Y: 2<4 → 一致 (C+1)
- (2,3) vs (3,1):X: 2<3, Y: 3>1 → 不一致 (D+1)
- (2,3) vs (4,4):X: 2<4, Y: 3<4 → 一致 (C+1)
- (3,1) vs (4,4):X: 3<4, Y: 1<4 → 一致 (C+1)
因此,C=4, D=2。τ = (4-2) / 6 = 2/6 ≈ 0.333。这表明存在中等程度的正相关。
第三步:处理“结”的情况——Tau-b 与 Tau-c
当X或Y的取值存在相等(结)时,配对既非一致也非不一致。我们需要修正分母。最常用的是 Kendall Tau-b 系数:
τ_b = (C - D) / √[(C+D+T_x)(C+D+T_y)]
其中:
T_x是只在X值上打结的配对数量(即Xᵢ = Xⱼ 但 Yᵢ ≠ Yⱼ)。T_y是只在Y值上打结的配对数量(即Yᵢ = Yⱼ 但 Xᵢ ≠ Xⱼ)。
这样,分母实际上是总配对数减去“完全无关”的配对(在X和Y上都打结的配对)后的有效配对数的几何平均修正,确保了 τ_b 仍在 [-1,1] 区间内。
对于列联表数据(特别是非方表),有时使用 Kendall Tau-c,其分母修正与表格的最小维度有关,更适合矩形表格。
第四步:统计推断——显著性检验
我们常需要检验“X与Y独立”的原假设。在原假设下,τ 的期望值为0。对于中等以上样本量n,有近似正态性。常用的检验统计量是:
Z = τ / SE(τ)
其中 SE(τ) 是τ的标准误。对于无结的Tau,其方差的一个常用近似是:
Var(τ) ≈ [2(2n+5)] / [9n(n-1)]
因此,SE(τ) = √(Var(τ))。计算出Z值后,可与标准正态分布比较进行假设检验。
第五步:深入理解与扩展
- 与斯皮尔曼等级相关的区别:斯皮尔曼相关系数是对原始数据计算秩次(排序)后的皮尔逊相关系数。而Kendall Tau直接基于配对比较。两者都是非参数的,但Kendall Tau通常有更直观的概率解释(即,从总体中随机抽取两个点,它们是一致的概率与不一致的概率之差),且在部分情况下对某些替代假设更有效。
- 概率解释:τ 可以被解释为:从总体中随机抽取两个观测点,它们是一致配对的概率减去是不一致配对的概率。即 τ = P(一致) - P(不一致)。
- 优点总结:
- 对异常值稳健。
- 不假设线性关系,只要求单调关系。
- 适用于等级(序数)数据。
- 概率解释直观。
- 缺点/注意点:
- 计算所有配对的时间复杂度为 O(n²),对于超大样本可能较慢(但有优化算法)。
- 检测线性关系的效率通常低于皮尔逊相关(如果数据满足正态性和线性假设)。
- 存在“结”时需要选择正确的版本(Tau-b或Tau-c)并理解其含义。
通过以上五个步骤,我们从直觉概念、精确定义、计算方法、统计检验到深入理解,完整地掌握了Kendall Tau相关系数这一重要的非参数关联性度量工具。