随机变量的变换的Hodges-Lehmann估计量
字数 2011 2025-12-14 22:53:10

随机变量的变换的Hodges-Lehmann估计量

我们从一个基本问题开始:当我们有两个独立样本,分别来自两个不同的总体分布,我们如何估计这两个总体中位数的差异?一种直观想法是计算两个样本中位数的差,但这种方法没有充分利用所有数据信息,且统计性质不一定最优。Hodges-Lehmann估计量提供了一种更稳健、更高效的非参数估计方法。

  1. 基本概念与直观思想
    • 考虑两个独立的随机样本:X₁, …, X_m 来自分布F,Y₁, …, Y_n 来自分布G。我们假设G是F的位置平移,即 G(y) = F(y - θ),其中θ是我们想要估计的位置参数(例如,中位数之差)。
    • Hodges-Lehmann估计量的核心思想基于两样本Wilcoxon秩和检验。在Wilcoxon检验中,我们计算所有可能的“Y观测值减去X观测值”的差值:D_ij = Y_j - X_i,其中 i=1,…,m, j=1,…,n。这会产生 m×n 个差值。
  • Hodges-Lehmann估计量 \(\hat{\theta}_{HL}\) 就定义为所有这些差值 D_ij 的中位数。即,\(\hat{\theta}_{HL} = \text{median}\{Y_j - X_i: i=1,\dots,m; j=1,\dots,n\}\)
  1. 计算与性质
    • 计算步骤
      1. 列出所有 m×n 个配对差值 D_ij = Y_j - X_i。
      2. 将这些差值从小到大排序。
      3. 找出排序后差值序列的中位数。如果 m×n 是奇数,中位数就是中间那个数;如果是偶数,通常是中间两个数的平均值。
    • 统计性质
      • 无偏性与相合性:在F和G仅差一个平移θ的假设下,估计量是θ的相合估计。对于对称分布,它通常是中位数差的无偏估计。
      • 稳健性:因为它基于中位数,所以对离群值(异常值)不敏感,比基于均值差的估计(如两样本t检验的均值差)更稳健。
  • 渐近正态性:在适当正则条件下,\(\hat{\theta}_{HL}\) 是渐近正态的。其渐近方差为 \(1/(12 \gamma^2 (mn/(m+n)))\),其中 \(\gamma = \int f^2(x) dx\),f是F的概率密度函数。这个方差可以通过经验分布和核密度估计来估计,从而构造置信区间。
    * 相对效率:对于正态分布数据,Hodges-Lehmann估计量的效率相对于样本均值差(t检验)约为95%。对于重尾或污染分布,其效率通常远高于均值差。
  1. 与Wilcoxon秩和检验的联系
  • 这个估计量与两样本Wilcoxon秩和检验有内在的对偶关系。Wilcoxon检验统计量本质上是基于这些配对差值的符号秩。实际上,检验假设 H₀: θ=0 的接受域,与基于 \(\hat{\theta}_{HL}\) 构造的置信区间是相容的。
    • 我们可以利用这个对偶性来构造θ的置信区间。具体方法是,找到所有使得Wilcoxon秩和检验不拒绝原假设 H₀: θ=θ₀ 的θ₀值,这些值的集合就构成了θ的一个置信区间。这个区间可以通过排序后的差值 D_ij 的分位数来确定。
  1. 单样本情形(对应Wilcoxon符号秩检验)
    • 对于配对样本或单样本对称位置估计问题,存在对应的Hodges-Lehmann估计量。
    • 设我们有样本 Z₁, …, Z_n,来自一个关于中位数θ对称的分布。我们考虑所有可能的配对均值:W_ij = (Z_i + Z_j)/2,其中 1 ≤ i ≤ j ≤ n。
  • 单样本Hodges-Lehmann估计量定义为这些“Walsh平均” W_ij 的中位数:\(\hat{\theta}_{HL}^{(1)} = \text{median}\{(Z_i + Z_j)/2: 1 \le i \le j \le n\}\)
    • 它与单样本Wilcoxon符号秩检验相对应,用于估计对称分布的中心(中位数/均值)。
  1. 推广与注意事项
    • Hodges-Lehmann估计量可以推广到更一般的位置-尺度模型,甚至某些回归模型中,成为稳健的估计方法。
    • 计算量是其一个考虑因素,因为需要计算O(mn)或O(n²)个中间量。对于大样本,有高效的算法(如基于排序和分位数的算法)来计算中位数和置信区间。
    • 它本质上估计的是“位移参数”,在对称分布下等于中位数差或均值差。在非对称分布下,它估计的是一个“伪位移”参数(即两分布所有配对差的中位数),其具体概率解释需谨慎对待。

总结来说,随机变量的变换的Hodges-Lehmann估计量 是基于秩检验统计量构造的一类稳健位置估计量。它通过对来自不同总体的随机变量进行两两相减的变换,生成一组差值,再取其中位数作为总体位置差异的估计。这种方法巧妙地将非参数检验的思想用于参数估计,兼具稳健性和较高的统计效率,是非参数统计和稳健统计中的一个核心工具。

随机变量的变换的Hodges-Lehmann估计量 我们从一个基本问题开始:当我们有两个独立样本,分别来自两个不同的总体分布,我们如何估计这两个总体中位数的差异?一种直观想法是计算两个样本中位数的差,但这种方法没有充分利用所有数据信息,且统计性质不一定最优。Hodges-Lehmann估计量提供了一种更稳健、更高效的非参数估计方法。 基本概念与直观思想 考虑两个独立的随机样本:X₁, …, X_ m 来自分布F,Y₁, …, Y_ n 来自分布G。我们假设G是F的位置平移,即 G(y) = F(y - θ),其中θ是我们想要估计的位置参数(例如,中位数之差)。 Hodges-Lehmann估计量的核心思想基于 两样本Wilcoxon秩和检验 。在Wilcoxon检验中,我们计算所有可能的“Y观测值减去X观测值”的差值:D_ ij = Y_ j - X_ i,其中 i=1,…,m, j=1,…,n。这会产生 m×n 个差值。 Hodges-Lehmann估计量 \(\hat{\theta} {HL}\) 就定义为所有这些差值 D_ ij 的 中位数 。即,\(\hat{\theta} {HL} = \text{median}\{Y_ j - X_ i: i=1,\dots,m; j=1,\dots,n\}\)。 计算与性质 计算步骤 : 列出所有 m×n 个配对差值 D_ ij = Y_ j - X_ i。 将这些差值从小到大排序。 找出排序后差值序列的中位数。如果 m×n 是奇数,中位数就是中间那个数;如果是偶数,通常是中间两个数的平均值。 统计性质 : 无偏性与相合性 :在F和G仅差一个平移θ的假设下,估计量是θ的相合估计。对于对称分布,它通常是中位数差的无偏估计。 稳健性 :因为它基于中位数,所以对离群值(异常值)不敏感,比基于均值差的估计(如两样本t检验的均值差)更稳健。 渐近正态性 :在适当正则条件下,\(\hat{\theta}_ {HL}\) 是渐近正态的。其渐近方差为 \(1/(12 \gamma^2 (mn/(m+n)))\),其中 \(\gamma = \int f^2(x) dx\),f是F的概率密度函数。这个方差可以通过经验分布和核密度估计来估计,从而构造置信区间。 相对效率 :对于正态分布数据,Hodges-Lehmann估计量的效率相对于样本均值差(t检验)约为95%。对于重尾或污染分布,其效率通常远高于均值差。 与Wilcoxon秩和检验的联系 这个估计量与两样本Wilcoxon秩和检验有内在的对偶关系。Wilcoxon检验统计量本质上是基于这些配对差值的符号秩。实际上,检验假设 H₀: θ=0 的接受域,与基于 \(\hat{\theta}_ {HL}\) 构造的置信区间是相容的。 我们可以利用这个对偶性来构造θ的置信区间。具体方法是,找到所有使得Wilcoxon秩和检验不拒绝原假设 H₀: θ=θ₀ 的θ₀值,这些值的集合就构成了θ的一个置信区间。这个区间可以通过排序后的差值 D_ ij 的分位数来确定。 单样本情形(对应Wilcoxon符号秩检验) 对于配对样本或单样本对称位置估计问题,存在对应的Hodges-Lehmann估计量。 设我们有样本 Z₁, …, Z_ n,来自一个关于中位数θ对称的分布。我们考虑所有可能的配对均值:W_ ij = (Z_ i + Z_ j)/2,其中 1 ≤ i ≤ j ≤ n。 单样本Hodges-Lehmann估计量定义为这些“Walsh平均” W_ ij 的中位数:\(\hat{\theta}_ {HL}^{(1)} = \text{median}\{(Z_ i + Z_ j)/2: 1 \le i \le j \le n\}\)。 它与 单样本Wilcoxon符号秩检验 相对应,用于估计对称分布的中心(中位数/均值)。 推广与注意事项 Hodges-Lehmann估计量可以推广到更一般的 位置-尺度模型 ,甚至某些回归模型中,成为稳健的估计方法。 计算量是其一个考虑因素,因为需要计算O(mn)或O(n²)个中间量。对于大样本,有高效的算法(如基于排序和分位数的算法)来计算中位数和置信区间。 它本质上估计的是“位移参数”,在对称分布下等于中位数差或均值差。在非对称分布下,它估计的是一个“伪位移”参数(即两分布所有配对差的中位数),其具体概率解释需谨慎对待。 总结来说, 随机变量的变换的Hodges-Lehmann估计量 是基于秩检验统计量构造的一类稳健位置估计量。它通过对来自不同总体的随机变量进行两两相减的变换,生成一组差值,再取其中位数作为总体位置差异的估计。这种方法巧妙地将非参数检验的思想用于参数估计,兼具稳健性和较高的统计效率,是非参数统计和稳健统计中的一个核心工具。