随机变量的变换的Bahadur效率
字数 2419 2025-12-06 22:12:19

随机变量的变换的Bahadur效率

1. 引言与背景
Bahadur效率是假设检验领域中,用于比较两个检验统计量渐近相对效率的一种度量标准。它由统计学家Raghu Raj Bahadur于1960年代提出。在此之前,衡量检验效率的主流方法是Pitman渐近相对效率,但Pitman方法主要处理“局部备择假设”,即当备择假设无限接近原假设时的情况。Bahadur效率则从另一个角度出发:在固定备择假设下,比较两个检验犯第二类错误(取伪错误)的速度。具体来说,它考察的是,当第一类错误(弃真错误)被控制在相同的小水平α时,两个检验的p值以多快的速度(指数速率)趋于零。速度更快的检验被认为具有更高的Bahadur效率。

2. 核心定义与数学刻画
设我们有一个假设检验问题:原假设 H₀ vs 备择假设 H₁。设 {Tₙ} 是一个基于n个独立观测值的检验统计量序列,其值越大越拒绝H₀。记 Tₙ 的观测值为 tₙ。

  • Bahadur精确斜率 (Exact Slope) c(θ)
    对于参数空间中的某个点 θ(在H₁下),Bahadur精确斜率定义为当数据确实来自θ时,检验统计量所对应的p值的极限行为:

\[ c(\theta) = \lim_{n \to \infty} -\frac{2}{n} \log p_n, \quad \text{依概率} P_\theta \text{成立}. \]

其中,\(p_n = P_{H_0}(T_n \ge t_n)\) 是在H₀下,统计量观测值至少和实际观测值一样“极端”的概率,即p值。这里“依概率 \(P_\theta\)”意味着这个极限是在真实参数为θ的数据生成过程下成立的。c(θ)衡量了p值以指数速度衰减的速率。c(θ)越大,表明在备择假设θ下,p值衰减得越快,检验“检测”出这个备择假设的能力就越强。

  • Bahadur效率 (Bahadur Efficiency)
    设有两个检验统计量序列 {Tₙ^{(1)}} 和 {Tₙ^{(2)}},其对应的精确斜率分别为 \(c_1(θ)\)\(c_2(θ)\)。那么,检验1相对于检验2在备择假设θ处的Bahadur相对效率定义为比值:

\[ e_{B}^{(1,2)}(\theta) = \frac{c_1(\theta)}{c_2(\theta)}. \]

如果这个比值大于1,说明在备择θ下,检验1比检验2更高效(p值衰减更快)。如果对于所有相关的θ,都有 \(e_{B}^{(1,2)}(\theta) \ge 1\),则称检验1在Bahadur意义下至少和检验2一样有效

3. 精确斜率的计算与关联概念
直接通过定义计算精确斜率c(θ)通常很困难。Bahadur的一个重要贡献是建立了c(θ)与检验统计量大偏差原理之间的联系。

  • 大偏差原理链接
    在许多正则条件下,精确斜率c(θ)可以表示为:

\[ c(\theta) = 2 \inf_{x \in \Gamma} I(x; \theta). \]

这里,\(I(x; \theta)\) 是统计量Tₙ在分布Pθ下的速率函数。集合Γ是H₀下导致拒绝的统计量值区域(通常为 {Tₙ ≥ t})。直观上,c(θ)是统计量“偏离”H₀分布所需的最小“代价”,这个代价是用速率函数衡量的。这揭示出Bahadur效率本质上衡量的是检验统计量在备择分布下,其分布与原假设分布差异程度的某种度量。

  • 与相对熵(Kullback-Leibler散度)的关系
    对于许多标准的参数检验问题(例如,检验正态分布的均值),最优检验(如似然比检验)的Bahadur精确斜率恰好等于模型在参数θ和H₀对应参数θ₀之间的相对熵(K-L散度):

\[ c_{LRT}(\theta) = 2 K(\theta_0, \theta) = 2 E_{\theta_0}[\log \frac{f(X; \theta_0)}{f(X; \theta)}]. \]

这赋予了Bahadur效率一个深刻的信息论解释:最有效的检验是能够最快“感知”到数据分布与H₀分布之间信息差异的检验。

4. 性质、比较与应用

  • 与Pitman效率的比较

    • Pitman效率:适用于检验轻微偏离原假设的情况(局部备择,通常以1/√n的速度接近原假设)。它比较的是达到相同检验功效时,所需的样本量之比。
    • Bahadur效率:适用于固定的、可能远离原假设的备择。它比较的是给定样本量下,p值衰减的指数速率。
    • 关系:在很一般的条件下,如果两个检验的Pitman相对效率存在,那么它也等于这两个检验的Bahadur相对效率在备择假设趋于原假设时的极限。因此,Bahadur效率是Pitman效率的一种推广。
  • 最优性
    在固定备择下,似然比检验 (LRT) 通常在Bahadur意义下是渐近最优的,即其精确斜率c_LRT(θ)在所有满足一定正则条件的检验中是最高的。这为似然比检验的广泛使用提供了另一个理论支柱。

  • 应用场景
    Bahadur效率常用于比较非参数检验与参数检验。例如,比较t检验(参数)与符号检验或Wilcoxon秩和检验(非参数)在非正态数据下的表现。它可以量化在偏离参数模型假设时,稳健的非参数检验可能具有的相对优势。

5. 总结
Bahadur效率为我们提供了一个在固定备择假设下,比较假设检验性能的严格理论框架。它通过刻画检验p值在备择假设下趋于零的指数衰减率(精确斜率)来定义效率,并将此衰减率与大偏差原理、相对熵等信息论概念深刻关联。虽然其计算通常比Pitman效率复杂,但它提供了对检验功效在“中等到大偏差”情形下更全面的理解,并确立了似然比检验在固定备择下的渐近最优性。

随机变量的变换的Bahadur效率 1. 引言与背景 Bahadur效率是假设检验领域中,用于比较两个检验统计量 渐近相对效率 的一种度量标准。它由统计学家Raghu Raj Bahadur于1960年代提出。在此之前,衡量检验效率的主流方法是Pitman渐近相对效率,但Pitman方法主要处理“局部备择假设”,即当备择假设无限接近原假设时的情况。Bahadur效率则从另一个角度出发: 在固定备择假设下,比较两个检验犯第二类错误(取伪错误)的速度 。具体来说,它考察的是,当第一类错误(弃真错误)被控制在相同的小水平α时,两个检验的p值以多快的速度(指数速率)趋于零。速度更快的检验被认为具有更高的Bahadur效率。 2. 核心定义与数学刻画 设我们有一个假设检验问题:原假设 H₀ vs 备择假设 H₁。设 {Tₙ} 是一个基于n个独立观测值的检验统计量序列,其值越大越拒绝H₀。记 Tₙ 的观测值为 tₙ。 Bahadur精确斜率 (Exact Slope) c(θ) : 对于参数空间中的某个点 θ(在H₁下),Bahadur精确斜率定义为当数据确实来自θ时,检验统计量所对应的p值的极限行为: \[ c(\theta) = \lim_ {n \to \infty} -\frac{2}{n} \log p_ n, \quad \text{依概率} P_ \theta \text{成立}. \] 其中,\( p_ n = P_ {H_ 0}(T_ n \ge t_ n) \) 是在H₀下,统计量观测值至少和实际观测值一样“极端”的概率,即p值。这里“依概率 \(P_ \theta\)”意味着这个极限是在真实参数为θ的数据生成过程下成立的。c(θ)衡量了p值以 指数速度衰减 的速率。c(θ)越大,表明在备择假设θ下,p值衰减得越快,检验“检测”出这个备择假设的能力就越强。 Bahadur效率 (Bahadur Efficiency) : 设有两个检验统计量序列 {Tₙ^{(1)}} 和 {Tₙ^{(2)}},其对应的精确斜率分别为 \(c_ 1(θ)\) 和 \(c_ 2(θ)\)。那么,检验1相对于检验2在备择假设θ处的 Bahadur相对效率 定义为比值: \[ e_ {B}^{(1,2)}(\theta) = \frac{c_ 1(\theta)}{c_ 2(\theta)}. \] 如果这个比值大于1,说明在备择θ下,检验1比检验2更高效(p值衰减更快)。如果对于所有相关的θ,都有 \(e_ {B}^{(1,2)}(\theta) \ge 1\),则称检验1在Bahadur意义下 至少和检验2一样有效 。 3. 精确斜率的计算与关联概念 直接通过定义计算精确斜率c(θ)通常很困难。Bahadur的一个重要贡献是建立了c(θ)与检验统计量 大偏差原理 之间的联系。 大偏差原理链接 : 在许多正则条件下,精确斜率c(θ)可以表示为: \[ c(\theta) = 2 \inf_ {x \in \Gamma} I(x; \theta). \] 这里,\(I(x; \theta)\) 是统计量Tₙ在分布Pθ下的 速率函数 。集合Γ是H₀下导致拒绝的统计量值区域(通常为 {Tₙ ≥ t})。直观上,c(θ)是统计量“偏离”H₀分布所需的最小“代价”,这个代价是用速率函数衡量的。这揭示出Bahadur效率本质上衡量的是 检验统计量在备择分布下,其分布与原假设分布差异程度 的某种度量。 与相对熵(Kullback-Leibler散度)的关系 : 对于许多标准的参数检验问题(例如,检验正态分布的均值),最优检验(如似然比检验)的Bahadur精确斜率恰好等于模型在参数θ和H₀对应参数θ₀之间的 相对熵 (K-L散度): \[ c_ {LRT}(\theta) = 2 K(\theta_ 0, \theta) = 2 E_ {\theta_ 0}[ \log \frac{f(X; \theta_ 0)}{f(X; \theta)} ]. \] 这赋予了Bahadur效率一个深刻的信息论解释:最有效的检验是能够最快“感知”到数据分布与H₀分布之间信息差异的检验。 4. 性质、比较与应用 与Pitman效率的比较 : Pitman效率 :适用于检验 轻微偏离 原假设的情况(局部备择,通常以1/√n的速度接近原假设)。它比较的是达到相同检验功效时,所需的样本量之比。 Bahadur效率 :适用于 固定 的、可能远离原假设的备择。它比较的是给定样本量下,p值衰减的指数速率。 关系:在很一般的条件下,如果两个检验的Pitman相对效率存在,那么它也等于这两个检验的Bahadur相对效率在备择假设趋于原假设时的极限。因此,Bahadur效率是Pitman效率的一种推广。 最优性 : 在固定备择下, 似然比检验 (LRT) 通常在Bahadur意义下是 渐近最优 的,即其精确斜率c_ LRT(θ)在所有满足一定正则条件的检验中是最高的。这为似然比检验的广泛使用提供了另一个理论支柱。 应用场景 : Bahadur效率常用于比较非参数检验与参数检验。例如,比较t检验(参数)与符号检验或Wilcoxon秩和检验(非参数)在非正态数据下的表现。它可以量化在偏离参数模型假设时,稳健的非参数检验可能具有的相对优势。 5. 总结 Bahadur效率为我们提供了一个在 固定备择假设 下,比较假设检验性能的严格理论框架。它通过刻画检验p值在备择假设下趋于零的 指数衰减率 (精确斜率)来定义效率,并将此衰减率与大偏差原理、相对熵等信息论概念深刻关联。虽然其计算通常比Pitman效率复杂,但它提供了对检验功效在“中等到大偏差”情形下更全面的理解,并确立了似然比检验在固定备择下的渐近最优性。