随机变量的变换的Wilks定理
字数 2455 2025-12-14 23:59:35
随机变量的变换的Wilks定理
好的,我们开始学习一个新的词条:Wilks定理。这是一个在数理统计的假设检验领域中至关重要的定理,它描述了似然比检验统计量的渐近分布,为许多复杂的检验问题提供了统一的理论基础。请跟随以下步骤逐步理解。
步骤 1:核心概念铺垫——似然比检验
首先,我们需要理解Wilks定理的研究对象:似然比检验。
- 背景:假设我们有一个包含n个独立同分布观测值的数据集,它们来自一个由参数向量θ刻画的概率模型。我们想检验一个关于θ的原假设(例如,θ的某些分量等于特定值)。
- 思想:比较在原假设H₀和更一般的备择假设H₁下,数据出现的可能性(即似然函数)有多大。
- 定义:令 L(θ | 数据) 为模型的似然函数。设 θ̂ 是在全参数空间上(对应H₁)使似然函数最大化的参数值(即极大似然估计,MLE)。设 θ̃ 是在原假设H₀约束下的MLE。则似然比统计量定义为:
Λ = L(θ̃ | 数据) / L(θ̂ | 数据)
Λ的值在0到1之间。如果原假设为真,Λ应接近1;如果原假设为假,Λ应较小。 - 统计量:为了便于处理,通常取其对数的-2倍:
λ = -2 log(Λ) = 2 [log L(θ̂) - log L(θ̃)]
这个λ就是我们关心的检验统计量,称为对数似然比统计量。
问题:为了进行检验(比如判断λ是否超过某个阈值以拒绝原假设),我们需要知道在原假设下λ的分布。对于复杂的模型,这个精确分布通常难以求得。Wilks定理给出了它在样本量n趋于无穷时的渐近分布。
步骤 2:Wilks定理的精确表述
Wilks定理建立了对数似然比统计量与卡方分布之间的联系。
- 设定:
- 设全参数空间Θ是Rᵈ(d维欧氏空间)的一个子集。
- 原假设H₀将参数约束在一个维度为r的子空间(或子流形)上,即原假设有r个独立的约束条件。
- 参数维度d和约束数r满足:d > r ≥ 0。
- 模型满足一定的正则性条件(这是定理成立的关键,稍后解释)。
- 定理:在上述设定和正则性条件下,当样本量n → ∞时,在原假设H₀成立时,统计量λ依分布收敛于自由度为*(d - r)*的卡方分布。
即: λ = -2 log(Λ) →ᵈ χ²(d - r) - 直观解释:自由度*(d - r)*正是原假设施加约束后,参数空间减少的维度数。例如,如果全模型有5个自由参数(d=5),原假设固定其中2个参数为特定值(即施加了2个独立等式约束,r=2),那么λ的渐近分布就是自由度为3的卡方分布。
步骤 3:定理成立的正则性条件
Wilks定理不是无条件成立的。它要求概率模型和参数空间满足一系列“正则性条件”,核心目的是保证极大似然估计具有良好的渐近性质(如相合性、渐近正态性)。主要条件包括:
- 参数可识别性:不同的参数值对应不同的概率分布。
- 真实参数位于参数空间内部,而非边界上。
- 支撑集不依赖于参数。
- 似然函数足够平滑:关于参数的三阶导数存在且连续,以便进行泰勒展开。
- Fisher信息矩阵在真实参数处正定。
当这些条件不满足时(例如,原假设将参数约束在参数空间的边界上,或模型不可识别),Wilks定理的结论可能失效,此时需要考虑更复杂的理论。
步骤 4:定理的证明思路(直观版)
理解证明思路能加深对定理本质的认识。其核心是对对数似然函数在原假设约束估计θ̃和全参数空间估计θ̂处分别进行二阶泰勒展开。
- 记 l(θ) = log L(θ) 为对数似然函数。
- 在θ̂(全模型MLE)处展开:由于θ̂是极值点,其一阶导数为零。对数似然比统计量 λ = 2[l(θ̂) - l(θ̃)]。
- 将 l(θ̃) 在θ̂处进行泰勒展开:
l(θ̃) ≈ l(θ̂) + 0 + (1/2)(θ̃ - θ̂)^T [H(θ̂)] (θ̃ - θ̂)
其中 H(θ̂) 是海森矩阵(二阶导数矩阵)。 - 代入λ的表达式: λ ≈ -(θ̃ - θ̂)^T [H(θ̂)] (θ̃ - θ̂)。
- 利用极大似然估计的渐近性质:当n很大时,√n(θ̂ - θ₀) 依分布收敛于一个多元正态分布,其协方差矩阵的逆正是Fisher信息矩阵I(θ₀)。同时,-H(θ̂)/n 依概率收敛于 I(θ₀)。
- 在原假设下,通过投影理论可以证明,经过适当的线性变换后,上述二次型统计量 (θ̃ - θ̂)^T [I(θ₀)] (θ̃ - θ̂) 乘以n,其极限分布正好是一个自由度为*(d - r)*的卡方分布。
步骤 5:应用与意义
Wilks定理是统计推断中极其强大的工具:
- 统一检验框架:它为一大类嵌套模型(一个模型是另一个的特例)的假设检验提供了统一方法。只需计算两个模型的极大似然值,就能构造出检验统计量并得到近似的p值(通过查卡方分布表)。
- 应用实例:
- 线性回归模型的显著性检验:检验所有回归系数(除截距外)是否为零。全模型包含所有预测变量,原假设模型只包含截距。此时λ的渐近分布是χ²(p),其中p是预测变量个数。
- 广义线性模型(如逻辑回归)的模型比较。
- 列联表的独立性检验:卡方独立性检验可以视为似然比检验的一种近似。
- 方差分析(ANOVA):比较多个组均值是否相等。
- 局限性:定理是渐近的,对于小样本,λ的分布可能与其卡方极限有显著差异。在实际应用中,特别是样本量不大时,可能需要采用其他方法(如精确检验、Bootstrap法)进行补充。
总结
Wilks定理的核心贡献在于,它揭示了在相当一般的正则条件下,检验复合假设的对数似然比统计量,其大样本分布具有极其简单的形式——一个卡方分布,其自由度等于原假设所施加的独立约束的个数。这为基于似然的统计推断奠定了坚实的理论基础,使得研究者无需为每一个新模型推导复杂的精确分布,极大地推动了现代统计学的应用与发展。