随机变量的变换的经验似然方法
首先,我将从经验分布函数这个核心概念开始,为您构建理解“经验似然”的基础。
第一步:理解经验分布函数
假设我们有一个包含 n 个独立同分布观测值的数据集:X₁, X₂, ..., Xₙ,它们来自某个我们不完全知道的总体分布 F。经验分布函数 Fₙ 是对 F 的一个最直接的、非参数的估计。它的定义为:
Fₙ(x) = (1/n) * Σ_{i=1}^{n} I(Xᵢ ≤ x),
其中 I(·) 是指示函数(如果括号内条件为真则取1,否则为0)。换句话说,Fₙ(x) 是观测数据中小于等于 x 的比例。对于固定的 x,n·Fₙ(x) 服从二项分布 B(n, F(x))。Fₙ 是 F 的一个无偏、一致估计量,并且由格里文科定理可知,sup_x |Fₙ(x) - F(x)| 几乎必然收敛到0。
第二步:从经验分布到似然
在经典参数统计中,若我们假设总体分布属于一个参数族 {F_θ},则给定数据后,参数 θ 的似然函数是 L(θ) = Π_{i=1}^{n} f(Xᵢ; θ),其中 f 是概率密度函数。经验似然方法采用了一种非参数的思路:它将似然的概念直接应用于分布函数 F 本身,而不是某个参数。
核心思想是:我们将似然函数定义为,在所有可能的分布函数中,观测到当前这组数据的概率。对于连续分布,任何一个特定样本的实现概率为0,这不可行。因此,经验似然将注意力集中在支撑在观测数据点上的离散分布。具体地,我们考虑一个概率向量 p = (p₁, p₂, ..., pₙ),其中 pᵢ 是赋予第 i 个观测点 Xᵢ 的质量(概率)。那么,基于这个分布,观测到当前样本(即每个点恰好出现一次)的“非参数似然”就是 L(F) = Π_{i=1}^{n} pᵢ。
第三步:引入矩约束与经验似然比
经验似然方法真正的威力在于它能自然地纳入总体分布的约束信息,例如矩条件。假设我们对总体分布 F 的了解,除了它产生观测数据外,还知道其满足 q 个矩等式:E_F[g(X, θ)] = 0,其中 g 是一个 q 维向量函数,θ 是感兴趣的参数(可能是向量)。
例如:
- 均值信息:
g(X, μ) = X - μ,约束条件为E(X) = μ。 - 分位数信息:
g(X, τ) = I(X ≤ τ) - α,约束条件为P(X ≤ τ) = α。
在给定参数值 θ 的情况下,我们希望找到支撑在数据点上的分布 {pᵢ},使其满足:
- 概率归一化:
Σ_{i=1}^{n} pᵢ = 1。 - 矩约束:
Σ_{i=1}^{n} pᵢ g(Xᵢ, θ) = 0。 - 所有
pᵢ ≥ 0。
在满足这些约束的所有 {pᵢ} 中,我们寻找那个能使非参数似然 Π pᵢ 最大化的概率分布。这个最大化问题可以通过拉格朗日乘子法求解。最优解具有形式:
pᵢ = (1/n) * 1 / [1 + λᵀ g(Xᵢ, θ)],
其中 λ 是一个 q 维拉格朗日乘子向量,由方程 Σ_{i=1}^{n} g(Xᵢ, θ) / [1 + λᵀ g(Xᵢ, θ)] = 0 决定。
对应的剖面经验似然函数定义为,在给定 θ 下,最大化后的似然值:L(θ) = Π_{i=1}^{n} pᵢ。为了方便,我们通常使用经验似然比统计量:
R(θ) = L(θ) / L(Fₙ) = Π_{i=1}^{n} (n pᵢ),
其中 L(Fₙ) = (1/n)^n 是经验分布 Fₙ(即 pᵢ = 1/n 的无约束情况)的似然值,它是所有离散分布中最大的可能似然值。因此,0 ≤ R(θ) ≤ 1。
第四步:渐近理论与应用
经验似然比统计量具有非常优美的渐近性质,这也是该方法被广泛使用的根本原因。在正则条件下,当样本量 n 趋于无穷时,有:
-2 log R(θ₀) →_d χ²(q),
其中 θ₀ 是参数的真值,q 是矩条件约束的个数。这个结果与参数似然比检验的威尔克斯定理形式完全一致。
基于此,我们可以:
- 构造置信区间/域:对于参数
θ,集合{θ: -2 log R(θ) ≤ c}给出了一个渐近置信水平为1-α的置信域,其中c是χ²(q)分布的1-α分位数。 - 进行假设检验:检验
H₀: θ = θ₀,可以直接使用-2 log R(θ₀)作为检验统计量。 - 估计参数:经验似然估计量
θ̂是最大化R(θ)(或等价地最小化-2 log R(θ))的值。它与广义矩估计量有着深刻的联系,并且具有优良的稳健性和 Bartlett 可纠偏性。
第五步:总结与评价
经验似然方法的核心贡献在于,它将参数统计中强大的似然思想与灵活的非参数模型结合了起来。它的主要优点是:
- 保形性:自动产生具有自然形状的置信域,无需像基于正态近似的Wald区间那样对称。
- ** Bartlett 可纠偏性**:与参数似然一样,其偏差可以通过简单的尺度调整来修正。
- 无需估计方差:构造置信区间时,无需显式估计参数的渐近方差(方差是“内部产生”的)。
- 灵活纳入先验信息:可以方便地加入矩约束、分位数约束等多种信息。
其局限性主要在于计算,特别是当约束条件 q 较多时,求解拉格朗日乘子 λ 可能需要数值迭代。然而,其理论上的优雅和实际应用中的良好表现,使其成为现代非参数和半参数统计推断中的一个重要工具。