广义线性模型
好,我们开始学习“广义线性模型”。
广义线性模型是经典线性回归模型的重大扩展,它是统计学中用于建立响应变量与一个或多个解释变量之间关系的一类强大且灵活的模型框架。为了让你透彻理解,我们从最基础的概念开始,逐步构建整个知识体系。
第一步:回顾经典线性回归的局限
我们熟知的经典线性回归模型(或称普通最小二乘回归)通常形式为:
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \epsilon \]
其中,\(\epsilon \sim N(0, \sigma^2)\)。
它有三个核心假设:
- 线性性:响应变量 \(Y\) 的均值 \(\mathbb{E}(Y)\) 是解释变量 \(X\) 的线性组合。
- 正态性:误差项 \(\epsilon\),进而响应变量 \(Y\) 本身,服从正态分布。
- 方差齐性:无论 \(X\) 取何值,响应变量 \(Y\) 的方差 \(\text{Var}(Y)\) 是恒定的常数 \(\sigma^2\)。
然而,现实数据常常违背这些假设。例如:
- 如果我们预测的是“是否患病”(是/否),响应变量是二分类的,不服从正态分布。
- 如果我们预测的是“每分钟到达的顾客数”,响应变量是计数数据,服从泊松分布,且其方差与均值相等,不满足方差齐性。
- 如果我们预测的是“一件产品的失效时间”,响应变量是正连续数据,可能服从指数或伽马分布。
广义线性模型就是为了处理这些非正态、非线性关系的数据而诞生的。
第二步:广义线性模型的三要素
广义线性模型通过三个核心部件,系统地放宽了经典线性回归的假设:
- 随机成分(Random Component):
- 定义了响应变量 \(Y\) 的概率分布。它来自指数族分布。
- 指数族是一个庞大的分布家族,包括正态分布、二项分布(用于0/1、成功/失败数据)、泊松分布(用于计数数据)、伽马分布(用于正连续、偏态数据,如生存时间)、逆高斯分布等。
- 这意味着我们不再被限制于正态分布,可以根据数据的性质(二分类、计数、连续正数等)选择合适的分布。
- 系统成分(Systematic Component):
- 这与线性回归类似,是解释变量的线性组合,称为线性预测器:
\[ \eta = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p \]
- 这里 \(\eta\) 表示未经过变换的、直接与解释变量线性相关的部分。
- 连接函数(Link Function):
- 这是广义线性模型的“灵魂”。它是一个单调可微函数 \(g(\cdot)\),用于连接响应变量的均值 \(\mu = \mathbb{E}(Y)\) 和线性预测器 \(\eta\):
\[ g(\mu) = \eta \]
\[ 即:\quad \mu = g^{-1}(\eta) \]
- 连接函数的作用是将响应变量均值 \(\mu\) 的取值范围,映射到线性预测器 \(\eta\) 的整个实数轴(\(-\infty, +\infty\))上。
- 举例:
- 对于二项分布(0/1数据),均值 \(\mu\) 是概率 \(p\),取值范围是 [0, 1]。常用的连接函数是 Logit函数:\(g(\mu) = \ln(\frac{\mu}{1-\mu})\)。这使得 \(g(\mu)\) 的取值范围变成 \((-\infty, +\infty)\),可以与 \(\eta\) 匹配。
- 对于泊松分布(计数数据),均值 \(\mu\) > 0。常用的连接函数是对数函数:\(g(\mu) = \ln(\mu)\)。
总结三要素的关系: 观测数据 \(Y\) 服从某个指数族分布(随机成分),其均值 \(\mu\) 通过一个连接函数 \(g\) 与解释变量的线性组合 \(\eta\)(系统成分)联系起来。
第三步:核心模型与常见特例
广义线性模型的一般形式为:
\[ g(\mathbb{E}(Y)) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p \]
其中 \(Y\) 服从指数族分布。
让我们看几个最重要的特例,它们都是广义线性模型家族的一员:
- 经典线性回归:
- 随机成分:\(Y\) 服从正态分布。
- 连接函数:恒等连接,即 \(g(\mu) = \mu\)。
- 模型:\(\mu = \beta_0 + \beta_1 X_1 + \cdots\)
- 逻辑回归(Logistic Regression):
- 用途:处理二分类响应变量(如成功/失败, 是/否)。
- 随机成分:\(Y\) 服从二项分布。
- 连接函数:Logit连接, \(g(\mu) = \ln(\frac{\mu}{1-\mu})\)。
- 模型:\(\ln(\frac{p}{1-p}) = \beta_0 + \beta_1 X_1 + \cdots\),其中 \(p = \mathbb{E}(Y)\) 是成功概率。
- 泊松回归(Poisson Regression):
- 用途:处理计数响应变量(如事件发生次数)。
- 随机成分:\(Y\) 服从泊松分布。
- 连接函数:对数连接, \(g(\mu) = \ln(\mu)\)。
- 模型:\(\ln(\lambda) = \beta_0 + \beta_1 X_1 + \cdots\),其中 \(\lambda = \mathbb{E}(Y)\) 是事件发生率。
- 其他模型:
- 负二项回归:用于过度离散(方差远大于均值)的计数数据。
- 伽马回归:用于右偏的连续正数数据,如保险理赔额、设备寿命。
- 有序/多项逻辑回归:用于多分类有序或无序响应变量。
第四步:参数估计与模型检验
由于响应变量不再正态,我们无法使用最小二乘法进行估计。
- 参数估计:极大似然估计与迭代加权最小二乘法:
- 核心方法是极大似然估计。我们写出基于所选指数族分布的似然函数,然后求解使似然函数最大化的参数 \(\beta\)。
- 实际操作中,通常采用迭代加权最小二乘法 来数值求解。其思想是:通过当前的参数估计值,计算一个“工作响应变量”和“权重”,然后拟合一个加权最小二乘回归,得到新的参数估计;如此迭代直至收敛。
- 模型检验与比较:
- 偏差(Deviance):这是广义线性模型中用于衡量模型拟合优度的核心概念,类似于线性回归中的残差平方和。它是当前模型与“饱和模型”(一个完美拟合每个观测值的模型)的似然比统计量的两倍。
- 似然比检验:用于比较两个嵌套模型(如全模型和简化模型)。检验统计量是两个模型偏差之差,近似服从卡方分布。
- ** Wald检验**:基于参数估计值 \(\hat{\beta}\) 与其标准误的比值进行检验,近似服从正态或卡方分布。
- 信息准则:如AIC(赤池信息准则)、BIC(贝叶斯信息准则),用于在不同复杂度的非嵌套模型间进行选择。
第五步:优势、局限与应用
优势:
- 统一框架:将多种重要统计模型统一到一个理论框架下,便于理解和应用。
- 灵活性:通过选择不同的随机成分和连接函数,可以处理各种类型的数据。
- 可解释性:在逻辑回归中,系数 \(\beta\) 的指数 \(\exp(\beta)\) 表示优势比,具有明确的现实意义。在泊松回归中,\(\exp(\beta)\) 表示发生率比。
局限与注意事项:
- 仍为线性:系统成分 \(\eta\) 对参数 \(\beta\) 而言仍是线性的。非线性关系需要通过引入解释变量的多项式项或交互项来处理。
- 分布选择:模型效果依赖于对响应变量分布的正确指定。如果分布假设错误,结果可能不可靠。
- 过度离散:对于计数数据,实际方差可能大于理论方差(泊松分布假设方差等于均值),此时需要使用负二项回归等能处理过度离散的模型。
广泛应用领域:
- 生物医学:逻辑回归用于疾病风险因素分析。
- 保险精算:伽马回归用于预测理赔成本,泊松/负二项回归用于预测索赔次数。
- 社会科学:研究分类结果(如投票选择、教育程度)的影响因素。
- 工业工程:预测产品缺陷数(泊松回归)或失效时间(伽马回归)。
总结:广义线性模型通过引入指数族分布作为随机成分,以及一个灵活的连接函数,成功地将线性模型的思想推广到非正态、非线性关系的海量数据类型中。它不是一个单一的模型,而是一个强大的模型框架,逻辑回归和泊松回归是其最著名的代表,在数据科学和统计应用的各个领域都发挥着基石性作用。