线性回归的最小二乘估计
好的,我们来讲一个概率论与统计学中非常基础和核心的概念。它并不是某个随机变量的变换,而是参数估计的一个经典方法。我会从最基础的场景开始,循序渐进地展开。
第一步:问题的提出与模型的建立
想象你是一位农业科学家,想研究“施肥量”(我们记为 \(X\))对“作物产量”(我们记为 \(Y\))的影响。你不可能对所有农田做实验,所以你选择了几块试验田,测量了不同施肥量下的产量,得到了一组数据点:\((x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\)。
现在,你想找到一条直线,它能最好地描述 \(X\) 和 \(Y\) 之间的关系。这条直线的方程是:
\[Y = \beta_0 + \beta_1 X + \epsilon \]
这个方程就是简单线性回归模型。
- \(Y\):因变量(作物产量),是我们想要预测或解释的变量。
- \(X\):自变量(施肥量),是我们用来做解释或预测的变量。
- \(\beta_0\):截距项。当 \(X=0\) 时,\(Y\) 的理论平均值。
- \(\beta_1\):斜率项。表示 \(X\) 每增加一个单位,\(Y\) 的平均变化量。
- \(\epsilon\):随机误差项。它代表了所有未包含在模型中的因素(如土壤差异、天气波动、测量误差等)对 \(Y\) 的影响。我们通常假设 \(\epsilon\) 的期望(均值)为 0,方差为常数 \(\sigma^2\),且不同观测的误差是相互独立的。
我们的目标是:根据观测到的数据 \((x_i, y_i)\),找到最佳的 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 来估计真实的 \(\beta_0\) 和 \(\beta_1\)。
第二步:核心思想——如何定义“最佳”?
什么叫做“最好地描述”?直观上,我们希望这条直线离所有数据点“尽可能近”。为了把这个想法量化,我们引入残差的概念。
对于任意一条候选直线 \(Y = b_0 + b_1 X\),数据点 \((x_i, y_i)\) 的残差 \(e_i\) 定义为观测值与直线预测值之差:
\[e_i = y_i - (b_0 + b_1 x_i) \]
残差 \(e_i\) 代表了该数据点偏离直线的垂直距离。
“最佳”直线应该让所有残差的某种组合达到最小。最常用且数学性质优良的准则是最小二乘准则:
寻找使得残差平方和达到最小的 \(b_0\) 和 \(b_1\)。
残差平方和 定义为:
\[\text{RSS}(b_0, b_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} [y_i - (b_0 + b_1 x_i)]^2 \]
我们之所以最小化平方和,而不是绝对值和或其他形式,是因为:
- 数学上易于处理(平方函数处处可导)。
- 它对大的误差给予更大的惩罚,使估计线对异常值(离群点)更敏感。
- 在高斯误差(正态分布)的假设下,它导出的估计量具有最优的统计性质。
因此,最小二乘估计就是找到一对值 \((\hat{\beta}_0, \hat{\beta}_1)\),使得 \(\text{RSS}(\hat{\beta}_0, \hat{\beta}_1)\) 达到全局最小值。
第三步:求解最小二乘估计量
现在我们把 RSS 看作是关于两个变量 \(b_0\) 和 \(b_1\) 的二元函数。为了找到它的最小值点,我们需要分别对 \(b_0\) 和 \(b_1\) 求偏导数,并令它们等于零。这个过程称为求解正规方程组。
- 对 \(b_0\) 求偏导:
\[ \frac{\partial \text{RSS}}{\partial b_0} = -2 \sum_{i=1}^{n} [y_i - (b_0 + b_1 x_i)] = 0 \]
化简得到方程 (1): \(\sum_{i=1}^{n} y_i = n b_0 + b_1 \sum_{i=1}^{n} x_i\)
- 对 \(b_1\) 求偏导:
\[ \frac{\partial \text{RSS}}{\partial b_1} = -2 \sum_{i=1}^{n} x_i [y_i - (b_0 + b_1 x_i)] = 0 \]
化简得到方程 (2): \(\sum_{i=1}^{n} x_i y_i = b_0 \sum_{i=1}^{n} x_i + b_1 \sum_{i=1}^{n} x_i^2\)
这是一个关于 \(b_0, b_1\) 的线性方程组。解这个方程组,并用符号 \(\hat{\beta}_0, \hat{\beta}_1\) 表示解,我们得到著名的最小二乘估计公式:
\[\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}} \]
\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]
其中,
- \(\bar{x} = \frac{1}{n}\sum x_i\), \(\bar{y} = \frac{1}{n}\sum y_i\) 分别是 \(X\) 和 \(Y\) 的样本均值。
- \(S_{xx} = \sum (x_i - \bar{x})^2\) 是 \(X\) 的样本离差平方和。
- \(S_{xy} = \sum (x_i - \bar{x})(y_i - \bar{y})\) 是 \(X\) 和 \(Y\) 的样本离差交叉积和。
第四步:估计量的统计性质
现在我们把 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 视为基于随机样本得到的估计量(它们本身也是随机变量)。在模型的基本假设下(尤其是误差项 \(\epsilon_i\) 独立同分布、期望为零、方差为常数),最小二乘估计量拥有非常好的性质:
- 无偏性: \(E[\hat{\beta}_0] = \beta_0\), \(E[\hat{\beta}_1] = \beta_1\)。这意味着,如果我们重复多次实验,这些估计值的平均值会收敛到真实参数值。
- 有效性(高斯-马尔可夫定理):在所有线性无偏估计量中,最小二乘估计量的方差是最小的。这被称为最佳线性无偏估计。
- 一致性:当样本量 \(n \to \infty\) 时,\(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 依概率收敛到真实的 \(\beta_0\) 和 \(\beta_1\)。
第五步:从简单到多元
我们刚才讨论的是只有一个自变量 \(X\) 的简单线性回归。在实际问题中,影响结果的因素往往不止一个。例如,作物产量可能还取决于“降雨量” \(X_2\) 和“日照时间” \(X_3\)。这时,我们就需要多元线性回归模型:
\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + ... + \beta_p X_p + \epsilon \]
其核心思想完全不变:仍然是最小化残差平方和 \(\sum (y_i - \hat{y}_i)^2\)。求解过程在矩阵形式下会变得非常简洁优美。
将数据写成矩阵形式:\(\mathbf{Y}\) 是 \(n \times 1\) 的因变量向量,\(\mathbf{X}\) 是 \(n \times (p+1)\) 的设计矩阵(第一列通常全是1,对应截距项),\(\boldsymbol{\beta} = (\beta_0, \beta_1, ..., \beta_p)^T\) 是参数向量。则模型为 \(\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}\)。
最小二乘估计的目标是:
\[\min_{\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) \]
求解这个最优化问题,得到的最小二乘估计量的矩阵解为:
\[\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \]
这个公式是统计学和机器学习中最重要的公式之一,它统一了从简单到多元的线性回归参数估计。