线性回归的最小二乘估计
字数 3807 2025-12-08 00:14:36

线性回归的最小二乘估计

好的,我们来讲一个概率论与统计学中非常基础和核心的概念。它并不是某个随机变量的变换,而是参数估计的一个经典方法。我会从最基础的场景开始,循序渐进地展开。

第一步:问题的提出与模型的建立

想象你是一位农业科学家,想研究“施肥量”(我们记为 \(X\))对“作物产量”(我们记为 \(Y\))的影响。你不可能对所有农田做实验,所以你选择了几块试验田,测量了不同施肥量下的产量,得到了一组数据点:\((x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\)

现在,你想找到一条直线,它能最好地描述 \(X\)\(Y\) 之间的关系。这条直线的方程是:

\[Y = \beta_0 + \beta_1 X + \epsilon \]

这个方程就是简单线性回归模型

  • \(Y\)因变量(作物产量),是我们想要预测或解释的变量。
  • \(X\)自变量(施肥量),是我们用来做解释或预测的变量。
  • \(\beta_0\)截距项。当 \(X=0\) 时,\(Y\) 的理论平均值。
  • \(\beta_1\)斜率项。表示 \(X\) 每增加一个单位,\(Y\) 的平均变化量。
  • \(\epsilon\)随机误差项。它代表了所有未包含在模型中的因素(如土壤差异、天气波动、测量误差等)对 \(Y\) 的影响。我们通常假设 \(\epsilon\) 的期望(均值)为 0,方差为常数 \(\sigma^2\),且不同观测的误差是相互独立的。

我们的目标是:根据观测到的数据 \((x_i, y_i)\),找到最佳的 \(\hat{\beta}_0\)\(\hat{\beta}_1\) 来估计真实的 \(\beta_0\)\(\beta_1\)

第二步:核心思想——如何定义“最佳”?

什么叫做“最好地描述”?直观上,我们希望这条直线离所有数据点“尽可能近”。为了把这个想法量化,我们引入残差的概念。

对于任意一条候选直线 \(Y = b_0 + b_1 X\),数据点 \((x_i, y_i)\)残差 \(e_i\) 定义为观测值与直线预测值之差:

\[e_i = y_i - (b_0 + b_1 x_i) \]

残差 \(e_i\) 代表了该数据点偏离直线的垂直距离。

“最佳”直线应该让所有残差的某种组合达到最小。最常用且数学性质优良的准则是最小二乘准则

寻找使得残差平方和达到最小的 \(b_0\)\(b_1\)

残差平方和 定义为:

\[\text{RSS}(b_0, b_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} [y_i - (b_0 + b_1 x_i)]^2 \]

我们之所以最小化平方和,而不是绝对值和或其他形式,是因为:

  1. 数学上易于处理(平方函数处处可导)。
  2. 它对大的误差给予更大的惩罚,使估计线对异常值(离群点)更敏感。
  3. 在高斯误差(正态分布)的假设下,它导出的估计量具有最优的统计性质。

因此,最小二乘估计就是找到一对值 \((\hat{\beta}_0, \hat{\beta}_1)\),使得 \(\text{RSS}(\hat{\beta}_0, \hat{\beta}_1)\) 达到全局最小值。

第三步:求解最小二乘估计量

现在我们把 RSS 看作是关于两个变量 \(b_0\)\(b_1\) 的二元函数。为了找到它的最小值点,我们需要分别对 \(b_0\)\(b_1\) 求偏导数,并令它们等于零。这个过程称为求解正规方程组

  1. \(b_0\) 求偏导

\[ \frac{\partial \text{RSS}}{\partial b_0} = -2 \sum_{i=1}^{n} [y_i - (b_0 + b_1 x_i)] = 0 \]

化简得到方程 (1): \(\sum_{i=1}^{n} y_i = n b_0 + b_1 \sum_{i=1}^{n} x_i\)

  1. \(b_1\) 求偏导

\[ \frac{\partial \text{RSS}}{\partial b_1} = -2 \sum_{i=1}^{n} x_i [y_i - (b_0 + b_1 x_i)] = 0 \]

化简得到方程 (2): \(\sum_{i=1}^{n} x_i y_i = b_0 \sum_{i=1}^{n} x_i + b_1 \sum_{i=1}^{n} x_i^2\)

这是一个关于 \(b_0, b_1\) 的线性方程组。解这个方程组,并用符号 \(\hat{\beta}_0, \hat{\beta}_1\) 表示解,我们得到著名的最小二乘估计公式

\[\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}} \]

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]

其中,

  • \(\bar{x} = \frac{1}{n}\sum x_i\)\(\bar{y} = \frac{1}{n}\sum y_i\) 分别是 \(X\)\(Y\) 的样本均值。
  • \(S_{xx} = \sum (x_i - \bar{x})^2\)\(X\) 的样本离差平方和。
  • \(S_{xy} = \sum (x_i - \bar{x})(y_i - \bar{y})\)\(X\)\(Y\) 的样本离差交叉积和。

第四步:估计量的统计性质

现在我们把 \(\hat{\beta}_0\)\(\hat{\beta}_1\) 视为基于随机样本得到的估计量(它们本身也是随机变量)。在模型的基本假设下(尤其是误差项 \(\epsilon_i\) 独立同分布、期望为零、方差为常数),最小二乘估计量拥有非常好的性质:

  1. 无偏性\(E[\hat{\beta}_0] = \beta_0\)\(E[\hat{\beta}_1] = \beta_1\)。这意味着,如果我们重复多次实验,这些估计值的平均值会收敛到真实参数值。
  2. 有效性(高斯-马尔可夫定理):在所有线性无偏估计量中,最小二乘估计量的方差是最小的。这被称为最佳线性无偏估计
  3. 一致性:当样本量 \(n \to \infty\) 时,\(\hat{\beta}_0\)\(\hat{\beta}_1\) 依概率收敛到真实的 \(\beta_0\)\(\beta_1\)

第五步:从简单到多元

我们刚才讨论的是只有一个自变量 \(X\)简单线性回归。在实际问题中,影响结果的因素往往不止一个。例如,作物产量可能还取决于“降雨量” \(X_2\) 和“日照时间” \(X_3\)。这时,我们就需要多元线性回归模型

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + ... + \beta_p X_p + \epsilon \]

其核心思想完全不变:仍然是最小化残差平方和 \(\sum (y_i - \hat{y}_i)^2\)。求解过程在矩阵形式下会变得非常简洁优美。

将数据写成矩阵形式:\(\mathbf{Y}\)\(n \times 1\) 的因变量向量,\(\mathbf{X}\)\(n \times (p+1)\) 的设计矩阵(第一列通常全是1,对应截距项),\(\boldsymbol{\beta} = (\beta_0, \beta_1, ..., \beta_p)^T\) 是参数向量。则模型为 \(\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}\)

最小二乘估计的目标是:

\[\min_{\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) \]

求解这个最优化问题,得到的最小二乘估计量的矩阵解为:

\[\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \]

这个公式是统计学和机器学习中最重要的公式之一,它统一了从简单到多元的线性回归参数估计。

线性回归的最小二乘估计 好的,我们来讲一个概率论与统计学中非常基础和核心的概念。它并不是某个随机变量的变换,而是参数估计的一个经典方法。我会从最基础的场景开始,循序渐进地展开。 第一步:问题的提出与模型的建立 想象你是一位农业科学家,想研究“施肥量”(我们记为 \(X\))对“作物产量”(我们记为 \(Y\))的影响。你不可能对所有农田做实验,所以你选择了几块试验田,测量了不同施肥量下的产量,得到了一组数据点:\((x_ 1, y_ 1), (x_ 2, y_ 2), ..., (x_ n, y_ n)\)。 现在,你想找到一条直线,它能最好地描述 \(X\) 和 \(Y\) 之间的关系。这条直线的方程是: \[ Y = \beta_ 0 + \beta_ 1 X + \epsilon \] 这个方程就是 简单线性回归模型 。 \(Y\): 因变量 (作物产量),是我们想要预测或解释的变量。 \(X\): 自变量 (施肥量),是我们用来做解释或预测的变量。 \(\beta_ 0\): 截距项 。当 \(X=0\) 时,\(Y\) 的理论平均值。 \(\beta_ 1\): 斜率项 。表示 \(X\) 每增加一个单位,\(Y\) 的平均变化量。 \(\epsilon\): 随机误差项 。它代表了所有未包含在模型中的因素(如土壤差异、天气波动、测量误差等)对 \(Y\) 的影响。我们通常假设 \(\epsilon\) 的期望(均值)为 0,方差为常数 \(\sigma^2\),且不同观测的误差是相互独立的。 我们的目标是: 根据观测到的数据 \((x_ i, y_ i)\),找到最佳的 \(\hat{\beta}_ 0\) 和 \(\hat{\beta}_ 1\) 来估计真实的 \(\beta_ 0\) 和 \(\beta_ 1\) 。 第二步:核心思想——如何定义“最佳”? 什么叫做“最好地描述”?直观上,我们希望这条直线离所有数据点“尽可能近”。为了把这个想法量化,我们引入 残差 的概念。 对于任意一条候选直线 \(Y = b_ 0 + b_ 1 X\),数据点 \((x_ i, y_ i)\) 的 残差 \(e_ i\) 定义为观测值与直线预测值之差: \[ e_ i = y_ i - (b_ 0 + b_ 1 x_ i) \] 残差 \(e_ i\) 代表了该数据点偏离直线的垂直距离。 “最佳”直线应该让所有残差的某种组合达到最小。最常用且数学性质优良的准则是 最小二乘准则 : 寻找使得 残差平方和 达到最小的 \(b_ 0\) 和 \(b_ 1\)。 残差平方和 定义为: \[ \text{RSS}(b_ 0, b_ 1) = \sum_ {i=1}^{n} e_ i^2 = \sum_ {i=1}^{n} [ y_ i - (b_ 0 + b_ 1 x_ i) ]^2 \] 我们之所以最小化平方和,而不是绝对值和或其他形式,是因为: 数学上易于处理(平方函数处处可导)。 它对大的误差给予更大的惩罚,使估计线对异常值(离群点)更敏感。 在高斯误差(正态分布)的假设下,它导出的估计量具有最优的统计性质。 因此, 最小二乘估计 就是找到一对值 \((\hat{\beta}_ 0, \hat{\beta}_ 1)\),使得 \(\text{RSS}(\hat{\beta}_ 0, \hat{\beta}_ 1)\) 达到全局最小值。 第三步:求解最小二乘估计量 现在我们把 RSS 看作是关于两个变量 \(b_ 0\) 和 \(b_ 1\) 的二元函数。为了找到它的最小值点,我们需要分别对 \(b_ 0\) 和 \(b_ 1\) 求偏导数,并令它们等于零。这个过程称为求解 正规方程组 。 对 \(b_ 0\) 求偏导 : \[ \frac{\partial \text{RSS}}{\partial b_ 0} = -2 \sum_ {i=1}^{n} [ y_ i - (b_ 0 + b_ 1 x_ i) ] = 0 \] 化简得到方程 (1): \(\sum_ {i=1}^{n} y_ i = n b_ 0 + b_ 1 \sum_ {i=1}^{n} x_ i\) 对 \(b_ 1\) 求偏导 : \[ \frac{\partial \text{RSS}}{\partial b_ 1} = -2 \sum_ {i=1}^{n} x_ i [ y_ i - (b_ 0 + b_ 1 x_ i) ] = 0 \] 化简得到方程 (2): \(\sum_ {i=1}^{n} x_ i y_ i = b_ 0 \sum_ {i=1}^{n} x_ i + b_ 1 \sum_ {i=1}^{n} x_ i^2\) 这是一个关于 \(b_ 0, b_ 1\) 的线性方程组。解这个方程组,并用符号 \(\hat{\beta}_ 0, \hat{\beta}_ 1\) 表示解,我们得到著名的 最小二乘估计公式 : \[ \hat{\beta} 1 = \frac{\sum {i=1}^{n} (x_ i - \bar{x})(y_ i - \bar{y})}{\sum_ {i=1}^{n} (x_ i - \bar{x})^2} = \frac{S_ {xy}}{S_ {xx}} \] \[ \hat{\beta}_ 0 = \bar{y} - \hat{\beta}_ 1 \bar{x} \] 其中, \(\bar{x} = \frac{1}{n}\sum x_ i\), \(\bar{y} = \frac{1}{n}\sum y_ i\) 分别是 \(X\) 和 \(Y\) 的样本均值。 \(S_ {xx} = \sum (x_ i - \bar{x})^2\) 是 \(X\) 的样本离差平方和。 \(S_ {xy} = \sum (x_ i - \bar{x})(y_ i - \bar{y})\) 是 \(X\) 和 \(Y\) 的样本离差交叉积和。 第四步:估计量的统计性质 现在我们把 \(\hat{\beta}_ 0\) 和 \(\hat{\beta}_ 1\) 视为基于随机样本得到的 估计量 (它们本身也是随机变量)。在模型的基本假设下(尤其是误差项 \(\epsilon_ i\) 独立同分布、期望为零、方差为常数),最小二乘估计量拥有非常好的性质: 无偏性 : \(E[ \hat{\beta}_ 0] = \beta_ 0\), \(E[ \hat{\beta}_ 1] = \beta_ 1\)。这意味着,如果我们重复多次实验,这些估计值的平均值会收敛到真实参数值。 有效性(高斯-马尔可夫定理) :在所有线性无偏估计量中,最小二乘估计量的方差是最小的。这被称为 最佳线性无偏估计 。 一致性 :当样本量 \(n \to \infty\) 时,\(\hat{\beta}_ 0\) 和 \(\hat{\beta}_ 1\) 依概率收敛到真实的 \(\beta_ 0\) 和 \(\beta_ 1\)。 第五步:从简单到多元 我们刚才讨论的是只有一个自变量 \(X\) 的 简单线性回归 。在实际问题中,影响结果的因素往往不止一个。例如,作物产量可能还取决于“降雨量” \(X_ 2\) 和“日照时间” \(X_ 3\)。这时,我们就需要 多元线性回归模型 : \[ Y = \beta_ 0 + \beta_ 1 X_ 1 + \beta_ 2 X_ 2 + \beta_ 3 X_ 3 + ... + \beta_ p X_ p + \epsilon \] 其核心思想完全不变:仍然是最小化残差平方和 \(\sum (y_ i - \hat{y}_ i)^2\)。求解过程在矩阵形式下会变得非常简洁优美。 将数据写成矩阵形式:\(\mathbf{Y}\) 是 \(n \times 1\) 的因变量向量,\(\mathbf{X}\) 是 \(n \times (p+1)\) 的设计矩阵(第一列通常全是1,对应截距项),\(\boldsymbol{\beta} = (\beta_ 0, \beta_ 1, ..., \beta_ p)^T\) 是参数向量。则模型为 \(\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}\)。 最小二乘估计 的目标是: \[ \min_ {\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) \] 求解这个最优化问题,得到的 最小二乘估计量的矩阵解 为: \[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \] 这个公式是统计学和机器学习中最重要的公式之一,它统一了从简单到多元的线性回归参数估计。