线性回归的最小二乘估计

字数 3807 2025-12-08 00:14:36

线性回归的最小二乘估计

好的，我们来讲一个概率论与统计学中非常基础和核心的概念。它并不是某个随机变量的变换，而是参数估计的一个经典方法。我会从最基础的场景开始，循序渐进地展开。

第一步：问题的提出与模型的建立

想象你是一位农业科学家，想研究“施肥量”（我们记为 \(X\)）对“作物产量”（我们记为 \(Y\)）的影响。你不可能对所有农田做实验，所以你选择了几块试验田，测量了不同施肥量下的产量，得到了一组数据点：\((x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\)。

现在，你想找到一条直线，它能最好地描述 \(X\) 和 \(Y\) 之间的关系。这条直线的方程是：

\[Y = \beta_0 + \beta_1 X + \epsilon \]

这个方程就是简单线性回归模型。

\(Y\)：因变量（作物产量），是我们想要预测或解释的变量。
\(X\)：自变量（施肥量），是我们用来做解释或预测的变量。
\(\beta_0\)：截距项。当 \(X=0\) 时，\(Y\) 的理论平均值。
\(\beta_1\)：斜率项。表示 \(X\) 每增加一个单位，\(Y\) 的平均变化量。
\(\epsilon\)：随机误差项。它代表了所有未包含在模型中的因素（如土壤差异、天气波动、测量误差等）对 \(Y\) 的影响。我们通常假设 \(\epsilon\) 的期望（均值）为 0，方差为常数 \(\sigma^2\)，且不同观测的误差是相互独立的。

我们的目标是：根据观测到的数据 \((x_i, y_i)\)，找到最佳的 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 来估计真实的 \(\beta_0\) 和 \(\beta_1\)。

第二步：核心思想——如何定义“最佳”？

什么叫做“最好地描述”？直观上，我们希望这条直线离所有数据点“尽可能近”。为了把这个想法量化，我们引入残差的概念。

对于任意一条候选直线 \(Y = b_0 + b_1 X\)，数据点 \((x_i, y_i)\) 的残差 \(e_i\) 定义为观测值与直线预测值之差：

\[e_i = y_i - (b_0 + b_1 x_i) \]

残差 \(e_i\) 代表了该数据点偏离直线的垂直距离。

“最佳”直线应该让所有残差的某种组合达到最小。最常用且数学性质优良的准则是最小二乘准则：

寻找使得残差平方和达到最小的 \(b_0\) 和 \(b_1\)。

残差平方和 定义为：

\[\text{RSS}(b_0, b_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} [y_i - (b_0 + b_1 x_i)]^2 \]

我们之所以最小化平方和，而不是绝对值和或其他形式，是因为：

数学上易于处理（平方函数处处可导）。
它对大的误差给予更大的惩罚，使估计线对异常值（离群点）更敏感。
在高斯误差（正态分布）的假设下，它导出的估计量具有最优的统计性质。

因此，最小二乘估计就是找到一对值 \((\hat{\beta}_0, \hat{\beta}_1)\)，使得 \(\text{RSS}(\hat{\beta}_0, \hat{\beta}_1)\) 达到全局最小值。

第三步：求解最小二乘估计量

现在我们把 RSS 看作是关于两个变量 \(b_0\) 和 \(b_1\) 的二元函数。为了找到它的最小值点，我们需要分别对 \(b_0\) 和 \(b_1\) 求偏导数，并令它们等于零。这个过程称为求解正规方程组。

对 \(b_0\) 求偏导：

\[ \frac{\partial \text{RSS}}{\partial b_0} = -2 \sum_{i=1}^{n} [y_i - (b_0 + b_1 x_i)] = 0 \]

化简得到方程 (1)： \(\sum_{i=1}^{n} y_i = n b_0 + b_1 \sum_{i=1}^{n} x_i\)

对 \(b_1\) 求偏导：

\[ \frac{\partial \text{RSS}}{\partial b_1} = -2 \sum_{i=1}^{n} x_i [y_i - (b_0 + b_1 x_i)] = 0 \]

化简得到方程 (2)： \(\sum_{i=1}^{n} x_i y_i = b_0 \sum_{i=1}^{n} x_i + b_1 \sum_{i=1}^{n} x_i^2\)

这是一个关于 \(b_0, b_1\) 的线性方程组。解这个方程组，并用符号 \(\hat{\beta}_0, \hat{\beta}_1\) 表示解，我们得到著名的最小二乘估计公式：

\[\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}} \]

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]

其中，

\(\bar{x} = \frac{1}{n}\sum x_i\)， \(\bar{y} = \frac{1}{n}\sum y_i\) 分别是 \(X\) 和 \(Y\) 的样本均值。
\(S_{xx} = \sum (x_i - \bar{x})^2\) 是 \(X\) 的样本离差平方和。
\(S_{xy} = \sum (x_i - \bar{x})(y_i - \bar{y})\) 是 \(X\) 和 \(Y\) 的样本离差交叉积和。

第四步：估计量的统计性质

现在我们把 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 视为基于随机样本得到的估计量（它们本身也是随机变量）。在模型的基本假设下（尤其是误差项 \(\epsilon_i\) 独立同分布、期望为零、方差为常数），最小二乘估计量拥有非常好的性质：

无偏性： \(E[\hat{\beta}_0] = \beta_0\)， \(E[\hat{\beta}_1] = \beta_1\)。这意味着，如果我们重复多次实验，这些估计值的平均值会收敛到真实参数值。
有效性（高斯-马尔可夫定理）：在所有线性无偏估计量中，最小二乘估计量的方差是最小的。这被称为最佳线性无偏估计。
一致性：当样本量 \(n \to \infty\) 时，\(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 依概率收敛到真实的 \(\beta_0\) 和 \(\beta_1\)。

第五步：从简单到多元

我们刚才讨论的是只有一个自变量 \(X\) 的简单线性回归。在实际问题中，影响结果的因素往往不止一个。例如，作物产量可能还取决于“降雨量” \(X_2\) 和“日照时间” \(X_3\)。这时，我们就需要多元线性回归模型：

\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + ... + \beta_p X_p + \epsilon \]

其核心思想完全不变：仍然是最小化残差平方和 \(\sum (y_i - \hat{y}_i)^2\)。求解过程在矩阵形式下会变得非常简洁优美。

将数据写成矩阵形式：\(\mathbf{Y}\) 是 \(n \times 1\) 的因变量向量，\(\mathbf{X}\) 是 \(n \times (p+1)\) 的设计矩阵（第一列通常全是1，对应截距项），\(\boldsymbol{\beta} = (\beta_0, \beta_1, ..., \beta_p)^T\) 是参数向量。则模型为 \(\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}\)。

最小二乘估计的目标是：

\[\min_{\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) \]

求解这个最优化问题，得到的最小二乘估计量的矩阵解为：

\[\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \]

这个公式是统计学和机器学习中最重要的公式之一，它统一了从简单到多元的线性回归参数估计。

线性回归的最小二乘估计好的，我们来讲一个概率论与统计学中非常基础和核心的概念。它并不是某个随机变量的变换，而是参数估计的一个经典方法。我会从最基础的场景开始，循序渐进地展开。第一步：问题的提出与模型的建立想象你是一位农业科学家，想研究“施肥量”（我们记为 \(X\)）对“作物产量”（我们记为 \(Y\)）的影响。你不可能对所有农田做实验，所以你选择了几块试验田，测量了不同施肥量下的产量，得到了一组数据点：\((x_ 1, y_ 1), (x_ 2, y_ 2), ..., (x_ n, y_ n)\)。现在，你想找到一条直线，它能最好地描述 \(X\) 和 \(Y\) 之间的关系。这条直线的方程是： \[ Y = \beta_ 0 + \beta_ 1 X + \epsilon \] 这个方程就是简单线性回归模型。 \(Y\)：因变量（作物产量），是我们想要预测或解释的变量。 \(X\)：自变量（施肥量），是我们用来做解释或预测的变量。 \(\beta_ 0\)：截距项。当 \(X=0\) 时，\(Y\) 的理论平均值。 \(\beta_ 1\)：斜率项。表示 \(X\) 每增加一个单位，\(Y\) 的平均变化量。 \(\epsilon\)：随机误差项。它代表了所有未包含在模型中的因素（如土壤差异、天气波动、测量误差等）对 \(Y\) 的影响。我们通常假设 \(\epsilon\) 的期望（均值）为 0，方差为常数 \(\sigma^2\)，且不同观测的误差是相互独立的。我们的目标是：根据观测到的数据 \((x_ i, y_ i)\)，找到最佳的 \(\hat{\beta}_ 0\) 和 \(\hat{\beta}_ 1\) 来估计真实的 \(\beta_ 0\) 和 \(\beta_ 1\) 。第二步：核心思想——如何定义“最佳”？什么叫做“最好地描述”？直观上，我们希望这条直线离所有数据点“尽可能近”。为了把这个想法量化，我们引入残差的概念。对于任意一条候选直线 \(Y = b_ 0 + b_ 1 X\)，数据点 \((x_ i, y_ i)\) 的残差 \(e_ i\) 定义为观测值与直线预测值之差： \[ e_ i = y_ i - (b_ 0 + b_ 1 x_ i) \] 残差 \(e_ i\) 代表了该数据点偏离直线的垂直距离。 “最佳”直线应该让所有残差的某种组合达到最小。最常用且数学性质优良的准则是最小二乘准则：寻找使得残差平方和达到最小的 \(b_ 0\) 和 \(b_ 1\)。残差平方和定义为： \[ \text{RSS}(b_ 0, b_ 1) = \sum_ {i=1}^{n} e_ i^2 = \sum_ {i=1}^{n} [ y_ i - (b_ 0 + b_ 1 x_ i) ]^2 \] 我们之所以最小化平方和，而不是绝对值和或其他形式，是因为：数学上易于处理（平方函数处处可导）。它对大的误差给予更大的惩罚，使估计线对异常值（离群点）更敏感。在高斯误差（正态分布）的假设下，它导出的估计量具有最优的统计性质。因此，最小二乘估计就是找到一对值 \((\hat{\beta}_ 0, \hat{\beta}_ 1)\)，使得 \(\text{RSS}(\hat{\beta}_ 0, \hat{\beta}_ 1)\) 达到全局最小值。第三步：求解最小二乘估计量现在我们把 RSS 看作是关于两个变量 \(b_ 0\) 和 \(b_ 1\) 的二元函数。为了找到它的最小值点，我们需要分别对 \(b_ 0\) 和 \(b_ 1\) 求偏导数，并令它们等于零。这个过程称为求解正规方程组。对 \(b_ 0\) 求偏导： \[ \frac{\partial \text{RSS}}{\partial b_ 0} = -2 \sum_ {i=1}^{n} [ y_ i - (b_ 0 + b_ 1 x_ i) ] = 0 \] 化简得到方程 (1)： \(\sum_ {i=1}^{n} y_ i = n b_ 0 + b_ 1 \sum_ {i=1}^{n} x_ i\) 对 \(b_ 1\) 求偏导： \[ \frac{\partial \text{RSS}}{\partial b_ 1} = -2 \sum_ {i=1}^{n} x_ i [ y_ i - (b_ 0 + b_ 1 x_ i) ] = 0 \] 化简得到方程 (2)： \(\sum_ {i=1}^{n} x_ i y_ i = b_ 0 \sum_ {i=1}^{n} x_ i + b_ 1 \sum_ {i=1}^{n} x_ i^2\) 这是一个关于 \(b_ 0, b_ 1\) 的线性方程组。解这个方程组，并用符号 \(\hat{\beta}_ 0, \hat{\beta}_ 1\) 表示解，我们得到著名的最小二乘估计公式： \[ \hat{\beta} 1 = \frac{\sum {i=1}^{n} (x_ i - \bar{x})(y_ i - \bar{y})}{\sum_ {i=1}^{n} (x_ i - \bar{x})^2} = \frac{S_ {xy}}{S_ {xx}} \] \[ \hat{\beta}_ 0 = \bar{y} - \hat{\beta}_ 1 \bar{x} \] 其中， \(\bar{x} = \frac{1}{n}\sum x_ i\)， \(\bar{y} = \frac{1}{n}\sum y_ i\) 分别是 \(X\) 和 \(Y\) 的样本均值。 \(S_ {xx} = \sum (x_ i - \bar{x})^2\) 是 \(X\) 的样本离差平方和。 \(S_ {xy} = \sum (x_ i - \bar{x})(y_ i - \bar{y})\) 是 \(X\) 和 \(Y\) 的样本离差交叉积和。第四步：估计量的统计性质现在我们把 \(\hat{\beta}_ 0\) 和 \(\hat{\beta}_ 1\) 视为基于随机样本得到的估计量（它们本身也是随机变量）。在模型的基本假设下（尤其是误差项 \(\epsilon_ i\) 独立同分布、期望为零、方差为常数），最小二乘估计量拥有非常好的性质：无偏性： \(E[ \hat{\beta}_ 0] = \beta_ 0\)， \(E[ \hat{\beta}_ 1] = \beta_ 1\)。这意味着，如果我们重复多次实验，这些估计值的平均值会收敛到真实参数值。有效性（高斯-马尔可夫定理）：在所有线性无偏估计量中，最小二乘估计量的方差是最小的。这被称为最佳线性无偏估计。一致性：当样本量 \(n \to \infty\) 时，\(\hat{\beta}_ 0\) 和 \(\hat{\beta}_ 1\) 依概率收敛到真实的 \(\beta_ 0\) 和 \(\beta_ 1\)。第五步：从简单到多元我们刚才讨论的是只有一个自变量 \(X\) 的简单线性回归。在实际问题中，影响结果的因素往往不止一个。例如，作物产量可能还取决于“降雨量” \(X_ 2\) 和“日照时间” \(X_ 3\)。这时，我们就需要多元线性回归模型： \[ Y = \beta_ 0 + \beta_ 1 X_ 1 + \beta_ 2 X_ 2 + \beta_ 3 X_ 3 + ... + \beta_ p X_ p + \epsilon \] 其核心思想完全不变：仍然是最小化残差平方和 \(\sum (y_ i - \hat{y}_ i)^2\)。求解过程在矩阵形式下会变得非常简洁优美。将数据写成矩阵形式：\(\mathbf{Y}\) 是 \(n \times 1\) 的因变量向量，\(\mathbf{X}\) 是 \(n \times (p+1)\) 的设计矩阵（第一列通常全是1，对应截距项），\(\boldsymbol{\beta} = (\beta_ 0, \beta_ 1, ..., \beta_ p)^T\) 是参数向量。则模型为 \(\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}\)。最小二乘估计的目标是： \[ \min_ {\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) \] 求解这个最优化问题，得到的最小二乘估计量的矩阵解为： \[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \] 这个公式是统计学和机器学习中最重要的公式之一，它统一了从简单到多元的线性回归参数估计。