支持向量机
字数 1644 2025-10-30 08:32:53

支持向量机

支持向量机是一种基于统计学习理论的监督学习算法,主要用于分类和回归任务。其核心思想是寻找一个最优超平面,使得两类数据点之间的间隔最大化。下面逐步展开讲解:


1. 线性可分情况与最大间隔原理

假设训练数据 \(\{(x_i, y_i)\}\)\(y_i \in \{-1, +1\}\),且数据线性可分。目标是找到一个超平面 \(w^T x + b = 0\),使得所有样本满足:

\[y_i (w^T x_i + b) \geq 1 \]

此时,样本到超平面的函数间隔为 \(|w^T x_i + b|\),几何间隔为 \(\frac{|w^T x_i + b|}{\|w\|}\)最大化几何间隔等价于求解:

\[\min_{w,b} \frac{1}{2} \|w\|^2 \quad \text{s.t.} \quad y_i (w^T x_i + b) \geq 1 \]

这是一个凸二次规划问题,其解由少数支持向量(满足 \(y_i (w^T x_i + b) = 1\) 的样本)决定。


2. 线性不可分情况与软间隔

当数据存在噪声或重叠时,引入松弛变量 \(\xi_i \geq 0\),允许部分样本违反间隔条件:

\[\min_{w,b,\xi} \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \xi_i \quad \text{s.t.} \quad y_i (w^T x_i + b) \geq 1 - \xi_i \]

参数 \(C\) 控制分类误差与间隔的权衡:\(C\) 越大,对误分类的惩罚越强。


3. 对偶问题与核技巧

通过拉格朗日对偶将原问题转化为对偶问题:

\[\max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j x_i^T x_j \quad \text{s.t.} \quad 0 \leq \alpha_i \leq C, \ \sum_i \alpha_i y_i = 0 \]

解出 \(\alpha_i\) 后,超平面由支持向量(\(\alpha_i > 0\))决定:

\[w = \sum_{i} \alpha_i y_i x_i, \quad b = y_j - \sum_{i} \alpha_i y_i x_i^T x_j \ (\text{对任意 } \alpha_j > 0) \]

核技巧:将内积 \(x_i^T x_j\) 替换为核函数 \(K(x_i, x_j)\)(如高斯核 \(K(x_i, x_j) = \exp(-\gamma \|x_i - x_j\|^2)\)),将数据映射到高维空间,解决非线性分类问题。


4. 支持向量回归

用于回归任务时,目标改为拟合一个间隔为 \(\epsilon\) 的“管道”,使得多数样本落在管道内:

\[\min_{w,b} \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n (\xi_i + \xi_i^*) \]

约束为:

\[\begin{cases} y_i - (w^T x_i + b) \leq \epsilon + \xi_i \\ (w^T x_i + b) - y_i \leq \epsilon + \xi_i^* \\ \xi_i, \xi_i^* \geq 0 \end{cases} \]


5. 与运筹学的联系

支持向量机的训练本质是求解凸优化问题(二次规划),依赖对偶理论、核方法及优化算法(如序列最小优化算法)。其在运筹学中应用于模式识别、数据分类、风险决策等场景,体现了优化理论与机器学习的交叉。

支持向量机 支持向量机是一种基于统计学习理论的监督学习算法,主要用于分类和回归任务。其核心思想是寻找一个最优超平面,使得两类数据点之间的间隔最大化。下面逐步展开讲解: 1. 线性可分情况与最大间隔原理 假设训练数据 \(\{(x_ i, y_ i)\}\) 中 \(y_ i \in \{-1, +1\}\),且数据线性可分。目标是找到一个超平面 \(w^T x + b = 0\),使得所有样本满足: \[ y_ i (w^T x_ i + b) \geq 1 \] 此时,样本到超平面的函数间隔为 \(|w^T x_ i + b|\),几何间隔为 \(\frac{|w^T x_ i + b|}{\|w\|}\)。 最大化几何间隔 等价于求解: \[ \min_ {w,b} \frac{1}{2} \|w\|^2 \quad \text{s.t.} \quad y_ i (w^T x_ i + b) \geq 1 \] 这是一个凸二次规划问题,其解由少数支持向量(满足 \(y_ i (w^T x_ i + b) = 1\) 的样本)决定。 2. 线性不可分情况与软间隔 当数据存在噪声或重叠时,引入松弛变量 \(\xi_ i \geq 0\),允许部分样本违反间隔条件: \[ \min_ {w,b,\xi} \frac{1}{2} \|w\|^2 + C \sum_ {i=1}^n \xi_ i \quad \text{s.t.} \quad y_ i (w^T x_ i + b) \geq 1 - \xi_ i \] 参数 \(C\) 控制分类误差与间隔的权衡:\(C\) 越大,对误分类的惩罚越强。 3. 对偶问题与核技巧 通过拉格朗日对偶将原问题转化为对偶问题: \[ \max_ {\alpha} \sum_ {i=1}^n \alpha_ i - \frac{1}{2} \sum_ {i,j} \alpha_ i \alpha_ j y_ i y_ j x_ i^T x_ j \quad \text{s.t.} \quad 0 \leq \alpha_ i \leq C, \ \sum_ i \alpha_ i y_ i = 0 \] 解出 \(\alpha_ i\) 后,超平面由支持向量(\(\alpha_ i > 0\))决定: \[ w = \sum_ {i} \alpha_ i y_ i x_ i, \quad b = y_ j - \sum_ {i} \alpha_ i y_ i x_ i^T x_ j \ (\text{对任意 } \alpha_ j > 0) \] 核技巧 :将内积 \(x_ i^T x_ j\) 替换为核函数 \(K(x_ i, x_ j)\)(如高斯核 \(K(x_ i, x_ j) = \exp(-\gamma \|x_ i - x_ j\|^2)\)),将数据映射到高维空间,解决非线性分类问题。 4. 支持向量回归 用于回归任务时,目标改为拟合一个间隔为 \(\epsilon\) 的“管道”,使得多数样本落在管道内: \[ \min_ {w,b} \frac{1}{2} \|w\|^2 + C \sum_ {i=1}^n (\xi_ i + \xi_ i^ ) \] 约束为: \[ \begin{cases} y_ i - (w^T x_ i + b) \leq \epsilon + \xi_ i \\ (w^T x_ i + b) - y_ i \leq \epsilon + \xi_ i^ \\ \xi_ i, \xi_ i^* \geq 0 \end{cases} \] 5. 与运筹学的联系 支持向量机的训练本质是求解凸优化问题(二次规划),依赖对偶理论、核方法及优化算法(如序列最小优化算法)。其在运筹学中应用于模式识别、数据分类、风险决策等场景,体现了优化理论与机器学习的交叉。