凸函数的次梯度(Subgradient of Convex Functions)
字数 3540 2025-12-07 06:46:28

凸函数的次梯度(Subgradient of Convex Functions)

我们来系统性地学习“凸函数的次梯度”这一概念。在泛函分析,尤其是在凸分析与非线性泛函分析中,次梯度是导数概念在不可导的凸函数上的推广,它为研究非光滑凸函数的极值、优化和变分问题提供了关键工具。

第一步:从导数到次梯度的动机

考虑一个一元函数 \(f: \mathbb{R} \to \mathbb{R}\)。如果 \(f\) 在点 \(x_0\) 处可导,那么导数 \(f'(x_0)\) 给出了该点切线的斜率,并且满足“切线位于函数图像下方”的性质:

\[f(x) \ge f(x_0) + f'(x_0)(x - x_0), \quad \forall x \in \mathbb{R}. \]

这个不等式描述了函数在该点附近的线性下逼近。然而,许多重要的凸函数(如绝对值函数 \(f(x) = |x|\)\(x=0\) 处)并不可导。我们能否为这些不可导的点也定义一个类似“斜率”的对象,使得上述线性下估计仍然成立?这就是次梯度的基本思想。

第二步:次梯度的严格定义

\(X\) 是一个实赋范空间(通常考虑 Hilbert 空间或 Banach 空间),\(f: X \to \mathbb{R} \cup \{+\infty\}\) 是一个真凸函数(即不恒等于 \(+\infty\),且定义域 \(\text{dom} f = \{x: f(x) < +\infty\}\) 非空)。设 \(x_0 \in \text{dom} f\)

  • 次梯度: 一个连续线性泛函 \(x^* \in X^*\)(即 \(X\) 的对偶空间中的元素)称为 \(f\) 在点 \(x_0\) 处的一个次梯度,如果它满足以下全局不等式:

\[ f(x) \ge f(x_0) + \langle x^*, x - x_0 \rangle, \quad \forall x \in X. \]

这里 \(\langle x^*, x - x_0 \rangle\) 表示泛函 \(x^*\) 在向量 \(x - x_0\) 上的取值。这个不等式称为次梯度不等式

  • 次微分\(f\)\(x_0\) 处的所有次梯度构成的集合,称为 \(f\)\(x_0\) 处的次微分,记作 \(\partial f(x_0)\)。即:

\[ \partial f(x_0) = \{ x^* \in X^* : f(x) \ge f(x_0) + \langle x^*, x - x_0 \rangle, \ \forall x \in X \}. \]

它是一个 \(X^*\) 中的子集(可能是空集、单点集或多点集)。

第三步:关键性质与几何解释

  1. 存在性: 对于定义在有限维空间上的凸函数,在其定义域的内部(相对内部)的点,次微分总是非空的。在无穷维空间中,需要额外的连续性假设(如在某点连续)来保证非空性。这源于凸分析的基本定理。
  2. 与可导性的关系: 如果 \(f\)\(x_0\) 处是 Gateaux 可导的(并且是凸的),那么其次微分是单点集:\(\partial f(x_0) = \{ \nabla f(x_0) \}\),其中 \(\nabla f(x_0)\) 是梯度(或导算子)。此时,次梯度不等式退化为一阶泰勒展开的下界估计。
  3. 几何图像: 在赋范空间 \(X\) 中,考虑函数图像的上方区域(上图)\(\text{epi} f = \{(x, r) \in X \times \mathbb{R} : r \ge f(x)\}\)。次梯度不等式意味着,超平面 \(H = \{(x, r) : r = f(x_0) + \langle x^*, x - x_0 \rangle \}\) 是凸集 \(\text{epi} f\) 在点 \((x_0, f(x_0))\) 处的一个支撑超平面。次微分中的每个元素,都对应着一个这样的支撑超平面的“斜率”(在 \(X\) 方向上的分量)。
  4. 最优化条件: 次梯度在优化中起着核心作用。对于一个无约束凸优化问题 \(\min_{x \in X} f(x)\),点 \(x_0\) 是全局极小点的充要条件\(0 \in \partial f(x_0)\)。这推广了可导情形下“梯度为零”的一阶最优性条件。对于约束问题,它与 Lagrange 乘子理论紧密相连。

第四步:基本计算规则与例子

理解定义后,我们看几个典型例子:

  1. 绝对值函数\(f: \mathbb{R} \to \mathbb{R}, f(x)=|x|\)
  • \(x_0 > 0\) 处:可导,\(\partial f(x_0) = \{1\}\)
  • \(x_0 < 0\) 处:可导,\(\partial f(x_0) = \{-1\}\)
  • \(x_0 = 0\) 处:不可导。次梯度不等式为 \(|x| \ge 0 + g \cdot x, \ \forall x\)。满足此式的 \(g\) 需满足 \(|x| \ge gx, \forall x\)。容易验证,这等价于 \(g \in [-1, 1]\)。因此,\(\partial f(0) = [-1, 1]\)
  1. 最大值函数\(f: \mathbb{R}^n \to \mathbb{R}, f(x) = \max\{x_1, ..., x_n\}\)
  • 在点 \(x_0\) 处,令 \(I(x_0) = \{i : x_{0,i} = f(x_0)\}\) 是达到最大值的坐标索引集。其次微分为标准单纯形的一个面:\(\partial f(x_0) = \text{conv} \{ e_i : i \in I(x_0) \}\),其中 \(e_i\) 是第 \(i\) 个标准单位向量,conv 表示凸包。
  1. 计算法则: 类似于导数,次微分也有和、数乘等规则(在适当的条件下)。例如,对于两个真凸函数 \(f, g\),在一点 \(x_0\) 处,如果 \(f\)\(g\) 在该点连续,通常有 \(\partial (f+g)(x_0) = \partial f(x_0) + \partial g(x_0)\)(Minkowski 和)。但需注意,这个包含关系成为等式的条件(如约束品性)比可导情形严格得多。

第五步:与泛函分析的深层联系

  1. 对偶理论: 凸函数的次微分与其共轭函数(Fenchel 共轭)密切相关。对于凸函数 \(f\),定义其共轭 \(f^*(x^*) = \sup_{x \in X} \{ \langle x^*, x \rangle - f(x) \}\)。一个深刻的结果是:\(x^* \in \partial f(x)\) 当且仅当 \(x \in \partial f^*(x^*)\),这等价于 Fenchel-Young 等式 \(f(x) + f^*(x^*) = \langle x^*, x \rangle\) 成立。这建立了函数与其次微分之间的完美对偶。
  2. 单调算子理论: 凸函数的次微分映射 \(x \mapsto \partial f(x)\) 是一个重要的、具有良好性质的极大单调算子。这使得我们可以将凸优化问题与单调算子的零点的求解问题联系起来,并利用非线性泛函分析中的技巧(如邻近点算法)来求解。
  3. 变分不等式: 许多平衡问题、力学问题可以表述为寻找 \(x\) 使得 \(0 \in \partial f(x) + F(x)\),其中 \(F\) 是另一个算子。这自然导向了变分不等式互补问题的研究框架。

总结来说,凸函数的次梯度是将微分学推广到非光滑凸情形的核心概念。它通过一个全局不等式来刻画,具有清晰的几何和变分意义,是连接凸分析、非线性泛函分析和最优化理论的桥梁。从绝对值函数这样简单的例子出发,可以一直深入到现代变分分析和大规模优化算法的基础之中。

凸函数的次梯度(Subgradient of Convex Functions) 我们来系统性地学习“凸函数的次梯度”这一概念。在泛函分析,尤其是在凸分析与非线性泛函分析中,次梯度是导数概念在不可导的凸函数上的推广,它为研究非光滑凸函数的极值、优化和变分问题提供了关键工具。 第一步:从导数到次梯度的动机 考虑一个一元函数 \( f: \mathbb{R} \to \mathbb{R} \)。如果 \( f \) 在点 \( x_ 0 \) 处可导,那么导数 \( f'(x_ 0) \) 给出了该点切线的斜率,并且满足“切线位于函数图像下方”的性质: \[ f(x) \ge f(x_ 0) + f'(x_ 0)(x - x_ 0), \quad \forall x \in \mathbb{R}. \] 这个不等式描述了函数在该点附近的线性下逼近。然而,许多重要的凸函数(如绝对值函数 \( f(x) = |x| \) 在 \( x=0 \) 处)并不可导。我们能否为这些不可导的点也定义一个类似“斜率”的对象,使得上述线性下估计仍然成立?这就是次梯度的基本思想。 第二步:次梯度的严格定义 设 \( X \) 是一个实赋范空间(通常考虑 Hilbert 空间或 Banach 空间),\( f: X \to \mathbb{R} \cup \{+\infty\} \) 是一个真凸函数(即不恒等于 \( +\infty \),且定义域 \( \text{dom} f = \{x: f(x) < +\infty\} \) 非空)。设 \( x_ 0 \in \text{dom} f \)。 次梯度 : 一个连续线性泛函 \( x^* \in X^* \)(即 \( X \) 的对偶空间中的元素)称为 \( f \) 在点 \( x_ 0 \) 处的一个 次梯度 ,如果它满足以下全局不等式: \[ f(x) \ge f(x_ 0) + \langle x^ , x - x_ 0 \rangle, \quad \forall x \in X. \] 这里 \( \langle x^ , x - x_ 0 \rangle \) 表示泛函 \( x^* \) 在向量 \( x - x_ 0 \) 上的取值。这个不等式称为 次梯度不等式 。 次微分 : \( f \) 在 \( x_ 0 \) 处的所有次梯度构成的集合,称为 \( f \) 在 \( x_ 0 \) 处的 次微分 ,记作 \( \partial f(x_ 0) \)。即: \[ \partial f(x_ 0) = \{ x^* \in X^* : f(x) \ge f(x_ 0) + \langle x^ , x - x_ 0 \rangle, \ \forall x \in X \}. \] 它是一个 \( X^ \) 中的子集(可能是空集、单点集或多点集)。 第三步:关键性质与几何解释 存在性 : 对于定义在有限维空间上的凸函数,在其定义域的 内部 (相对内部)的点,次微分总是非空的。在无穷维空间中,需要额外的连续性假设(如在某点连续)来保证非空性。这源于凸分析的基本定理。 与可导性的关系 : 如果 \( f \) 在 \( x_ 0 \) 处是 Gateaux 可导的(并且是凸的),那么其次微分是单点集:\( \partial f(x_ 0) = \{ \nabla f(x_ 0) \} \),其中 \( \nabla f(x_ 0) \) 是梯度(或导算子)。此时,次梯度不等式退化为一阶泰勒展开的下界估计。 几何图像 : 在赋范空间 \( X \) 中,考虑函数图像的上方区域(上图)\( \text{epi} f = \{(x, r) \in X \times \mathbb{R} : r \ge f(x)\} \)。次梯度不等式意味着,超平面 \( H = \{(x, r) : r = f(x_ 0) + \langle x^* , x - x_ 0 \rangle \} \) 是凸集 \( \text{epi} f \) 在点 \( (x_ 0, f(x_ 0)) \) 处的一个 支撑超平面 。次微分中的每个元素,都对应着一个这样的支撑超平面的“斜率”(在 \( X \) 方向上的分量)。 最优化条件 : 次梯度在优化中起着核心作用。对于一个无约束凸优化问题 \( \min_ {x \in X} f(x) \),点 \( x_ 0 \) 是全局极小点的 充要条件 是 \( 0 \in \partial f(x_ 0) \)。这推广了可导情形下“梯度为零”的一阶最优性条件。对于约束问题,它与 Lagrange 乘子理论紧密相连。 第四步:基本计算规则与例子 理解定义后,我们看几个典型例子: 绝对值函数 : \( f: \mathbb{R} \to \mathbb{R}, f(x)=|x| \)。 在 \( x_ 0 > 0 \) 处:可导,\( \partial f(x_ 0) = \{1\} \)。 在 \( x_ 0 < 0 \) 处:可导,\( \partial f(x_ 0) = \{-1\} \)。 在 \( x_ 0 = 0 \) 处:不可导。次梯度不等式为 \( |x| \ge 0 + g \cdot x, \ \forall x \)。满足此式的 \( g \) 需满足 \( |x| \ge gx, \forall x \)。容易验证,这等价于 \( g \in [ -1, 1] \)。因此,\( \partial f(0) = [ -1, 1 ] \)。 最大值函数 : \( f: \mathbb{R}^n \to \mathbb{R}, f(x) = \max\{x_ 1, ..., x_ n\} \)。 在点 \( x_ 0 \) 处,令 \( I(x_ 0) = \{i : x_ {0,i} = f(x_ 0)\} \) 是达到最大值的坐标索引集。其次微分为标准单纯形的一个面:\( \partial f(x_ 0) = \text{conv} \{ e_ i : i \in I(x_ 0) \} \),其中 \( e_ i \) 是第 \( i \) 个标准单位向量,conv 表示凸包。 计算法则 : 类似于导数,次微分也有和、数乘等规则(在适当的条件下)。例如,对于两个真凸函数 \( f, g \),在一点 \( x_ 0 \) 处,如果 \( f \) 或 \( g \) 在该点连续,通常有 \( \partial (f+g)(x_ 0) = \partial f(x_ 0) + \partial g(x_ 0) \)(Minkowski 和)。但需注意,这个包含关系成为等式的条件(如约束品性)比可导情形严格得多。 第五步:与泛函分析的深层联系 对偶理论 : 凸函数的次微分与其共轭函数(Fenchel 共轭)密切相关。对于凸函数 \( f \),定义其共轭 \( f^ (x^ ) = \sup_ {x \in X} \{ \langle x^ , x \rangle - f(x) \} \)。一个深刻的结果是:\( x^ \in \partial f(x) \) 当且仅当 \( x \in \partial f^ (x^ ) \),这等价于 Fenchel-Young 等式 \( f(x) + f^ (x^ ) = \langle x^* , x \rangle \) 成立。这建立了函数与其次微分之间的完美对偶。 单调算子理论 : 凸函数的次微分映射 \( x \mapsto \partial f(x) \) 是一个重要的、具有良好性质的 极大单调算子 。这使得我们可以将凸优化问题与单调算子的零点的求解问题联系起来,并利用非线性泛函分析中的技巧(如邻近点算法)来求解。 变分不等式 : 许多平衡问题、力学问题可以表述为寻找 \( x \) 使得 \( 0 \in \partial f(x) + F(x) \),其中 \( F \) 是另一个算子。这自然导向了 变分不等式 和 互补问题 的研究框架。 总结来说, 凸函数的次梯度 是将微分学推广到非光滑凸情形的核心概念。它通过一个全局不等式来刻画,具有清晰的几何和变分意义,是连接凸分析、非线性泛函分析和最优化理论的桥梁。从绝对值函数这样简单的例子出发,可以一直深入到现代变分分析和大规模优化算法的基础之中。