凸函数的次微分(Subdifferential of a Convex Function)
字数 4150 2025-12-09 00:20:41

好的,我们开始学习一个新的词条。

凸函数的次微分(Subdifferential of a Convex Function)

我将循序渐进地讲解这个概念。我们先从最基础、最直观的情况开始。

第一步:从导数到“支撑”概念的推广

在单变量微积分中,函数 \(f: \mathbb{R} \to \mathbb{R}\) 在某点 \(x_0\) 可导,意味着其图形在点 \((x_0, f(x_0))\) 存在一条唯一的切线。这条切线的斜率 \(f'(x_0)\) 有一个重要的几何意义:它是函数在该点附近“最贴合”的线性近似。更关键的是,这条切线位于函数图形的“下方”(对于凸函数)或“上方”(对于凹函数)。

对于一个凸函数,即使它在某点不可导(例如,绝对值函数 \(f(x) = |x|\)\(x=0\) 处),我们仍然可以找到一些直线,它们穿过点 \((x_0, f(x_0))\),并且整条直线都位于函数图形的下方。这样的直线称为该点的支撑线

定义1(支撑线/支撑泛函): 设 \(f: \mathbb{R} \to \mathbb{R}\) 是一个凸函数,\(x_0 \in \mathbb{R}\)。如果存在一个实数 \(m\),使得对于所有 \(x \in \mathbb{R}\),都有:

\[f(x) \ge f(x_0) + m(x - x_0) \]

则称斜率为 \(m\) 的直线是 \(f\) 在点 \(x_0\) 的一条支撑线。这个不等式称为支撑不等式

这里的 \(m\) 可以理解为广义的“斜率”或“导数”。对于绝对值函数在 \(x=0\) 处,任何满足 \(-1 \le m \le 1\) 的实数 \(m\) 都定义了一条支撑线(例如 \(y = 0\)\(y = 0.5x\)\(y = -0.5x\) 都满足支撑不等式)。

第二步:推广到多维和无限维空间

现在我们把上述几何想法推广到更一般的空间。设 \(X\) 是一个实赋范线性空间(例如 \(\mathbb{R}^n\) 或一个巴拿赫空间), \(f: X \to \mathbb{R} \cup \{+\infty\}\) 是一个真凸函数(“真”意味着 \(f\) 不恒等于 \(+\infty\),且至少在某一点取有限值)。

我们不再有“斜率”的概念,但线性函数扮演了斜率的角色。在 \(X\) 上,线性函数由连续线性泛函 \(x^* \in X^*\)\(X\) 的对偶空间)给出。\(x^*(x)\) 就相当于“斜率 \(m\) 乘以变量 \(x\)”。

定义2(次梯度与次微分): 设 \(f: X \to \mathbb{R} \cup \{+\infty\}\) 是凸函数, \(x_0 \in \text{dom}(f) = \{x: f(x) < +\infty\}\)。一个连续线性泛函 \(x^* \in X^*\) 称为 \(f\) 在点 \(x_0\) 的一个次梯度,如果它满足如下支撑不等式:

\[f(x) \ge f(x_0) + x^*(x - x_0), \quad \forall x \in X. \]

上述不等式右端是一个仿射函数,它在 \(x_0\) 处取值 \(f(x_0)\),并且是 \(f\)\(x_0\) 点的一个全局仿射下估计

\(f\) 在点 \(x_0\) 的所有次梯度构成的集合,称为 \(f\)\(x_0\)次微分,记作 \(\partial f(x_0)\)。即:

\[\partial f(x_0) := \{ x^* \in X^* : f(x) \ge f(x_0) + x^*(x - x_0), \ \forall x \in X \}. \]

这是一个 \(X^*\) 中的子集。如果 \(\partial f(x_0)\) 非空,我们说 \(f\)\(x_0\)次可微的。

第三步:直观理解与基本性质

  1. 几何意义: 在空间 \(X \times \mathbb{R}\) 中,函数图像是集合 \(\{(x, f(x))\}\)。点 \((x_0, f(x_0))\) 处的次梯度 \(x^*\) 对应了一个支撑超平面。由方程 \(\alpha = f(x_0) + x^*(x - x_0)\) 定义的超平面(在 \(\mathbb{R}^n\) 中就是一张平面)位于整个函数图像的下方,并与图像在点 \((x_0, f(x_0))\) 处接触。

  2. 与可导性的关系: 如果 \(f\)\(x_0\) 是 Gateaux 可导的(在有限维就是通常的可导),且是凸的,那么其次微分 \(\partial f(x_0)\) 是一个单点集,该点就是 \(f\)\(x_0\) 的梯度(或导算子) \(\nabla f(x_0)\)\(f'(x_0)\)。即 \(\partial f(x_0) = \{ \nabla f(x_0) \}\)。这是经典微分学的自然推广。

  3. 例子回顾

  • \(f(x) = |x|\)\(\mathbb{R}\) 上。在 \(x_0 = 0\) 处,次微分 \(\partial f(0) = [-1, 1]\)。在 \(x_0 > 0\) 处, \(\partial f(x_0) = \{1\}\)。在 \(x_0 < 0\) 处, \(\partial f(x_0) = \{-1\}\)
  • \(\mathbb{R}^n\) 中,范数函数 \(f(x) = \|x\|\)\(x_0 = 0\) 处的次微分是单位对偶球: \(\partial f(0) = \{ x^* \in \mathbb{R}^n : \|x^*\|_* \le 1 \}\)。这里 \(\|\cdot\|_*\) 是对偶范数。

第四步:重要的定理与内涵

次微分之所以强大,是因为它保留了凸分析中许多类似于导数的优美性质,并且能处理不可导点。

  1. 存在性定理(Moreau-Rockafellar): 对于定义在赋范空间 \(X\) 上的真凸下半连续函数 \(f\),在其定义域的内部点 \(\text{int}(\text{dom} f)\) 上,次微分 \(\partial f(x)\) 总是非空的。这保证了“几乎处处”我们都有支撑超平面,这是凸函数几何结构良好的体现。

  2. 最优性条件: 这是次微分最核心的应用之一。考虑凸优化问题: \(\min_{x \in X} f(x)\)。点 \(x^*\) 是该问题的全局极小点的充要条件是:

\[ 0 \in \partial f(x^*) \]

这个条件被称为 Fermat 规则 的推广。它的几何解释非常直观:0 是次梯度,意味着支撑不等式变为 \(f(x) \ge f(x^*) + 0\cdot(x-x^*) = f(x^*)\),即 \(f(x) \ge f(x^*)\) 对所有 \(x\) 成立,这正是全局极小的定义。

  1. 次微分计算法则: 类似于导数的链式法则、和法则,次微分也有相应的规则(通常以包含关系的形式出现,在一定的约束品性下取等号)。例如:
  • 和法则: 若 \(f, g\) 是凸下半连续函数,且在某个点满足一定的“内部性”条件,则 \(\partial (f+g)(x) \subset \partial f(x) + \partial g(x)\),并且常常是相等的。
  • 链式法则: 对于复合函数 \(f = h \circ A\),其中 \(A\) 是连续线性算子, \(h\) 是凸函数,其次微分也与 \(A\) 的伴随算子 \(A^*\) 有关。

第五步:连接其他数学领域

  1. 变分不等式: 形如“寻找 \(x\),使得对任意 \(y\),有 \(\langle F(x), y-x \rangle \ge 0\)”的问题,当 \(F\) 是某个凸函数 \(f\) 的次梯度时,就等价于求解 \(0 \in \partial f(x)\),即一个优化问题。这为研究变分不等式提供了有力的工具。

  2. 偏微分方程与非线性分析: 许多 PDE 可以看作是其能量泛函的 Euler-Lagrange 方程。对于非光滑的能量泛函,其“导数”需要用次微分来刻画。例如,总变差(TV)正则化、L1 范数等问题,其对应的梯度流或最优性条件自然引出次微分包含关系 \(-\partial f(x) \ni g\)

  3. 对偶理论: 在凸优化中,通过共轭函数(Fenchel 变换),原问题的最优性条件 \(0 \in \partial f(x) + A^*\partial g(Ax)\) 可以与对偶问题的最优性条件建立完美的对应,这是拉格朗日对偶理论的基石。这里 \(A^*\) 是算子 \(A\) 的伴随, \(\partial g\) 是另一个函数的次微分。

总结
凸函数的次微分是将经典微分概念推广到非光滑凸函数的典范工具。它用一簇“支撑泛函”来代替可能不存在的唯一导数,完美地捕捉了凸函数的几何本质。其核心价值在于提供了处理不可导凸优化问题的最优性条件,并通过丰富的计算法则和与对偶理论的深刻联系,成为现代凸分析、变分分析、最优化理论和某些 PDE 研究中不可或缺的基本语言。

好的,我们开始学习一个新的词条。 凸函数的次微分(Subdifferential of a Convex Function) 我将循序渐进地讲解这个概念。我们先从最基础、最直观的情况开始。 第一步:从导数到“支撑”概念的推广 在单变量微积分中,函数 \( f: \mathbb{R} \to \mathbb{R} \) 在某点 \( x_ 0 \) 可导,意味着其图形在点 \( (x_ 0, f(x_ 0)) \) 存在一条唯一的切线。这条切线的斜率 \( f'(x_ 0) \) 有一个重要的几何意义:它是函数在该点附近“最贴合”的线性近似。更关键的是,这条切线位于函数图形的“下方”(对于凸函数)或“上方”(对于凹函数)。 对于一个凸函数,即使它在某点不可导(例如,绝对值函数 \( f(x) = |x| \) 在 \( x=0 \) 处),我们仍然可以找到一些直线,它们穿过点 \( (x_ 0, f(x_ 0)) \),并且整条直线都位于函数图形的下方。这样的直线称为该点的 支撑线 。 定义1(支撑线/支撑泛函) : 设 \( f: \mathbb{R} \to \mathbb{R} \) 是一个凸函数,\( x_ 0 \in \mathbb{R} \)。如果存在一个实数 \( m \),使得对于所有 \( x \in \mathbb{R} \),都有: \[ f(x) \ge f(x_ 0) + m(x - x_ 0) \] 则称斜率为 \( m \) 的直线是 \( f \) 在点 \( x_ 0 \) 的一条 支撑线 。这个不等式称为 支撑不等式 。 这里的 \( m \) 可以理解为广义的“斜率”或“导数”。对于绝对值函数在 \( x=0 \) 处,任何满足 \( -1 \le m \le 1 \) 的实数 \( m \) 都定义了一条支撑线(例如 \( y = 0 \), \( y = 0.5x \), \( y = -0.5x \) 都满足支撑不等式)。 第二步:推广到多维和无限维空间 现在我们把上述几何想法推广到更一般的空间。设 \( X \) 是一个实赋范线性空间(例如 \( \mathbb{R}^n \) 或一个巴拿赫空间), \( f: X \to \mathbb{R} \cup \{+\infty\} \) 是一个 真凸函数 (“真”意味着 \( f \) 不恒等于 \( +\infty \),且至少在某一点取有限值)。 我们不再有“斜率”的概念,但线性函数扮演了斜率的角色。在 \( X \) 上,线性函数由连续线性泛函 \( x^* \in X^* \)(\( X \) 的对偶空间)给出。\( x^* (x) \) 就相当于“斜率 \( m \) 乘以变量 \( x \)”。 定义2(次梯度与次微分) : 设 \( f: X \to \mathbb{R} \cup \{+\infty\} \) 是凸函数, \( x_ 0 \in \text{dom}(f) = \{x: f(x) < +\infty\} \)。一个连续线性泛函 \( x^* \in X^* \) 称为 \( f \) 在点 \( x_ 0 \) 的一个 次梯度 ,如果它满足如下支撑不等式: \[ f(x) \ge f(x_ 0) + x^* (x - x_ 0), \quad \forall x \in X. \] 上述不等式右端是一个仿射函数,它在 \( x_ 0 \) 处取值 \( f(x_ 0) \),并且是 \( f \) 在 \( x_ 0 \) 点的一个全局 仿射下估计 。 \( f \) 在点 \( x_ 0 \) 的所有次梯度构成的集合,称为 \( f \) 在 \( x_ 0 \) 的 次微分 ,记作 \( \partial f(x_ 0) \)。即: \[ \partial f(x_ 0) := \{ x^* \in X^* : f(x) \ge f(x_ 0) + x^ (x - x_ 0), \ \forall x \in X \}. \] 这是一个 \( X^ \) 中的子集。如果 \( \partial f(x_ 0) \) 非空,我们说 \( f \) 在 \( x_ 0 \) 是 次可微 的。 第三步:直观理解与基本性质 几何意义 : 在空间 \( X \times \mathbb{R} \) 中,函数图像是集合 \( \{(x, f(x))\} \)。点 \( (x_ 0, f(x_ 0)) \) 处的次梯度 \( x^* \) 对应了一个 支撑超平面 。由方程 \( \alpha = f(x_ 0) + x^* (x - x_ 0) \) 定义的超平面(在 \( \mathbb{R}^n \) 中就是一张平面)位于整个函数图像的下方,并与图像在点 \( (x_ 0, f(x_ 0)) \) 处接触。 与可导性的关系 : 如果 \( f \) 在 \( x_ 0 \) 是 Gateaux 可导的(在有限维就是通常的可导),且是凸的,那么其次微分 \( \partial f(x_ 0) \) 是一个单点集,该点就是 \( f \) 在 \( x_ 0 \) 的梯度(或导算子) \( \nabla f(x_ 0) \) 或 \( f'(x_ 0) \)。即 \( \partial f(x_ 0) = \{ \nabla f(x_ 0) \} \)。这是经典微分学的自然推广。 例子回顾 : \( f(x) = |x| \) 在 \( \mathbb{R} \) 上。在 \( x_ 0 = 0 \) 处,次微分 \( \partial f(0) = [ -1, 1] \)。在 \( x_ 0 > 0 \) 处, \( \partial f(x_ 0) = \{1\} \)。在 \( x_ 0 < 0 \) 处, \( \partial f(x_ 0) = \{-1\} \)。 在 \( \mathbb{R}^n \) 中,范数函数 \( f(x) = \|x\| \) 在 \( x_ 0 = 0 \) 处的次微分是单位对偶球: \( \partial f(0) = \{ x^* \in \mathbb{R}^n : \|x^ \|_ \le 1 \} \)。这里 \( \|\cdot\|_ * \) 是对偶范数。 第四步:重要的定理与内涵 次微分之所以强大,是因为它保留了凸分析中许多类似于导数的优美性质,并且能处理不可导点。 存在性定理(Moreau-Rockafellar) : 对于定义在赋范空间 \( X \) 上的真凸下半连续函数 \( f \),在其定义域的内部点 \( \text{int}(\text{dom} f) \) 上,次微分 \( \partial f(x) \) 总是非空的。这保证了“几乎处处”我们都有支撑超平面,这是凸函数几何结构良好的体现。 最优性条件 : 这是次微分最核心的应用之一。考虑凸优化问题: \( \min_ {x \in X} f(x) \)。点 \( x^* \) 是该问题的全局极小点的 充要条件 是: \[ 0 \in \partial f(x^ ) \] 这个条件被称为 Fermat 规则 的推广。它的几何解释非常直观:0 是次梯度,意味着支撑不等式变为 \( f(x) \ge f(x^ ) + 0\cdot(x-x^ ) = f(x^ ) \),即 \( f(x) \ge f(x^* ) \) 对所有 \( x \) 成立,这正是全局极小的定义。 次微分计算法则 : 类似于导数的链式法则、和法则,次微分也有相应的规则(通常以包含关系的形式出现,在一定的约束品性下取等号)。例如: 和法则 : 若 \( f, g \) 是凸下半连续函数,且在某个点满足一定的“内部性”条件,则 \( \partial (f+g)(x) \subset \partial f(x) + \partial g(x) \),并且常常是相等的。 链式法则 : 对于复合函数 \( f = h \circ A \),其中 \( A \) 是连续线性算子, \( h \) 是凸函数,其次微分也与 \( A \) 的伴随算子 \( A^* \) 有关。 第五步:连接其他数学领域 变分不等式 : 形如“寻找 \( x \),使得对任意 \( y \),有 \( \langle F(x), y-x \rangle \ge 0 \)”的问题,当 \( F \) 是某个凸函数 \( f \) 的次梯度时,就等价于求解 \( 0 \in \partial f(x) \),即一个优化问题。这为研究变分不等式提供了有力的工具。 偏微分方程与非线性分析 : 许多 PDE 可以看作是其能量泛函的 Euler-Lagrange 方程。对于非光滑的能量泛函,其“导数”需要用次微分来刻画。例如,总变差(TV)正则化、L1 范数等问题,其对应的梯度流或最优性条件自然引出次微分包含关系 \( -\partial f(x) \ni g \)。 对偶理论 : 在凸优化中,通过共轭函数(Fenchel 变换),原问题的最优性条件 \( 0 \in \partial f(x) + A^ \partial g(Ax) \) 可以与对偶问题的最优性条件建立完美的对应,这是拉格朗日对偶理论的基石。这里 \( A^ \) 是算子 \( A \) 的伴随, \( \partial g \) 是另一个函数的次微分。 总结 : 凸函数的次微分 是将经典微分概念推广到非光滑凸函数的典范工具。它用一簇“支撑泛函”来代替可能不存在的唯一导数,完美地捕捉了凸函数的几何本质。其核心价值在于提供了处理不可导凸优化问题的最优性条件,并通过丰富的计算法则和与对偶理论的深刻联系,成为现代凸分析、变分分析、最优化理论和某些 PDE 研究中不可或缺的基本语言。