凸函数的次微分（Subdifferential of a Convex Function）

字数 4150 2025-12-09 00:20:41

好的，我们开始学习一个新的词条。

凸函数的次微分（Subdifferential of a Convex Function）

我将循序渐进地讲解这个概念。我们先从最基础、最直观的情况开始。

第一步：从导数到“支撑”概念的推广

在单变量微积分中，函数 \(f: \mathbb{R} \to \mathbb{R}\) 在某点 \(x_0\) 可导，意味着其图形在点 \((x_0, f(x_0))\) 存在一条唯一的切线。这条切线的斜率 \(f'(x_0)\) 有一个重要的几何意义：它是函数在该点附近“最贴合”的线性近似。更关键的是，这条切线位于函数图形的“下方”（对于凸函数）或“上方”（对于凹函数）。

对于一个凸函数，即使它在某点不可导（例如，绝对值函数 \(f(x) = |x|\) 在 \(x=0\) 处），我们仍然可以找到一些直线，它们穿过点 \((x_0, f(x_0))\)，并且整条直线都位于函数图形的下方。这样的直线称为该点的支撑线。

定义1（支撑线/支撑泛函）：设 \(f: \mathbb{R} \to \mathbb{R}\) 是一个凸函数，\(x_0 \in \mathbb{R}\)。如果存在一个实数 \(m\)，使得对于所有 \(x \in \mathbb{R}\)，都有：

\[f(x) \ge f(x_0) + m(x - x_0) \]

则称斜率为 \(m\) 的直线是 \(f\) 在点 \(x_0\) 的一条支撑线。这个不等式称为支撑不等式。

这里的 \(m\) 可以理解为广义的“斜率”或“导数”。对于绝对值函数在 \(x=0\) 处，任何满足 \(-1 \le m \le 1\) 的实数 \(m\) 都定义了一条支撑线（例如 \(y = 0\)， \(y = 0.5x\)， \(y = -0.5x\) 都满足支撑不等式）。

第二步：推广到多维和无限维空间

现在我们把上述几何想法推广到更一般的空间。设 \(X\) 是一个实赋范线性空间（例如 \(\mathbb{R}^n\) 或一个巴拿赫空间）， \(f: X \to \mathbb{R} \cup \{+\infty\}\) 是一个真凸函数（“真”意味着 \(f\) 不恒等于 \(+\infty\)，且至少在某一点取有限值）。

我们不再有“斜率”的概念，但线性函数扮演了斜率的角色。在 \(X\) 上，线性函数由连续线性泛函 \(x^* \in X^*\)（\(X\) 的对偶空间）给出。\(x^*(x)\) 就相当于“斜率 \(m\) 乘以变量 \(x\)”。

定义2（次梯度与次微分）：设 \(f: X \to \mathbb{R} \cup \{+\infty\}\) 是凸函数， \(x_0 \in \text{dom}(f) = \{x: f(x) < +\infty\}\)。一个连续线性泛函 \(x^* \in X^*\) 称为 \(f\) 在点 \(x_0\) 的一个次梯度，如果它满足如下支撑不等式：

\[f(x) \ge f(x_0) + x^*(x - x_0), \quad \forall x \in X. \]

上述不等式右端是一个仿射函数，它在 \(x_0\) 处取值 \(f(x_0)\)，并且是 \(f\) 在 \(x_0\) 点的一个全局仿射下估计。

\(f\) 在点 \(x_0\) 的所有次梯度构成的集合，称为 \(f\) 在 \(x_0\) 的次微分，记作 \(\partial f(x_0)\)。即：

\[\partial f(x_0) := \{ x^* \in X^* : f(x) \ge f(x_0) + x^*(x - x_0), \ \forall x \in X \}. \]

这是一个 \(X^*\) 中的子集。如果 \(\partial f(x_0)\) 非空，我们说 \(f\) 在 \(x_0\) 是次可微的。

第三步：直观理解与基本性质

几何意义：在空间 \(X \times \mathbb{R}\) 中，函数图像是集合 \(\{(x, f(x))\}\)。点 \((x_0, f(x_0))\) 处的次梯度 \(x^*\) 对应了一个支撑超平面。由方程 \(\alpha = f(x_0) + x^*(x - x_0)\) 定义的超平面（在 \(\mathbb{R}^n\) 中就是一张平面）位于整个函数图像的下方，并与图像在点 \((x_0, f(x_0))\) 处接触。
与可导性的关系：如果 \(f\) 在 \(x_0\) 是 Gateaux 可导的（在有限维就是通常的可导），且是凸的，那么其次微分 \(\partial f(x_0)\) 是一个单点集，该点就是 \(f\) 在 \(x_0\) 的梯度（或导算子） \(\nabla f(x_0)\) 或 \(f'(x_0)\)。即 \(\partial f(x_0) = \{ \nabla f(x_0) \}\)。这是经典微分学的自然推广。
例子回顾：

\(f(x) = |x|\) 在 \(\mathbb{R}\) 上。在 \(x_0 = 0\) 处，次微分 \(\partial f(0) = [-1, 1]\)。在 \(x_0 > 0\) 处， \(\partial f(x_0) = \{1\}\)。在 \(x_0 < 0\) 处， \(\partial f(x_0) = \{-1\}\)。
在 \(\mathbb{R}^n\) 中，范数函数 \(f(x) = \|x\|\) 在 \(x_0 = 0\) 处的次微分是单位对偶球： \(\partial f(0) = \{ x^* \in \mathbb{R}^n : \|x^*\|_* \le 1 \}\)。这里 \(\|\cdot\|_*\) 是对偶范数。

第四步：重要的定理与内涵

次微分之所以强大，是因为它保留了凸分析中许多类似于导数的优美性质，并且能处理不可导点。

存在性定理（Moreau-Rockafellar）：对于定义在赋范空间 \(X\) 上的真凸下半连续函数 \(f\)，在其定义域的内部点 \(\text{int}(\text{dom} f)\) 上，次微分 \(\partial f(x)\) 总是非空的。这保证了“几乎处处”我们都有支撑超平面，这是凸函数几何结构良好的体现。
最优性条件：这是次微分最核心的应用之一。考虑凸优化问题： \(\min_{x \in X} f(x)\)。点 \(x^*\) 是该问题的全局极小点的充要条件是：

\[ 0 \in \partial f(x^*) \]

这个条件被称为 Fermat 规则 的推广。它的几何解释非常直观：0 是次梯度，意味着支撑不等式变为 \(f(x) \ge f(x^*) + 0\cdot(x-x^*) = f(x^*)\)，即 \(f(x) \ge f(x^*)\) 对所有 \(x\) 成立，这正是全局极小的定义。

次微分计算法则：类似于导数的链式法则、和法则，次微分也有相应的规则（通常以包含关系的形式出现，在一定的约束品性下取等号）。例如：

和法则：若 \(f, g\) 是凸下半连续函数，且在某个点满足一定的“内部性”条件，则 \(\partial (f+g)(x) \subset \partial f(x) + \partial g(x)\)，并且常常是相等的。
链式法则：对于复合函数 \(f = h \circ A\)，其中 \(A\) 是连续线性算子， \(h\) 是凸函数，其次微分也与 \(A\) 的伴随算子 \(A^*\) 有关。

第五步：连接其他数学领域

变分不等式：形如“寻找 \(x\)，使得对任意 \(y\)，有 \(\langle F(x), y-x \rangle \ge 0\)”的问题，当 \(F\) 是某个凸函数 \(f\) 的次梯度时，就等价于求解 \(0 \in \partial f(x)\)，即一个优化问题。这为研究变分不等式提供了有力的工具。
偏微分方程与非线性分析：许多 PDE 可以看作是其能量泛函的 Euler-Lagrange 方程。对于非光滑的能量泛函，其“导数”需要用次微分来刻画。例如，总变差（TV）正则化、L1 范数等问题，其对应的梯度流或最优性条件自然引出次微分包含关系 \(-\partial f(x) \ni g\)。
对偶理论：在凸优化中，通过共轭函数（Fenchel 变换），原问题的最优性条件 \(0 \in \partial f(x) + A^*\partial g(Ax)\) 可以与对偶问题的最优性条件建立完美的对应，这是拉格朗日对偶理论的基石。这里 \(A^*\) 是算子 \(A\) 的伴随， \(\partial g\) 是另一个函数的次微分。

总结：
凸函数的次微分是将经典微分概念推广到非光滑凸函数的典范工具。它用一簇“支撑泛函”来代替可能不存在的唯一导数，完美地捕捉了凸函数的几何本质。其核心价值在于提供了处理不可导凸优化问题的最优性条件，并通过丰富的计算法则和与对偶理论的深刻联系，成为现代凸分析、变分分析、最优化理论和某些 PDE 研究中不可或缺的基本语言。

好的，我们开始学习一个新的词条。凸函数的次微分（Subdifferential of a Convex Function）我将循序渐进地讲解这个概念。我们先从最基础、最直观的情况开始。第一步：从导数到“支撑”概念的推广在单变量微积分中，函数 \( f: \mathbb{R} \to \mathbb{R} \) 在某点 \( x_ 0 \) 可导，意味着其图形在点 \( (x_ 0, f(x_ 0)) \) 存在一条唯一的切线。这条切线的斜率 \( f'(x_ 0) \) 有一个重要的几何意义：它是函数在该点附近“最贴合”的线性近似。更关键的是，这条切线位于函数图形的“下方”（对于凸函数）或“上方”（对于凹函数）。对于一个凸函数，即使它在某点不可导（例如，绝对值函数 \( f(x) = |x| \) 在 \( x=0 \) 处），我们仍然可以找到一些直线，它们穿过点 \( (x_ 0, f(x_ 0)) \)，并且整条直线都位于函数图形的下方。这样的直线称为该点的支撑线。定义1（支撑线/支撑泛函）：设 \( f: \mathbb{R} \to \mathbb{R} \) 是一个凸函数，\( x_ 0 \in \mathbb{R} \)。如果存在一个实数 \( m \)，使得对于所有 \( x \in \mathbb{R} \)，都有： \[ f(x) \ge f(x_ 0) + m(x - x_ 0) \] 则称斜率为 \( m \) 的直线是 \( f \) 在点 \( x_ 0 \) 的一条支撑线。这个不等式称为支撑不等式。这里的 \( m \) 可以理解为广义的“斜率”或“导数”。对于绝对值函数在 \( x=0 \) 处，任何满足 \( -1 \le m \le 1 \) 的实数 \( m \) 都定义了一条支撑线（例如 \( y = 0 \)， \( y = 0.5x \)， \( y = -0.5x \) 都满足支撑不等式）。第二步：推广到多维和无限维空间现在我们把上述几何想法推广到更一般的空间。设 \( X \) 是一个实赋范线性空间（例如 \( \mathbb{R}^n \) 或一个巴拿赫空间）， \( f: X \to \mathbb{R} \cup \{+\infty\} \) 是一个真凸函数（“真”意味着 \( f \) 不恒等于 \( +\infty \)，且至少在某一点取有限值）。我们不再有“斜率”的概念，但线性函数扮演了斜率的角色。在 \( X \) 上，线性函数由连续线性泛函 \( x^* \in X^* \)（\( X \) 的对偶空间）给出。\( x^* (x) \) 就相当于“斜率 \( m \) 乘以变量 \( x \)”。定义2（次梯度与次微分）：设 \( f: X \to \mathbb{R} \cup \{+\infty\} \) 是凸函数， \( x_ 0 \in \text{dom}(f) = \{x: f(x) < +\infty\} \)。一个连续线性泛函 \( x^* \in X^* \) 称为 \( f \) 在点 \( x_ 0 \) 的一个次梯度，如果它满足如下支撑不等式： \[ f(x) \ge f(x_ 0) + x^* (x - x_ 0), \quad \forall x \in X. \] 上述不等式右端是一个仿射函数，它在 \( x_ 0 \) 处取值 \( f(x_ 0) \)，并且是 \( f \) 在 \( x_ 0 \) 点的一个全局仿射下估计。 \( f \) 在点 \( x_ 0 \) 的所有次梯度构成的集合，称为 \( f \) 在 \( x_ 0 \) 的次微分，记作 \( \partial f(x_ 0) \)。即： \[ \partial f(x_ 0) := \{ x^* \in X^* : f(x) \ge f(x_ 0) + x^ (x - x_ 0), \ \forall x \in X \}. \] 这是一个 \( X^ \) 中的子集。如果 \( \partial f(x_ 0) \) 非空，我们说 \( f \) 在 \( x_ 0 \) 是次可微的。第三步：直观理解与基本性质几何意义：在空间 \( X \times \mathbb{R} \) 中，函数图像是集合 \( \{(x, f(x))\} \)。点 \( (x_ 0, f(x_ 0)) \) 处的次梯度 \( x^* \) 对应了一个支撑超平面。由方程 \( \alpha = f(x_ 0) + x^* (x - x_ 0) \) 定义的超平面（在 \( \mathbb{R}^n \) 中就是一张平面）位于整个函数图像的下方，并与图像在点 \( (x_ 0, f(x_ 0)) \) 处接触。与可导性的关系：如果 \( f \) 在 \( x_ 0 \) 是 Gateaux 可导的（在有限维就是通常的可导），且是凸的，那么其次微分 \( \partial f(x_ 0) \) 是一个单点集，该点就是 \( f \) 在 \( x_ 0 \) 的梯度（或导算子） \( \nabla f(x_ 0) \) 或 \( f'(x_ 0) \)。即 \( \partial f(x_ 0) = \{ \nabla f(x_ 0) \} \)。这是经典微分学的自然推广。例子回顾： \( f(x) = |x| \) 在 \( \mathbb{R} \) 上。在 \( x_ 0 = 0 \) 处，次微分 \( \partial f(0) = [ -1, 1] \)。在 \( x_ 0 > 0 \) 处， \( \partial f(x_ 0) = \{1\} \)。在 \( x_ 0 < 0 \) 处， \( \partial f(x_ 0) = \{-1\} \)。在 \( \mathbb{R}^n \) 中，范数函数 \( f(x) = \|x\| \) 在 \( x_ 0 = 0 \) 处的次微分是单位对偶球： \( \partial f(0) = \{ x^* \in \mathbb{R}^n : \|x^ \|_ \le 1 \} \)。这里 \( \|\cdot\|_ * \) 是对偶范数。第四步：重要的定理与内涵次微分之所以强大，是因为它保留了凸分析中许多类似于导数的优美性质，并且能处理不可导点。存在性定理（Moreau-Rockafellar）：对于定义在赋范空间 \( X \) 上的真凸下半连续函数 \( f \)，在其定义域的内部点 \( \text{int}(\text{dom} f) \) 上，次微分 \( \partial f(x) \) 总是非空的。这保证了“几乎处处”我们都有支撑超平面，这是凸函数几何结构良好的体现。最优性条件：这是次微分最核心的应用之一。考虑凸优化问题： \( \min_ {x \in X} f(x) \)。点 \( x^* \) 是该问题的全局极小点的充要条件是： \[ 0 \in \partial f(x^ ) \] 这个条件被称为 Fermat 规则的推广。它的几何解释非常直观：0 是次梯度，意味着支撑不等式变为 \( f(x) \ge f(x^ ) + 0\cdot(x-x^ ) = f(x^ ) \)，即 \( f(x) \ge f(x^* ) \) 对所有 \( x \) 成立，这正是全局极小的定义。次微分计算法则：类似于导数的链式法则、和法则，次微分也有相应的规则（通常以包含关系的形式出现，在一定的约束品性下取等号）。例如：和法则：若 \( f, g \) 是凸下半连续函数，且在某个点满足一定的“内部性”条件，则 \( \partial (f+g)(x) \subset \partial f(x) + \partial g(x) \)，并且常常是相等的。链式法则：对于复合函数 \( f = h \circ A \)，其中 \( A \) 是连续线性算子， \( h \) 是凸函数，其次微分也与 \( A \) 的伴随算子 \( A^* \) 有关。第五步：连接其他数学领域变分不等式：形如“寻找 \( x \)，使得对任意 \( y \)，有 \( \langle F(x), y-x \rangle \ge 0 \)”的问题，当 \( F \) 是某个凸函数 \( f \) 的次梯度时，就等价于求解 \( 0 \in \partial f(x) \)，即一个优化问题。这为研究变分不等式提供了有力的工具。偏微分方程与非线性分析：许多 PDE 可以看作是其能量泛函的 Euler-Lagrange 方程。对于非光滑的能量泛函，其“导数”需要用次微分来刻画。例如，总变差（TV）正则化、L1 范数等问题，其对应的梯度流或最优性条件自然引出次微分包含关系 \( -\partial f(x) \ni g \)。对偶理论：在凸优化中，通过共轭函数（Fenchel 变换），原问题的最优性条件 \( 0 \in \partial f(x) + A^ \partial g(Ax) \) 可以与对偶问题的最优性条件建立完美的对应，这是拉格朗日对偶理论的基石。这里 \( A^ \) 是算子 \( A \) 的伴随， \( \partial g \) 是另一个函数的次微分。总结：凸函数的次微分是将经典微分概念推广到非光滑凸函数的典范工具。它用一簇“支撑泛函”来代替可能不存在的唯一导数，完美地捕捉了凸函数的几何本质。其核心价值在于提供了处理不可导凸优化问题的最优性条件，并通过丰富的计算法则和与对偶理论的深刻联系，成为现代凸分析、变分分析、最优化理论和某些 PDE 研究中不可或缺的基本语言。