好的,我们开始学习一个新的词条。
凸函数的次微分(Subdifferential of a Convex Function)
我将循序渐进地讲解这个概念。我们先从最基础、最直观的情况开始。
第一步:从导数到“支撑”概念的推广
在单变量微积分中,函数 \(f: \mathbb{R} \to \mathbb{R}\) 在某点 \(x_0\) 可导,意味着其图形在点 \((x_0, f(x_0))\) 存在一条唯一的切线。这条切线的斜率 \(f'(x_0)\) 有一个重要的几何意义:它是函数在该点附近“最贴合”的线性近似。更关键的是,这条切线位于函数图形的“下方”(对于凸函数)或“上方”(对于凹函数)。
对于一个凸函数,即使它在某点不可导(例如,绝对值函数 \(f(x) = |x|\) 在 \(x=0\) 处),我们仍然可以找到一些直线,它们穿过点 \((x_0, f(x_0))\),并且整条直线都位于函数图形的下方。这样的直线称为该点的支撑线。
定义1(支撑线/支撑泛函): 设 \(f: \mathbb{R} \to \mathbb{R}\) 是一个凸函数,\(x_0 \in \mathbb{R}\)。如果存在一个实数 \(m\),使得对于所有 \(x \in \mathbb{R}\),都有:
\[f(x) \ge f(x_0) + m(x - x_0) \]
则称斜率为 \(m\) 的直线是 \(f\) 在点 \(x_0\) 的一条支撑线。这个不等式称为支撑不等式。
这里的 \(m\) 可以理解为广义的“斜率”或“导数”。对于绝对值函数在 \(x=0\) 处,任何满足 \(-1 \le m \le 1\) 的实数 \(m\) 都定义了一条支撑线(例如 \(y = 0\), \(y = 0.5x\), \(y = -0.5x\) 都满足支撑不等式)。
第二步:推广到多维和无限维空间
现在我们把上述几何想法推广到更一般的空间。设 \(X\) 是一个实赋范线性空间(例如 \(\mathbb{R}^n\) 或一个巴拿赫空间), \(f: X \to \mathbb{R} \cup \{+\infty\}\) 是一个真凸函数(“真”意味着 \(f\) 不恒等于 \(+\infty\),且至少在某一点取有限值)。
我们不再有“斜率”的概念,但线性函数扮演了斜率的角色。在 \(X\) 上,线性函数由连续线性泛函 \(x^* \in X^*\)(\(X\) 的对偶空间)给出。\(x^*(x)\) 就相当于“斜率 \(m\) 乘以变量 \(x\)”。
定义2(次梯度与次微分): 设 \(f: X \to \mathbb{R} \cup \{+\infty\}\) 是凸函数, \(x_0 \in \text{dom}(f) = \{x: f(x) < +\infty\}\)。一个连续线性泛函 \(x^* \in X^*\) 称为 \(f\) 在点 \(x_0\) 的一个次梯度,如果它满足如下支撑不等式:
\[f(x) \ge f(x_0) + x^*(x - x_0), \quad \forall x \in X. \]
上述不等式右端是一个仿射函数,它在 \(x_0\) 处取值 \(f(x_0)\),并且是 \(f\) 在 \(x_0\) 点的一个全局仿射下估计。
\(f\) 在点 \(x_0\) 的所有次梯度构成的集合,称为 \(f\) 在 \(x_0\) 的次微分,记作 \(\partial f(x_0)\)。即:
\[\partial f(x_0) := \{ x^* \in X^* : f(x) \ge f(x_0) + x^*(x - x_0), \ \forall x \in X \}. \]
这是一个 \(X^*\) 中的子集。如果 \(\partial f(x_0)\) 非空,我们说 \(f\) 在 \(x_0\) 是次可微的。
第三步:直观理解与基本性质
-
几何意义: 在空间 \(X \times \mathbb{R}\) 中,函数图像是集合 \(\{(x, f(x))\}\)。点 \((x_0, f(x_0))\) 处的次梯度 \(x^*\) 对应了一个支撑超平面。由方程 \(\alpha = f(x_0) + x^*(x - x_0)\) 定义的超平面(在 \(\mathbb{R}^n\) 中就是一张平面)位于整个函数图像的下方,并与图像在点 \((x_0, f(x_0))\) 处接触。
-
与可导性的关系: 如果 \(f\) 在 \(x_0\) 是 Gateaux 可导的(在有限维就是通常的可导),且是凸的,那么其次微分 \(\partial f(x_0)\) 是一个单点集,该点就是 \(f\) 在 \(x_0\) 的梯度(或导算子) \(\nabla f(x_0)\) 或 \(f'(x_0)\)。即 \(\partial f(x_0) = \{ \nabla f(x_0) \}\)。这是经典微分学的自然推广。
-
例子回顾:
- \(f(x) = |x|\) 在 \(\mathbb{R}\) 上。在 \(x_0 = 0\) 处,次微分 \(\partial f(0) = [-1, 1]\)。在 \(x_0 > 0\) 处, \(\partial f(x_0) = \{1\}\)。在 \(x_0 < 0\) 处, \(\partial f(x_0) = \{-1\}\)。
- 在 \(\mathbb{R}^n\) 中,范数函数 \(f(x) = \|x\|\) 在 \(x_0 = 0\) 处的次微分是单位对偶球: \(\partial f(0) = \{ x^* \in \mathbb{R}^n : \|x^*\|_* \le 1 \}\)。这里 \(\|\cdot\|_*\) 是对偶范数。
第四步:重要的定理与内涵
次微分之所以强大,是因为它保留了凸分析中许多类似于导数的优美性质,并且能处理不可导点。
-
存在性定理(Moreau-Rockafellar): 对于定义在赋范空间 \(X\) 上的真凸下半连续函数 \(f\),在其定义域的内部点 \(\text{int}(\text{dom} f)\) 上,次微分 \(\partial f(x)\) 总是非空的。这保证了“几乎处处”我们都有支撑超平面,这是凸函数几何结构良好的体现。
-
最优性条件: 这是次微分最核心的应用之一。考虑凸优化问题: \(\min_{x \in X} f(x)\)。点 \(x^*\) 是该问题的全局极小点的充要条件是:
\[ 0 \in \partial f(x^*) \]
这个条件被称为 Fermat 规则 的推广。它的几何解释非常直观:0 是次梯度,意味着支撑不等式变为 \(f(x) \ge f(x^*) + 0\cdot(x-x^*) = f(x^*)\),即 \(f(x) \ge f(x^*)\) 对所有 \(x\) 成立,这正是全局极小的定义。
- 次微分计算法则: 类似于导数的链式法则、和法则,次微分也有相应的规则(通常以包含关系的形式出现,在一定的约束品性下取等号)。例如:
- 和法则: 若 \(f, g\) 是凸下半连续函数,且在某个点满足一定的“内部性”条件,则 \(\partial (f+g)(x) \subset \partial f(x) + \partial g(x)\),并且常常是相等的。
- 链式法则: 对于复合函数 \(f = h \circ A\),其中 \(A\) 是连续线性算子, \(h\) 是凸函数,其次微分也与 \(A\) 的伴随算子 \(A^*\) 有关。
第五步:连接其他数学领域
-
变分不等式: 形如“寻找 \(x\),使得对任意 \(y\),有 \(\langle F(x), y-x \rangle \ge 0\)”的问题,当 \(F\) 是某个凸函数 \(f\) 的次梯度时,就等价于求解 \(0 \in \partial f(x)\),即一个优化问题。这为研究变分不等式提供了有力的工具。
-
偏微分方程与非线性分析: 许多 PDE 可以看作是其能量泛函的 Euler-Lagrange 方程。对于非光滑的能量泛函,其“导数”需要用次微分来刻画。例如,总变差(TV)正则化、L1 范数等问题,其对应的梯度流或最优性条件自然引出次微分包含关系 \(-\partial f(x) \ni g\)。
-
对偶理论: 在凸优化中,通过共轭函数(Fenchel 变换),原问题的最优性条件 \(0 \in \partial f(x) + A^*\partial g(Ax)\) 可以与对偶问题的最优性条件建立完美的对应,这是拉格朗日对偶理论的基石。这里 \(A^*\) 是算子 \(A\) 的伴随, \(\partial g\) 是另一个函数的次微分。
总结:
凸函数的次微分是将经典微分概念推广到非光滑凸函数的典范工具。它用一簇“支撑泛函”来代替可能不存在的唯一导数,完美地捕捉了凸函数的几何本质。其核心价值在于提供了处理不可导凸优化问题的最优性条件,并通过丰富的计算法则和与对偶理论的深刻联系,成为现代凸分析、变分分析、最优化理论和某些 PDE 研究中不可或缺的基本语言。