随机变量的变换的Fenchel共轭与Legendre变换
首先,我们从一个直观的问题出发。在优化、统计物理和概率论中,我们经常需要处理一个(凸)函数的上界或对偶表示。例如,对于一个随机变量 \(X\),其矩生成函数 \(M(t) = E[e^{tX}]\) 的对数(即累积生成函数)\(\Lambda(t) = \log M(t)\) 在研究大偏差时至关重要。Fenchel共轭提供了一种系统的、强有力的数学工具,来研究这类函数的对偶性质,而Legendre变换则是其在可微情况下的具体实现。
第一步:凸函数及其基本性质
- 定义:一个函数 \(f: \mathbb{R}^n \to \mathbb{R} \cup \{+\infty\}\) 称为凸函数,如果对于任意 \(x, y\) 和 \(\lambda \in [0,1]\),满足 \(f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda) f(y)\)。其定义域 \(dom(f) = \{x: f(x) < +\infty\}\) 是凸集。
- 动机:凸函数的一个关键性质是,其图像“位于”任意切线(或支撑超平面)的上方。这意味着我们可以用一系列线性函数(仿射函数)来“支撑”并从下方逼近该凸函数。Fenchel共轭就是通过考虑所有可能的线性函数下界,来构建原函数的对偶描述。
第二步:Fenchel共轭的定义
给定一个函数 \(f: \mathbb{R}^n \to \mathbb{R} \cup \{+\infty\}\),它的Fenchel共轭(也称凸共轭或Legendre–Fenchel变换) \(f^*: \mathbb{R}^n \to \mathbb{R} \cup \{+\infty\}\) 定义为:
\[f^*(y) = \sup_{x \in \mathbb{R}^n} \{ \langle y, x \rangle - f(x) \}. \]
这里 \(\langle \cdot, \cdot \rangle\) 表示内积(在一维情形下就是普通乘法 \(y \cdot x\))。
- 几何解释:对于固定的斜率(对偶变量)\(y\),\(\langle y, x \rangle - f(x)\) 表示斜率为 \(y\) 的直线与函数 \(f\) 在点 \(x\) 处的竖直距离。\(f^*(y)\) 就是所有这样的直线中,与 \(f\) 图像之间最大竖直距离(在 \(f\) 图像上方为正)。因此,\(f^*\) 的值给出了斜率为 \(y\) 的直线能被“抬”到多高,仍然位于 \(f\) 的图像下方(或与之相切)。
- 基本性质:无论 \(f\) 是否凸, \(f^*\) 总是凸的(下确界点逐点的上确界函数是凸的),并且是下半连续的。
第三步:二次共轭与对偶定理
- 二次共轭:我们可以对 \(f^*\) 再次取共轭,得到二次共轭 \(f^{**}(x) = \sup_{y} \{ \langle x, y \rangle - f^*(y) \}\)。
- 关键定理(Fenchel–Moreau定理):如果 \(f\) 是一个下半连续的凸函数,且不恒等于 \(+\infty\),那么 \(f^{**} = f\)。这意味着,在凸且下半连续的条件下,函数和它的二次共轭完全相等。这确立了原函数空间与它的共轭(对偶)函数空间之间的一一对应关系。这个“对偶”是完美的:原函数可以通过其共轭函数完全恢复。
第四步:Legendre变换(光滑严格凸情形下的特例)
当 \(f\) 是 \(\mathbb{R}\) 上严格凸且连续可微(\(C^1\))的函数时,Fenchel共轭有更具体、更经典的形式,称为Legendre变换。
- 过程:在定义 \(f^*(y) = \sup_{x} \{ yx - f(x) \}\) 中,由于 \(f\) 严格凸,内部函数 \(g_y(x) = yx - f(x)\) 关于 \(x\) 是凹的,且其最大值在导数为零的点取得:\(y = f'(x)\)。记这个唯一解为 \(x = (f')^{-1}(y)\)。那么,Legendre变换定义共轭变量 \(y = f'(x)\),并且有:
\[f^*(y) = y \cdot (f')^{-1}(y) - f((f')^{-1}(y)). \]
- 对称性:在上述理想条件下,变换是可逆的,且 \((f^*)' = (f')^{-1}\)。原变量 \(x\) 和共轭变量 \(y = f'(x)\) 构成一对共轭变量。例如,在热力学中,能量 \(U(S, V)\) 与温度 \(T = \partial U/\partial S\) 就是这样一对共轭变量,通过Legendre变换可以得到自由能 \(F(T, V) = U - TS\)。
第五步:在概率论与统计中的应用(以累积生成函数为例)
这是该工具在概率论中的核心应用之一。
- 设定:设 \(X\) 是一个随机变量,其累积生成函数为 \(\Lambda(t) = \log E[e^{tX}]\),假设其在包含0的开区间内有定义。\(\Lambda(t)\) 是一个凸函数(由Hölder不等式可得)。
- Fenchel共轭(速率函数):定义 \(\Lambda\) 的Fenchel共轭为:
\[\Lambda^*(x) = \sup_{t \in \mathbb{R}} \{ t x - \Lambda(t) \}. \]
这个函数 \(\Lambda^*\) 称为速率函数。
3. 大偏差原理(直观):Cramér定理指出,对于独立同分布的随机变量序列 \(\{X_i\}\),其样本均值 \(S_n/n\) 满足大偏差原理:\(P(S_n/n \in A) \approx \exp(-n \inf_{x \in A} \Lambda^*(x))\)。也就是说,概率的对数衰减速率由速率函数 \(\Lambda^*\) 在集合 \(A\) 上的下确界控制。
4. 解释:\(\Lambda^*(x)\) 衡量了“样本均值偏离期望(或典型值)到 \(x\) 的困难程度”,其值越大,该事件发生的概率衰减得越快。Fenchel共轭在这里的作用是将矩生成函数(在 \(t\) 空间)的信息,转换为了描述尾部概率衰减速率(在 \(x\) 空间)的信息。
5. 性质:速率函数 \(\Lambda^*\) 是非负的凸函数,且最小值在 \(E[X]\) 处达到(通常为0)。如果分布是指数族,那么 \(\Lambda\) 和 \(\Lambda^*\) 通过Legendre变换相互确定,构成了指数族分布自然参数空间和均值参数空间之间的对偶关系。这正是广义线性模型和对数线性模型理论的基础。
第六步:与其它概念的联系
- 熵的对偶:在信息论中,负熵 \(-H(p)\) 的Fenchel共轭是 \(\log \sum_i e^{\eta_i}\),这联系到指数族分布的配分函数。
- Bregman散度:给定一个严格凸函数 \(\phi\),由其生成的Bregman散度 \(D_\phi(x||y) = \phi(x) - \phi(y) - \nabla \phi(y)^T(x-y)\),与 \(\phi\) 和其共轭 \(\phi^*\) 有紧密的对偶关系,例如 \(D_\phi(x||y) = D_{\phi^*}(\nabla \phi(y) || \nabla \phi(x))\)。
- 优化与对偶:在凸优化中,任何凸优化问题都有一个通过Fenchel共轭构造的对偶问题,两者之间的差距(对偶间隙)在适当条件下为零,这为求解原问题提供了强有力的替代途径。
总结来说,随机变量的变换的Fenchel共轭与Legendre变换 是理解和操作凸函数对偶性的基石。在概率统计中,它最光辉的应用是将随机变量的累积生成函数(或矩生成函数)变换为控制大偏差概率的速率函数,从而在指数族分布、大偏差理论、统计力学和凸优化之间建立了深刻而优美的联系。