随机变量的变换的Bregman散度
我们来循序渐进地学习Bregman散度这一概念。
首先,Bregman散度是一种度量两个点之间差异的函数,它由一个凸函数生成。设 \(f: \Omega \subset \mathbb{R}^d \to \mathbb{R}\) 是一个在定义域 \(\Omega\) 上连续可微的严格凸函数。那么,对于任意两点 \(\mathbf{x}, \mathbf{y} \in \Omega\),由函数 \(f\) 生成的Bregman散度 \(D_f(\mathbf{x}, \mathbf{y})\) 定义为:
\[D_f(\mathbf{x}, \mathbf{y}) = f(\mathbf{x}) - f(\mathbf{y}) - \langle \nabla f(\mathbf{y}), \mathbf{x} - \mathbf{y} \rangle \]
其中,\(\nabla f(\mathbf{y})\) 是函数 \(f\) 在点 \(\mathbf{y}\) 处的梯度,\(\langle \cdot, \cdot \rangle\) 表示内积。从几何上看,\(D_f(\mathbf{x}, \mathbf{y})\) 度量了在点 \(\mathbf{x}\) 处函数 \(f\) 的值与在点 \(\mathbf{y}\) 处函数 \(f\) 的切线(或超平面)的值之间的垂直距离。由于 \(f\) 是凸函数,根据凸性定义,这个差值始终非负,即 \(D_f(\mathbf{x}, \mathbf{y}) \ge 0\),并且当且仅当 \(\mathbf{x} = \mathbf{y}\) 时等号成立。
接下来,我们探讨Bregman散度的性质。除了非负性,Bregman散度通常不对称,即 \(D_f(\mathbf{x}, \mathbf{y}) \neq D_f(\mathbf{y}, \mathbf{x})\),除非 \(f\) 是二次函数。它也不满足三角不等式,因此不是度量空间中的距离。然而,Bregman散度在凸优化中非常有用,因为它与凸函数的Bregman投影和近端算子密切相关。一个关键性质是,对于固定的 \(\mathbf{y}\),函数 \(\mathbf{x} \mapsto D_f(\mathbf{x}, \mathbf{y})\) 是凸的,并且其最小值在 \(\mathbf{x} = \mathbf{y}\) 处取得。
现在,我们来看Bregman散度的一些常见例子。如果选择 \(f(\mathbf{x}) = \frac{1}{2} \|\mathbf{x}\|^2\)(欧几里得范数的平方),则Bregman散度退化为平方欧几里得距离:
\[D_f(\mathbf{x}, \mathbf{y}) = \frac{1}{2} \|\mathbf{x} - \mathbf{y}\|^2 \]
如果选择 \(f(\mathbf{x}) = \sum_i x_i \log x_i\)(负熵函数,定义在概率单纯形上),则Bregman散度成为Kullback-Leibler (KL) 散度:
\[D_f(\mathbf{p}, \mathbf{q}) = \sum_i p_i \log \frac{p_i}{q_i} \]
这些例子表明,Bregman散度统一了多种常见的距离和散度度量。
在概率论与统计学中,Bregman散度常用于衡量概率分布之间的差异。例如,在信息论中,KL散度是Bregman散度的一个特例,用于度量两个概率分布的差异。Bregman散度还与指数族分布密切相关:指数族分布的对数配分函数是凸函数,其生成的Bregman散度对应于该分布的KL散度。此外,在聚类分析(如k-means聚类)和回归问题中,Bregman散度可以作为损失函数,推广平方损失和逻辑损失。
最后,Bregman散度的应用扩展到机器学习中的泛化误差界、在线学习和变分推断。例如,在镜像下降算法中,Bregman散度用于定义迭代步骤,确保在非欧几里得空间中的有效优化。理解Bregman散度有助于我们统一处理多种统计距离和优化问题,增强对凸分析和信息几何的洞察。