随机变量的变换的Bregman散度
我们先从散度的基本概念开始。散度是一种度量两个对象差异的函数,在概率与统计中常用于度量两个概率分布之间的差异。Bregman散度是一类由凸函数生成的散度,它统一了许多常见的散度和距离度量。
- 凸函数与Bregman散度的定义
设 \(\phi: \mathcal{S} \to \mathbb{R}\) 是一个在凸集 \(\mathcal{S} \subset \mathbb{R}^d\) 上的严格凸且可微函数。Bregman散度 \(D_\phi: \mathcal{S} \times \mathcal{S} \to [0, \infty)\) 定义为:
\[ D_\phi(\mathbf{x}, \mathbf{y}) = \phi(\mathbf{x}) - \phi(\mathbf{y}) - \langle \nabla \phi(\mathbf{y}), \mathbf{x} - \mathbf{y} \rangle \]
其中 \(\nabla \phi(\mathbf{y})\) 是 \(\phi\) 在点 \(\mathbf{y}\) 的梯度,\(\langle \cdot, \cdot \rangle\) 是内积。直观上,\(D_\phi(\mathbf{x}, \mathbf{y})\) 度量了函数 \(\phi\) 在点 \(\mathbf{x}\) 的值与其在点 \(\mathbf{y}\) 的线性近似之间的差异。
-
Bregman散度的性质
- 非负性:对任意 \(\mathbf{x}, \mathbf{y} \in \mathcal{S}\),有 \(D_\phi(\mathbf{x}, \mathbf{y}) \ge 0\),且 \(D_\phi(\mathbf{x}, \mathbf{y}) = 0\) 当且仅当 \(\mathbf{x} = \mathbf{y}\)。
- 非对称性:通常 \(D_\phi(\mathbf{x}, \mathbf{y}) \ne D_\phi(\mathbf{y}, \mathbf{x})\),因此它不是距离度量。
- 凸性:对第一个变量 \(\mathbf{x}\) 是凸的,但对第二个变量 \(\mathbf{y}\) 未必凸。
- 线性分离性:若 \(\phi(\mathbf{x}) = \sum_{i=1}^d \phi_i(x_i)\),则 \(D_\phi(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^d D_{\phi_i}(x_i, y_i)\)。
-
常见Bregman散度的例子
- 平方欧几里得距离:取 \(\phi(\mathbf{x}) = \|\mathbf{x}\|^2\),则 \(D_\phi(\mathbf{x}, \mathbf{y}) = \|\mathbf{x} - \mathbf{y}\|^2\)。
- Kullback-Leibler (KL) 散度:取 \(\phi(\mathbf{p}) = \sum_{i=1}^d p_i \log p_i\)(负熵),定义在概率单纯形上,则 \(D_\phi(\mathbf{p}, \mathbf{q}) = \sum_{i=1}^d p_i \log \frac{p_i}{q_i}\),即KL散度。
- Itakura-Saito散度:取 \(\phi(\mathbf{x}) = -\sum_{i=1}^d \log x_i\),则 \(D_\phi(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^d \left( \frac{x_i}{y_i} - \log \frac{x_i}{y_i} - 1 \right)\),用于信号处理。
-
Bregman散度与概率分布
在概率论中,Bregman散度可用于度量两个概率分布的差异。考虑随机变量 \(X\) 的概率分布 \(P\) 和 \(Q\),其概率密度函数(或概率质量函数)为 \(p(x)\) 和 \(q(x)\)。通过选择适当的凸函数 \(\phi\),可以导出分布间的散度:
\[ D_\phi(P, Q) = \int \left[ \phi(p(x)) - \phi(q(x)) - \phi'(q(x))(p(x) - q(x)) \right] dx \]
例如,取 \(\phi(t) = t \log t\) 可得KL散度。
- Bregman散度的优化性质
Bregman散度在优化和统计估计中有重要应用。给定一组点 \( {\mathbf{x}_1, \dots, \mathbf{x}_n} \,其Bregman散度意义下的均值(即Bregman质心)是如下优化问题的解:
\[ \mathbf{y}^* = \arg\min_{\mathbf{y}} \sum_{i=1}^n D_\phi(\mathbf{x}_i, \mathbf{y}) \]
解为 \(\mathbf{y}^* = \frac{1}{n} \sum_{i=1}^n \mathbf{x}_i\),与欧几里得均值一致。但对于其他散度(如KL散度),质心对应分布的加权几何平均。
- 广义Bregman散度与随机变量的变换
当处理随机变量的变换时,Bregman散度可用于度量变换后分布的差异。设 \(Y = g(X)\) 是随机变量 \(X\) 的变换,其分布为 \(P_Y\) 和 \(Q_Y\)。若 \(\phi\) 是凸函数,变换后的散度为:
\[ D_\phi(P_Y, Q_Y) = D_\phi(P_X \circ g^{-1}, Q_X \circ g^{-1}) \]
这里 \(\circ g^{-1}\) 表示分布的推前。Bregman散度在此变换下的行为取决于 \(g\) 的性质和 \(\phi\) 的选择。
- 应用与扩展
Bregman散度在机器学习、信息论和统计推断中有广泛应用,如聚类(Bregman聚类算法)、泛函估计和变分推断。它还可结合其他方法(如投影梯度法)用于解决约束优化问题。