随机变量的变换的Jensen不等式
我们先从凸函数概念开始。若函数 \(\phi: I \to \mathbb{R}\) 是凸函数(其中 \(I\) 是实数区间),则对任意 \(x_1, x_2 \in I\) 和 \(\lambda \in [0,1]\),有
\[\phi(\lambda x_1 + (1-\lambda)x_2) \le \lambda \phi(x_1) + (1-\lambda) \phi(x_2)。 \]
直观上,连接函数图像上两点的线段总在图像上方。
接着引入随机变量的期望。设 \(X\) 是随机变量,若 \(X\) 取值在 \(I\) 中,且期望 \(\mathbb{E}[X]\) 存在,则 \(\mathbb{E}[X] \in I\)。
现在叙述 Jensen 不等式:
若 \(\phi\) 是凸函数,\(X\) 是随机变量且 \(X \in I\) 几乎必然,并且 \(\mathbb{E}[|X|]\) 与 \(\mathbb{E}[|\phi(X)|]\) 有限,则
\[\phi(\mathbb{E}[X]) \le \mathbb{E}[\phi(X)]。 \]
证明思路(有限支撑情形直观化):
凸函数在其定义域内任意一点 \(\mu\) 都存在一条支撑直线(支撑超平面),即存在常数 \(a\) 使得
\[\phi(x) \ge a(x - \mu) + \phi(\mu), \quad \forall x \in I。 \]
取 \(\mu = \mathbb{E}[X]\),代入 \(x = X\) 得
\[\phi(X) \ge a(X - \mathbb{E}[X]) + \phi(\mathbb{E}[X])。 \]
两边取期望,注意 \(\mathbb{E}[X - \mathbb{E}[X]] = 0\),得
\[\mathbb{E}[\phi(X)] \ge \phi(\mathbb{E}[X])。 \]
常见特例:
- \(\phi(x) = x^2\)(凸) → \((\mathbb{E}[X])^2 \le \mathbb{E}[X^2]\)。
- \(\phi(x) = -\ln x\)(在 \(x>0\) 凸) → \(-\ln(\mathbb{E}[X]) \le \mathbb{E}[-\ln X]\),即 \(\mathbb{E}[\ln X] \le \ln(\mathbb{E}[X])\)。
- \(\phi(x) = 1/x\)(在 \(x>0\) 凸) → \(1/\mathbb{E}[X] \le \mathbb{E}[1/X]\)(当 \(X>0\))。
注意:若 \(\phi\) 是凹函数,则不等式反向:
\[\phi(\mathbb{E}[X]) \ge \mathbb{E}[\phi(X)]。 \]
例如 \(\phi(x) = \ln x\) 是凹函数,所以 \(\ln(\mathbb{E}[X]) \ge \mathbb{E}[\ln X]\)。
Jensen 不等式在信息论(熵、相对熵)、统计学(EM 算法)、金融数学(效用函数)中有广泛应用,它说明“凸变换在平均之后会增大(或保持不变)”。