随机变量的变换的Jensen不等式
字数 1481 2025-11-13 00:05:30

随机变量的变换的Jensen不等式

我们先从凸函数概念开始。若函数 \(\phi: I \to \mathbb{R}\) 是凸函数(其中 \(I\) 是实数区间),则对任意 \(x_1, x_2 \in I\)\(\lambda \in [0,1]\),有

\[\phi(\lambda x_1 + (1-\lambda)x_2) \le \lambda \phi(x_1) + (1-\lambda) \phi(x_2)。 \]

直观上,连接函数图像上两点的线段总在图像上方。


接着引入随机变量的期望。设 \(X\) 是随机变量,若 \(X\) 取值在 \(I\) 中,且期望 \(\mathbb{E}[X]\) 存在,则 \(\mathbb{E}[X] \in I\)


现在叙述 Jensen 不等式:
\(\phi\) 是凸函数,\(X\) 是随机变量且 \(X \in I\) 几乎必然,并且 \(\mathbb{E}[|X|]\)\(\mathbb{E}[|\phi(X)|]\) 有限,则

\[\phi(\mathbb{E}[X]) \le \mathbb{E}[\phi(X)]。 \]


证明思路(有限支撑情形直观化):
凸函数在其定义域内任意一点 \(\mu\) 都存在一条支撑直线(支撑超平面),即存在常数 \(a\) 使得

\[\phi(x) \ge a(x - \mu) + \phi(\mu), \quad \forall x \in I。 \]

\(\mu = \mathbb{E}[X]\),代入 \(x = X\)

\[\phi(X) \ge a(X - \mathbb{E}[X]) + \phi(\mathbb{E}[X])。 \]

两边取期望,注意 \(\mathbb{E}[X - \mathbb{E}[X]] = 0\),得

\[\mathbb{E}[\phi(X)] \ge \phi(\mathbb{E}[X])。 \]


常见特例

  1. \(\phi(x) = x^2\)(凸) → \((\mathbb{E}[X])^2 \le \mathbb{E}[X^2]\)
  2. \(\phi(x) = -\ln x\)(在 \(x>0\) 凸) → \(-\ln(\mathbb{E}[X]) \le \mathbb{E}[-\ln X]\),即 \(\mathbb{E}[\ln X] \le \ln(\mathbb{E}[X])\)
  3. \(\phi(x) = 1/x\)(在 \(x>0\) 凸) → \(1/\mathbb{E}[X] \le \mathbb{E}[1/X]\)(当 \(X>0\))。

注意:若 \(\phi\) 是凹函数,则不等式反向:

\[\phi(\mathbb{E}[X]) \ge \mathbb{E}[\phi(X)]。 \]

例如 \(\phi(x) = \ln x\) 是凹函数,所以 \(\ln(\mathbb{E}[X]) \ge \mathbb{E}[\ln X]\)


Jensen 不等式在信息论(熵、相对熵)、统计学(EM 算法)、金融数学(效用函数)中有广泛应用,它说明“凸变换在平均之后会增大(或保持不变)”。

随机变量的变换的Jensen不等式 我们先从凸函数概念开始。若函数 \( \phi: I \to \mathbb{R} \) 是凸函数(其中 \( I \) 是实数区间),则对任意 \( x_ 1, x_ 2 \in I \) 和 \( \lambda \in [ 0,1 ] \),有 \[ \phi(\lambda x_ 1 + (1-\lambda)x_ 2) \le \lambda \phi(x_ 1) + (1-\lambda) \phi(x_ 2)。 \] 直观上,连接函数图像上两点的线段总在图像上方。 接着引入随机变量的期望。设 \( X \) 是随机变量,若 \( X \) 取值在 \( I \) 中,且期望 \( \mathbb{E}[ X] \) 存在,则 \( \mathbb{E}[ X ] \in I \)。 现在叙述 Jensen 不等式: 若 \( \phi \) 是凸函数,\( X \) 是随机变量且 \( X \in I \) 几乎必然,并且 \( \mathbb{E}[ |X|] \) 与 \( \mathbb{E}[ |\phi(X)| ] \) 有限,则 \[ \phi(\mathbb{E}[ X]) \le \mathbb{E}[ \phi(X) ]。 \] 证明思路 (有限支撑情形直观化): 凸函数在其定义域内任意一点 \( \mu \) 都存在一条支撑直线(支撑超平面),即存在常数 \( a \) 使得 \[ \phi(x) \ge a(x - \mu) + \phi(\mu), \quad \forall x \in I。 \] 取 \( \mu = \mathbb{E}[ X ] \),代入 \( x = X \) 得 \[ \phi(X) \ge a(X - \mathbb{E}[ X]) + \phi(\mathbb{E}[ X ])。 \] 两边取期望,注意 \( \mathbb{E}[ X - \mathbb{E}[ X] ] = 0 \),得 \[ \mathbb{E}[ \phi(X)] \ge \phi(\mathbb{E}[ X ])。 \] 常见特例 : \( \phi(x) = x^2 \)(凸) → \( (\mathbb{E}[ X])^2 \le \mathbb{E}[ X^2 ] \)。 \( \phi(x) = -\ln x \)(在 \( x>0 \) 凸) → \( -\ln(\mathbb{E}[ X]) \le \mathbb{E}[ -\ln X] \),即 \( \mathbb{E}[ \ln X] \le \ln(\mathbb{E}[ X ]) \)。 \( \phi(x) = 1/x \)(在 \( x>0 \) 凸) → \( 1/\mathbb{E}[ X] \le \mathbb{E}[ 1/X ] \)(当 \( X>0 \))。 注意 :若 \( \phi \) 是凹函数,则不等式反向: \[ \phi(\mathbb{E}[ X]) \ge \mathbb{E}[ \phi(X) ]。 \] 例如 \( \phi(x) = \ln x \) 是凹函数,所以 \( \ln(\mathbb{E}[ X]) \ge \mathbb{E}[ \ln X ] \)。 Jensen 不等式在信息论(熵、相对熵)、统计学(EM 算法)、金融数学(效用函数)中有广泛应用,它说明“凸变换在平均之后会增大(或保持不变)”。