随机变量的变换的Jensen不等式
字数 1305 2025-11-23 09:32:18
随机变量的变换的Jensen不等式
我们来系统性地探讨Jensen不等式这一概率论与统计学中的重要工具。
-
凸函数的基本概念
- 一个函数 φ: I → ℝ 被称为凸函数,如果对区间 I 中的任意两点 x, y 和任意 λ ∈ [0,1],都满足:
φ(λx + (1-λ)y) ≤ λφ(x) + (1-λ)φ(y) - 几何解释:连接函数图像上任意两点的线段始终位于函数图像上方
- 常见例子:x², e^x, -ln x(在 x>0 时), |x|
- 一个函数 φ: I → ℝ 被称为凸函数,如果对区间 I 中的任意两点 x, y 和任意 λ ∈ [0,1],都满足:
-
Jensen不等式的基本形式
- 对于任意凸函数 φ 和随机变量 X,如果 X 和 φ(X) 的期望都存在,则:
φ(E[X]) ≤ E[φ(X)] - 直观理解:函数值的期望不小于期望的函数值(对凸函数而言)
- 等号成立条件:当 φ 是线性函数,或 X 以概率 1 为常数
- 对于任意凸函数 φ 和随机变量 X,如果 X 和 φ(X) 的期望都存在,则:
-
离散情形的具体推导
- 从两点情况开始:对任意 x₁, x₂ ∈ I 和 p₁ + p₂ = 1 (pᵢ ≥ 0)
φ(p₁x₁ + p₂x₂) ≤ p₁φ(x₁) + p₂φ(x₂) - 数学归纳法推广到 n 点:对任意 xᵢ ∈ I 和 ∑pᵢ = 1 (pᵢ ≥ 0)
φ(∑pᵢxᵢ) ≤ ∑pᵢφ(xᵢ) - 这实际上是离散随机变量情形的 Jensen 不等式
- 从两点情况开始:对任意 x₁, x₂ ∈ I 和 p₁ + p₂ = 1 (pᵢ ≥ 0)
-
连续情形的严格证明
- 关键步骤:在点 μ = E[X] 处构造支撑线
- 由凸性,存在常数 a 使得对定义域内所有 x:φ(x) ≥ φ(μ) + a(x-μ)
- 两边取期望:E[φ(X)] ≥ φ(μ) + a(E[X]-μ) = φ(E[X])
- 此证明同时适用于离散和连续情形
-
概率论中的典型应用
- 信息论:Dkl(P||Q) ≥ 0(KL散度非负)
- 证明:利用 -ln x 的凸性,E[-ln(q(X)/p(X))] ≥ -ln E[q(X)/p(X)] = 0
- 矩不等式:(E|X|)² ≤ E[X²]
- 证明:利用 φ(x) = x² 的凸性
- 熵的界:H(X) ≤ ln n(对 n 个取值的离散随机变量)
- 证明:利用对数函数的凹性
- 信息论:Dkl(P||Q) ≥ 0(KL散度非负)
-
统计推断中的应用场景
- EM算法:证明每次迭代提高似然函数值
- 风险函数分析:在决策理论中提供下界
- 矩生成函数:ln E[e^{tX}] 的凸性(Cramér变换的基础)
- 方差分解:Var(X) = E[X²] - (E[X])² ≥ 0
-
凹函数情形的对应版本
- 如果 ψ 是凹函数,则 E[ψ(X)] ≤ ψ(E[X])
- 例子:对数函数 ψ(x) = ln x 给出 E[ln X] ≤ ln E[X]
- 应用:算术-几何平均不等式
-
测度论形式的推广
- 在一般概率空间 (Ω, F, P) 上,对 F 可测的随机变量 X 和子 σ-代数 G:
φ(E[X|G]) ≤ E[φ(X)|G] (几乎必然成立) - 这是 Jensen 不等式在条件期望情形的推广
- 在一般概率空间 (Ω, F, P) 上,对 F 可测的随机变量 X 和子 σ-代数 G:
理解 Jensen 不等式的关键在于掌握凸函数的几何特性,以及如何通过支撑线构造证明。这个不等式之所以重要,是因为它建立了函数值与期望值之间的基本关系,在概率论、信息论、优化理论等众多领域都有广泛应用。