随机变量的变换的Jensen不等式
字数 1305 2025-11-23 09:32:18

随机变量的变换的Jensen不等式

我们来系统性地探讨Jensen不等式这一概率论与统计学中的重要工具。

  1. 凸函数的基本概念

    • 一个函数 φ: I → ℝ 被称为凸函数,如果对区间 I 中的任意两点 x, y 和任意 λ ∈ [0,1],都满足:
      φ(λx + (1-λ)y) ≤ λφ(x) + (1-λ)φ(y)
    • 几何解释:连接函数图像上任意两点的线段始终位于函数图像上方
    • 常见例子:x², e^x, -ln x(在 x>0 时), |x|
  2. Jensen不等式的基本形式

    • 对于任意凸函数 φ 和随机变量 X,如果 X 和 φ(X) 的期望都存在,则:
      φ(E[X]) ≤ E[φ(X)]
    • 直观理解:函数值的期望不小于期望的函数值(对凸函数而言)
    • 等号成立条件:当 φ 是线性函数,或 X 以概率 1 为常数
  3. 离散情形的具体推导

    • 从两点情况开始:对任意 x₁, x₂ ∈ I 和 p₁ + p₂ = 1 (pᵢ ≥ 0)
      φ(p₁x₁ + p₂x₂) ≤ p₁φ(x₁) + p₂φ(x₂)
    • 数学归纳法推广到 n 点:对任意 xᵢ ∈ I 和 ∑pᵢ = 1 (pᵢ ≥ 0)
      φ(∑pᵢxᵢ) ≤ ∑pᵢφ(xᵢ)
    • 这实际上是离散随机变量情形的 Jensen 不等式
  4. 连续情形的严格证明

    • 关键步骤:在点 μ = E[X] 处构造支撑线
    • 由凸性,存在常数 a 使得对定义域内所有 x:φ(x) ≥ φ(μ) + a(x-μ)
    • 两边取期望:E[φ(X)] ≥ φ(μ) + a(E[X]-μ) = φ(E[X])
    • 此证明同时适用于离散和连续情形
  5. 概率论中的典型应用

    • 信息论:Dkl(P||Q) ≥ 0(KL散度非负)
      • 证明:利用 -ln x 的凸性,E[-ln(q(X)/p(X))] ≥ -ln E[q(X)/p(X)] = 0
    • 矩不等式:(E|X|)² ≤ E[X²]
      • 证明:利用 φ(x) = x² 的凸性
    • 熵的界:H(X) ≤ ln n(对 n 个取值的离散随机变量)
      • 证明:利用对数函数的凹性
  6. 统计推断中的应用场景

    • EM算法:证明每次迭代提高似然函数值
    • 风险函数分析:在决策理论中提供下界
    • 矩生成函数:ln E[e^{tX}] 的凸性(Cramér变换的基础)
    • 方差分解:Var(X) = E[X²] - (E[X])² ≥ 0
  7. 凹函数情形的对应版本

    • 如果 ψ 是凹函数,则 E[ψ(X)] ≤ ψ(E[X])
    • 例子:对数函数 ψ(x) = ln x 给出 E[ln X] ≤ ln E[X]
    • 应用:算术-几何平均不等式
  8. 测度论形式的推广

    • 在一般概率空间 (Ω, F, P) 上,对 F 可测的随机变量 X 和子 σ-代数 G:
      φ(E[X|G]) ≤ E[φ(X)|G] (几乎必然成立)
    • 这是 Jensen 不等式在条件期望情形的推广

理解 Jensen 不等式的关键在于掌握凸函数的几何特性,以及如何通过支撑线构造证明。这个不等式之所以重要,是因为它建立了函数值与期望值之间的基本关系,在概率论、信息论、优化理论等众多领域都有广泛应用。

随机变量的变换的Jensen不等式 我们来系统性地探讨Jensen不等式这一概率论与统计学中的重要工具。 凸函数的基本概念 一个函数 φ: I → ℝ 被称为凸函数,如果对区间 I 中的任意两点 x, y 和任意 λ ∈ [ 0,1 ],都满足: φ(λx + (1-λ)y) ≤ λφ(x) + (1-λ)φ(y) 几何解释:连接函数图像上任意两点的线段始终位于函数图像上方 常见例子:x², e^x, -ln x(在 x>0 时), |x| Jensen不等式的基本形式 对于任意凸函数 φ 和随机变量 X,如果 X 和 φ(X) 的期望都存在,则: φ(E[ X]) ≤ E[ φ(X) ] 直观理解:函数值的期望不小于期望的函数值(对凸函数而言) 等号成立条件:当 φ 是线性函数,或 X 以概率 1 为常数 离散情形的具体推导 从两点情况开始:对任意 x₁, x₂ ∈ I 和 p₁ + p₂ = 1 (pᵢ ≥ 0) φ(p₁x₁ + p₂x₂) ≤ p₁φ(x₁) + p₂φ(x₂) 数学归纳法推广到 n 点:对任意 xᵢ ∈ I 和 ∑pᵢ = 1 (pᵢ ≥ 0) φ(∑pᵢxᵢ) ≤ ∑pᵢφ(xᵢ) 这实际上是离散随机变量情形的 Jensen 不等式 连续情形的严格证明 关键步骤:在点 μ = E[ X ] 处构造支撑线 由凸性,存在常数 a 使得对定义域内所有 x:φ(x) ≥ φ(μ) + a(x-μ) 两边取期望:E[ φ(X)] ≥ φ(μ) + a(E[ X]-μ) = φ(E[ X ]) 此证明同时适用于离散和连续情形 概率论中的典型应用 信息论:Dkl(P||Q) ≥ 0(KL散度非负) 证明:利用 -ln x 的凸性,E[ -ln(q(X)/p(X))] ≥ -ln E[ q(X)/p(X) ] = 0 矩不等式:(E|X|)² ≤ E[ X² ] 证明:利用 φ(x) = x² 的凸性 熵的界:H(X) ≤ ln n(对 n 个取值的离散随机变量) 证明:利用对数函数的凹性 统计推断中的应用场景 EM算法:证明每次迭代提高似然函数值 风险函数分析:在决策理论中提供下界 矩生成函数:ln E[ e^{tX} ] 的凸性(Cramér变换的基础) 方差分解:Var(X) = E[ X²] - (E[ X ])² ≥ 0 凹函数情形的对应版本 如果 ψ 是凹函数,则 E[ ψ(X)] ≤ ψ(E[ X ]) 例子:对数函数 ψ(x) = ln x 给出 E[ ln X] ≤ ln E[ X ] 应用:算术-几何平均不等式 测度论形式的推广 在一般概率空间 (Ω, F, P) 上,对 F 可测的随机变量 X 和子 σ-代数 G: φ(E[ X|G]) ≤ E[ φ(X)|G ] (几乎必然成立) 这是 Jensen 不等式在条件期望情形的推广 理解 Jensen 不等式的关键在于掌握凸函数的几何特性,以及如何通过支撑线构造证明。这个不等式之所以重要,是因为它建立了函数值与期望值之间的基本关系,在概率论、信息论、优化理论等众多领域都有广泛应用。