随机变量的变换的Cramér定理
字数 3542 2025-12-15 19:15:27

随机变量的变换的Cramér定理

我将从直观背景开始,循序渐进地讲解Cramér定理,确保每个概念都清晰准确。

第一步:大偏差现象的直观引入
在概率论中,我们熟知“大数定律”:独立同分布随机变量的样本平均值会收敛到其期望值。而“中心极限定理”则描述了样本平均值在期望值附近小范围波动的渐近分布(正态分布)。那么,一个自然的问题是:样本平均值远离其期望值(发生“大偏差”)的概率有多大?例如,抛一枚均匀硬币(正面概率p=0.5),抛n次后,出现正面频率超过0.7的概率是多少?当n很大时,这个概率会非常小。Cramér定理(也称为Cramér大偏差定理)精确地刻画了这种“小概率”的指数衰减速率。它是大偏差理论中最基本、最经典的结论之一。

第二步:核心研究对象与数学准备
考虑一个随机变量序列 \(\{X_i\}\),独立同分布,记其公共分布为 \(P\),期望为 \(\mu = \mathbb{E}[X_1]\)。定义其前n项的部分和为 \(S_n = X_1 + ... + X_n\),样本均值为 \(\bar{X}_n = S_n / n\)
Cramér定理关心的是,对于任意一个集合 \(A\)(通常不包含期望值\(\mu\)),概率 \(P(\bar{X}_n \in A)\)\(n \to \infty\) 时的衰减行为。为了描述这种指数衰减,我们需要一个关键工具——累积量生成函数

  • 对于随机变量 \(X_1\),其累积量生成函数定义为:

\[ \Lambda(\lambda) = \log \mathbb{E}[e^{\lambda X_1}], \quad \lambda \in \mathbb{R}. \]

  • 这个函数是矩生成函数的对数。它的定义域 \(D_\Lambda = \{\lambda: \Lambda(\lambda) < \infty\}\) 是一个包含0的区间(可能是整个实数轴)。
  • 累积量生成函数 \(\Lambda(\lambda)\) 是凸函数,且 \(\Lambda(0)=0\)

第三步:速率函数的定义与性质
Cramér定理的核心是引入一个称为速率函数的量,它量化了偏离期望的“代价”。

  • 速率函数 \(I(x)\) 定义为累积量生成函数 \(\Lambda(\lambda)\)勒让德-芬切尔变换

\[ I(x) = \sup_{\lambda \in \mathbb{R}} \{ \lambda x - \Lambda(\lambda) \}. \]

  • 这个变换可以这样理解:对于每一个可能的均值 \(x\),我们寻找一个参数 \(\lambda\),使得 \(e^{\lambda x}\)\(e^{\Lambda(\lambda)}\) 的差异(在对数尺度下)最大化。这个最大差异就是偏离的“成本” \(I(x)\)
  • 性质
    1. \(I(x)\) 是下半连续凸函数,取值在 \([0, +\infty]\) 之间。
    2. \(I(x) \ge 0\),且 \(I(\mu) = 0\)。这表明样本均值取到期望值“代价”最小。
    3. \(I(x)\) 通常严格凸,在 \(x = \mu\) 处达到唯一的极小值0。
    4. 如果 \(X_1\) 服从正态分布 \(N(\mu, \sigma^2)\),可以计算出 \(I(x) = (x-\mu)^2 / (2\sigma^2)\),这与正态分布的对数似然(或熵)形式一致。

第五步:Cramér定理的精确表述
现在我们给出完整的Cramér定理。设 \(\{X_i\}\) 为独立同分布的随机变量序列,累积量生成函数 \(\Lambda(\lambda)\) 在原点某个邻域内有限(即存在 \(t_0>0\) 使得 \(\Lambda(t)<\infty\) 对所有 \(|t| 成立)。记其速率函数为 \(I(x)\)。那么,对于 \(\mathbb{R}\) 中的任意波雷尔集 \(B\),有:

  1. 上界:对任意闭集 \(F \subset \mathbb{R}\)

\[ \limsup_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n \in F) \le -\inf_{x \in F} I(x). \]

  1. 下界:对任意开集 \(G \subset \mathbb{R}\)

\[ \liminf_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n \in G) \ge -\inf_{x \in G} I(x). \]

这个定理通常简述为:\(P(\bar{X}_n \in B) \approx e^{-n \inf_{x \in B} I(x)}\),在指数意义上精确成立。符号“\(\approx\)”表示对数的等价性。

第六步:一个经典特例与应用示例
考虑最简单的伯努利情况:设 \(X_i \sim \text{Bernoulli}(p)\)\(p=0.5\)。计算其累积量生成函数:

\[\Lambda(\lambda) = \log(pe^{\lambda} + (1-p)) = \log(0.5e^\lambda + 0.5) = \log(\frac{e^\lambda+1}{2}). \]

通过勒让德变换,得到速率函数为:

\[I(x) = \sup_{\lambda} \{ \lambda x - \Lambda(\lambda) \} = x \log(\frac{x}{p}) + (1-x) \log(\frac{1-x}{1-p}), \quad x \in [0,1]. \]

这正是相对熵Kullback-Leibler散度 \(D_{KL}(Ber(x) || Ber(p))\)
现在,计算 \(P(\bar{X}_n > 0.7)\) 的指数衰减率。根据Cramér定理:

\[\lim_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n > 0.7) = -\inf_{x > 0.7} I(x). \]

由于 \(I(x)\)\(x>0.5\) 时单调递增,下确界在 \(x=0.7\) 处取得。计算 \(I(0.7) = 0.7 \log(1.4) + 0.3 \log(0.6) \approx 0.7*0.3365 + 0.3*(-0.5108) = 0.083\)
因此,\(P(\bar{X}_n > 0.7) \approx e^{-0.083n}\),即概率以速率 \(0.083\) 指数衰减。这比用中心极限定理的尾部估计(如切尔诺夫界)更精确。

第七步:定理的深层含义、推广与重要性

  1. 精确指数衰减:Cramér定理不仅给出了概率的上界(像许多不等式那样),而且给出了精确的衰减指数,这是其强大之处。
  2. 最可能路径:集合 \(B\) 内的点 \(x^*\) 如果使 \(I(x)\) 最小,那么 \(\bar{X}_n\) 落入 \(B\) 的“最可能方式”就是落在 \(x^*\) 附近。\(I(x^*)\) 就是这个事件的“代价”。
  3. 与中心极限定理的关系:中心极限定理描述了在 \(\mu\) 附近 \(O(1/\sqrt{n})\) 尺度下的波动(正态分布),而Cramér定理描述了在 \(O(1)\) 尺度下的大偏差行为。两者是互补的。
  4. 推广:Cramér定理是大偏差原理的一个特例。大偏差原理可以推广到非独立序列(如马尔可夫链)、随机过程(如样本路径)和更一般的空间。Gärtner-Ellis定理是处理非独立同分布序列的重要推广,它只要求归一化累积量生成函数 \(\Lambda_n(\lambda)/n\) 的极限 \(\Lambda(\lambda)\) 存在且具有某些良好性质。
  5. 应用广泛:Cramér定理是统计力学、信息论、排队论、金融风险管理和统计推断中许多渐近分析的基础工具。例如,在假设检验中,它给出了两类错误概率的指数衰减速率(与斯坦引理相关);在风险管理中,用于估计大型投资组合发生巨亏的概率。

总结,随机变量的变换的Cramér定理是大偏差理论的基石,它利用累积量生成函数的勒让德变换定义了速率函数,并精确刻画了样本均值发生大偏差概率的指数衰减行为,从另一个维度深刻揭示了随机现象的渐近规律。

随机变量的变换的Cramér定理 我将从直观背景开始,循序渐进地讲解Cramér定理,确保每个概念都清晰准确。 第一步:大偏差现象的直观引入 在概率论中,我们熟知“大数定律”:独立同分布随机变量的样本平均值会收敛到其期望值。而“中心极限定理”则描述了样本平均值在期望值附近小范围波动的渐近分布(正态分布)。那么,一个自然的问题是:样本平均值远离其期望值(发生“大偏差”)的概率有多大?例如,抛一枚均匀硬币(正面概率p=0.5),抛n次后,出现正面频率超过0.7的概率是多少?当n很大时,这个概率会非常小。Cramér定理(也称为Cramér大偏差定理)精确地刻画了这种“小概率”的指数衰减速率。它是 大偏差理论 中最基本、最经典的结论之一。 第二步:核心研究对象与数学准备 考虑一个随机变量序列 \(\{X_ i\}\),独立同分布,记其公共分布为 \(P\),期望为 \(\mu = \mathbb{E}[ X_ 1]\)。定义其前n项的部分和为 \(S_ n = X_ 1 + ... + X_ n\),样本均值为 \(\bar{X}_ n = S_ n / n\)。 Cramér定理关心的是,对于任意一个集合 \(A\)(通常不包含期望值\(\mu\)),概率 \(P(\bar{X}_ n \in A)\) 当 \(n \to \infty\) 时的衰减行为。为了描述这种指数衰减,我们需要一个关键工具—— 累积量生成函数 。 对于随机变量 \(X_ 1\),其累积量生成函数定义为: \[ \Lambda(\lambda) = \log \mathbb{E}[ e^{\lambda X_ 1} ], \quad \lambda \in \mathbb{R}. \] 这个函数是矩生成函数的对数。它的定义域 \(D_ \Lambda = \{\lambda: \Lambda(\lambda) < \infty\}\) 是一个包含0的区间(可能是整个实数轴)。 累积量生成函数 \(\Lambda(\lambda)\) 是凸函数,且 \(\Lambda(0)=0\)。 第三步:速率函数的定义与性质 Cramér定理的核心是引入一个称为 速率函数 的量,它量化了偏离期望的“代价”。 速率函数 \(I(x)\) 定义为累积量生成函数 \(\Lambda(\lambda)\) 的 勒让德-芬切尔变换 : \[ I(x) = \sup_ {\lambda \in \mathbb{R}} \{ \lambda x - \Lambda(\lambda) \}. \] 这个变换可以这样理解:对于每一个可能的均值 \(x\),我们寻找一个参数 \(\lambda\),使得 \(e^{\lambda x}\) 与 \(e^{\Lambda(\lambda)}\) 的差异(在对数尺度下)最大化。这个最大差异就是偏离的“成本” \(I(x)\)。 性质 : \(I(x)\) 是下半连续凸函数,取值在 \([ 0, +\infty ]\) 之间。 \(I(x) \ge 0\),且 \(I(\mu) = 0\)。这表明样本均值取到期望值“代价”最小。 \(I(x)\) 通常严格凸,在 \(x = \mu\) 处达到唯一的极小值0。 如果 \(X_ 1\) 服从正态分布 \(N(\mu, \sigma^2)\),可以计算出 \(I(x) = (x-\mu)^2 / (2\sigma^2)\),这与正态分布的对数似然(或熵)形式一致。 第五步:Cramér定理的精确表述 现在我们给出完整的Cramér定理。设 \(\{X_ i\}\) 为独立同分布的随机变量序列,累积量生成函数 \(\Lambda(\lambda)\) 在原点某个邻域内有限(即存在 \(t_ 0>0\) 使得 \(\Lambda(t)<\infty\) 对所有 \(|t|<t_ 0\) 成立)。记其速率函数为 \(I(x)\)。那么,对于 \(\mathbb{R}\) 中的任意波雷尔集 \(B\),有: 上界 :对任意闭集 \(F \subset \mathbb{R}\), \[ \limsup_ {n \to \infty} \frac{1}{n} \log P(\bar{X} n \in F) \le -\inf {x \in F} I(x). \] 下界 :对任意开集 \(G \subset \mathbb{R}\), \[ \liminf_ {n \to \infty} \frac{1}{n} \log P(\bar{X} n \in G) \ge -\inf {x \in G} I(x). \] 这个定理通常简述为:\(P(\bar{X} n \in B) \approx e^{-n \inf {x \in B} I(x)}\),在指数意义上精确成立。符号“\(\approx\)”表示对数的等价性。 第六步:一个经典特例与应用示例 考虑最简单的伯努利情况:设 \(X_ i \sim \text{Bernoulli}(p)\), \(p=0.5\)。计算其累积量生成函数: \[ \Lambda(\lambda) = \log(pe^{\lambda} + (1-p)) = \log(0.5e^\lambda + 0.5) = \log(\frac{e^\lambda+1}{2}). \] 通过勒让德变换,得到速率函数为: \[ I(x) = \sup_ {\lambda} \{ \lambda x - \Lambda(\lambda) \} = x \log(\frac{x}{p}) + (1-x) \log(\frac{1-x}{1-p}), \quad x \in [ 0,1 ]. \] 这正是 相对熵 或 Kullback-Leibler散度 \(D_ {KL}(Ber(x) || Ber(p))\)。 现在,计算 \(P(\bar{X} n > 0.7)\) 的指数衰减率。根据Cramér定理: \[ \lim {n \to \infty} \frac{1}{n} \log P(\bar{X} n > 0.7) = -\inf {x > 0.7} I(x). \] 由于 \(I(x)\) 在 \(x>0.5\) 时单调递增,下确界在 \(x=0.7\) 处取得。计算 \(I(0.7) = 0.7 \log(1.4) + 0.3 \log(0.6) \approx 0.7 0.3365 + 0.3 (-0.5108) = 0.083\)。 因此,\(P(\bar{X}_ n > 0.7) \approx e^{-0.083n}\),即概率以速率 \(0.083\) 指数衰减。这比用中心极限定理的尾部估计(如切尔诺夫界)更精确。 第七步:定理的深层含义、推广与重要性 精确指数衰减 :Cramér定理不仅给出了概率的上界(像许多不等式那样),而且给出了精确的衰减指数,这是其强大之处。 最可能路径 :集合 \(B\) 内的点 \(x^ \) 如果使 \(I(x)\) 最小,那么 \(\bar{X}_ n\) 落入 \(B\) 的“最可能方式”就是落在 \(x^ \) 附近。\(I(x^* )\) 就是这个事件的“代价”。 与中心极限定理的关系 :中心极限定理描述了在 \(\mu\) 附近 \(O(1/\sqrt{n})\) 尺度下的波动(正态分布),而Cramér定理描述了在 \(O(1)\) 尺度下的大偏差行为。两者是互补的。 推广 :Cramér定理是 大偏差原理 的一个特例。大偏差原理可以推广到非独立序列(如马尔可夫链)、随机过程(如样本路径)和更一般的空间。Gärtner-Ellis定理是处理非独立同分布序列的重要推广,它只要求归一化累积量生成函数 \(\Lambda_ n(\lambda)/n\) 的极限 \(\Lambda(\lambda)\) 存在且具有某些良好性质。 应用广泛 :Cramér定理是统计力学、信息论、排队论、金融风险管理和统计推断中许多渐近分析的基础工具。例如,在假设检验中,它给出了两类错误概率的指数衰减速率(与斯坦引理相关);在风险管理中,用于估计大型投资组合发生巨亏的概率。 总结, 随机变量的变换的Cramér定理 是大偏差理论的基石,它利用累积量生成函数的勒让德变换定义了速率函数,并精确刻画了样本均值发生大偏差概率的指数衰减行为,从另一个维度深刻揭示了随机现象的渐近规律。