随机变量的变换的Cramér定理

字数 3542 2025-12-15 19:15:27

随机变量的变换的Cramér定理

我将从直观背景开始，循序渐进地讲解Cramér定理，确保每个概念都清晰准确。

第一步：大偏差现象的直观引入
在概率论中，我们熟知“大数定律”：独立同分布随机变量的样本平均值会收敛到其期望值。而“中心极限定理”则描述了样本平均值在期望值附近小范围波动的渐近分布（正态分布）。那么，一个自然的问题是：样本平均值远离其期望值（发生“大偏差”）的概率有多大？例如，抛一枚均匀硬币（正面概率p=0.5），抛n次后，出现正面频率超过0.7的概率是多少？当n很大时，这个概率会非常小。Cramér定理（也称为Cramér大偏差定理）精确地刻画了这种“小概率”的指数衰减速率。它是大偏差理论中最基本、最经典的结论之一。

第二步：核心研究对象与数学准备
考虑一个随机变量序列 \(\{X_i\}\)，独立同分布，记其公共分布为 \(P\)，期望为 \(\mu = \mathbb{E}[X_1]\)。定义其前n项的部分和为 \(S_n = X_1 + ... + X_n\)，样本均值为 \(\bar{X}_n = S_n / n\)。
Cramér定理关心的是，对于任意一个集合 \(A\)（通常不包含期望值\(\mu\)），概率 \(P(\bar{X}_n \in A)\) 当 \(n \to \infty\) 时的衰减行为。为了描述这种指数衰减，我们需要一个关键工具——累积量生成函数。

对于随机变量 \(X_1\)，其累积量生成函数定义为：

\[ \Lambda(\lambda) = \log \mathbb{E}[e^{\lambda X_1}], \quad \lambda \in \mathbb{R}. \]

这个函数是矩生成函数的对数。它的定义域 \(D_\Lambda = \{\lambda: \Lambda(\lambda) < \infty\}\) 是一个包含0的区间（可能是整个实数轴）。
累积量生成函数 \(\Lambda(\lambda)\) 是凸函数，且 \(\Lambda(0)=0\)。

第三步：速率函数的定义与性质
Cramér定理的核心是引入一个称为速率函数的量，它量化了偏离期望的“代价”。

速率函数 \(I(x)\) 定义为累积量生成函数 \(\Lambda(\lambda)\) 的勒让德-芬切尔变换：

\[ I(x) = \sup_{\lambda \in \mathbb{R}} \{ \lambda x - \Lambda(\lambda) \}. \]

这个变换可以这样理解：对于每一个可能的均值 \(x\)，我们寻找一个参数 \(\lambda\)，使得 \(e^{\lambda x}\) 与 \(e^{\Lambda(\lambda)}\) 的差异（在对数尺度下）最大化。这个最大差异就是偏离的“成本” \(I(x)\)。
性质：
1. \(I(x)\) 是下半连续凸函数，取值在 \([0, +\infty]\) 之间。
2. \(I(x) \ge 0\)，且 \(I(\mu) = 0\)。这表明样本均值取到期望值“代价”最小。
3. \(I(x)\) 通常严格凸，在 \(x = \mu\) 处达到唯一的极小值0。
4. 如果 \(X_1\) 服从正态分布 \(N(\mu, \sigma^2)\)，可以计算出 \(I(x) = (x-\mu)^2 / (2\sigma^2)\)，这与正态分布的对数似然（或熵）形式一致。

第五步：Cramér定理的精确表述
现在我们给出完整的Cramér定理。设 \(\{X_i\}\) 为独立同分布的随机变量序列，累积量生成函数 \(\Lambda(\lambda)\) 在原点某个邻域内有限（即存在 \(t_0>0\) 使得 \(\Lambda(t)<\infty\) 对所有 \(|t| 成立）。记其速率函数为 \(I(x)\)。那么，对于 \(\mathbb{R}\) 中的任意波雷尔集 \(B\)，有：

上界：对任意闭集 \(F \subset \mathbb{R}\)，

\[ \limsup_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n \in F) \le -\inf_{x \in F} I(x). \]

下界：对任意开集 \(G \subset \mathbb{R}\)，

\[ \liminf_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n \in G) \ge -\inf_{x \in G} I(x). \]

这个定理通常简述为：\(P(\bar{X}_n \in B) \approx e^{-n \inf_{x \in B} I(x)}\)，在指数意义上精确成立。符号“\(\approx\)”表示对数的等价性。

第六步：一个经典特例与应用示例
考虑最简单的伯努利情况：设 \(X_i \sim \text{Bernoulli}(p)\)， \(p=0.5\)。计算其累积量生成函数：

\[\Lambda(\lambda) = \log(pe^{\lambda} + (1-p)) = \log(0.5e^\lambda + 0.5) = \log(\frac{e^\lambda+1}{2}). \]

通过勒让德变换，得到速率函数为：

\[I(x) = \sup_{\lambda} \{ \lambda x - \Lambda(\lambda) \} = x \log(\frac{x}{p}) + (1-x) \log(\frac{1-x}{1-p}), \quad x \in [0,1]. \]

这正是相对熵或Kullback-Leibler散度 \(D_{KL}(Ber(x) || Ber(p))\)。
现在，计算 \(P(\bar{X}_n > 0.7)\) 的指数衰减率。根据Cramér定理：

\[\lim_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n > 0.7) = -\inf_{x > 0.7} I(x). \]

由于 \(I(x)\) 在 \(x>0.5\) 时单调递增，下确界在 \(x=0.7\) 处取得。计算 \(I(0.7) = 0.7 \log(1.4) + 0.3 \log(0.6) \approx 0.7*0.3365 + 0.3*(-0.5108) = 0.083\)。
因此，\(P(\bar{X}_n > 0.7) \approx e^{-0.083n}\)，即概率以速率 \(0.083\) 指数衰减。这比用中心极限定理的尾部估计（如切尔诺夫界）更精确。

第七步：定理的深层含义、推广与重要性

精确指数衰减：Cramér定理不仅给出了概率的上界（像许多不等式那样），而且给出了精确的衰减指数，这是其强大之处。
最可能路径：集合 \(B\) 内的点 \(x^*\) 如果使 \(I(x)\) 最小，那么 \(\bar{X}_n\) 落入 \(B\) 的“最可能方式”就是落在 \(x^*\) 附近。\(I(x^*)\) 就是这个事件的“代价”。
与中心极限定理的关系：中心极限定理描述了在 \(\mu\) 附近 \(O(1/\sqrt{n})\) 尺度下的波动（正态分布），而Cramér定理描述了在 \(O(1)\) 尺度下的大偏差行为。两者是互补的。
推广：Cramér定理是大偏差原理的一个特例。大偏差原理可以推广到非独立序列（如马尔可夫链）、随机过程（如样本路径）和更一般的空间。Gärtner-Ellis定理是处理非独立同分布序列的重要推广，它只要求归一化累积量生成函数 \(\Lambda_n(\lambda)/n\) 的极限 \(\Lambda(\lambda)\) 存在且具有某些良好性质。
应用广泛：Cramér定理是统计力学、信息论、排队论、金融风险管理和统计推断中许多渐近分析的基础工具。例如，在假设检验中，它给出了两类错误概率的指数衰减速率（与斯坦引理相关）；在风险管理中，用于估计大型投资组合发生巨亏的概率。

总结，随机变量的变换的Cramér定理是大偏差理论的基石，它利用累积量生成函数的勒让德变换定义了速率函数，并精确刻画了样本均值发生大偏差概率的指数衰减行为，从另一个维度深刻揭示了随机现象的渐近规律。

随机变量的变换的Cramér定理我将从直观背景开始，循序渐进地讲解Cramér定理，确保每个概念都清晰准确。第一步：大偏差现象的直观引入在概率论中，我们熟知“大数定律”：独立同分布随机变量的样本平均值会收敛到其期望值。而“中心极限定理”则描述了样本平均值在期望值附近小范围波动的渐近分布（正态分布）。那么，一个自然的问题是：样本平均值远离其期望值（发生“大偏差”）的概率有多大？例如，抛一枚均匀硬币（正面概率p=0.5），抛n次后，出现正面频率超过0.7的概率是多少？当n很大时，这个概率会非常小。Cramér定理（也称为Cramér大偏差定理）精确地刻画了这种“小概率”的指数衰减速率。它是大偏差理论中最基本、最经典的结论之一。第二步：核心研究对象与数学准备考虑一个随机变量序列 \(\{X_ i\}\)，独立同分布，记其公共分布为 \(P\)，期望为 \(\mu = \mathbb{E}[ X_ 1]\)。定义其前n项的部分和为 \(S_ n = X_ 1 + ... + X_ n\)，样本均值为 \(\bar{X}_ n = S_ n / n\)。 Cramér定理关心的是，对于任意一个集合 \(A\)（通常不包含期望值\(\mu\)），概率 \(P(\bar{X}_ n \in A)\) 当 \(n \to \infty\) 时的衰减行为。为了描述这种指数衰减，我们需要一个关键工具—— 累积量生成函数。对于随机变量 \(X_ 1\)，其累积量生成函数定义为： \[ \Lambda(\lambda) = \log \mathbb{E}[ e^{\lambda X_ 1} ], \quad \lambda \in \mathbb{R}. \] 这个函数是矩生成函数的对数。它的定义域 \(D_ \Lambda = \{\lambda: \Lambda(\lambda) < \infty\}\) 是一个包含0的区间（可能是整个实数轴）。累积量生成函数 \(\Lambda(\lambda)\) 是凸函数，且 \(\Lambda(0)=0\)。第三步：速率函数的定义与性质 Cramér定理的核心是引入一个称为速率函数的量，它量化了偏离期望的“代价”。速率函数 \(I(x)\) 定义为累积量生成函数 \(\Lambda(\lambda)\) 的勒让德-芬切尔变换： \[ I(x) = \sup_ {\lambda \in \mathbb{R}} \{ \lambda x - \Lambda(\lambda) \}. \] 这个变换可以这样理解：对于每一个可能的均值 \(x\)，我们寻找一个参数 \(\lambda\)，使得 \(e^{\lambda x}\) 与 \(e^{\Lambda(\lambda)}\) 的差异（在对数尺度下）最大化。这个最大差异就是偏离的“成本” \(I(x)\)。性质： \(I(x)\) 是下半连续凸函数，取值在 \([ 0, +\infty ]\) 之间。 \(I(x) \ge 0\)，且 \(I(\mu) = 0\)。这表明样本均值取到期望值“代价”最小。 \(I(x)\) 通常严格凸，在 \(x = \mu\) 处达到唯一的极小值0。如果 \(X_ 1\) 服从正态分布 \(N(\mu, \sigma^2)\)，可以计算出 \(I(x) = (x-\mu)^2 / (2\sigma^2)\)，这与正态分布的对数似然（或熵）形式一致。第五步：Cramér定理的精确表述现在我们给出完整的Cramér定理。设 \(\{X_ i\}\) 为独立同分布的随机变量序列，累积量生成函数 \(\Lambda(\lambda)\) 在原点某个邻域内有限（即存在 \(t_ 0>0\) 使得 \(\Lambda(t)<\infty\) 对所有 \(|t|<t_ 0\) 成立）。记其速率函数为 \(I(x)\)。那么，对于 \(\mathbb{R}\) 中的任意波雷尔集 \(B\)，有：上界：对任意闭集 \(F \subset \mathbb{R}\)， \[ \limsup_ {n \to \infty} \frac{1}{n} \log P(\bar{X} n \in F) \le -\inf {x \in F} I(x). \] 下界：对任意开集 \(G \subset \mathbb{R}\)， \[ \liminf_ {n \to \infty} \frac{1}{n} \log P(\bar{X} n \in G) \ge -\inf {x \in G} I(x). \] 这个定理通常简述为：\(P(\bar{X} n \in B) \approx e^{-n \inf {x \in B} I(x)}\)，在指数意义上精确成立。符号“\(\approx\)”表示对数的等价性。第六步：一个经典特例与应用示例考虑最简单的伯努利情况：设 \(X_ i \sim \text{Bernoulli}(p)\)， \(p=0.5\)。计算其累积量生成函数： \[ \Lambda(\lambda) = \log(pe^{\lambda} + (1-p)) = \log(0.5e^\lambda + 0.5) = \log(\frac{e^\lambda+1}{2}). \] 通过勒让德变换，得到速率函数为： \[ I(x) = \sup_ {\lambda} \{ \lambda x - \Lambda(\lambda) \} = x \log(\frac{x}{p}) + (1-x) \log(\frac{1-x}{1-p}), \quad x \in [ 0,1 ]. \] 这正是相对熵或 Kullback-Leibler散度 \(D_ {KL}(Ber(x) || Ber(p))\)。现在，计算 \(P(\bar{X} n > 0.7)\) 的指数衰减率。根据Cramér定理： \[ \lim {n \to \infty} \frac{1}{n} \log P(\bar{X} n > 0.7) = -\inf {x > 0.7} I(x). \] 由于 \(I(x)\) 在 \(x>0.5\) 时单调递增，下确界在 \(x=0.7\) 处取得。计算 \(I(0.7) = 0.7 \log(1.4) + 0.3 \log(0.6) \approx 0.7 0.3365 + 0.3 (-0.5108) = 0.083\)。因此，\(P(\bar{X}_ n > 0.7) \approx e^{-0.083n}\)，即概率以速率 \(0.083\) 指数衰减。这比用中心极限定理的尾部估计（如切尔诺夫界）更精确。第七步：定理的深层含义、推广与重要性精确指数衰减：Cramér定理不仅给出了概率的上界（像许多不等式那样），而且给出了精确的衰减指数，这是其强大之处。最可能路径：集合 \(B\) 内的点 \(x^ \) 如果使 \(I(x)\) 最小，那么 \(\bar{X}_ n\) 落入 \(B\) 的“最可能方式”就是落在 \(x^ \) 附近。\(I(x^* )\) 就是这个事件的“代价”。与中心极限定理的关系：中心极限定理描述了在 \(\mu\) 附近 \(O(1/\sqrt{n})\) 尺度下的波动（正态分布），而Cramér定理描述了在 \(O(1)\) 尺度下的大偏差行为。两者是互补的。推广：Cramér定理是大偏差原理的一个特例。大偏差原理可以推广到非独立序列（如马尔可夫链）、随机过程（如样本路径）和更一般的空间。Gärtner-Ellis定理是处理非独立同分布序列的重要推广，它只要求归一化累积量生成函数 \(\Lambda_ n(\lambda)/n\) 的极限 \(\Lambda(\lambda)\) 存在且具有某些良好性质。应用广泛：Cramér定理是统计力学、信息论、排队论、金融风险管理和统计推断中许多渐近分析的基础工具。例如，在假设检验中，它给出了两类错误概率的指数衰减速率（与斯坦引理相关）；在风险管理中，用于估计大型投资组合发生巨亏的概率。总结，随机变量的变换的Cramér定理是大偏差理论的基石，它利用累积量生成函数的勒让德变换定义了速率函数，并精确刻画了样本均值发生大偏差概率的指数衰减行为，从另一个维度深刻揭示了随机现象的渐近规律。