随机变量的变换的Cramér定理
我将从直观背景开始,循序渐进地讲解Cramér定理,确保每个概念都清晰准确。
第一步:大偏差现象的直观引入
在概率论中,我们熟知“大数定律”:独立同分布随机变量的样本平均值会收敛到其期望值。而“中心极限定理”则描述了样本平均值在期望值附近小范围波动的渐近分布(正态分布)。那么,一个自然的问题是:样本平均值远离其期望值(发生“大偏差”)的概率有多大?例如,抛一枚均匀硬币(正面概率p=0.5),抛n次后,出现正面频率超过0.7的概率是多少?当n很大时,这个概率会非常小。Cramér定理(也称为Cramér大偏差定理)精确地刻画了这种“小概率”的指数衰减速率。它是大偏差理论中最基本、最经典的结论之一。
第二步:核心研究对象与数学准备
考虑一个随机变量序列 \(\{X_i\}\),独立同分布,记其公共分布为 \(P\),期望为 \(\mu = \mathbb{E}[X_1]\)。定义其前n项的部分和为 \(S_n = X_1 + ... + X_n\),样本均值为 \(\bar{X}_n = S_n / n\)。
Cramér定理关心的是,对于任意一个集合 \(A\)(通常不包含期望值\(\mu\)),概率 \(P(\bar{X}_n \in A)\) 当 \(n \to \infty\) 时的衰减行为。为了描述这种指数衰减,我们需要一个关键工具——累积量生成函数。
- 对于随机变量 \(X_1\),其累积量生成函数定义为:
\[ \Lambda(\lambda) = \log \mathbb{E}[e^{\lambda X_1}], \quad \lambda \in \mathbb{R}. \]
- 这个函数是矩生成函数的对数。它的定义域 \(D_\Lambda = \{\lambda: \Lambda(\lambda) < \infty\}\) 是一个包含0的区间(可能是整个实数轴)。
- 累积量生成函数 \(\Lambda(\lambda)\) 是凸函数,且 \(\Lambda(0)=0\)。
第三步:速率函数的定义与性质
Cramér定理的核心是引入一个称为速率函数的量,它量化了偏离期望的“代价”。
- 速率函数 \(I(x)\) 定义为累积量生成函数 \(\Lambda(\lambda)\) 的勒让德-芬切尔变换:
\[ I(x) = \sup_{\lambda \in \mathbb{R}} \{ \lambda x - \Lambda(\lambda) \}. \]
- 这个变换可以这样理解:对于每一个可能的均值 \(x\),我们寻找一个参数 \(\lambda\),使得 \(e^{\lambda x}\) 与 \(e^{\Lambda(\lambda)}\) 的差异(在对数尺度下)最大化。这个最大差异就是偏离的“成本” \(I(x)\)。
- 性质:
- \(I(x)\) 是下半连续凸函数,取值在 \([0, +\infty]\) 之间。
- \(I(x) \ge 0\),且 \(I(\mu) = 0\)。这表明样本均值取到期望值“代价”最小。
- \(I(x)\) 通常严格凸,在 \(x = \mu\) 处达到唯一的极小值0。
- 如果 \(X_1\) 服从正态分布 \(N(\mu, \sigma^2)\),可以计算出 \(I(x) = (x-\mu)^2 / (2\sigma^2)\),这与正态分布的对数似然(或熵)形式一致。
第五步:Cramér定理的精确表述
现在我们给出完整的Cramér定理。设 \(\{X_i\}\) 为独立同分布的随机变量序列,累积量生成函数 \(\Lambda(\lambda)\) 在原点某个邻域内有限(即存在 \(t_0>0\) 使得 \(\Lambda(t)<\infty\) 对所有 \(|t|
- 上界:对任意闭集 \(F \subset \mathbb{R}\),
\[ \limsup_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n \in F) \le -\inf_{x \in F} I(x). \]
- 下界:对任意开集 \(G \subset \mathbb{R}\),
\[ \liminf_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n \in G) \ge -\inf_{x \in G} I(x). \]
这个定理通常简述为:\(P(\bar{X}_n \in B) \approx e^{-n \inf_{x \in B} I(x)}\),在指数意义上精确成立。符号“\(\approx\)”表示对数的等价性。
第六步:一个经典特例与应用示例
考虑最简单的伯努利情况:设 \(X_i \sim \text{Bernoulli}(p)\), \(p=0.5\)。计算其累积量生成函数:
\[\Lambda(\lambda) = \log(pe^{\lambda} + (1-p)) = \log(0.5e^\lambda + 0.5) = \log(\frac{e^\lambda+1}{2}). \]
通过勒让德变换,得到速率函数为:
\[I(x) = \sup_{\lambda} \{ \lambda x - \Lambda(\lambda) \} = x \log(\frac{x}{p}) + (1-x) \log(\frac{1-x}{1-p}), \quad x \in [0,1]. \]
这正是相对熵或Kullback-Leibler散度 \(D_{KL}(Ber(x) || Ber(p))\)。
现在,计算 \(P(\bar{X}_n > 0.7)\) 的指数衰减率。根据Cramér定理:
\[\lim_{n \to \infty} \frac{1}{n} \log P(\bar{X}_n > 0.7) = -\inf_{x > 0.7} I(x). \]
由于 \(I(x)\) 在 \(x>0.5\) 时单调递增,下确界在 \(x=0.7\) 处取得。计算 \(I(0.7) = 0.7 \log(1.4) + 0.3 \log(0.6) \approx 0.7*0.3365 + 0.3*(-0.5108) = 0.083\)。
因此,\(P(\bar{X}_n > 0.7) \approx e^{-0.083n}\),即概率以速率 \(0.083\) 指数衰减。这比用中心极限定理的尾部估计(如切尔诺夫界)更精确。
第七步:定理的深层含义、推广与重要性
- 精确指数衰减:Cramér定理不仅给出了概率的上界(像许多不等式那样),而且给出了精确的衰减指数,这是其强大之处。
- 最可能路径:集合 \(B\) 内的点 \(x^*\) 如果使 \(I(x)\) 最小,那么 \(\bar{X}_n\) 落入 \(B\) 的“最可能方式”就是落在 \(x^*\) 附近。\(I(x^*)\) 就是这个事件的“代价”。
- 与中心极限定理的关系:中心极限定理描述了在 \(\mu\) 附近 \(O(1/\sqrt{n})\) 尺度下的波动(正态分布),而Cramér定理描述了在 \(O(1)\) 尺度下的大偏差行为。两者是互补的。
- 推广:Cramér定理是大偏差原理的一个特例。大偏差原理可以推广到非独立序列(如马尔可夫链)、随机过程(如样本路径)和更一般的空间。Gärtner-Ellis定理是处理非独立同分布序列的重要推广,它只要求归一化累积量生成函数 \(\Lambda_n(\lambda)/n\) 的极限 \(\Lambda(\lambda)\) 存在且具有某些良好性质。
- 应用广泛:Cramér定理是统计力学、信息论、排队论、金融风险管理和统计推断中许多渐近分析的基础工具。例如,在假设检验中,它给出了两类错误概率的指数衰减速率(与斯坦引理相关);在风险管理中,用于估计大型投资组合发生巨亏的概率。
总结,随机变量的变换的Cramér定理是大偏差理论的基石,它利用累积量生成函数的勒让德变换定义了速率函数,并精确刻画了样本均值发生大偏差概率的指数衰减行为,从另一个维度深刻揭示了随机现象的渐近规律。