好的,我们这次来学习一个概率论中用于衡量随机变量“尾部”概率的重要工具:切尔诺夫界。
切尔诺夫界
切尔诺夫界是一种在概率论中用于估计随机变量偏离其期望值概率的强大工具。它特别适用于随机变量之和,并且给出的界限随着偏离程度的增加而呈指数级衰减,这比我们之前学过的马尔可夫不等式或切比雪夫不等式要精确得多。
第一步:动机与基本思想
想象一个简单的场景:抛一枚均匀硬币 \(n\) 次,每次正面朝上的概率是 \(p = 0.5\)。设 \(S_n\) 为正面朝上的总次数。我们知道 \(S_n\) 的期望值是 \(\mathbb{E}[S_n] = np\)。
- 问题:我们如何估计 \(S_n\) 远大于其期望值 \(np\) 的概率?例如,我们想求 \(P(S_n \geq (1+\delta)np)\),其中 \(\delta > 0\) 是一个衡量相对偏离程度的参数。
- 已有工具的限制:
- 马尔可夫不等式:只能给出一个像 \(1/(1+\delta)\) 这样的界限,它衰减得太慢了(多项式衰减)。
- 切比雪夫不等式:利用方差,能给出 \(1/\delta^2\) 量级的界限,虽然比马尔可夫不等式好,但对于很多实际应用(如机器学习、算法分析)来说,仍然不够紧。
- 切尔诺夫界的核心思想:它利用了随机变量的矩母函数。矩母函数 \(M(t) = \mathbb{E}[e^{tX}]\) 包含了随机变量 \(X\) 的所有矩(均值、方差等)的信息。通过指数函数 \(e^{tX}\) 的放大作用,切尔诺夫界能够捕捉到 \(X\) 在尾部(极大值或极小值区域)的行为,从而得出指数级衰减的概率上界。
第二步:基础工具——矩母函数与马尔可夫不等式
为了推导切尔诺夫界,我们需要两个基础工具:
- 矩母函数:对于随机变量 \(X\),其矩母函数定义为 \(M_X(t) = \mathbb{E}[e^{tX}]\),其中 \(t\) 是一个实数。矩母函数的一个关键性质是:对于独立的随机变量 \(X\) 和 \(Y\),有 \(M_{X+Y}(t) = M_X(t) M_Y(t)\)。
- 马尔可夫不等式:对于非负随机变量 \(Y\) 和任意 \(a > 0\),有 \(P(Y \geq a) \leq \frac{\mathbb{E}[Y]}{a}\)。
切尔诺夫界的技巧在于,将马尔可夫不等式应用到一个精心构造的指数型非负随机变量上。
第三步:推导切尔诺夫界(上界)
我们以估计 \(P(X \geq a)\) 为例,其中 \(X\) 是任意随机变量。
对于任意 \(t > 0\),事件 \(\{X \geq a\}\) 等价于事件 \(\{e^{tX} \geq e^{ta}\}\)。由于指数函数是单调递增的,且 \(e^{tX}\) 是非负的,我们可以应用马尔可夫不等式:
\[P(X \geq a) = P(e^{tX} \geq e^{ta}) \leq \frac{\mathbb{E}[e^{tX}]}{e^{ta}} = e^{-ta} \mathbb{E}[e^{tX}] = e^{-ta} M_X(t) \]
这个不等式对 所有 \(t > 0\) 都成立。为了得到最紧的(最小的)上界,我们取使右边表达式最小的 \(t\) 值:
\[P(X \geq a) \leq \min_{t > 0} e^{-ta} M_X(t) \]
这个通用的形式就是切尔诺夫界。它的威力在于,我们可以通过选择最优的 \(t\) 来针对特定的随机变量分布得到一个非常精确的上界。
第四步:应用于独立随机变量之和(以伯努利试验为例)
切尔诺夫界最常用的情形是独立随机变量之和。设 \(X_1, X_2, \dots, X_n\) 是独立的随机变量,且 \(X_i \sim \text{Bernoulli}(p_i)\)(即 \(P(X_i=1)=p_i, P(X_i=0)=1-p_i\))。令 \(S_n = \sum_{i=1}^n X_i\),且 \(\mu = \mathbb{E}[S_n] = \sum_{i=1}^n p_i\)。
我们想求 \(P(S_n \geq (1+\delta)\mu)\),其中 \(\delta > 0\)。
- 应用通用形式:将 \(X\) 替换为 \(S_n\),\(a\) 替换为 \((1+\delta)\mu\)。
\[ P(S_n \geq (1+\delta)\mu) \leq \min_{t > 0} e^{-t(1+\delta)\mu} M_{S_n}(t) \]
- 利用独立性:由于 \(X_i\) 相互独立,\(S_n\) 的矩母函数是各个 \(X_i\) 矩母函数的乘积。
\[ M_{S_n}(t) = \prod_{i=1}^n M_{X_i}(t) = \prod_{i=1}^n (1 - p_i + p_i e^t) = \prod_{i=1}^n (1 + p_i(e^t - 1)) \]
- 使用不等式放缩:一个常用的技巧是利用不等式 \(1 + x \leq e^x\)(对所有实数 \(x\) 成立)。令 \(x = p_i(e^t - 1)\),我们有:
\[ M_{S_n}(t) \leq \prod_{i=1}^n e^{p_i(e^t - 1)} = e^{\sum_{i=1}^n p_i(e^t - 1)} = e^{\mu(e^t - 1)} \]
- 得到简化形式:将放缩后的矩母函数代回不等式:
\[ P(S_n \geq (1+\delta)\mu) \leq \min_{t > 0} e^{-t(1+\delta)\mu} \cdot e^{\mu(e^t - 1)} = \min_{t > 0} e^{\mu(e^t - 1 - t(1+\delta))} \]
-
选择最优的 \(t\):通过求导等优化方法,可以找到使右边指数部分最小的 \(t\) 值为 \(t = \ln(1+\delta)\)。将这个值代入,经过一系列代数运算,可以得到一个简洁而著名的形式:
切尔诺夫界(上界):
\[ P(S_n \geq (1+\delta)\mu) \leq \left( \frac{e^{\delta}}{(1+\delta)^{(1+\delta)}} \right)^{\mu}, \quad \text{对于所有 } \delta > 0 \]
类似地,我们可以推导出下界的版本(对于 \(0 < \delta < 1\)):
\[P(S_n \leq (1-\delta)\mu) \leq \left( \frac{e^{-\delta}}{(1-\delta)^{(1-\delta)}} \right)^{\mu} \]
第五步:更友好的近似形式
上述的精确形式虽然漂亮,但有时使用起来不方便。在实践中,我们经常使用一些更简单但稍弱一些的近似形式,它们更容易理解和计算。
常用近似形式:
-
对于上界 \(P(S_n \geq (1+\delta)\mu)\):
-
\(\leq e^{-\mu \delta^2 / 3}\),对 \(0 < \delta < 1\) 成立。
-
\(\leq e^{-\mu \delta^2 / (2 + \delta)}\),对 \(\delta > 0\) 成立(此形式更通用)。
-
对于下界 \(P(S_n \leq (1-\delta)\mu)\):
-
\(\leq e^{-\mu \delta^2 / 2}\),对 \(0 < \delta < 1\) 成立。
这些近似形式明确地展示了概率上界是如何随偏离程度 \(\delta\) 和期望值 \(\mu\) 呈指数级衰减的。例如,如果我们让试验次数 \(n\) 翻倍(从而 \(\mu\) 翻倍),那么偏离概率的上界会以平方级的速度衰减。
总结
切尔诺夫界的核心价值在于:
- 指数衰减:它提供了比马尔可夫不等式和切比雪夫不等式更紧的尾部概率界限。
- 适用于和式:它天然地适用于分析大量独立(或弱相关)随机试验的总和结果。
- 广泛应用:在随机算法分析、机器学习理论(如泛化误差分析)、通信理论和统计学中,切尔诺夫界是证明算法“高概率”正确或性能良好的关键工具。它让我们能够确信,当试验次数足够多时,随机变量的和几乎必然集中在其期望值附近。