随机变量的变换的Lindeberg–Feller 中心极限定理
好的,我们循序渐进地讲解这个概率论中的重要定理。
第一步:定理的背景与目标
首先,我们需要理解这个定理要解决什么问题。经典的中心极限定理(CLT)告诉我们:对一列独立同分布的随机变量序列,只要它们存在有限的期望和方差,其标准化后的和会依分布收敛到标准正态分布。
然而,在现实中,许多情况下的随机变量并不同分布。例如,在不同时间点的测量误差、不同来源的金融资产回报,其方差(或分布本身)可能各不相同。Lindeberg–Feller 中心极限定理 就是处理独立但不同分布的随机变量序列,在什么条件下,其和的分布会趋向于正态分布。它比经典CLT更具一般性,是中心极限理论的一个重要基石。
第二步:建立符号与初步概念
考虑一个随机变量序列 \(X_1, X_2, ..., X_n, ...\)。它们满足:
- 独立性:任意有限个 \(X_k\) 相互独立。
- 不同分布:每个 \(X_k\) 可以有不同的分布。
- 有限方差:设每个 \(X_k\) 的期望为 \(E[X_k] = \mu_k\),方差为 \(\text{Var}(X_k) = \sigma_k^2\),且 \(0 < \sigma_k^2 < \infty\)。
我们感兴趣的是这些变量的和 \(S_n = X_1 + X_2 + ... + X_n\) 的渐近分布。为了研究收敛,我们需要对其进行“标准化”(即中心化和缩放,使其期望为0,方差为1)。
定义第 \(k\) 个变量的中心化:\(Y_k = X_k - \mu_k\)。
则和的方差为:\(s_n^2 = \text{Var}(S_n) = \sum_{k=1}^n \sigma_k^2\)。
定义标准化的部分和为:
\[Z_n = \frac{S_n - E[S_n]}{\sqrt{\text{Var}(S_n)}} = \frac{\sum_{k=1}^n (X_k - \mu_k)}{s_n} = \sum_{k=1}^n \frac{Y_k}{s_n}. \]
第三步:理解收敛的必要条件——Feller 条件
在引入核心条件之前,有一个看似“技术性”但本质重要的条件,通常称为Feller条件:
\[\lim_{n \to \infty} \max_{1 \le k \le n} \frac{\sigma_k^2}{s_n^2} = 0. \]
这个条件意味着,随着 \(n\) 增大,序列中任何一个单独的随机变量的方差 \(\sigma_k^2\) 在总方差 \(s_n^2\) 中所占的比例都趋于零。换句话说,没有“单一”的随机变量能对总和的方差起主导作用。如果这个条件不满足,那么可能有一个“占优”的变量,使得总和的极限分布不会被“平均”成正态分布(可能被这个占优变量的分布所主导)。这个条件是独立不同分布随机变量和收敛于正态分布的一个必要条件。
第四步:核心充分条件——Lindeberg 条件
Lindeberg–Feller 定理的核心是一个称为 Lindeberg 条件 的充分条件。这个条件保证了“标准化”后的每个随机变量 \(Y_k / s_n\) 不会产生太大的“尾部”影响。
对于任意的 \(\epsilon > 0\),Lindeberg 条件定义为:
\[\lim_{n \to \infty} \frac{1}{s_n^2} \sum_{k=1}^n E\left[ Y_k^2 \cdot \mathbf{1}_{\{ |Y_k| \ge \epsilon s_n \}} \right] = 0. \]
让我们仔细拆解这个看似复杂的表达式:
- \(\mathbf{1}_{\{ A \}}\) 是指示函数,当事件 \(A\) 成立时为1,否则为0。
- \(|Y_k| \ge \epsilon s_n\) 是一个事件,表示第 \(k\) 个中心化随机变量的绝对值,大于等于一个“阈值” \(\epsilon s_n\)。由于 \(s_n\) 随着 \(n\) 增长,这个阈值会变得很大。
- \(E[ Y_k^2 \cdot \mathbf{1}_{\{ |Y_k| \ge \epsilon s_n \}} ]\) 衡量了第 \(k\) 个变量“远离中心”(即其绝对值超过大阈值 \(\epsilon s_n\))的那部分“能量”或“方差贡献”。它计算的是当 \(|Y_k|\) 很大时,其平方的期望。
- \(\frac{1}{s_n^2} \sum_{k=1}^n\) 表示将这些“大的偏差贡献”加起来,然后除以总方差 \(s_n^2\) 进行标准化。
Lindeberg条件的直观解释:当 \(n\) 很大时,对于任意给定的、无论多小的正数 \(\epsilon \,所有那些“相对于总波动 \( s_n\) 而言比较大”(即超过 \(\epsilon s_n\))的个体波动,它们集体的方差贡献在总方差 \(s_n^2\) 中的占比必须趋于零。也就是说,任何显著的个体偏差(尾部事件)对整个和的影响必须是渐近可忽略的。这保证了和的分布是由大量微小的、独立的冲击累积而成,从而孕育出钟形的正态分布。
第五步:定理的完整表述(Lindeberg–Feller 定理)
现在我们可以完整地陈述定理。它通常分为两个部分,体现了条件的充分性和必要性。
- Lindeberg 定理(充分性部分):
如果独立随机变量序列 \(\{X_k\}\) 满足 Lindeberg 条件,那么其标准化和 \(Z_n\) 依分布收敛于标准正态分布,即
\[ Z_n \xrightarrow{d} N(0,1)。 \]
并且,Lindeberg 条件**隐含着**前面提到的 Feller 条件。
- Feller 定理(必要性部分):
如果独立随机变量序列 \(\{X_k\}\) 满足:
- Feller 条件:\(\lim_{n \to \infty} \max_{1 \le k \le n} \frac{\sigma_k^2}{s_n^2} = 0\)。
- 标准化和 \(Z_n\) 依分布收敛于标准正态分布,即 \(Z_n \xrightarrow{d} N(0,1)\)。
那么,该序列必定满足 Lindeberg 条件。
第六步:定理的意义与应用实例
意义:
- 统一框架:该定理为独立随机变量和的正态收敛提供了一个非常一般的判据。经典同分布CLT是它的一个特例(可以验证,当变量同分布时,Lindeberg条件自动满足)。
- 尾部控制:Lindeberg条件精准地捕捉了收敛到正态分布的本质——个体变量的“重尾”行为必须受到控制,不能有任何一个或几个变量贡献了大部分的“异常”波动。
一个简单实例(验证):
考虑 \(X_k\) 独立,且 \(P(X_k = -k) = P(X_k = k) = 1/(2k^2)\), \(P(X_k = 0) = 1 - 1/k^2\)。
- 计算得 \(\mu_k = 0\), \(\sigma_k^2 = 1\)。
- 总方差 \(s_n^2 = n\)。
- Feller条件:\(\max_{k \le n} \sigma_k^2 / s_n^2 = 1/n \to 0\),满足。
- 现在检查Lindeberg条件。对于固定的 \(\epsilon > 0\),当 \(n\) 足够大时,只有那些 \(k\) 满足 \(k \ge \epsilon \sqrt{n}\) 的项,事件 \(\{ |X_k| \ge \epsilon s_n = \epsilon \sqrt{n} \}\) 才可能发生(因为 \(|X_k|\) 只取0或 \(k\))。对于这样的 \(k\),
\[ E[X_k^2 \cdot \mathbf{1}_{|X_k| \ge \epsilon \sqrt{n}}] = k^2 \cdot P(|X_k| = k) = k^2 \cdot (1/k^2) = 1。 \]
- 求和:\(\sum_{k=1}^n E[...]\) 约等于满足 \(k \ge \epsilon \sqrt{n}\) 的 \(k\) 的数量,这个数量小于 \(n\)。
- 因此,\((1/s_n^2) \sum_{k=1}^n ... \le n / n = 1\),但我们需要它趋于0。实际上,更精确的计算表明这个下界并不趋于0,所以Lindeberg条件不满足。事实上,这个序列的和不会收敛到正态分布,因为存在一些“偶尔很大”的 \(X_k\)(尽管概率很小),它们的影响不可忽略。这个例子说明了Lindeberg条件的严格性。
总之,Lindeberg–Feller 中心极限定理 为我们判断一大类独立但不同分布的随机扰动总和是否会导致正态结果,提供了一个既深刻又实用的理论工具。其核心思想在于通过Lindeberg条件,确保没有一个单独的、异常大的扰动能主导最终结果的分布形态。