随机变量的变换的Lindeberg替换方法
我将循序渐进地讲解Lindeberg替换方法。这个方法在概率极限理论,特别是中心极限定理的证明中,扮演着核心角色。它提供了一种巧妙的技巧,能将复杂的、相互依赖的随机变量之和,用一系列更简单、易于处理的随机变量来逐步替换和逼近,从而研究其极限分布。
步骤一:背景与问题设定
首先,我们需要明确这个方法要解决的核心问题。
- 核心问题:在概率论中,中心极限定理研究的是,大量独立(或弱相关)随机变量之和,在适当标准化后,其分布收敛到标准正态分布。但直接对原始变量之和进行分析往往非常困难,尤其是当这些变量可能不具有相同的分布,或者需要考虑其精确的收敛速度时。
- 思路启发:Lindeberg替换方法的核心理念是“逐步替换”。想象我们有一串独立的随机变量 \(X_1, X_2, ..., X_n\),它们的和 \(S_n = X_1 + ... + X_n\) 是我们研究的对象。Lindeberg的想法是:如果我们能一步步地把每个 \(X_k\) 替换成一个方差相同、但服从正态分布的随机变量 \(Y_k\),那么替换后的和 \(T_n = Y_1 + ... + Y_n\) 自然就是正态的。然后,关键在于证明,随着替换的进行,原始和 \(S_n\) 的分布与替换后和 \(T_n\) 的分布之间的差异(例如,用特征函数度量的差异)可以控制得任意小。
- 关键工具:这个方法的核心数学工具是特征函数。随机变量 \(X\) 的特征函数定义为 \(\phi_X(t) = \mathbb{E}[e^{itX}]\)。分布函数与特征函数之间存在一一对应关系,且特征函数对于独立和的处理非常方便:\(\phi_{S_n}(t) = \prod_{k=1}^n \phi_{X_k}(t)\)。
步骤二:Lindeberg替换的基本框架
接下来,我们建立替换方法的形式化框架。
- 设定标准化条件:为使极限是非退化的正态分布,我们通常考虑标准化后的和。令 \(\mathbb{E}[X_k] = 0\)(可以通过中心化实现), \(\text{Var}(X_k) = \sigma_k^2\),且令 \(s_n^2 = \sum_{k=1}^n \sigma_k^2\)。我们关心的是 \(S_n / s_n\) 的分布。为简化符号,我们可以直接假设 \(s_n^2 = 1\)(这可以通过考虑 \(X_k / s_n\) 来实现)。所以,我们有一列独立的随机变量 \(X_1, ..., X_n\),满足 \(\mathbb{E}[X_k] = 0\), \(\sum_{k=1}^n \mathbb{E}[X_k^2] = 1\)。
- 构造替换序列:对应每个 \(X_k\),我们构造一个正态随机变量 \(Y_k\),使得 \(\mathbb{E}[Y_k] = 0\) 且 \(\mathbb{E}[Y_k^2] = \mathbb{E}[X_k^2] = \sigma_k^2\)。也就是说,\(Y_k \sim N(0, \sigma_k^2)\)。这些 \(Y_k\) 也相互独立。
- 定义中间混合变量:Lindeberg替换的精妙之处在于逐步替换。我们定义一系列“混合”随机向量:
- \(Z^{(0)} = (X_1, X_2, ..., X_n)\):全是原始变量。
- \(Z^{(1)} = (Y_1, X_2, ..., X_n)\):第一个被替换。
- \(Z^{(2)} = (Y_1, Y_2, ..., X_n)\):前两个被替换。
- ...
- \(Z^{(n)} = (Y_1, Y_2, ..., Y_n)\):全部被替换。
令 \(S^{(j)}_n\) 表示向量 \(Z^{(j)}\) 中所有分量的和。特别地,\(S^{(0)}_n = S_n\)(原始和), \(S^{(n)}_n = T_n\)(正态和)。
步骤三:核心引理与递推控制
现在,我们分析每替换一个变量所带来的分布变化。
- 特征函数分解:我们比较 \(S^{(j-1)}_n\) 和 \(S^{(j)}_n\) 的特征函数。注意,从 \(S^{(j-1)}_n\) 到 \(S^{(j)}_n\),唯一的区别是将第 \(j\) 个分量从 \(X_j\) 换成了 \(Y_j\),而其他 \(n-1\) 个分量完全相同。利用独立性,我们可以写出:
\[ \phi_{S^{(j-1)}_n}(t) = \phi_{U_{j-1}}(t) \cdot \phi_{X_j}(t) \]
\[ \phi_{S^{(j)}_n}(t) = \phi_{U_{j-1}}(t) \cdot \phi_{Y_j}(t) \]
其中 \(U_{j-1} = \sum_{k=1}^{j-1} Y_k + \sum_{k=j+1}^{n} X_k\) 是除第 \(j\) 个分量外所有变量的和,它与 \(X_j\) 和 \(Y_j\) 都独立。
2. 单步差异的界:目标是控制 \(|\phi_{S^{(j-1)}_n}(t) - \phi_{S^{(j)}_n}(t)|\)。根据上面的分解,有:
\[ |\phi_{S^{(j-1)}_n}(t) - \phi_{S^{(j)}_n}(t)| = |\phi_{U_{j-1}}(t)| \cdot |\phi_{X_j}(t) - \phi_{Y_j}(t)| \le |\phi_{X_j}(t) - \phi_{Y_j}(t)| \]
因为特征函数的模 \(|\phi_{U_{j-1}}(t)| \le 1\)。
3. 控制特征函数之差:这是最关键的技术步骤。我们利用特征函数的泰勒展开。对于均值为零、方差为 \(\sigma_j^2\) 的随机变量 \(Z\)(无论是 \(X_j\) 还是 \(Y_j\)),其展开式为:
\[ \phi_Z(t) = 1 - \frac{1}{2} t^2 \sigma_j^2 + R_Z(t), \quad \text{其中} |R_Z(t)| \le \mathbb{E}[ \min(\frac{|t|^3 |Z|^3}{6}, t^2 Z^2) ]。 \]
这个余项估计是关键。对于正态变量 \(Y_j\),高阶矩有良好性质,余项 \(R_{Y_j}(t)\) 可以精确控制(例如,与 \(|t|^3 \sigma_j^3\) 成正比)。对于 \(X_j\),余项 \(R_{X_j}(t)\) 依赖于其三阶矩(或更一般地,其尾部行为)。
4. Lindeberg条件:为了保证最终替换后差异的总和趋于零,需要对单个变量 \(X_j\) 施加一个一致可忽略性条件,即著名的Lindeberg条件:对于任意 \(\epsilon > 0\),
\[ \lim_{n \to \infty} \frac{1}{s_n^2} \sum_{k=1}^n \mathbb{E}[X_k^2 \cdot \mathbb{I}(|X_k| > \epsilon s_n)] = 0。 \]
这个条件的直观意义是:当 \(n\) 很大时,标准化后 (\(s_n = 1\)) 的每个 \(X_k\),其“大的”异常值(幅度超过任意给定 \(\epsilon\) 的部分)对总方差的贡献可以忽略不计。这保证了没有单个变量能主导整个和,使得用正态变量替换每个“小”变量是合理的。
步骤四:完成证明与结论
最后,我们将单步控制累加起来,并得到最终的收敛结果。
- 误差累加:利用三角不等式,原始和与正态和的特征函数之差,可以被每一步替换的差异之和所控制:
\[ |\phi_{S_n}(t) - \phi_{T_n}(t)| \le \sum_{j=1}^n |\phi_{S^{(j-1)}_n}(t) - \phi_{S^{(j)}_n}(t)| \le \sum_{j=1}^n |\phi_{X_j}(t) - \phi_{Y_j}(t)|。 \]
- 在Lindeberg条件下趋于零:将步骤三中的泰勒展开与余项估计代入上式。通过细致地处理余项 \(R_{X_j}(t)\) 和 \(R_{Y_j}(t)\),并利用Lindeberg条件,可以证明对于任意固定的 \(t\),当 \(n \to \infty\) 时,右边的求和趋于零。即:
\[ \lim_{n \to \infty} |\phi_{S_n/s_n}(t) - e^{-t^2/2}| = 0。 \]
这里 \(e^{-t^2/2}\) 是标准正态分布的特征函数。
3. Lévy连续性定理的应用:特征函数的逐点收敛(且极限函数 \(e^{-t^2/2}\) 在 \(t=0\) 处连续),根据Lévy连续性定理,等价于分布函数的收敛。这就证明了在Lindeberg条件下,标准化和 \(S_n / s_n\) 依分布收敛于标准正态分布。这正是Lindeberg-Feller中心极限定理。
总结:Lindeberg替换方法的核心贡献在于,它提供了一个清晰、模块化的证明框架。它将一个复杂的全局收敛问题,分解为一系列局部替换问题。通过控制每一步用正态变量替换原始变量时带来的微小误差(这需要Lindeberg条件来保证每个变量都是“温和”的),并将这些微小误差累加起来证明其总体可忽略,最终确立了和的渐近正态性。这种方法不仅优美,而且其思想——通过构造一个易于分析的对象(正态和)来逼近目标对象,并严格控制逼近误差——在概率论和统计学的许多其他领域也有广泛应用。