随机变量的依分布收敛
-
基本概念与动机
在概率论与统计学中,研究随机变量序列的极限行为是一个核心课题。我们之前学习了大数定律和中心极限定理,它们都描述了一种“收敛”。这种收敛并非像数列极限那样是数值的趋近,而是随机变量整个分布规律的趋近。为了严格描述这种“分布规律趋近”的概念,我们引入了“依分布收敛”(Convergence in Distribution),也称为“弱收敛”(Weak Convergence)。 -
定义
设有一列随机变量 \(X_1, X_2, X_3, \dots\),它们对应的累积分布函数(CDF)为 \(F_1(x), F_2(x), F_3(x), \dots\)。又设随机变量 \(X\) 的累积分布函数为 \(F(x)\)。如果对于 \(F(x)\) 的所有连续点 \(x\),都有
\[ \lim_{n \to \infty} F_n(x) = F(x) \]
成立,那么我们称随机变量序列 \(\{X_n\}\) 依分布收敛于随机变量 \(X\),记作 \(X_n \xrightarrow{d} X\)。
- 深入理解定义的关键
- 核心是分布函数,而非变量本身:依分布收敛关注的是分布函数的收敛性。即使 \(X_n\) 和 \(X\) 定义在完全不同的概率空间上,只要它们的分布函数在极限上一致,收敛就成立。
- 只要求在连续点处收敛:这是一个技术性要求。因为分布函数是右连续的,可能在某个点 \(x_0\) 有跳跃(即 \(P(X = x_0) > 0\))。如果要求在所有点(包括间断点)都收敛,条件会过于严苛。只要求在 \(F(x)\) 的连续点处收敛,足以保证分布规律的趋同。例如,如果极限分布 \(F(x)\) 是连续函数,那么上述极限就必须对所有 \(x\) 都成立。
- 极限随机变量 \(X\) 的角色:\(X\) 的本质是其分布 \(F(x)\)。有时我们直接说序列 \(\{X_n\}\) 依分布收敛于分布 \(F\),记作 \(X_n \xrightarrow{d} F\)。
- 一个简单的例子
考虑序列 \(\{X_n\}\),其中每个 \(X_n\) 都以概率 \(1/n\) 取值 \(n\),以概率 \(1 - 1/n\) 取值 \(0\)。即:
\[ P(X_n = n) = \frac{1}{n}, \quad P(X_n = 0) = 1 - \frac{1}{n} \]
其分布函数 \(F_n(x)\) 为:
\[ F_n(x) = \begin{cases} 0 & \text{若 } x < 0 \\ 1 - \frac{1}{n} & \text{若 } 0 \le x < n \\ 1 & \text{若 } x \ge n \end{cases} \]
现在考虑一个退化的随机变量 \(X\),满足 \(P(X = 0) = 1\)。其分布函数 \(F(x)\) 为:
\[ F(x) = \begin{cases} 0 & \text{若 } x < 0 \\ 1 & \text{若 } x \ge 0 \end{cases} \]
\(F(x)\) 在 \(x=0\) 处有一个间断点。对于任意 \(x < 0\),\(F_n(x) = 0 \to 0 = F(x)\)。对于任意 \(x > 0\),当 \(n\) 足够大(使得 \(n > x\)),有 \(F_n(x) = 1 - 1/n \to 1 = F(x)\)。在间断点 \(x=0\) 处,我们不要求收敛。因此,根据定义,有 \(X_n \xrightarrow{d} X\)。这个例子也说明,即使 \(X_n\) 可以取非常大的值 (\(n\)),但随着 \(n\) 增大,它取大值的概率趋于零,其分布形态越来越集中于 \(0\) 附近。
- 与其他收敛方式的关系
依分布收敛是随机变量收敛中最弱的一种形式。它与我们之前学过的其他收敛方式有如下关系:依概率收敛(Convergence in Probability)强于依分布收敛。即:
\[ \text{若 } X_n \xrightarrow{P} X, \quad \text{则必有 } X_n \xrightarrow{d} X。 \]
反之则不成立。在上面第4点的例子中,\(X_n\) 依分布收敛于 \(0\),但它并不依概率收敛于 \(0\)(因为 \(P(|X_n - 0| \ge \epsilon)\) 并不总是趋于 \(0\))。此外,均方收敛(Convergence in Mean Square)和几乎必然收敛(Almost Sure Convergence)也都强于依概率收敛,从而也强于依分布收敛。
- 连续映射定理
这是一个极其重要且实用的定理。设函数 \(g(x)\) 是一个连续函数(或者仅在极限随机变量 \(X\) 的支撑集上连续)。如果 \(X_n \xrightarrow{d} X\),那么有:
\[ g(X_n) \xrightarrow{d} g(X) \]
这个定理告诉我们,一旦我们建立了序列的依分布收敛性,我们就可以将其推广到经过连续变换后的新序列上。这为证明许多极限定理提供了便利。
- 特征函数刻画
利用我们之前学过的随机变量的特征函数,可以给出依分布收敛的一个非常强大的等价判别法。设 \(\phi_n(t)\) 是 \(X_n\) 的特征函数,\(\phi(t)\) 是 \(X\) 的特征函数。那么:
\[ X_n \xrightarrow{d} X \quad \text{当且仅当} \quad \lim_{n \to \infty} \phi_n(t) = \phi(t) \quad \text{对于所有 } t。 \]
也就是说,分布函数的收敛等价于特征函数的逐点收敛。这个判据在证明中心极限定理等复杂问题时非常有效,因为它将分布函数的收敛问题转化为更容易处理的特征函数(指数函数)的收敛问题。