随机变量的依分布收敛
字数 2655 2025-10-28 20:05:42

随机变量的依分布收敛

  1. 基本概念与动机
    在概率论与统计学中,研究随机变量序列的极限行为是一个核心课题。我们之前学习了大数定律和中心极限定理,它们都描述了一种“收敛”。这种收敛并非像数列极限那样是数值的趋近,而是随机变量整个分布规律的趋近。为了严格描述这种“分布规律趋近”的概念,我们引入了“依分布收敛”(Convergence in Distribution),也称为“弱收敛”(Weak Convergence)。

  2. 定义
    设有一列随机变量 \(X_1, X_2, X_3, \dots\),它们对应的累积分布函数(CDF)为 \(F_1(x), F_2(x), F_3(x), \dots\)。又设随机变量 \(X\) 的累积分布函数为 \(F(x)\)。如果对于 \(F(x)\) 的所有连续点 \(x\),都有

\[ \lim_{n \to \infty} F_n(x) = F(x) \]

成立,那么我们称随机变量序列 \(\{X_n\}\) 依分布收敛于随机变量 \(X\),记作 \(X_n \xrightarrow{d} X\)

  1. 深入理解定义的关键
  • 核心是分布函数,而非变量本身:依分布收敛关注的是分布函数的收敛性。即使 \(X_n\)\(X\) 定义在完全不同的概率空间上,只要它们的分布函数在极限上一致,收敛就成立。
  • 只要求在连续点处收敛:这是一个技术性要求。因为分布函数是右连续的,可能在某个点 \(x_0\) 有跳跃(即 \(P(X = x_0) > 0\))。如果要求在所有点(包括间断点)都收敛,条件会过于严苛。只要求在 \(F(x)\) 的连续点处收敛,足以保证分布规律的趋同。例如,如果极限分布 \(F(x)\) 是连续函数,那么上述极限就必须对所有 \(x\) 都成立。
  • 极限随机变量 \(X\) 的角色\(X\) 的本质是其分布 \(F(x)\)。有时我们直接说序列 \(\{X_n\}\) 依分布收敛于分布 \(F\),记作 \(X_n \xrightarrow{d} F\)
  1. 一个简单的例子
    考虑序列 \(\{X_n\}\),其中每个 \(X_n\) 都以概率 \(1/n\) 取值 \(n\),以概率 \(1 - 1/n\) 取值 \(0\)。即:

\[ P(X_n = n) = \frac{1}{n}, \quad P(X_n = 0) = 1 - \frac{1}{n} \]

其分布函数 \(F_n(x)\) 为:

\[ F_n(x) = \begin{cases} 0 & \text{若 } x < 0 \\ 1 - \frac{1}{n} & \text{若 } 0 \le x < n \\ 1 & \text{若 } x \ge n \end{cases} \]

现在考虑一个退化的随机变量 \(X\),满足 \(P(X = 0) = 1\)。其分布函数 \(F(x)\) 为:

\[ F(x) = \begin{cases} 0 & \text{若 } x < 0 \\ 1 & \text{若 } x \ge 0 \end{cases} \]

\(F(x)\)\(x=0\) 处有一个间断点。对于任意 \(x < 0\)\(F_n(x) = 0 \to 0 = F(x)\)。对于任意 \(x > 0\),当 \(n\) 足够大(使得 \(n > x\)),有 \(F_n(x) = 1 - 1/n \to 1 = F(x)\)。在间断点 \(x=0\) 处,我们不要求收敛。因此,根据定义,有 \(X_n \xrightarrow{d} X\)。这个例子也说明,即使 \(X_n\) 可以取非常大的值 (\(n\)),但随着 \(n\) 增大,它取大值的概率趋于零,其分布形态越来越集中于 \(0\) 附近。

  1. 与其他收敛方式的关系
    依分布收敛是随机变量收敛中最弱的一种形式。它与我们之前学过的其他收敛方式有如下关系:依概率收敛(Convergence in Probability)强于依分布收敛。即:

\[ \text{若 } X_n \xrightarrow{P} X, \quad \text{则必有 } X_n \xrightarrow{d} X。 \]

反之则不成立。在上面第4点的例子中,\(X_n\) 依分布收敛于 \(0\),但它并不依概率收敛于 \(0\)(因为 \(P(|X_n - 0| \ge \epsilon)\) 并不总是趋于 \(0\))。此外,均方收敛(Convergence in Mean Square)和几乎必然收敛(Almost Sure Convergence)也都强于依概率收敛,从而也强于依分布收敛。

  1. 连续映射定理
    这是一个极其重要且实用的定理。设函数 \(g(x)\) 是一个连续函数(或者仅在极限随机变量 \(X\) 的支撑集上连续)。如果 \(X_n \xrightarrow{d} X\),那么有:

\[ g(X_n) \xrightarrow{d} g(X) \]

这个定理告诉我们,一旦我们建立了序列的依分布收敛性,我们就可以将其推广到经过连续变换后的新序列上。这为证明许多极限定理提供了便利。
  1. 特征函数刻画
    利用我们之前学过的随机变量的特征函数,可以给出依分布收敛的一个非常强大的等价判别法。设 \(\phi_n(t)\)\(X_n\) 的特征函数,\(\phi(t)\)\(X\) 的特征函数。那么:

\[ X_n \xrightarrow{d} X \quad \text{当且仅当} \quad \lim_{n \to \infty} \phi_n(t) = \phi(t) \quad \text{对于所有 } t。 \]

也就是说,分布函数的收敛等价于特征函数的逐点收敛。这个判据在证明中心极限定理等复杂问题时非常有效,因为它将分布函数的收敛问题转化为更容易处理的特征函数(指数函数)的收敛问题。
随机变量的依分布收敛 基本概念与动机 在概率论与统计学中,研究随机变量序列的极限行为是一个核心课题。我们之前学习了大数定律和中心极限定理,它们都描述了一种“收敛”。这种收敛并非像数列极限那样是数值的趋近,而是随机变量整个分布规律的趋近。为了严格描述这种“分布规律趋近”的概念,我们引入了“依分布收敛”(Convergence in Distribution),也称为“弱收敛”(Weak Convergence)。 定义 设有一列随机变量 \( X_ 1, X_ 2, X_ 3, \dots \),它们对应的累积分布函数(CDF)为 \( F_ 1(x), F_ 2(x), F_ 3(x), \dots \)。又设随机变量 \( X \) 的累积分布函数为 \( F(x) \)。如果对于 \( F(x) \) 的所有连续点 \( x \),都有 \[ \lim_ {n \to \infty} F_ n(x) = F(x) \] 成立,那么我们称随机变量序列 \( \{X_ n\} \) 依分布收敛 于随机变量 \( X \),记作 \( X_ n \xrightarrow{d} X \)。 深入理解定义的关键 核心是分布函数,而非变量本身 :依分布收敛关注的是分布函数的收敛性。即使 \( X_ n \) 和 \( X \) 定义在完全不同的概率空间上,只要它们的分布函数在极限上一致,收敛就成立。 只要求在连续点处收敛 :这是一个技术性要求。因为分布函数是右连续的,可能在某个点 \( x_ 0 \) 有跳跃(即 \( P(X = x_ 0) > 0 \))。如果要求在所有点(包括间断点)都收敛,条件会过于严苛。只要求在 \( F(x) \) 的连续点处收敛,足以保证分布规律的趋同。例如,如果极限分布 \( F(x) \) 是连续函数,那么上述极限就必须对所有 \( x \) 都成立。 极限随机变量 \( X \) 的角色 :\( X \) 的本质是其分布 \( F(x) \)。有时我们直接说序列 \( \{X_ n\} \) 依分布收敛于分布 \( F \),记作 \( X_ n \xrightarrow{d} F \)。 一个简单的例子 考虑序列 \( \{X_ n\} \),其中每个 \( X_ n \) 都以概率 \( 1/n \) 取值 \( n \),以概率 \( 1 - 1/n \) 取值 \( 0 \)。即: \[ P(X_ n = n) = \frac{1}{n}, \quad P(X_ n = 0) = 1 - \frac{1}{n} \] 其分布函数 \( F_ n(x) \) 为: \[ F_ n(x) = \begin{cases} 0 & \text{若 } x < 0 \\ 1 - \frac{1}{n} & \text{若 } 0 \le x < n \\ 1 & \text{若 } x \ge n \end{cases} \] 现在考虑一个退化的随机变量 \( X \),满足 \( P(X = 0) = 1 \)。其分布函数 \( F(x) \) 为: \[ F(x) = \begin{cases} 0 & \text{若 } x < 0 \\ 1 & \text{若 } x \ge 0 \end{cases} \] \( F(x) \) 在 \( x=0 \) 处有一个间断点。对于任意 \( x < 0 \),\( F_ n(x) = 0 \to 0 = F(x) \)。对于任意 \( x > 0 \),当 \( n \) 足够大(使得 \( n > x \)),有 \( F_ n(x) = 1 - 1/n \to 1 = F(x) \)。在间断点 \( x=0 \) 处,我们不要求收敛。因此,根据定义,有 \( X_ n \xrightarrow{d} X \)。这个例子也说明,即使 \( X_ n \) 可以取非常大的值 (\( n \)),但随着 \( n \) 增大,它取大值的概率趋于零,其分布形态越来越集中于 \( 0 \) 附近。 与其他收敛方式的关系 依分布收敛是随机变量收敛中最弱的一种形式。它与我们之前学过的其他收敛方式有如下关系: 依概率收敛 (Convergence in Probability)强于依分布收敛。即: \[ \text{若 } X_ n \xrightarrow{P} X, \quad \text{则必有 } X_ n \xrightarrow{d} X。 \] 反之则不成立。在上面第4点的例子中,\( X_ n \) 依分布收敛于 \( 0 \),但它并不依概率收敛于 \( 0 \)(因为 \( P(|X_ n - 0| \ge \epsilon) \) 并不总是趋于 \( 0 \))。此外, 均方收敛 (Convergence in Mean Square)和 几乎必然收敛 (Almost Sure Convergence)也都强于依概率收敛,从而也强于依分布收敛。 连续映射定理 这是一个极其重要且实用的定理。设函数 \( g(x) \) 是一个连续函数(或者仅在极限随机变量 \( X \) 的支撑集上连续)。如果 \( X_ n \xrightarrow{d} X \),那么有: \[ g(X_ n) \xrightarrow{d} g(X) \] 这个定理告诉我们,一旦我们建立了序列的依分布收敛性,我们就可以将其推广到经过连续变换后的新序列上。这为证明许多极限定理提供了便利。 特征函数刻画 利用我们之前学过的 随机变量的特征函数 ,可以给出依分布收敛的一个非常强大的等价判别法。设 \( \phi_ n(t) \) 是 \( X_ n \) 的特征函数,\( \phi(t) \) 是 \( X \) 的特征函数。那么: \[ X_ n \xrightarrow{d} X \quad \text{当且仅当} \quad \lim_ {n \to \infty} \phi_ n(t) = \phi(t) \quad \text{对于所有 } t。 \] 也就是说,分布函数的收敛等价于特征函数的逐点收敛。这个判据在证明中心极限定理等复杂问题时非常有效,因为它将分布函数的收敛问题转化为更容易处理的特征函数(指数函数)的收敛问题。