随机变量的变换的Cramér-Wold定理
我们先从理解这个定理要解决什么问题开始。在概率论与统计学中,一个核心任务是确定一个随机向量的概率分布。一个随机向量由多个随机变量组成,其联合行为可能非常复杂。直接处理整个多元分布通常很困难。Cramér-Wold定理提供了一个极其强大的简化工具:它告诉我们,要确定一个随机向量的分布,我们不需要知道其所有可能的多维性质,而只需要研究它的所有可能的一维投影。
-
核心思想:一维投影确定整体分布
想象一个在三维空间中的物体(比如一个形状不规则的土豆)。我们想确定它的形状,但无法直接看到它的全貌。一个有效的方法是:用手电筒从所有可能的方向照射它,并观察在墙上投下的一维影子。Cramér-Wold定理在说,如果你知道了这个物体从 每一个可能方向 投下的一维影子的所有信息,那么你就能唯一地确定这个三维物体本身的形状。在数学上:
- “三维物体”就是我们要研究的 随机向量,记作 \(\mathbf{X} = (X_1, X_2, ..., X_d)^T\)。
- “一个照射方向”就是一个 单位向量(或者更一般地,任何非零向量)\(\mathbf{t} = (t_1, t_2, ..., t_d)^T \in \mathbb{R}^d\)。
- “一维影子”就是随机向量在该方向上的 线性投影,即一个一维随机变量:\(Y_{\mathbf{t}} = \mathbf{t}^T \mathbf{X} = t_1 X_1 + t_2 X_2 + ... + t_d X_d\)。
-
定理的精确表述
Cramér-Wold定理指出:两个随机向量 \(\mathbf{X}\) 和 \(\mathbf{Y}\)(在 \(\mathbb{R}^d\) 中)具有相同的概率分布,当且仅当,对于 所有 可能的向量 \(\mathbf{t} \in \mathbb{R}^d\),它们对应的线性投影 \(\mathbf{t}^T \mathbf{X}\) 和 \(\mathbf{t}^T \mathbf{Y}\) 具有相同的一维分布。用数学符号表示为:
\[ \mathbf{X} \stackrel{d}{=} \mathbf{Y} \quad \Longleftrightarrow \quad \forall \mathbf{t} \in \mathbb{R}^d, \quad \mathbf{t}^T \mathbf{X} \stackrel{d}{=} \mathbf{t}^T \mathbf{Y} \]
其中 \(\stackrel{d}{=}\) 表示“依分布相等”。
- 与特征函数的关系
这个定理之所以如此强大,是因为它可以和特征函数完美结合。回忆一下,一个随机变量 \(Z\) 的特征函数定义为 \(\phi_Z(u) = \mathbb{E}[e^{iuZ}]\),它唯一地决定了 \(Z\) 的分布。
- 随机向量 \(\mathbf{X}\) 的多元特征函数 是:
\[ \phi_{\mathbf{X}}(\mathbf{u}) = \mathbb{E}[e^{i \mathbf{u}^T \mathbf{X}}], \quad \mathbf{u} \in \mathbb{R}^d \]
- 现在,考虑 \(\mathbf{X}\) 在方向 \(\mathbf{t}\) 上的一维投影 \(Y_{\mathbf{t}} = \mathbf{t}^T \mathbf{X}\)。这个一维随机变量的特征函数是:
\[ \phi_{Y_{\mathbf{t}}}(s) = \mathbb{E}[e^{i s Y_{\mathbf{t}}}] = \mathbb{E}[e^{i s (\mathbf{t}^T \mathbf{X})}] = \mathbb{E}[e^{i (s\mathbf{t})^T \mathbf{X}}] \]
如果我们令 \(\mathbf{u} = s \mathbf{t}\),那么上式就变成了:
\[ \phi_{Y_{\mathbf{t}}}(s) = \phi_{\mathbf{X}}(s\mathbf{t}) \]
这个关系至关重要!它表明,随机向量 \(\mathbf{X}\) 的多元特征函数 \(\phi_{\mathbf{X}}(\cdot)\) 沿着任何一条通过原点的直线 \(\mathbf{u} = s\mathbf{t}\) 上的取值,正好就是其对应的一维投影 \(\mathbf{t}^T \mathbf{X}\) 的一元特征函数。
- 定理的证明思路
利用特征函数,Cramér-Wold定理的证明就变得非常直观:
- (⇒) 如果 \(\mathbf{X}\) 和 \(\mathbf{Y}\) 分布相同,那么它们的多元特征函数相同:\(\phi_{\mathbf{X}}(\mathbf{u}) = \phi_{\mathbf{Y}}(\mathbf{u})\)。那么对于任意固定的 \(\mathbf{t}\),令 \(\mathbf{u} = s\mathbf{t}\),我们有 \(\phi_{\mathbf{X}}(s\mathbf{t}) = \phi_{\mathbf{Y}}(s\mathbf{t})\)。根据上面的关系,这意味着 \(\phi_{\mathbf{t}^T\mathbf{X}}(s) = \phi_{\mathbf{t}^T\mathbf{Y}}(s})\)。由于特征函数唯一决定分布,所以 \(\mathbf{t}^T\mathbf{X} \stackrel{d}{=} \mathbf{t}^T\mathbf{Y}\)。
- (⇐) 如果对于所有 \(\mathbf{t}\),都有 \(\mathbf{t}^T\mathbf{X} \stackrel{d}{=} \mathbf{t}^T\mathbf{Y}\),那么它们的一维特征函数相等:\(\phi_{\mathbf{t}^T\mathbf{X}}(s) = \phi_{\mathbf{t}^T\mathbf{Y}}(s})\)。再次利用上面的关系,这意味着对于所有 \(s\) 和所有 \(\mathbf{t}\),有 \(\phi_{\mathbf{X}}(s\mathbf{t}) = \phi_{\mathbf{Y}}(s\mathbf{t})\)。由于 \(s\mathbf{t}\) 可以覆盖整个 \(\mathbb{R}^d\) 空间,所以 \(\phi_{\mathbf{X}}(\mathbf{u}) = \phi_{\mathbf{Y}}(\mathbf{u})\) 对所有 \(\mathbf{u} \in \mathbb{R}^d\) 成立。因此,\(\mathbf{X}\) 和 \(\mathbf{Y}\) 的分布相同。
- 应用与重要性
- 多元中心极限定理的证明:这是Cramér-Wold定理最经典的应用之一。要证明一个随机向量序列 \(\{\mathbf{X}_n\}\) 依分布收敛于一个多元正态分布 \(N(\boldsymbol{\mu}, \Sigma)\),根据此定理,我们只需要证明对于任意 \(\mathbf{t}\),其投影 \(\mathbf{t}^T \mathbf{X}_n\) 依分布收敛于一元正态分布 \(N(\mathbf{t}^T\boldsymbol{\mu}, \mathbf{t}^T\Sigma\mathbf{t})\) 即可。这就将一个复杂的多元问题简化为了一个相对简单的一元问题。
- ** goodness-of-fit 检验**:在统计学中,可以用它来检验一个多元样本是否来自某个特定的分布。通过检验所有(或足够多)方向上一维投影的分布是否与理论分布相符,来推断原向量的分布。
- 降维与可视化:它为我们提供了一种理论依据,即通过研究随机向量在不同方向上的一维投影,可以窥见其多元分布的结构。
总结来说,Cramér-Wold定理是一个深刻而优美的结果,它架起了多元概率分布与一元概率分布之间的桥梁,极大地简化了多元统计分析中的许多理论问题和证明过程。