随机变量的变换的Wishart分布的Bartlett分解
Wishart分布是多元统计分析中一个非常重要的概率分布,它常被视为多元正态分布样本协方差矩阵的抽样分布。而Bartlett分解是处理Wishart分布的一个极其有用的工具,它能将复杂的Wishart随机矩阵分解为多个独立、简单的随机变量(通常是卡方分布和标准正态分布变量)的乘积形式,从而极大地简化了相关的概率计算和理论推导。下面,我们将循序渐进地理解它。
第一步:从多元正态分布样本到Wishart分布
首先,我们回顾Wishart分布是如何产生的。设 \(\mathbf{X}_1, \mathbf{X}_2, ..., \mathbf{X}_n\) 是 \(n\) 个独立同分布的 \(p\) 维随机向量,且 \(\mathbf{X}_i \sim N_p(\boldsymbol{0}, \boldsymbol{\Sigma})\),即服从均值为零向量、协方差矩阵为 \(\boldsymbol{\Sigma}\) 的 \(p\) 元正态分布。这里我们假设 \(n \ge p\),且 \(\boldsymbol{\Sigma}\) 是正定矩阵。
样本协方差矩阵(乘以自由度)定义为:
\[\mathbf{S} = \sum_{i=1}^{n} \mathbf{X}_i \mathbf{X}_i^T \]
其中,\(\mathbf{X}_i\) 是 \(p \times 1\) 的列向量,\(\mathbf{X}_i^T\) 是其转置(行向量)。这个 \(p \times p\) 的随机矩阵 \(\mathbf{S}\) 就服从自由度为 \(n\)、尺度矩阵为 \(\boldsymbol{\Sigma}\) 的Wishart分布,记作:
\[\mathbf{S} \sim W_p(n, \boldsymbol{\Sigma}) \]
其概率密度函数较为复杂,但核心性质是:当 \(p=1\),且 \(\boldsymbol{\Sigma}=1\) 时,Wishart分布退化为自由度为 \(n\) 的卡方分布 \(\chi^2_n\)。因此,Wishart分布是卡方分布在多元情形的推广。
第二步:Cholesky分解与标准正态样本矩阵
为了引出Bartlett分解,我们需要对数据进行“白化”处理。由于 \(\boldsymbol{\Sigma}\) 是正定矩阵,它可以进行Cholesky分解:
\[\boldsymbol{\Sigma} = \mathbf{L} \mathbf{L}^T \]
其中 \(\mathbf{L}\) 是一个 \(p \times p\) 的下三角矩阵,且对角元均为正数。
现在,我们的样本向量 \(\mathbf{X}_i \sim N_p(\boldsymbol{0}, \boldsymbol{\Sigma})\) 可以通过线性变换表示为:
\[\mathbf{X}_i = \mathbf{L} \mathbf{Z}_i \]
其中 \(\mathbf{Z}_i \sim N_p(\boldsymbol{0}, \mathbf{I}_p)\),即 \(\mathbf{Z}_i\) 的各个分量是独立的标准正态变量。这是因为:
\[\text{Cov}(\mathbf{L}\mathbf{Z}_i) = \mathbf{L} \, \text{Cov}(\mathbf{Z}_i) \, \mathbf{L}^T = \mathbf{L} \mathbf{I}_p \mathbf{L}^T = \boldsymbol{\Sigma} \]
第三步:将Wishart矩阵转化为样本内积矩阵
将所有的样本向量排列成一个 \(p \times n\) 的矩阵 \(\mathbf{X} = [\mathbf{X}_1, ..., \mathbf{X}_n]\),则Wishart矩阵可以写为:
\[\mathbf{S} = \mathbf{X} \mathbf{X}^T \]
利用 \(\mathbf{X}_i = \mathbf{L} \mathbf{Z}_i\),我们也可以将样本矩阵写为 \(\mathbf{X} = \mathbf{L} \mathbf{Z}\),其中 \(\mathbf{Z} = [\mathbf{Z}_1, ..., \mathbf{Z}_n]\) 是一个 \(p \times n\) 的矩阵,其所有元素都是独立同分布的标准正态变量 \(N(0,1)\)。
于是:
\[\mathbf{S} = \mathbf{L} \mathbf{Z} (\mathbf{L} \mathbf{Z})^T = \mathbf{L} (\mathbf{Z} \mathbf{Z}^T) \mathbf{L}^T \]
注意,这里 \(\mathbf{Z} \mathbf{Z}^T\) 本身也是一个Wishart矩阵,但它服从尺度矩阵为单位矩阵 \(\mathbf{I}_p\) 的Wishart分布,即 \(\mathbf{Z} \mathbf{Z}^T \sim W_p(n, \mathbf{I}_p)\)。这种形式被称为中心Wishart分布。
第四步:Bartlett分解的核心思想
Bartlett分解的核心目标,就是将 \(\mathbf{Z} \mathbf{Z}^T\) 这个随机矩阵分解成一个下三角矩阵与其转置的乘积,并且这个下三角矩阵的元素是相互独立的、且服从我们熟悉的分布。
具体来说,我们寻找一个 \(p \times p\) 的下三角矩阵 \(\mathbf{T}\),使得:
\[\mathbf{Z} \mathbf{Z}^T = \mathbf{T} \mathbf{T}^T \]
并且要求 \(\mathbf{T}\) 满足以下条件:
- 对角元 \(T_{ii} > 0\)。
- 非对角元 \(T_{ij}\)(当 \(i > j\) 时)可以是任意实数。
- 这些元素相互独立,并且有非常简单的分布:
- 对角元 \(T_{ii}^2 \sim \chi^2_{n-i+1}\)。
- 非对角元 \(T_{ij} \sim N(0, 1)\)。
第五步:为什么这个分解成立?其几何与代数解释
这个分解可以通过对样本矩阵 \(\mathbf{Z}\) 进行Gram-Schmidt正交化过程来理解。想象 \(\mathbf{Z}\) 的每一行是一个 \(n\) 维向量。Gram-Schmidt过程实质上是将这些向量依次投影到前面所有向量张成的子空间的正交补空间上。
- 第一步:第一个向量 \(\mathbf{z}_1\)(即 \(\mathbf{Z}\) 的第一行)的模长的平方 \(\|\mathbf{z}_1\|^2 = T_{11}^2\)。由于 \(\mathbf{z}_1\) 的 \(n\) 个分量独立同分布于 \(N(0,1)\),所以 \(T_{11}^2 \sim \chi^2_n\)。
- 第二步:从第二个向量 \(\mathbf{z}_2\) 中减去它在 \(\mathbf{z}_1\) 方向上的投影,得到残差向量。这个残差向量的模长平方 \(T_{22}^2 \sim \chi^2_{n-1}\),因为我们在一个一维子空间上进行了投影,损失了1个自由度。同时,投影系数 \(T_{21} \sim N(0,1)\)。
- 第 \(i\) 步:对第 \(i\) 个向量 \(\mathbf{z}_i\),减去它在前面 \(i-1\) 个向量张成的子空间上的投影,得到的残差向量与前面所有向量正交。其模长的平方 \(T_{ii}^2 \sim \chi^2_{n-i+1}\)(因为用掉了 \(i-1\) 个自由度)。而投影系数(即 \(T_{i1}, T_{i2}, ..., T_{i,i-1}\))都服从 \(N(0,1)\)。
这个过程恰好生成了一个下三角矩阵 \(\mathbf{T}\),使得 \(\mathbf{Z} = \mathbf{T} \mathbf{U}\),其中 \(\mathbf{U}\) 是一个行正交矩阵(但不是方阵)。那么 \(\mathbf{Z} \mathbf{Z}^T = (\mathbf{T} \mathbf{U})(\mathbf{U}^T \mathbf{T}^T) = \mathbf{T} (\mathbf{U} \mathbf{U}^T) \mathbf{T}^T = \mathbf{T} \mathbf{T}^T\),因为 \(\mathbf{U}\) 的行是正交的,在 \(p \times p\) 的空间中 \(\mathbf{U} \mathbf{U}^T = \mathbf{I}_p\)。
第六步:Bartlett分解的完整表述与意义
将以上步骤整合,我们得到Bartlett分解定理:
设 \(\mathbf{A} \sim W_p(n, \mathbf{I}_p)\),其中 \(n \ge p\)。则存在一个唯一的 \(p \times p\) 下三角矩阵 \(\mathbf{T}\) 满足 \(\mathbf{A} = \mathbf{T} \mathbf{T}^T\),且 \(\mathbf{T}\) 的元素相互独立,分布为:
- 非对角元 \(T_{ij} \sim N(0, 1)\),对于 \(i > j\)。
- 对角元 \(T_{ii}^2 \sim \chi^2_{n-i+1}\),且 \(T_{ii} > 0\)。
这个分解的威力在于:
- 降维与解耦:它将一个结构复杂的随机矩阵 \(\mathbf{A}\) 的分布,转化为 \(p(p+1)/2\) 个独立的、分布已知的一维随机变量的联合分布。这使得计算 \(\mathbf{A}\) 的矩、行列式分布、特征值分布等问题变得可行。
- 抽样:要生成一个 \(W_p(n, \mathbf{I}_p)\) 分布的随机矩阵,我们不再需要生成庞大的 \(p \times n\) 样本矩阵 \(\mathbf{Z}\) 再计算 \(\mathbf{Z}\mathbf{Z}^T\)。我们只需按上述独立分布生成 \(\mathbf{T}\) 的元素,然后计算 \(\mathbf{T} \mathbf{T}^T\) 即可,计算量从 \(O(np^2)\) 降为 \(O(p^3)\)。
- 推广到一般尺度矩阵:对于一般的 \(\mathbf{S} \sim W_p(n, \boldsymbol{\Sigma})\),我们有 \(\mathbf{S} \overset{d}{=} \mathbf{L} \mathbf{A} \mathbf{L}^T\),其中 \(\mathbf{A} \sim W_p(n, \mathbf{I}_p)\)。对 \(\mathbf{A}\) 进行Bartlett分解得 \(\mathbf{A} = \mathbf{T} \mathbf{T}^T\),则 \(\mathbf{S} = \mathbf{L} \mathbf{T} (\mathbf{L} \mathbf{T})^T\)。这意味着 \(\mathbf{L} \mathbf{T}\) 是 \(\mathbf{S}\) 的一种“广义”Cholesky因子,但它不再是元素独立的。
总结:Bartlett分解是多元统计分析中一个强大而优雅的工具。它将Wishart矩阵——这个由多元正态样本二阶矩构成的复杂随机对象——分解为一组独立的、服从标准分布(卡方和正态)的随机变量。这种分解不仅极大地简化了理论分析,也为数值模拟和高维统计推断提供了高效的算法基础。