随机变量的变换的Wishart分布
Wishart分布是定义在对称正定矩阵上的概率分布。它是多元统计中卡方分布的推广,在协方差矩阵的估计和多元正态分布的理论中扮演着核心角色。为了理解它,我们需要从基础概念逐步构建。
- 多元正态分布与散度矩阵
首先,考虑一个 \(p\) 维的随机向量 \(\mathbf{X}\),它服从均值为 \(\mathbf{0}\),协方差矩阵为 \(\mathbf{\Sigma}\) 的多元正态分布,记作 \(\mathbf{X} \sim N_p(\mathbf{0}, \mathbf{\Sigma})\)。
现在,假设我们有 \(n\) 个相互独立的这样的随机向量 \(\mathbf{X}_1, \mathbf{X}_2, \dots, \mathbf{X}_n\)(每个向量都是一次独立的 \(p\) 维观测)。一个关键的统计量是样本散度矩阵(或缩放后的样本协方差矩阵)\(\mathbf{S}\),它定义为:
\[ \mathbf{S} = \sum_{i=1}^n \mathbf{X}_i \mathbf{X}_i^T \]
这里,每个 \(\mathbf{X}_i \mathbf{X}_i^T\) 都是一个 \(p \times p\) 的矩阵(一个秩为1的对称半正定矩阵)。将 \(n\) 个这样的矩阵相加得到的 \(\mathbf{S}\),也是一个对称半正定矩阵。Wishart分布描述的就是这个矩阵 \(\mathbf{S}\) 的概率分布。
- Wishart分布的定义
如果 \(\mathbf{S} = \sum_{i=1}^n \mathbf{X}_i \mathbf{X}_i^T\),其中 \(\mathbf{X}_i \overset{\text{i.i.d.}}{\sim} N_p(\mathbf{0}, \mathbf{\Sigma})\)(即独立同分布于 \(p\) 维多元正态分布),那么我们称随机矩阵 \(\mathbf{S}\) 服从自由度为 \(n\)、尺度矩阵为 \(\mathbf{\Sigma}\) 的Wishart分布。记作:
\[ \mathbf{S} \sim W_p(n, \mathbf{\Sigma}) \]
这里,\(p\) 是矩阵的维数,\(n\) 是自由度(它等于用于求和的独立向量的个数),\(\mathbf{\Sigma}\) 是尺度矩阵(它是底层多元正态分布的协方差矩阵)。
-
与卡方分布的联系
当维度 \(p = 1\) 时,Wishart分布就退化为我们熟悉的一维分布。此时,尺度矩阵 \(\mathbf{\Sigma}\) 退化为一个标量方差 \(\sigma^2\)。随机向量 \(\mathbf{X}_i\) 退化为标量随机变量 \(X_i \sim N(0, \sigma^2)\)。
那么,散度矩阵 \(\mathbf{S}\) 退化为标量 \(S = \sum_{i=1}^n X_i^2\)。
我们知道,如果 \(X_i \sim N(0, 1)\),则 \(\sum_{i=1}^n X_i^2 \sim \chi^2(n)\)(自由度为 \(n\) 的卡方分布)。更一般地,如果 \(X_i \sim N(0, \sigma^2)\),则 \(\sum_{i=1}^n (X_i / \sigma)^2 = S / \sigma^2 \sim \chi^2(n)\)。
因此,在一维情况下,\(S \sim W_1(n, \sigma^2)\) 等价于 \(S / \sigma^2 \sim \chi^2(n)\)。所以,Wishart分布是多元情况下的卡方分布。 -
Wishart分布的概率密度函数
当自由度 \(n \ge p\) 时,随机矩阵 \(\mathbf{S}\) 是正定的概率为1,此时Wishart分布存在概率密度函数。其密度函数形式相对复杂,但结构清晰:
\[ f(\mathbf{S}) = \frac{1}{2^{np/2} |\mathbf{\Sigma}|^{n/2} \Gamma_p(\frac{n}{2})} |\mathbf{S}|^{(n-p-1)/2} \exp\left( -\frac{1}{2} \operatorname{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \]
其中:
- \(|\cdot|\) 表示矩阵的行列式。
- \(\operatorname{tr}(\cdot)\) 表示矩阵的迹(主对角线元素之和)。
- \(\Gamma_p(\cdot)\) 是多元Gamma函数,它是单变量Gamma函数的推广,定义为:
\[ \Gamma_p(a) = \pi^{p(p-1)/4} \prod_{j=1}^p \Gamma\left(a + \frac{1-j}{2}\right) \]
这个密度函数的形式体现了它与卡方分布的相似性:包含一个幂函数部分 \(|\mathbf{S}|^{(n-p-1)/2}\) 和一个指数部分 \(\exp\left( -\frac{1}{2} \operatorname{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right)\)。
- Wishart分布的性质
Wishart分布有一些非常重要的性质:
- 均值: \(E[\mathbf{S}] = n \mathbf{\Sigma}\)。这很直观,因为每个 \(\mathbf{X}_i \mathbf{X}_i^T\) 的期望是 \(\mathbf{\Sigma}\)。
- 可加性: 如果 \(\mathbf{S}_1 \sim W_p(n_1, \mathbf{\Sigma})\) 和 \(\mathbf{S}_2 \sim W_p(n_2, \mathbf{\Sigma})\) 相互独立,那么 \(\mathbf{S}_1 + \mathbf{S}_2 \sim W_p(n_1 + n_2, \mathbf{\Sigma})\)。这类似于卡方分布的可加性。
- 变换性: 如果 \(\mathbf{S} \sim W_p(n, \mathbf{\Sigma})\),且 \(\mathbf{A}\) 是一个 \(p \times p\) 的可逆矩阵,那么 \(\mathbf{A} \mathbf{S} \mathbf{A}^T \sim W_p(n, \mathbf{A} \mathbf{\Sigma} \mathbf{A}^T)\)。这个性质在推导很多统计量的分布时非常有用。
- Wishart分布的应用
Wishart分布最经典的应用是在多元正态分布的协方差矩阵估计中。假设我们有一个来自 \(N_p(\mathbf{\mu}, \mathbf{\Sigma})\) 的随机样本 \(\mathbf{Y}_1, \dots, \mathbf{Y}_m\)(注意这里均值不一定为0)。样本协方差矩阵(无偏估计)为:
\[ \hat{\mathbf{\Sigma}} = \frac{1}{m-1} \sum_{i=1}^m (\mathbf{Y}_i - \bar{\mathbf{Y}})(\mathbf{Y}_i - \bar{\mathbf{Y}})^T \]
可以证明,\((m-1)\hat{\mathbf{\Sigma}} \sim W_p(m-1, \mathbf{\Sigma})\)。因此,Wishart分布为研究样本协方差矩阵的抽样分布提供了理论基础,进而可以构建协方差矩阵的假设检验和置信区域。它也是构建Hotelling's T²统计量和Wilks' Λ统计量等多元检验统计量的基石。