正态分布的Wishart分布
-
从标量到矩阵的延伸:动机与背景
在概率论与统计中,我们经常需要研究多个随机变量构成的向量,其联合分布可能是多元正态分布。当我们考虑来自多元正态总体的多个独立样本时,一个关键的统计量是样本协方差矩阵。这个矩阵是随机变量,其概率分布就是Wishart分布。因此,Wishart分布本质上是样本协方差矩阵的抽样分布,是卡方分布在多元正态情况下的矩阵推广。理解它,是进行多元统计分析(如假设检验、主成分分析、因子分析等)的基础。 -
定义与基本结构
设我们有 \(p\) 维的随机向量 \(\mathbf{X}\),它服从均值为 \(\mathbf{0}\)、协方差矩阵为 \(\mathbf{\Sigma}\) 的多元正态分布,记作 \(\mathbf{X} \sim N_p(\mathbf{0}, \mathbf{\Sigma})\)。现在,我们独立地抽取 \(n\) 个这样的样本 \(\mathbf{X}_1, \mathbf{X}_2, \dots, \mathbf{X}_n\)。样本协方差矩阵的“未缩放”版本(通常称为散布矩阵)定义为:
\[ \mathbf{S} = \sum_{i=1}^{n} \mathbf{X}_i \mathbf{X}_i^T \]
注意,这里的 \(\mathbf{X}_i\) 是 \(p \times 1\) 的列向量,所以 \(\mathbf{X}_i \mathbf{X}_i^T\) 是一个 \(p \times p\) 的秩1矩阵。Wishart分布 描述了随机矩阵 \(\mathbf{S}\) 的概率分布。我们称 \(\mathbf{S}\) 服从自由度为 \(n\)(也常写作 \(\nu\))、尺度矩阵为 \(\mathbf{\Sigma}\) 的Wishart分布,记作 \(\mathbf{S} \sim W_p(n, \mathbf{\Sigma})\)。这里 \(p\) 是矩阵的维度,\(n\) 是自由度,它必须满足 \(n \ge p\) 以确保 \(\mathbf{S}\) 是正定矩阵(以概率1)。
- 概率密度函数
当自由度 \(n \ge p\) 且尺度矩阵 \(\mathbf{\Sigma}\) 是正定矩阵时,\(p \times p\) 维随机矩阵 \(\mathbf{S}\) 的Wishart分布具有概率密度函数。这个密度函数是针对正定矩阵 \(\mathbf{S}\) 定义的,表达式相对复杂,但结构清晰:
\[ f(\mathbf{S}) = \frac{1}{2^{np/2} \Gamma_p\left(\frac{n}{2}\right) |\mathbf{\Sigma}|^{n/2}} |\mathbf{S}|^{(n-p-1)/2} \exp\left( -\frac{1}{2} \text{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \]
其中:
- \(|\cdot|\) 表示矩阵的行列式。
- \(\text{tr}(\cdot)\) 表示矩阵的迹(对角线元素之和)。
- \(\Gamma_p(\cdot)\) 是多元Gamma函数,定义为:
\[ \Gamma_p(a) = \pi^{p(p-1)/4} \prod_{j=1}^{p} \Gamma\left(a + \frac{1-j}{2}\right) \]
这里 \(\Gamma(\cdot)\) 是标准的(单变量)Gamma函数。这个多元Gamma函数是保证密度函数归一化的常数部分。
- 基本性质
- 均值:\(E[\mathbf{S}] = n \mathbf{\Sigma}\)。这意味着样本协方差矩阵的无偏估计应该是 \(\frac{1}{n} \mathbf{S}\)(对于零均值情况),更常见的是 \(\frac{1}{n-1} \sum (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^T\)。
- 可加性:如果 \(\mathbf{S}_1 \sim W_p(n_1, \mathbf{\Sigma})\) 和 \(\mathbf{S}_2 \sim W_p(n_2, \mathbf{\Sigma})\) 相互独立,则 \(\mathbf{S}_1 + \mathbf{S}_2 \sim W_p(n_1 + n_2, \mathbf{\Sigma})\)。这与卡方分布的可加性一致。
- 尺度变换:如果 \(\mathbf{S} \sim W_p(n, \mathbf{\Sigma})\),且 \(\mathbf{C}\) 是一个 \(p \times p\) 的非随机可逆矩阵,则 \(\mathbf{C} \mathbf{S} \mathbf{C}^T \sim W_p(n, \mathbf{C} \mathbf{\Sigma} \mathbf{C}^T)\)。这个性质在变量变换中非常有用。
- 与卡方分布的关系:当 \(p = 1\) 时,Wishart分布退化为标量分布。此时,尺度矩阵 \(\mathbf{\Sigma}\) 退化为一个正数 \(\sigma^2\),随机矩阵 \(\mathbf{S}\) 退化为随机变量 \(S\),其分布为 \(S \sim W_1(n, \sigma^2)\)。可以验证,此时 \(S / \sigma^2 \sim \chi^2_n\),即自由度为 \(n\) 的卡方分布。因此,Wishart分布是多元卡方分布。
- 与多元正态样本的联系
在更一般的统计设定中,样本 \(\mathbf{X}_1, \dots, \mathbf{X}_n\) 通常来自一个均值向量为 \(\mathbf{\mu}\) 的多元正态分布,即 \(\mathbf{X}_i \sim N_p(\mathbf{\mu}, \mathbf{\Sigma})\)。定义样本均值 \(\bar{\mathbf{X}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{X}_i\) 和样本(调整)协方差矩阵 \(\mathbf{A} = \sum_{i=1}^{n} (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^T\)。
- 一个重要结论是:\(\bar{\mathbf{X}}\) 和 \(\mathbf{A}\) 相互独立。
- \(\mathbf{A}\) 服从自由度为 \(n-1\) 的Wishart分布,即 \(\mathbf{A} \sim W_p(n-1, \mathbf{\Sigma})\)。自由度减少1是因为我们用样本均值 \(\bar{\mathbf{X}}\) 估计了总体均值 \(\mathbf{\mu}\),损失了1个自由度。
- 相关分布与统计应用
- Hotelling's T² 分布:在多元假设检验中,用于检验均值向量是否等于某个给定值。Hotelling's T² 统计量定义为 \(T^2 = n(\bar{\mathbf{X}} - \mathbf{\mu}_0)^T \mathbf{S}^{-1} (\bar{\mathbf{X}} - \mathbf{\mu}_0)\),其中 \(\mathbf{S} = \mathbf{A}/(n-1)\) 是样本协方差矩阵。在零假设下,它与一个F分布存在确定的转换关系,其理论基础就建立在样本均值(正态)和样本协方差(Wishart)的独立性之上。
- Wilks' Lambda分布:在多元方差分析(MANOVA)中,用于检验多个均值向量是否相等。其统计量是两组Wishart分布矩阵行列式的比值。
- Bartlett分解:在模拟Wishart分布随机矩阵时,一个高效的方法是利用Bartlett分解。它将一个Wishart矩阵 \(\mathbf{S}\) 分解为 \(\mathbf{S} = \mathbf{L} \mathbf{L}^T\),其中 \(\mathbf{L}\) 是一个下三角矩阵,其对角线元素是独立的卡方分布变量的平方根,非对角线元素是独立的标准正态变量。这个分解使得生成Wishart随机矩阵变得简单。
总之,Wishart分布是多元统计分析中样本协方差矩阵的理论分布,它将一元统计中的卡方分布推广到矩阵形式,是构建多元正态模型下统计推断(如假设检验、置信区域)的核心工具。