正态分布的Wishart分布

字数 3750 2025-12-13 13:40:01

正态分布的Wishart分布

从标量到矩阵的延伸：动机与背景
在概率论与统计中，我们经常需要研究多个随机变量构成的向量，其联合分布可能是多元正态分布。当我们考虑来自多元正态总体的多个独立样本时，一个关键的统计量是样本协方差矩阵。这个矩阵是随机变量，其概率分布就是Wishart分布。因此，Wishart分布本质上是样本协方差矩阵的抽样分布，是卡方分布在多元正态情况下的矩阵推广。理解它，是进行多元统计分析（如假设检验、主成分分析、因子分析等）的基础。
定义与基本结构
设我们有 \(p\) 维的随机向量 \(\mathbf{X}\)，它服从均值为 \(\mathbf{0}\)、协方差矩阵为 \(\mathbf{\Sigma}\) 的多元正态分布，记作 \(\mathbf{X} \sim N_p(\mathbf{0}, \mathbf{\Sigma})\)。现在，我们独立地抽取 \(n\) 个这样的样本 \(\mathbf{X}_1, \mathbf{X}_2, \dots, \mathbf{X}_n\)。样本协方差矩阵的“未缩放”版本（通常称为散布矩阵）定义为：

\[ \mathbf{S} = \sum_{i=1}^{n} \mathbf{X}_i \mathbf{X}_i^T \]

注意，这里的 \(\mathbf{X}_i\) 是 \(p \times 1\) 的列向量，所以 \(\mathbf{X}_i \mathbf{X}_i^T\) 是一个 \(p \times p\) 的秩1矩阵。Wishart分布 描述了随机矩阵 \(\mathbf{S}\) 的概率分布。我们称 \(\mathbf{S}\) 服从自由度为 \(n\)（也常写作 \(\nu\)）、尺度矩阵为 \(\mathbf{\Sigma}\) 的Wishart分布，记作 \(\mathbf{S} \sim W_p(n, \mathbf{\Sigma})\)。这里 \(p\) 是矩阵的维度，\(n\) 是自由度，它必须满足 \(n \ge p\) 以确保 \(\mathbf{S}\) 是正定矩阵（以概率1）。

概率密度函数
当自由度 \(n \ge p\) 且尺度矩阵 \(\mathbf{\Sigma}\) 是正定矩阵时，\(p \times p\) 维随机矩阵 \(\mathbf{S}\) 的Wishart分布具有概率密度函数。这个密度函数是针对正定矩阵 \(\mathbf{S}\) 定义的，表达式相对复杂，但结构清晰：

\[ f(\mathbf{S}) = \frac{1}{2^{np/2} \Gamma_p\left(\frac{n}{2}\right) |\mathbf{\Sigma}|^{n/2}} |\mathbf{S}|^{(n-p-1)/2} \exp\left( -\frac{1}{2} \text{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \]

其中：

\(|\cdot|\) 表示矩阵的行列式。
\(\text{tr}(\cdot)\) 表示矩阵的迹（对角线元素之和）。
\(\Gamma_p(\cdot)\) 是多元Gamma函数，定义为：

\[ \Gamma_p(a) = \pi^{p(p-1)/4} \prod_{j=1}^{p} \Gamma\left(a + \frac{1-j}{2}\right) \]

这里 \(\Gamma(\cdot)\) 是标准的（单变量）Gamma函数。这个多元Gamma函数是保证密度函数归一化的常数部分。

基本性质

均值：\(E[\mathbf{S}] = n \mathbf{\Sigma}\)。这意味着样本协方差矩阵的无偏估计应该是 \(\frac{1}{n} \mathbf{S}\)（对于零均值情况），更常见的是 \(\frac{1}{n-1} \sum (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^T\)。
可加性：如果 \(\mathbf{S}_1 \sim W_p(n_1, \mathbf{\Sigma})\) 和 \(\mathbf{S}_2 \sim W_p(n_2, \mathbf{\Sigma})\) 相互独立，则 \(\mathbf{S}_1 + \mathbf{S}_2 \sim W_p(n_1 + n_2, \mathbf{\Sigma})\)。这与卡方分布的可加性一致。
尺度变换：如果 \(\mathbf{S} \sim W_p(n, \mathbf{\Sigma})\)，且 \(\mathbf{C}\) 是一个 \(p \times p\) 的非随机可逆矩阵，则 \(\mathbf{C} \mathbf{S} \mathbf{C}^T \sim W_p(n, \mathbf{C} \mathbf{\Sigma} \mathbf{C}^T)\)。这个性质在变量变换中非常有用。
与卡方分布的关系：当 \(p = 1\) 时，Wishart分布退化为标量分布。此时，尺度矩阵 \(\mathbf{\Sigma}\) 退化为一个正数 \(\sigma^2\)，随机矩阵 \(\mathbf{S}\) 退化为随机变量 \(S\)，其分布为 \(S \sim W_1(n, \sigma^2)\)。可以验证，此时 \(S / \sigma^2 \sim \chi^2_n\)，即自由度为 \(n\) 的卡方分布。因此，Wishart分布是多元卡方分布。

与多元正态样本的联系
在更一般的统计设定中，样本 \(\mathbf{X}_1, \dots, \mathbf{X}_n\) 通常来自一个均值向量为 \(\mathbf{\mu}\) 的多元正态分布，即 \(\mathbf{X}_i \sim N_p(\mathbf{\mu}, \mathbf{\Sigma})\)。定义样本均值 \(\bar{\mathbf{X}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{X}_i\) 和样本（调整）协方差矩阵 \(\mathbf{A} = \sum_{i=1}^{n} (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^T\)。

一个重要结论是：\(\bar{\mathbf{X}}\) 和 \(\mathbf{A}\) 相互独立。
\(\mathbf{A}\) 服从自由度为 \(n-1\) 的Wishart分布，即 \(\mathbf{A} \sim W_p(n-1, \mathbf{\Sigma})\)。自由度减少1是因为我们用样本均值 \(\bar{\mathbf{X}}\) 估计了总体均值 \(\mathbf{\mu}\)，损失了1个自由度。

相关分布与统计应用

Hotelling's T² 分布：在多元假设检验中，用于检验均值向量是否等于某个给定值。Hotelling's T² 统计量定义为 \(T^2 = n(\bar{\mathbf{X}} - \mathbf{\mu}_0)^T \mathbf{S}^{-1} (\bar{\mathbf{X}} - \mathbf{\mu}_0)\)，其中 \(\mathbf{S} = \mathbf{A}/(n-1)\) 是样本协方差矩阵。在零假设下，它与一个F分布存在确定的转换关系，其理论基础就建立在样本均值（正态）和样本协方差（Wishart）的独立性之上。
- Wilks' Lambda分布：在多元方差分析（MANOVA）中，用于检验多个均值向量是否相等。其统计量是两组Wishart分布矩阵行列式的比值。
Bartlett分解：在模拟Wishart分布随机矩阵时，一个高效的方法是利用Bartlett分解。它将一个Wishart矩阵 \(\mathbf{S}\) 分解为 \(\mathbf{S} = \mathbf{L} \mathbf{L}^T\)，其中 \(\mathbf{L}\) 是一个下三角矩阵，其对角线元素是独立的卡方分布变量的平方根，非对角线元素是独立的标准正态变量。这个分解使得生成Wishart随机矩阵变得简单。

总之，Wishart分布是多元统计分析中样本协方差矩阵的理论分布，它将一元统计中的卡方分布推广到矩阵形式，是构建多元正态模型下统计推断（如假设检验、置信区域）的核心工具。

正态分布的Wishart分布从标量到矩阵的延伸：动机与背景在概率论与统计中，我们经常需要研究多个随机变量构成的向量，其联合分布可能是多元正态分布。当我们考虑来自多元正态总体的多个独立样本时，一个关键的统计量是样本协方差矩阵。这个矩阵是随机变量，其概率分布就是Wishart分布。因此，Wishart分布本质上是样本协方差矩阵的抽样分布，是卡方分布在多元正态情况下的矩阵推广。理解它，是进行多元统计分析（如假设检验、主成分分析、因子分析等）的基础。定义与基本结构设我们有 \( p \) 维的随机向量 \( \mathbf{X} \)，它服从均值为 \( \mathbf{0} \)、协方差矩阵为 \( \mathbf{\Sigma} \) 的多元正态分布，记作 \( \mathbf{X} \sim N_ p(\mathbf{0}, \mathbf{\Sigma}) \)。现在，我们独立地抽取 \( n \) 个这样的样本 \( \mathbf{X}_ 1, \mathbf{X}_ 2, \dots, \mathbf{X} n \)。样本协方差矩阵的“未缩放”版本（通常称为散布矩阵）定义为： \[ \mathbf{S} = \sum {i=1}^{n} \mathbf{X}_ i \mathbf{X}_ i^T \] 注意，这里的 \( \mathbf{X}_ i \) 是 \( p \times 1 \) 的列向量，所以 \( \mathbf{X}_ i \mathbf{X}_ i^T \) 是一个 \( p \times p \) 的秩1矩阵。 Wishart分布描述了随机矩阵 \( \mathbf{S} \) 的概率分布。我们称 \( \mathbf{S} \) 服从自由度为 \( n \)（也常写作 \( \nu \)）、尺度矩阵为 \( \mathbf{\Sigma} \) 的Wishart分布，记作 \( \mathbf{S} \sim W_ p(n, \mathbf{\Sigma}) \)。这里 \( p \) 是矩阵的维度，\( n \) 是自由度，它必须满足 \( n \ge p \) 以确保 \( \mathbf{S} \) 是正定矩阵（以概率1）。概率密度函数当自由度 \( n \ge p \) 且尺度矩阵 \( \mathbf{\Sigma} \) 是正定矩阵时，\( p \times p \) 维随机矩阵 \( \mathbf{S} \) 的Wishart分布具有概率密度函数。这个密度函数是针对正定矩阵 \( \mathbf{S} \) 定义的，表达式相对复杂，但结构清晰： \[ f(\mathbf{S}) = \frac{1}{2^{np/2} \Gamma_ p\left(\frac{n}{2}\right) |\mathbf{\Sigma}|^{n/2}} |\mathbf{S}|^{(n-p-1)/2} \exp\left( -\frac{1}{2} \text{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \] 其中： \( |\cdot| \) 表示矩阵的行列式。 \( \text{tr}(\cdot) \) 表示矩阵的迹（对角线元素之和）。 \( \Gamma_ p(\cdot) \) 是多元Gamma函数，定义为： \[ \Gamma_ p(a) = \pi^{p(p-1)/4} \prod_ {j=1}^{p} \Gamma\left(a + \frac{1-j}{2}\right) \] 这里 \( \Gamma(\cdot) \) 是标准的（单变量）Gamma函数。这个多元Gamma函数是保证密度函数归一化的常数部分。基本性质均值：\( E[ \mathbf{S}] = n \mathbf{\Sigma} \)。这意味着样本协方差矩阵的无偏估计应该是 \( \frac{1}{n} \mathbf{S} \)（对于零均值情况），更常见的是 \( \frac{1}{n-1} \sum (\mathbf{X}_ i - \bar{\mathbf{X}})(\mathbf{X}_ i - \bar{\mathbf{X}})^T \)。可加性：如果 \( \mathbf{S}_ 1 \sim W_ p(n_ 1, \mathbf{\Sigma}) \) 和 \( \mathbf{S}_ 2 \sim W_ p(n_ 2, \mathbf{\Sigma}) \) 相互独立，则 \( \mathbf{S}_ 1 + \mathbf{S}_ 2 \sim W_ p(n_ 1 + n_ 2, \mathbf{\Sigma}) \)。这与卡方分布的可加性一致。尺度变换：如果 \( \mathbf{S} \sim W_ p(n, \mathbf{\Sigma}) \)，且 \( \mathbf{C} \) 是一个 \( p \times p \) 的非随机可逆矩阵，则 \( \mathbf{C} \mathbf{S} \mathbf{C}^T \sim W_ p(n, \mathbf{C} \mathbf{\Sigma} \mathbf{C}^T) \)。这个性质在变量变换中非常有用。与卡方分布的关系：当 \( p = 1 \) 时，Wishart分布退化为标量分布。此时，尺度矩阵 \( \mathbf{\Sigma} \) 退化为一个正数 \( \sigma^2 \)，随机矩阵 \( \mathbf{S} \) 退化为随机变量 \( S \)，其分布为 \( S \sim W_ 1(n, \sigma^2) \)。可以验证，此时 \( S / \sigma^2 \sim \chi^2_ n \)，即自由度为 \( n \) 的卡方分布。因此，Wishart分布是多元卡方分布。与多元正态样本的联系在更一般的统计设定中，样本 \( \mathbf{X}_ 1, \dots, \mathbf{X}_ n \) 通常来自一个均值向量为 \( \mathbf{\mu} \) 的多元正态分布，即 \( \mathbf{X} i \sim N_ p(\mathbf{\mu}, \mathbf{\Sigma}) \)。定义样本均值 \( \bar{\mathbf{X}} = \frac{1}{n} \sum {i=1}^{n} \mathbf{X} i \) 和样本（调整）协方差矩阵 \( \mathbf{A} = \sum {i=1}^{n} (\mathbf{X}_ i - \bar{\mathbf{X}})(\mathbf{X}_ i - \bar{\mathbf{X}})^T \)。一个重要结论是：\( \bar{\mathbf{X}} \) 和 \( \mathbf{A} \) 相互独立。 \( \mathbf{A} \) 服从自由度为 \( n-1 \) 的Wishart分布，即 \( \mathbf{A} \sim W_ p(n-1, \mathbf{\Sigma}) \)。自由度减少1是因为我们用样本均值 \( \bar{\mathbf{X}} \) 估计了总体均值 \( \mathbf{\mu} \)，损失了1个自由度。相关分布与统计应用 Hotelling's T² 分布：在多元假设检验中，用于检验均值向量是否等于某个给定值。Hotelling's T² 统计量定义为 \( T^2 = n(\bar{\mathbf{X}} - \mathbf{\mu}_ 0)^T \mathbf{S}^{-1} (\bar{\mathbf{X}} - \mathbf{\mu}_ 0) \)，其中 \( \mathbf{S} = \mathbf{A}/(n-1) \) 是样本协方差矩阵。在零假设下，它与一个F分布存在确定的转换关系，其理论基础就建立在样本均值（正态）和样本协方差（Wishart）的独立性之上。 Wilks' Lambda分布：在多元方差分析（MANOVA）中，用于检验多个均值向量是否相等。其统计量是两组Wishart分布矩阵行列式的比值。 Bartlett分解：在模拟Wishart分布随机矩阵时，一个高效的方法是利用Bartlett分解。它将一个Wishart矩阵 \( \mathbf{S} \) 分解为 \( \mathbf{S} = \mathbf{L} \mathbf{L}^T \)，其中 \( \mathbf{L} \) 是一个下三角矩阵，其对角线元素是独立的卡方分布变量的平方根，非对角线元素是独立的标准正态变量。这个分解使得生成Wishart随机矩阵变得简单。总之，Wishart分布是多元统计分析中样本协方差矩阵的理论分布，它将一元统计中的卡方分布推广到矩阵形式，是构建多元正态模型下统计推断（如假设检验、置信区域）的核心工具。