正态分布的Wishart分布
字数 3750 2025-12-13 13:40:01

正态分布的Wishart分布

  1. 从标量到矩阵的延伸:动机与背景
    在概率论与统计中,我们经常需要研究多个随机变量构成的向量,其联合分布可能是多元正态分布。当我们考虑来自多元正态总体的多个独立样本时,一个关键的统计量是样本协方差矩阵。这个矩阵是随机变量,其概率分布就是Wishart分布。因此,Wishart分布本质上是样本协方差矩阵的抽样分布,是卡方分布在多元正态情况下的矩阵推广。理解它,是进行多元统计分析(如假设检验、主成分分析、因子分析等)的基础。

  2. 定义与基本结构
    设我们有 \(p\) 维的随机向量 \(\mathbf{X}\),它服从均值为 \(\mathbf{0}\)、协方差矩阵为 \(\mathbf{\Sigma}\) 的多元正态分布,记作 \(\mathbf{X} \sim N_p(\mathbf{0}, \mathbf{\Sigma})\)。现在,我们独立地抽取 \(n\) 个这样的样本 \(\mathbf{X}_1, \mathbf{X}_2, \dots, \mathbf{X}_n\)。样本协方差矩阵的“未缩放”版本(通常称为散布矩阵)定义为:

\[ \mathbf{S} = \sum_{i=1}^{n} \mathbf{X}_i \mathbf{X}_i^T \]

注意,这里的 \(\mathbf{X}_i\)\(p \times 1\) 的列向量,所以 \(\mathbf{X}_i \mathbf{X}_i^T\) 是一个 \(p \times p\) 的秩1矩阵。Wishart分布 描述了随机矩阵 \(\mathbf{S}\) 的概率分布。我们称 \(\mathbf{S}\) 服从自由度为 \(n\)(也常写作 \(\nu\))、尺度矩阵为 \(\mathbf{\Sigma}\) 的Wishart分布,记作 \(\mathbf{S} \sim W_p(n, \mathbf{\Sigma})\)。这里 \(p\) 是矩阵的维度,\(n\) 是自由度,它必须满足 \(n \ge p\) 以确保 \(\mathbf{S}\) 是正定矩阵(以概率1)。

  1. 概率密度函数
    当自由度 \(n \ge p\) 且尺度矩阵 \(\mathbf{\Sigma}\) 是正定矩阵时,\(p \times p\) 维随机矩阵 \(\mathbf{S}\) 的Wishart分布具有概率密度函数。这个密度函数是针对正定矩阵 \(\mathbf{S}\) 定义的,表达式相对复杂,但结构清晰:

\[ f(\mathbf{S}) = \frac{1}{2^{np/2} \Gamma_p\left(\frac{n}{2}\right) |\mathbf{\Sigma}|^{n/2}} |\mathbf{S}|^{(n-p-1)/2} \exp\left( -\frac{1}{2} \text{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \]

其中:
  • \(|\cdot|\) 表示矩阵的行列式。
  • \(\text{tr}(\cdot)\) 表示矩阵的迹(对角线元素之和)。
  • \(\Gamma_p(\cdot)\) 是多元Gamma函数,定义为:

\[ \Gamma_p(a) = \pi^{p(p-1)/4} \prod_{j=1}^{p} \Gamma\left(a + \frac{1-j}{2}\right) \]

这里 \(\Gamma(\cdot)\) 是标准的(单变量)Gamma函数。这个多元Gamma函数是保证密度函数归一化的常数部分。

  1. 基本性质
  • 均值\(E[\mathbf{S}] = n \mathbf{\Sigma}\)。这意味着样本协方差矩阵的无偏估计应该是 \(\frac{1}{n} \mathbf{S}\)(对于零均值情况),更常见的是 \(\frac{1}{n-1} \sum (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^T\)
  • 可加性:如果 \(\mathbf{S}_1 \sim W_p(n_1, \mathbf{\Sigma})\)\(\mathbf{S}_2 \sim W_p(n_2, \mathbf{\Sigma})\) 相互独立,则 \(\mathbf{S}_1 + \mathbf{S}_2 \sim W_p(n_1 + n_2, \mathbf{\Sigma})\)。这与卡方分布的可加性一致。
  • 尺度变换:如果 \(\mathbf{S} \sim W_p(n, \mathbf{\Sigma})\),且 \(\mathbf{C}\) 是一个 \(p \times p\) 的非随机可逆矩阵,则 \(\mathbf{C} \mathbf{S} \mathbf{C}^T \sim W_p(n, \mathbf{C} \mathbf{\Sigma} \mathbf{C}^T)\)。这个性质在变量变换中非常有用。
  • 与卡方分布的关系:当 \(p = 1\) 时,Wishart分布退化为标量分布。此时,尺度矩阵 \(\mathbf{\Sigma}\) 退化为一个正数 \(\sigma^2\),随机矩阵 \(\mathbf{S}\) 退化为随机变量 \(S\),其分布为 \(S \sim W_1(n, \sigma^2)\)。可以验证,此时 \(S / \sigma^2 \sim \chi^2_n\),即自由度为 \(n\) 的卡方分布。因此,Wishart分布是多元卡方分布。
  1. 与多元正态样本的联系
    在更一般的统计设定中,样本 \(\mathbf{X}_1, \dots, \mathbf{X}_n\) 通常来自一个均值向量为 \(\mathbf{\mu}\) 的多元正态分布,即 \(\mathbf{X}_i \sim N_p(\mathbf{\mu}, \mathbf{\Sigma})\)。定义样本均值 \(\bar{\mathbf{X}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{X}_i\) 和样本(调整)协方差矩阵 \(\mathbf{A} = \sum_{i=1}^{n} (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^T\)
  • 一个重要结论是:\(\bar{\mathbf{X}}\)\(\mathbf{A}\) 相互独立。
  • \(\mathbf{A}\) 服从自由度为 \(n-1\) 的Wishart分布,即 \(\mathbf{A} \sim W_p(n-1, \mathbf{\Sigma})\)。自由度减少1是因为我们用样本均值 \(\bar{\mathbf{X}}\) 估计了总体均值 \(\mathbf{\mu}\),损失了1个自由度。
  1. 相关分布与统计应用
  • Hotelling's T² 分布:在多元假设检验中,用于检验均值向量是否等于某个给定值。Hotelling's T² 统计量定义为 \(T^2 = n(\bar{\mathbf{X}} - \mathbf{\mu}_0)^T \mathbf{S}^{-1} (\bar{\mathbf{X}} - \mathbf{\mu}_0)\),其中 \(\mathbf{S} = \mathbf{A}/(n-1)\) 是样本协方差矩阵。在零假设下,它与一个F分布存在确定的转换关系,其理论基础就建立在样本均值(正态)和样本协方差(Wishart)的独立性之上。
    • Wilks' Lambda分布:在多元方差分析(MANOVA)中,用于检验多个均值向量是否相等。其统计量是两组Wishart分布矩阵行列式的比值。
  • Bartlett分解:在模拟Wishart分布随机矩阵时,一个高效的方法是利用Bartlett分解。它将一个Wishart矩阵 \(\mathbf{S}\) 分解为 \(\mathbf{S} = \mathbf{L} \mathbf{L}^T\),其中 \(\mathbf{L}\) 是一个下三角矩阵,其对角线元素是独立的卡方分布变量的平方根,非对角线元素是独立的标准正态变量。这个分解使得生成Wishart随机矩阵变得简单。

总之,Wishart分布是多元统计分析中样本协方差矩阵的理论分布,它将一元统计中的卡方分布推广到矩阵形式,是构建多元正态模型下统计推断(如假设检验、置信区域)的核心工具。

正态分布的Wishart分布 从标量到矩阵的延伸:动机与背景 在概率论与统计中,我们经常需要研究多个随机变量构成的向量,其联合分布可能是多元正态分布。当我们考虑来自多元正态总体的多个独立样本时,一个关键的统计量是样本协方差矩阵。这个矩阵是随机变量,其概率分布就是Wishart分布。因此,Wishart分布本质上是样本协方差矩阵的抽样分布,是卡方分布在多元正态情况下的矩阵推广。理解它,是进行多元统计分析(如假设检验、主成分分析、因子分析等)的基础。 定义与基本结构 设我们有 \( p \) 维的随机向量 \( \mathbf{X} \),它服从均值为 \( \mathbf{0} \)、协方差矩阵为 \( \mathbf{\Sigma} \) 的多元正态分布,记作 \( \mathbf{X} \sim N_ p(\mathbf{0}, \mathbf{\Sigma}) \)。现在,我们独立地抽取 \( n \) 个这样的样本 \( \mathbf{X}_ 1, \mathbf{X}_ 2, \dots, \mathbf{X} n \)。样本协方差矩阵的“未缩放”版本(通常称为散布矩阵)定义为: \[ \mathbf{S} = \sum {i=1}^{n} \mathbf{X}_ i \mathbf{X}_ i^T \] 注意,这里的 \( \mathbf{X}_ i \) 是 \( p \times 1 \) 的列向量,所以 \( \mathbf{X}_ i \mathbf{X}_ i^T \) 是一个 \( p \times p \) 的秩1矩阵。 Wishart分布 描述了随机矩阵 \( \mathbf{S} \) 的概率分布。我们称 \( \mathbf{S} \) 服从自由度为 \( n \)(也常写作 \( \nu \))、尺度矩阵为 \( \mathbf{\Sigma} \) 的Wishart分布,记作 \( \mathbf{S} \sim W_ p(n, \mathbf{\Sigma}) \)。这里 \( p \) 是矩阵的维度,\( n \) 是自由度,它必须满足 \( n \ge p \) 以确保 \( \mathbf{S} \) 是正定矩阵(以概率1)。 概率密度函数 当自由度 \( n \ge p \) 且尺度矩阵 \( \mathbf{\Sigma} \) 是正定矩阵时,\( p \times p \) 维随机矩阵 \( \mathbf{S} \) 的Wishart分布具有概率密度函数。这个密度函数是针对正定矩阵 \( \mathbf{S} \) 定义的,表达式相对复杂,但结构清晰: \[ f(\mathbf{S}) = \frac{1}{2^{np/2} \Gamma_ p\left(\frac{n}{2}\right) |\mathbf{\Sigma}|^{n/2}} |\mathbf{S}|^{(n-p-1)/2} \exp\left( -\frac{1}{2} \text{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \] 其中: \( |\cdot| \) 表示矩阵的行列式。 \( \text{tr}(\cdot) \) 表示矩阵的迹(对角线元素之和)。 \( \Gamma_ p(\cdot) \) 是多元Gamma函数,定义为: \[ \Gamma_ p(a) = \pi^{p(p-1)/4} \prod_ {j=1}^{p} \Gamma\left(a + \frac{1-j}{2}\right) \] 这里 \( \Gamma(\cdot) \) 是标准的(单变量)Gamma函数。这个多元Gamma函数是保证密度函数归一化的常数部分。 基本性质 均值 :\( E[ \mathbf{S}] = n \mathbf{\Sigma} \)。这意味着样本协方差矩阵的无偏估计应该是 \( \frac{1}{n} \mathbf{S} \)(对于零均值情况),更常见的是 \( \frac{1}{n-1} \sum (\mathbf{X}_ i - \bar{\mathbf{X}})(\mathbf{X}_ i - \bar{\mathbf{X}})^T \)。 可加性 :如果 \( \mathbf{S}_ 1 \sim W_ p(n_ 1, \mathbf{\Sigma}) \) 和 \( \mathbf{S}_ 2 \sim W_ p(n_ 2, \mathbf{\Sigma}) \) 相互独立,则 \( \mathbf{S}_ 1 + \mathbf{S}_ 2 \sim W_ p(n_ 1 + n_ 2, \mathbf{\Sigma}) \)。这与卡方分布的可加性一致。 尺度变换 :如果 \( \mathbf{S} \sim W_ p(n, \mathbf{\Sigma}) \),且 \( \mathbf{C} \) 是一个 \( p \times p \) 的非随机可逆矩阵,则 \( \mathbf{C} \mathbf{S} \mathbf{C}^T \sim W_ p(n, \mathbf{C} \mathbf{\Sigma} \mathbf{C}^T) \)。这个性质在变量变换中非常有用。 与卡方分布的关系 :当 \( p = 1 \) 时,Wishart分布退化为标量分布。此时,尺度矩阵 \( \mathbf{\Sigma} \) 退化为一个正数 \( \sigma^2 \),随机矩阵 \( \mathbf{S} \) 退化为随机变量 \( S \),其分布为 \( S \sim W_ 1(n, \sigma^2) \)。可以验证,此时 \( S / \sigma^2 \sim \chi^2_ n \),即自由度为 \( n \) 的卡方分布。因此,Wishart分布是多元卡方分布。 与多元正态样本的联系 在更一般的统计设定中,样本 \( \mathbf{X}_ 1, \dots, \mathbf{X}_ n \) 通常来自一个均值向量为 \( \mathbf{\mu} \) 的多元正态分布,即 \( \mathbf{X} i \sim N_ p(\mathbf{\mu}, \mathbf{\Sigma}) \)。定义样本均值 \( \bar{\mathbf{X}} = \frac{1}{n} \sum {i=1}^{n} \mathbf{X} i \) 和样本(调整)协方差矩阵 \( \mathbf{A} = \sum {i=1}^{n} (\mathbf{X}_ i - \bar{\mathbf{X}})(\mathbf{X}_ i - \bar{\mathbf{X}})^T \)。 一个重要结论是:\( \bar{\mathbf{X}} \) 和 \( \mathbf{A} \) 相互独立。 \( \mathbf{A} \) 服从自由度为 \( n-1 \) 的Wishart分布,即 \( \mathbf{A} \sim W_ p(n-1, \mathbf{\Sigma}) \)。自由度减少1是因为我们用样本均值 \( \bar{\mathbf{X}} \) 估计了总体均值 \( \mathbf{\mu} \),损失了1个自由度。 相关分布与统计应用 Hotelling's T² 分布 :在多元假设检验中,用于检验均值向量是否等于某个给定值。Hotelling's T² 统计量定义为 \( T^2 = n(\bar{\mathbf{X}} - \mathbf{\mu}_ 0)^T \mathbf{S}^{-1} (\bar{\mathbf{X}} - \mathbf{\mu}_ 0) \),其中 \( \mathbf{S} = \mathbf{A}/(n-1) \) 是样本协方差矩阵。在零假设下,它与一个F分布存在确定的转换关系,其理论基础就建立在样本均值(正态)和样本协方差(Wishart)的独立性之上。 Wilks' Lambda分布 :在多元方差分析(MANOVA)中,用于检验多个均值向量是否相等。其统计量是两组Wishart分布矩阵行列式的比值。 Bartlett分解 :在模拟Wishart分布随机矩阵时,一个高效的方法是利用Bartlett分解。它将一个Wishart矩阵 \( \mathbf{S} \) 分解为 \( \mathbf{S} = \mathbf{L} \mathbf{L}^T \),其中 \( \mathbf{L} \) 是一个下三角矩阵,其对角线元素是独立的卡方分布变量的平方根,非对角线元素是独立的标准正态变量。这个分解使得生成Wishart随机矩阵变得简单。 总之,Wishart分布是多元统计分析中样本协方差矩阵的理论分布,它将一元统计中的卡方分布推广到矩阵形式,是构建多元正态模型下统计推断(如假设检验、置信区域)的核心工具。