随机变量的变换的Wishart分布
字数 3404 2025-11-07 22:15:08

随机变量的变换的Wishart分布

Wishart分布是定义在对称正定矩阵上的概率分布。它是多元统计中卡方分布的推广,在协方差矩阵的估计和多元正态分布的理论中扮演着核心角色。为了理解它,我们需要从基础概念逐步构建。

  1. 多元正态分布与散度矩阵
    首先,考虑一个 \(p\) 维的随机向量 \(\mathbf{X}\),它服从均值为 \(\mathbf{0}\),协方差矩阵为 \(\mathbf{\Sigma}\) 的多元正态分布,记作 \(\mathbf{X} \sim N_p(\mathbf{0}, \mathbf{\Sigma})\)
    现在,假设我们有 \(n\) 个相互独立的这样的随机向量 \(\mathbf{X}_1, \mathbf{X}_2, \dots, \mathbf{X}_n\)(每个向量都是一次独立的 \(p\) 维观测)。一个关键的统计量是样本散度矩阵(或缩放后的样本协方差矩阵)\(\mathbf{S}\),它定义为:

\[ \mathbf{S} = \sum_{i=1}^n \mathbf{X}_i \mathbf{X}_i^T \]

这里,每个 \(\mathbf{X}_i \mathbf{X}_i^T\) 都是一个 \(p \times p\) 的矩阵(一个秩为1的对称半正定矩阵)。将 \(n\) 个这样的矩阵相加得到的 \(\mathbf{S}\),也是一个对称半正定矩阵。Wishart分布描述的就是这个矩阵 \(\mathbf{S}\) 的概率分布。

  1. Wishart分布的定义
    如果 \(\mathbf{S} = \sum_{i=1}^n \mathbf{X}_i \mathbf{X}_i^T\),其中 \(\mathbf{X}_i \overset{\text{i.i.d.}}{\sim} N_p(\mathbf{0}, \mathbf{\Sigma})\)(即独立同分布于 \(p\) 维多元正态分布),那么我们称随机矩阵 \(\mathbf{S}\) 服从自由度为 \(n\)、尺度矩阵为 \(\mathbf{\Sigma}\) 的Wishart分布。记作:

\[ \mathbf{S} \sim W_p(n, \mathbf{\Sigma}) \]

这里,\(p\) 是矩阵的维数,\(n\) 是自由度(它等于用于求和的独立向量的个数),\(\mathbf{\Sigma}\) 是尺度矩阵(它是底层多元正态分布的协方差矩阵)。

  1. 与卡方分布的联系
    当维度 \(p = 1\) 时,Wishart分布就退化为我们熟悉的一维分布。此时,尺度矩阵 \(\mathbf{\Sigma}\) 退化为一个标量方差 \(\sigma^2\)。随机向量 \(\mathbf{X}_i\) 退化为标量随机变量 \(X_i \sim N(0, \sigma^2)\)
    那么,散度矩阵 \(\mathbf{S}\) 退化为标量 \(S = \sum_{i=1}^n X_i^2\)
    我们知道,如果 \(X_i \sim N(0, 1)\),则 \(\sum_{i=1}^n X_i^2 \sim \chi^2(n)\)(自由度为 \(n\) 的卡方分布)。更一般地,如果 \(X_i \sim N(0, \sigma^2)\),则 \(\sum_{i=1}^n (X_i / \sigma)^2 = S / \sigma^2 \sim \chi^2(n)\)
    因此,在一维情况下,\(S \sim W_1(n, \sigma^2)\) 等价于 \(S / \sigma^2 \sim \chi^2(n)\)。所以,Wishart分布是多元情况下的卡方分布。

  2. Wishart分布的概率密度函数
    当自由度 \(n \ge p\) 时,随机矩阵 \(\mathbf{S}\) 是正定的概率为1,此时Wishart分布存在概率密度函数。其密度函数形式相对复杂,但结构清晰:

\[ f(\mathbf{S}) = \frac{1}{2^{np/2} |\mathbf{\Sigma}|^{n/2} \Gamma_p(\frac{n}{2})} |\mathbf{S}|^{(n-p-1)/2} \exp\left( -\frac{1}{2} \operatorname{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \]

其中:
  • \(|\cdot|\) 表示矩阵的行列式。
  • \(\operatorname{tr}(\cdot)\) 表示矩阵的迹(主对角线元素之和)。
  • \(\Gamma_p(\cdot)\) 是多元Gamma函数,它是单变量Gamma函数的推广,定义为:

\[ \Gamma_p(a) = \pi^{p(p-1)/4} \prod_{j=1}^p \Gamma\left(a + \frac{1-j}{2}\right) \]

这个密度函数的形式体现了它与卡方分布的相似性:包含一个幂函数部分 \(|\mathbf{S}|^{(n-p-1)/2}\) 和一个指数部分 \(\exp\left( -\frac{1}{2} \operatorname{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right)\)

  1. Wishart分布的性质
    Wishart分布有一些非常重要的性质:
  • 均值: \(E[\mathbf{S}] = n \mathbf{\Sigma}\)。这很直观,因为每个 \(\mathbf{X}_i \mathbf{X}_i^T\) 的期望是 \(\mathbf{\Sigma}\)
  • 可加性: 如果 \(\mathbf{S}_1 \sim W_p(n_1, \mathbf{\Sigma})\)\(\mathbf{S}_2 \sim W_p(n_2, \mathbf{\Sigma})\) 相互独立,那么 \(\mathbf{S}_1 + \mathbf{S}_2 \sim W_p(n_1 + n_2, \mathbf{\Sigma})\)。这类似于卡方分布的可加性。
  • 变换性: 如果 \(\mathbf{S} \sim W_p(n, \mathbf{\Sigma})\),且 \(\mathbf{A}\) 是一个 \(p \times p\) 的可逆矩阵,那么 \(\mathbf{A} \mathbf{S} \mathbf{A}^T \sim W_p(n, \mathbf{A} \mathbf{\Sigma} \mathbf{A}^T)\)。这个性质在推导很多统计量的分布时非常有用。
  1. Wishart分布的应用
    Wishart分布最经典的应用是在多元正态分布的协方差矩阵估计中。假设我们有一个来自 \(N_p(\mathbf{\mu}, \mathbf{\Sigma})\) 的随机样本 \(\mathbf{Y}_1, \dots, \mathbf{Y}_m\)(注意这里均值不一定为0)。样本协方差矩阵(无偏估计)为:

\[ \hat{\mathbf{\Sigma}} = \frac{1}{m-1} \sum_{i=1}^m (\mathbf{Y}_i - \bar{\mathbf{Y}})(\mathbf{Y}_i - \bar{\mathbf{Y}})^T \]

可以证明,\((m-1)\hat{\mathbf{\Sigma}} \sim W_p(m-1, \mathbf{\Sigma})\)。因此,Wishart分布为研究样本协方差矩阵的抽样分布提供了理论基础,进而可以构建协方差矩阵的假设检验和置信区域。它也是构建Hotelling's T²统计量和Wilks' Λ统计量等多元检验统计量的基石。

随机变量的变换的Wishart分布 Wishart分布是定义在对称正定矩阵上的概率分布。它是多元统计中卡方分布的推广,在协方差矩阵的估计和多元正态分布的理论中扮演着核心角色。为了理解它,我们需要从基础概念逐步构建。 多元正态分布与散度矩阵 首先,考虑一个 \( p \) 维的随机向量 \( \mathbf{X} \),它服从均值为 \( \mathbf{0} \),协方差矩阵为 \( \mathbf{\Sigma} \) 的多元正态分布,记作 \( \mathbf{X} \sim N_ p(\mathbf{0}, \mathbf{\Sigma}) \)。 现在,假设我们有 \( n \) 个相互独立的这样的随机向量 \( \mathbf{X}_ 1, \mathbf{X}_ 2, \dots, \mathbf{X} n \)(每个向量都是一次独立的 \( p \) 维观测)。一个关键的统计量是样本散度矩阵(或缩放后的样本协方差矩阵)\( \mathbf{S} \),它定义为: \[ \mathbf{S} = \sum {i=1}^n \mathbf{X}_ i \mathbf{X}_ i^T \] 这里,每个 \( \mathbf{X}_ i \mathbf{X}_ i^T \) 都是一个 \( p \times p \) 的矩阵(一个秩为1的对称半正定矩阵)。将 \( n \) 个这样的矩阵相加得到的 \( \mathbf{S} \),也是一个对称半正定矩阵。Wishart分布描述的就是这个矩阵 \( \mathbf{S} \) 的概率分布。 Wishart分布的定义 如果 \( \mathbf{S} = \sum_ {i=1}^n \mathbf{X}_ i \mathbf{X}_ i^T \),其中 \( \mathbf{X}_ i \overset{\text{i.i.d.}}{\sim} N_ p(\mathbf{0}, \mathbf{\Sigma}) \)(即独立同分布于 \( p \) 维多元正态分布),那么我们称随机矩阵 \( \mathbf{S} \) 服从自由度为 \( n \)、尺度矩阵为 \( \mathbf{\Sigma} \) 的Wishart分布。记作: \[ \mathbf{S} \sim W_ p(n, \mathbf{\Sigma}) \] 这里,\( p \) 是矩阵的维数,\( n \) 是自由度(它等于用于求和的独立向量的个数),\( \mathbf{\Sigma} \) 是尺度矩阵(它是底层多元正态分布的协方差矩阵)。 与卡方分布的联系 当维度 \( p = 1 \) 时,Wishart分布就退化为我们熟悉的一维分布。此时,尺度矩阵 \( \mathbf{\Sigma} \) 退化为一个标量方差 \( \sigma^2 \)。随机向量 \( \mathbf{X} i \) 退化为标量随机变量 \( X_ i \sim N(0, \sigma^2) \)。 那么,散度矩阵 \( \mathbf{S} \) 退化为标量 \( S = \sum {i=1}^n X_ i^2 \)。 我们知道,如果 \( X_ i \sim N(0, 1) \),则 \( \sum_ {i=1}^n X_ i^2 \sim \chi^2(n) \)(自由度为 \( n \) 的卡方分布)。更一般地,如果 \( X_ i \sim N(0, \sigma^2) \),则 \( \sum_ {i=1}^n (X_ i / \sigma)^2 = S / \sigma^2 \sim \chi^2(n) \)。 因此,在一维情况下,\( S \sim W_ 1(n, \sigma^2) \) 等价于 \( S / \sigma^2 \sim \chi^2(n) \)。所以,Wishart分布是多元情况下的卡方分布。 Wishart分布的概率密度函数 当自由度 \( n \ge p \) 时,随机矩阵 \( \mathbf{S} \) 是正定的概率为1,此时Wishart分布存在概率密度函数。其密度函数形式相对复杂,但结构清晰: \[ f(\mathbf{S}) = \frac{1}{2^{np/2} |\mathbf{\Sigma}|^{n/2} \Gamma_ p(\frac{n}{2})} |\mathbf{S}|^{(n-p-1)/2} \exp\left( -\frac{1}{2} \operatorname{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \] 其中: \( |\cdot| \) 表示矩阵的行列式。 \( \operatorname{tr}(\cdot) \) 表示矩阵的迹(主对角线元素之和)。 \( \Gamma_ p(\cdot) \) 是多元Gamma函数,它是单变量Gamma函数的推广,定义为: \[ \Gamma_ p(a) = \pi^{p(p-1)/4} \prod_ {j=1}^p \Gamma\left(a + \frac{1-j}{2}\right) \] 这个密度函数的形式体现了它与卡方分布的相似性:包含一个幂函数部分 \( |\mathbf{S}|^{(n-p-1)/2} \) 和一个指数部分 \( \exp\left( -\frac{1}{2} \operatorname{tr}(\mathbf{\Sigma}^{-1} \mathbf{S}) \right) \)。 Wishart分布的性质 Wishart分布有一些非常重要的性质: 均值 : \( E[ \mathbf{S}] = n \mathbf{\Sigma} \)。这很直观,因为每个 \( \mathbf{X}_ i \mathbf{X}_ i^T \) 的期望是 \( \mathbf{\Sigma} \)。 可加性 : 如果 \( \mathbf{S}_ 1 \sim W_ p(n_ 1, \mathbf{\Sigma}) \) 和 \( \mathbf{S}_ 2 \sim W_ p(n_ 2, \mathbf{\Sigma}) \) 相互独立,那么 \( \mathbf{S}_ 1 + \mathbf{S}_ 2 \sim W_ p(n_ 1 + n_ 2, \mathbf{\Sigma}) \)。这类似于卡方分布的可加性。 变换性 : 如果 \( \mathbf{S} \sim W_ p(n, \mathbf{\Sigma}) \),且 \( \mathbf{A} \) 是一个 \( p \times p \) 的可逆矩阵,那么 \( \mathbf{A} \mathbf{S} \mathbf{A}^T \sim W_ p(n, \mathbf{A} \mathbf{\Sigma} \mathbf{A}^T) \)。这个性质在推导很多统计量的分布时非常有用。 Wishart分布的应用 Wishart分布最经典的应用是在多元正态分布的协方差矩阵估计中。假设我们有一个来自 \( N_ p(\mathbf{\mu}, \mathbf{\Sigma}) \) 的随机样本 \( \mathbf{Y}_ 1, \dots, \mathbf{Y} m \)(注意这里均值不一定为0)。样本协方差矩阵(无偏估计)为: \[ \hat{\mathbf{\Sigma}} = \frac{1}{m-1} \sum {i=1}^m (\mathbf{Y}_ i - \bar{\mathbf{Y}})(\mathbf{Y}_ i - \bar{\mathbf{Y}})^T \] 可以证明,\( (m-1)\hat{\mathbf{\Sigma}} \sim W_ p(m-1, \mathbf{\Sigma}) \)。因此,Wishart分布为研究样本协方差矩阵的抽样分布提供了理论基础,进而可以构建协方差矩阵的假设检验和置信区域。它也是构建Hotelling's T²统计量和Wilks' Λ统计量等多元检验统计量的基石。