随机变量的混合分布
混合分布是概率论中一个重要的概念,它描述了一个随机变量的分布是由多个其他分布(称为分量分布)以某种概率权重组合而成的情况。
- 基本定义
假设我们有K个不同的概率分布,记为 \(F_1(x), F_2(x), \dots, F_K(x)\)。再假设有一组权重 \(\pi_1, \pi_2, \dots, \pi_K\),满足 \(\pi_k \ge 0\) 且 \(\sum_{k=1}^K \pi_k = 1\)。那么,由这些分布和权重混合而成的新分布 \(F(x)\) 定义为:
\[ F(x) = \sum_{k=1}^K \pi_k F_k(x) \]
如果一个随机变量 \(X\) 的累积分布函数(CDF)是 \(F(x)\),我们就称 \(X\) 服从一个混合分布。这里的权重 \(\pi_k\) 可以理解为选择第 \(k\) 个分量分布的概率。
- 生成机制
混合分布有一个非常直观的生成机制,这有助于理解其本质:
- 首先,我们从一个离散随机变量 \(Z\) 中抽取一个值 \(z\)。这个随机变量 \(Z\) 以概率 \(\pi_k\) 取值 \(k\)(其中 \(k = 1, 2, \dots, K\))。\(Z\) 被称为潜变量或指示变量,它决定了我们使用哪个分量分布。
- 然后,在给定 \(Z = k\) 的条件下,我们从第 \(k\) 个分量分布 \(F_k(x)\) 中抽取随机变量 \(X\)。
通过这个过程生成的 \(X\) 的边际分布,就是上述的混合分布 \(F(x)\)。
- 概率密度函数(PDF)与概率质量函数(PMF)
混合分布的形式同样适用于概率密度函数和概率质量函数。
- 连续情况:如果每个分量分布都是连续的,其概率密度函数为 \(f_1(x), f_2(x), \dots, f_K(x)\),那么混合分布的概率密度函数为:
\[ f(x) = \sum_{k=1}^K \pi_k f_k(x) \]
- 离散情况:如果每个分量分布都是离散的,其概率质量函数为 \(p_1(x), p_2(x), \dots, p_K(x)\),那么混合分布的概率质量函数为:
\[ p(x) = \sum_{k=1}^K \pi_k p_k(x) \]
这个公式直观地展示了在点 \(x\) 处的总概率(或密度)是各个分量在该点的概率(或密度)的加权平均。
- 矩的计算
混合分布的矩(如期望、方差)可以通过各分量分布的矩来计算。- 期望(一阶矩):混合分布的期望是各分量分布期望的加权平均。
\[ E[X] = \sum_{k=1}^K \pi_k E[X_k] \]
其中 \(E[X_k]\) 是服从第 \(k\) 个分量分布的随机变量的期望。
* 方差(二阶中心矩):混合分布的方差计算稍复杂,它由两部分组成:各分量内部的方差加权平均,以及各分量均值之间的差异(即“组间方差”)。
\[ Var(X) = \sum_{k=1}^K \pi_k Var(X_k) + \sum_{k=1}^K \pi_k (E[X_k] - E[X])^2 \]
这个公式表明,混合分布的总方差来自于两部分:1) 每个成分自身的不确定性(第一部分);2) 不同成分均值不同所引入的额外不确定性(第二部分)。
- 一个经典例子:高斯混合模型(GMM)
高斯混合模型是最常见和重要的混合分布,其中每个分量分布 \(f_k(x)\) 都是一个高斯分布(正态分布)\(N(\mu_k, \sigma_k^2)\)。- 其概率密度函数为:
\[ f(x) = \sum_{k=1}^K \pi_k \cdot \frac{1}{\sqrt{2\pi\sigma_k^2}} \exp\left(-\frac{(x-\mu_k)^2}{2\sigma_k^2}\right) \]
* GMM 非常强大,因为通过足够多的高斯分布以不同权重和参数进行混合,它可以逼近任何连续分布。这使得它在数据聚类、密度估计等领域有广泛应用。
- 应用与意义
混合分布模型在统计学和机器学习中应用极其广泛。- 密度估计:当观测数据看起来不是来自一个单一的简单分布(如单一的正态分布),而是可能来自多个子群体时,用混合分布来拟合数据可以更精确地描述其 underlying 结构。
- 聚类分析:在基于模型的聚类中,混合分布的每个分量可以代表一个聚类。数据点 \(x\) 属于第 \(k\) 个聚类的概率正比于 \(\pi_k f_k(x)\)。著名的EM算法常被用来估计混合模型的参数,并同时完成软聚类。
- 异常检测:正常数据的分布可以用一个混合分布来建模,那些在拟合的混合分布下概率极低的数据点可以被视为异常点。
总结来说,混合分布提供了一种灵活而强大的框架,用于对由多个不同源或子群体产生的复杂数据进行建模。其核心思想是“分而治之”,用一组简单的分布通过线性组合来刻画复杂的整体分布。