随机变量的混合分布
我们来学习随机变量的混合分布。这个概念描述的是,一个随机变量的分布是由多个其他分布“混合”而成的。我会从基本概念开始,逐步深入到它的性质和应用。
第一步:理解混合分布的基本思想
想象一个场景:我们有一个装有两种不同颜色小球(红球和蓝球)的袋子。但红球和蓝球来自两个不同的工厂,每个工厂生产的小球重量分布不同。现在我们执行以下操作:
- 首先,随机选择一个工厂(比如,有60%的概率选择工厂A,40%的概率选择工厂B)。
- 然后,从被选中的工厂生产的小球中,随机抽取一个小球,并测量其重量。
在这个例子中,最终抽到的小球的重量分布,就是一个混合分布。它不是单一的标准分布(如正态分布),而是由两个(或多个)成分分布(工厂A的重量分布和工厂B的重量分布)混合而成。每个成分分布被选中的概率(60%和40%)称为混合权重。
用数学语言概括:混合分布描述的是一个随机变量 \(X\) 的分布,它依赖于另一个随机变量 \(Y\)。\(Y\) 决定了我们使用哪个“成分”分布来生成 \(X\)。
第二步:混合分布的正式定义
设我们有 \(K\) 个不同的概率分布,记为 \(F_1(x), F_2(x), \dots, F_K(x)\)。这些是我们的成分分布(例如,工厂A和工厂B的重量分布函数)。
同时,我们有一组对应的混合权重 \(w_1, w_2, \dots, w_K\),满足:
- \(w_k \ge 0\) 对于所有 \(k = 1, 2, \dots, K\)
- \(\sum_{k=1}^K w_k = 1\)(所有权重之和为1)
那么,由这些成分分布和权重构成的混合分布,其累积分布函数(CDF)定义为:
\[F_X(x) = \sum_{k=1}^K w_k F_k(x) \]
这个公式非常直观:随机变量 \(X\) 的分布函数 \(F_X(x)\),是各个成分分布函数 \(F_k(x)\) 的加权平均。
第三步:混合分布的概率密度函数(PDF)或概率质量函数(PMF)
如果所有成分分布都是连续型的,并且有概率密度函数 \(f_1(x), f_2(x), \dots, f_K(x)\),那么混合分布的概率密度函数是:
\[f_X(x) = \sum_{k=1}^K w_k f_k(x) \]
同样,这是各个成分密度函数的加权平均。
如果成分分布是离散型的,有概率质量函数 \(p_1(x), p_2(x), \dots, p_K(x)\),那么混合分布的概率质量函数是:
\[p_X(x) = \sum_{k=1}^K w_k p_k(x) \]
第四步:混合分布的期望与方差
混合分布的期望(均值)计算相对简单,它也是各个成分分布期望的加权平均。
设第 \(k\) 个成分分布的期望为 \(\mu_k = E[X | Y=k]\)(即在给定选择第 \(k\) 个成分的条件下,\(X\) 的期望)。那么混合分布的总期望为:
\[E[X] = \sum_{k=1}^K w_k \mu_k \]
然而,混合分布的方差计算要复杂一些,因为它不仅包含了各个成分内部的变异,还包含了不同成分之间的差异(即“组间差异”)。总方差公式为:
\[Var(X) = E[Var(X|Y)] + Var(E[X|Y]) \]
这个公式称为方差分解公式(或全方差定律)。
- \(E[Var(X|Y)] = \sum_{k=1}^K w_k \sigma_k^2\):是各个成分方差 \(\sigma_k^2\) 的加权平均,代表组内方差。
- \(Var(E[X|Y]) = \sum_{k=1}^K w_k (\mu_k - \mu)^2\):是各个成分均值 \(\mu_k\) 相对于总均值 \(\mu\) 的偏差的加权平方和,代表组间方差。
所以,混合分布的总方差 = 组内方差 + 组间方差。这意味着即使每个成分分布自身的方差很小,但如果它们的均值相差很大(组间方差大),混合分布的总方差也会很大。
第五步:混合分布的性质与特点
- 多峰性:混合分布最显著的特征之一是它可以是多峰的。如果各个成分分布的均值相距足够远,混合分布的密度函数可能会呈现出多个峰值(峰对应每个成分分布的中心)。而常见的单一分布(如正态分布、指数分布)通常是单峰的。
- 灵活性:通过调整成分分布的类型、数量和权重,混合分布可以拟合非常复杂、非标准的数据分布形态,这使其在数据建模中极为强大。
- 可识别性问题:对于一个给定的混合分布,可能存在多种不同的成分分布和权重组合能产生相同的总体分布。这给从数据中反推真实的“成分”带来挑战。
第六步:一个简单的数值例子
假设我们有两个成分分布:
- 成分1(权重 \(w_1 = 0.7\)):\(X|Y=1 \sim Normal(\mu_1=0, \sigma_1=1)\)
- 成分2(权重 \(w_2 = 0.3\)):\(X|Y=2 \sim Normal(\mu_2=5, \sigma_2=2)\)
那么,这个正态混合分布的总期望为:
\[E[X] = (0.7 \times 0) + (0.3 \times 5) = 1.5 \]
总方差为:
组内方差:\(E[Var(X|Y)] = (0.7 \times 1^2) + (0.3 \times 2^2) = 0.7 + 1.2 = 1.9\)
组间方差:\(Var(E[X|Y]) = 0.7 \times (0-1.5)^2 + 0.3 \times (5-1.5)^2 = 0.7 \times 2.25 + 0.3 \times 12.25 = 1.575 + 3.675 = 5.25\)
总方差:\(Var(X) = 1.9 + 5.25 = 7.15\)
可以看到,尽管每个成分的方差不大(1和4),但由于两个成分的均值相差很大(组间方差5.25很大),导致混合后的总方差(7.15)远大于任一成分的方差。
第七步:混合分布的应用
混合分布在统计学和机器学习中应用广泛:
- 聚类分析:最典型的应用是高斯混合模型(GMM)。它假设观测数据是由几个高斯(正态)分布生成的,通过估计模型的参数(权重、均值、方差),可以将数据点“软分配”到不同的簇中。
- 密度估计:当数据的真实分布未知且形态复杂时,可以用混合分布来灵活地逼近它,这称为非参数密度估计的一种方法。
- 异常检测:先使用混合模型拟合正常数据的分布,任何概率密度极低的数据点都可以被视为异常点。
- 图像分割与语音识别:在计算机视觉和信号处理中,混合模型用于对像素特征或声学特征进行建模。
总结来说,混合分布提供了一个强大的框架,用于描述和建模由多个潜在来源或过程产生的数据。其核心是加权平均的思想,但其性质(如多峰性、方差分解)使其远优于简单的平均。