概率图模型的因子分解与条件独立性
我们来循序渐进地理解概率图模型(Probabilistic Graphical Model, PGM)中的一个核心概念:因子分解与条件独立性。它是连接图结构与概率分布语义的桥梁,是理解PGM为何能高效表示和计算复杂概率分布的关键。
第一步:基础——概率分布与因子的概念
- 概率分布:我们首先要表示的目标是一个联合概率分布 \(P(X_1, X_2, ..., X_n)\),其中每个 \(X_i\) 是一个随机变量。直接表示这个分布需要指定所有变量所有可能取值的概率,这需要指数级(\(O(k^n)\),假设每个变量有k种取值)的存储空间,这是不可行的。
- 因子:一个因子(Factor) \(\phi\) 是一个函数,其输入是一个随机变量集合的某个赋值(configuration),输出是一个非负实数。它可以不一定是概率,可以理解为一种“亲和度”或“势”。例如,对于变量 \(A, B\),一个因子 \(\phi(A, B)\) 可以是一个 \(k \times k\) 的表格。
第二步:朴素想法与问题——因式分解的动机
我们想用多个“小”的、定义在变量子集上的因子,通过某种方式组合(通常是相乘)来近似或精确地表示那个“大”的联合分布。例如:
\[P(A, B, C, D) \propto \phi_1(A, B) \cdot \phi_2(B, C) \cdot \phi_3(C, D) \cdot \phi_4(A, D) \]
这比直接存储一个四维大表要节省空间。但问题是:这种因子分解是否合法?它意味着概率分布具有什么样的内在性质? 答案就在于条件独立性。
第三步:核心桥梁——因子分解与条件独立性的等价关系
这里引入一个核心定理(以无向图模型,即马尔可夫随机场为例):
一个概率分布 \(P\) 可以因子化(Factorize) 在一个无向图 \(G\) 上,当且仅当 \(P\) 满足该图所蕴含的全局马尔可夫性质(Global Markov Property)。
我们来拆解这个定理:
- “因子化”的准确定义:
- 图 \(G\) 的每个极大团(Maximal Clique)(即不能再加入任何节点而仍保持全连接的子图)对应一个因子。
- 联合概率分布 \(P\) 可以写成这些因子的乘积,再除以一个归一化常数 \(Z\)(称为配分函数):
\[ P(X_1, ..., X_n) = \frac{1}{Z} \prod_{c \in \text{Cliques}(G)} \phi_c(\mathbf{X}_c) \]
* 这被称为**吉布斯分布(Gibbs Distribution)** 或** Hammersley-Clifford 定理**。这意味着图的连接结构直接指明了联合分布如何被分解成局部因子的乘积。
- “全局马尔可夫性质”的准确定义:
- 这是关于条件独立性的陈述。对于图中任意三个互不相交的节点集合 \(A, B, C\)。
- 如果集合 \(C\) 在图上去掉后,分离(Separate) 了 \(A\) 和 \(B\)(即 \(A\) 到 \(B\) 的所有路径都经过 \(C\) 中的节点),那么在概率分布 \(P\) 中,给定 \(C\),\(A\) 与 \(B\) 条件独立。记作:
\[ A \perp\!\!\!\perp B \mid C \]
- 这意味着 \(P(A, B | C) = P(A | C) P(B | C)\),或者说,知道了 \(C\) 之后,\(A\) 无法提供关于 \(B\) 的任何额外信息。
第四步:一个具体例子——深入理解等价性
考虑一个简单的无向图:\(A - B - C\)。它有两个极大团:\(\{A, B\}\) 和 \(\{B, C\}\)。
- 因子化:任何能写成 \(P(A, B, C) = \frac{1}{Z} \phi_1(A, B) \phi_2(B, C)\) 形式的分布,都因子化于此图。
- 条件独立性:在这个图中,集合 \(C = \{B\}\) 分离了 \(A\) 和 \(C = \{C\}\)(注意这里符号重载,第二个 \(C\) 是节点)。因此,全局马尔可夫性质断言:给定 \(B\),\(A\) 与 \(C\) 条件独立,即 \(A \perp\!\!\!\perp C \mid B\)。
验证等价性:
- 从因子化到独立性:如果 \(P\) 因子化为上述形式,计算条件概率:
\[ P(A, C | B) = \frac{P(A, B, C)}{P(B)} = \frac{\phi_1(A, B) \phi_2(B, C)}{ \sum_{A', C'} \phi_1(A', B) \phi_2(B, C') } = \frac{\phi_1(A, B)}{\sum_{A'}\phi_1(A', B)} \cdot \frac{\phi_2(B, C)}{\sum_{C'}\phi_2(B, C')} \]
这恰好等于 \(P(A|B) P(C|B)\)。因此,条件独立性成立。
- 从独立性到因子化(思路):条件独立性 \(A \perp\!\!\!\perp C \mid B\) 意味着联合分布可以写成 \(P(A, B, C) = P(A|B) P(C|B) P(B)\)。令 \(\phi_1(A, B) = P(A|B)P(B)^{1/2}\)(一个调整后的形式),\(\phi_2(B, C) = P(C|B)P(B)^{1/2}\),则乘积就是 \(P(A, B, C)\),满足因子化形式。
第五步:扩展到有向图模型(贝叶斯网络)
对于有向无环图(贝叶斯网络),思想类似但形式不同:
- 因子化:更直接。每个节点 \(X_i\) 对应一个因子,即其条件概率分布 \(P(X_i | \text{Parents}(X_i))\)(给定父节点的概率)。
\[ P(X_1, ..., X_n) = \prod_{i=1}^{n} P(X_i | \text{Parents}(X_i)) \]
这直接是一种因子分解,每个因子定义在一个节点及其父节点构成的局部家庭上。
- 条件独立性(有向分离,d-separation):有向图也有对应的分离准则(d-separation),用于判断条件独立性。其核心也是:如果节点集合 \(C\) d-分离了 \(A\) 和 \(B\),则 \(A \perp\!\!\!\perp B \mid C\)。
- d-分离的规则考虑了有向边的因果流向和“共同原因”、“共同效果”等结构。
- 同样存在一个等价定理:一个分布 \(P\) 能按照上述公式因子化于一个有向图 \(G\),当且仅当 \(P\) 满足由 \(G\) 的 d-分离所蕴含的所有条件独立关系。
第六步:总结与意义
- 因子分解是从合成(Syntactic) 角度描述概率分布:它告诉我们如何用“小零件”(局部因子)装配成“大机器”(全局分布)。这使得表示和存储变得高效。
- 条件独立性是从语义(Semantic) 角度描述概率分布:它揭示了变量之间内在的依赖关系结构,什么样的信息在什么条件下是无关的。
- 图模型是二者的完美可视化与计算框架:
- 图中的节点是随机变量。
- 图中的边(无论有向无向)直接指示了因子中应该包含哪些变量(即不允许独立)。
- 图的分离性质(无向分离/d-分离)精确对应了分布中的条件独立关系。
- 因此,图的结构就是对概率分布中复杂依赖关系的简洁编码。学习、推理等算法都建立在利用这种因子分解和条件独立性带来的计算简化之上。
理解这个“因子分解 ⇔ 条件独立性 ⇔ 图结构”的三角等价关系,就掌握了概率图模型的灵魂。