马尔可夫链的遍历定理
好的,我们开始学习“马尔可夫链的遍历定理”。这个定理是连接马尔可夫链的短期行为和长期行为的一座重要桥梁,它描述了在什么条件下,一条链在长时间运行后会“忘记”它的起点,并且其时间平均会收敛到空间平均(即平稳分布)。
第一步:回顾核心概念——马尔可夫链与平稳分布
为了理解遍历定理,我们需要先明确两个你已经学过的概念:
- 马尔可夫链:一个随机过程,其未来状态的条件概率分布仅依赖于当前状态,而与过去状态无关。这个性质称为“马尔可夫性”。
- 平稳分布:对于一个马尔可夫链,如果存在一个概率分布 π,使得如果链在某个时刻的分布是 π,那么它在下一时刻以及所有未来时刻的分布都仍然是 π。分布 π 就称为该链的平稳分布。它满足方程 π = πP,其中 P 是链的状态转移矩阵。
平稳分布描述了链的长期均衡状态,但它本身并没有告诉我们,从任意一个初始状态出发,链是否真的会趋近于这个均衡。
第二步:引入“不可约”和“非周期”的概念
遍历定理成立需要一些前提条件。这些条件确保了链的状态空间是“连通”的,并且链的动态行为没有固定的周期循环。
-
不可约性:
- 直观理解:在一个马尔可夫链中,如果从任何一个状态出发,都有一定的概率在有限步内到达任何另一个状态,那么我们就称这个链是不可约的。
- 比喻:想象一个国家的城市网络。如果从任何一座城市都可以通过公路(不一定直达)到达任何另一座城市,那么这个交通网络就是“不可约”的。如果存在两个孤立的城市群,彼此之间没有道路连接,那么这个网络就是“可约”的。
- 重要性:不可约性保证了整个状态空间是一个整体,没有“死胡同”或完全独立的区域。链可以探索所有可能的状态。
-
非周期性:
- 直观理解:考虑一个状态 i。可能返回状态 i 的步数(时间长度)的最大公约数(gcd)称为状态 i 的周期。如果这个周期是 1,则称状态 i 是非周期的。如果一个不可约的马尔可夫链中有一个状态是非周期的,那么链中所有状态都是非周期的,此时我们称整个链是非周期的。
- 例子:想象一个简单的在两个状态 {A, B} 间来回切换的链:A->B->A->B...。从A出发,只能在步数为2, 4, 6...(偶数步)时回到A。这些步数的最大公约数是2,所以状态A的周期是2,这个链是周期性的。
- 重要性:非周期性排除了链陷入固定周期循环的可能性。一个非周期的链,其行为在时间上是“混合”的,没有长期记忆的固定节奏,这有助于它平滑地收敛到平稳分布。
第三步:陈述遍历定理(Ergodic Theorem)
现在,我们可以正式地陈述这个核心定理了。它有两个常见的版本,我们先看更基础、更直观的一个。
定理(时间平均收敛到空间平均):
如果一个马尔可夫链是不可约、非周期,并且具有平稳分布 π,那么对于链的任意初始状态 i 和任意函数 f(只要 f 的期望值在平稳分布下是有限的,即 E_π[|f(X)|] < ∞),几乎必然地(即以概率1)有:
lim (n→∞) (1/n) Σ_{k=0}^{n-1} f(X_k) = Σ_j f(j) π_j = E_π[f(X)]
让我们来拆解这个公式:
- 左边 (1/n) Σ f(X_k):这是在时间序列上,从时间 0 到 n-1 的函数值的时间平均。它代表了在链的整个运行轨迹上,f 的平均观测值。
- 右边 Σ f(j) π_j:这是在状态空间上,函数 f 关于平稳分布 π 的期望值(空间平均)。它代表了如果我们从平稳分布中随机抽取一个状态,f 的期望值是多少。
- 等号:定理告诉我们,当时间 n 趋向于无穷大时,时间平均一定会收敛到空间平均。
一个简单的例子:假设我们的链是天气模型(晴、雨),平稳分布 π 是 (0.7, 0.3)。令函数 f(晴)=1, f(雨)=0。那么:
- 左边的时间平均:在很长一段时间内,晴天天数的比例。
- 右边的空间平均:E_π[f(X)] = 1 * 0.7 + 0 * 0.3 = 0.7。
遍历定理断言,长期来看,晴天的比例一定会收敛到70%。
第四步:理解定理的深刻含义——遍历性
上述定理是“遍历性”的一种体现。在概率论的语境下,遍历性 意味着:
时间平均 = 空间平均
这有以下几个非常重要的推论:
- 忘记起点:链的长期行为不依赖于初始状态 X₀。无论你从哪个状态开始(晴天或雨天开始),长期的时间平均结果都是一样的。
- 平稳分布的另一种解释:如果我们令函数 f 是“指示函数”,即 f(j) = 1 当 X=j,否则为0。那么上述定理的左边就变成了“访问状态 j 的时间比例”,而右边就是 π_j。这意味着:
lim (n→∞) (访问状态 j 的次数) / n = π_j
这给出了平稳分布 π_j 一个非常直观的物理解释:它代表了链在长期运行中,处于状态 j 的时间所占的比例。 - 大数定律的推广:你可以将此定理视为马尔可夫链版本的“大数定律”。经典大数定律处理的是独立同分布的随机变量,而遍历定理处理的是具有相关性的马尔可夫序列,只要它满足不可约和非周期条件,其均值依然会收敛。
第五步:更一般的表述——状态分布的收敛
遍历定理还有另一个等价的、或许更常见的表述形式,它直接关注状态分布本身的收敛。
定理(分布收敛到平稳分布):
如果一个马尔可夫链是不可约、非周期,并且具有平稳分布 π,那么无论初始分布如何,链在 n 步后的分布都会收敛到平稳分布。即,对于任意状态 i 和 j,有:
lim (n→∞) P(X_n = j | X₀ = i) = π_j
- P(X_n = j | X₀ = i) 是 n 步转移概率,即从状态 i 出发,经过 n 步后处于状态 j 的概率。
- 这个极限告诉我们,经过足够长的时间后,链处于状态 j 的概率与起点 i 无关,并且恰好等于平稳分布 π_j。
这个表述与时间平均的表述是内在统一的。它从概率分布的角度再次确认了链会“忘记”其初始状态,并最终稳定在其平稳分布所描述的统计平衡之中。
总结
马尔可夫链的遍历定理 的核心思想是:对于一个行为“良好”(不可约、非周期)的马尔可夫链,其长期行为是稳定且可预测的。它保证了:
- 从任何起点出发,链的分布最终会趋近于唯一的平稳分布。
- 沿着一条轨道计算的时间平均,会几乎必然地等于对整个状态空间求的空间平均(平稳分布下的期望)。
这个定理为我们在实践中使用马尔可夫链模型(例如,用于预测、蒙特卡洛模拟等)提供了坚实的理论基础,因为它确保了长期模拟结果的稳定性和可靠性。