马尔可夫链的遍历性
字数 1716 2025-10-28 11:33:38

马尔可夫链的遍历性

我们先从马尔可夫链的基本概念开始。马尔可夫链是一种描述系统状态随时间演化的随机过程,其核心特性是“无后效性”:系统下一时刻的状态仅依赖于当前状态,而与过去的历史无关。

  1. 状态空间与转移概率

    • 状态空间 (State Space):一个马尔可夫链所有可能状态的集合,通常记为 S。S 可以是有限的(如 {晴天, 雨天}),可数无限的(如所有非负整数 {0, 1, 2, ...}),甚至是不可数的。
    • 转移概率 (Transition Probability):从状态 i 经过一步转移到状态 j 的概率,记为 p(i, j)。所有这些概率可以构成一个转移概率矩阵 P(当 S 为有限或可数时),其中第 i 行第 j 列的元素就是 p(i, j)。
  2. 不变分布 (Stationary Distribution)

    • 这是理解遍历性的关键预备概念。一个概率分布 π 被称为马尔可夫链的不变分布(或平稳分布),如果满足以下条件:
      π = πP
    • 用分量形式写出来就是:对于所有状态 j,有 π(j) = Σ_i π(i) p(i, j)。这意味着,如果初始时刻链的状态服从分布 π,那么下一时刻(以及之后所有时刻)的状态分布将永远都是 π。系统在分布意义上是“平稳”的。
  3. 不可约性与非周期性

    • 这两个性质是保证马尔可夫链具有“好”的遍历性的重要条件。
    • 不可约性 (Irreducibility):如果从任何一个状态 i 出发,经过有限步转移后都能以正概率到达任何一个其他状态 j,那么这个马尔可夫链就是不可约的。这意味着状态空间是一个“连通”的整体,不能被分割成几个互不连通的部分。
    • 非周期性 (Aperiodicity):一个状态的周期是它能返回自身的所有步数的最大公约数。如果这个最大公约数是 1,则该状态是非周期的。如果一个不可约的马尔可夫链中有一个状态是非周期的,那么整个链都是非周期的。非周期性避免了状态在几个子集之间周期性振荡的行为。
  4. 马尔可夫链的遍历定理

    • 现在我们可以阐述核心的遍历性结论。对于一个状态空间 S 有限、且满足不可约非周期的马尔可夫链,以下强大的性质成立:
      a. 唯一不变分布存在:存在唯一的一个不变分布 π。
      b. 极限分布收敛:无论链的初始状态是什么(即无论初始分布如何),当时间 n 趋向于无穷大时,n 步转移概率矩阵 Pⁿ 都会收敛到由不变分布 π 构成的矩阵。具体来说,对于任意初始状态 i 和目标状态 j,都有:
      lim (n→∞) pⁿ(i, j) = π(j)
      这意味着,经过足够长的时间后,链处于状态 j 的概率近似等于 π(j),而与起点无关。
      c. 时间平均等于空间平均(遍历性):对于任意一个定义在状态空间上的函数 f(例如,每个状态对应的“奖励”或“观测值”),函数沿一条轨道的时间平均值几乎必然(以概率 1)收敛到该函数关于不变分布 π 的空间平均值。即:
      lim (N→∞) (1/N) Σ_{n=1}^N f(X_n) = Σ_{j∈S} f(j) π(j)
      这里 X_n 是链在第 n 时刻的状态。这表明,对一条足够长的轨道进行观测得到的时间平均,可以准确地反映出整个状态空间在平稳分布下的统计特性。
  5. 扩展到一般状态空间

    • 上述结论可以推广到状态空间为不可数集(如 Rⁿ)的情况,这时我们处理的是马尔可夫过程。核心思想是相通的:
      • 我们需要在状态空间上定义一个测度(通常是勒贝格测度)。
      • 转移概率由转移核 (Transition Kernel) 来描述。
      • 遍历定理的表述形式会更为一般化,其结论是:在适当的不可约性和稳定性条件下,时间平均收敛于关于唯一不变测度的空间平均。这便将马尔可夫过程的遍历性与你之前学过的伯克霍夫平均遍历定理等更一般的框架联系了起来。

总结来说,马尔可夫链的遍历性理论告诉我们,在满足“不可约”和“非周期”等良好条件下,一个随机的动力系统(马尔可夫链)随着时间的推移,会“忘记”其初始状态,其长期行为将由一个唯一的平稳分布所主导,并且时间上的平均行为等同于整个状态空间上的统计平均。

马尔可夫链的遍历性 我们先从马尔可夫链的基本概念开始。马尔可夫链是一种描述系统状态随时间演化的随机过程,其核心特性是“无后效性”:系统下一时刻的状态仅依赖于当前状态,而与过去的历史无关。 状态空间与转移概率 状态空间 (State Space) :一个马尔可夫链所有可能状态的集合,通常记为 S。S 可以是有限的(如 {晴天, 雨天}),可数无限的(如所有非负整数 {0, 1, 2, ...}),甚至是不可数的。 转移概率 (Transition Probability) :从状态 i 经过一步转移到状态 j 的概率,记为 p(i, j)。所有这些概率可以构成一个 转移概率矩阵 P (当 S 为有限或可数时),其中第 i 行第 j 列的元素就是 p(i, j)。 不变分布 (Stationary Distribution) 这是理解遍历性的关键预备概念。一个概率分布 π 被称为马尔可夫链的 不变分布 (或平稳分布),如果满足以下条件: π = πP 用分量形式写出来就是:对于所有状态 j,有 π(j) = Σ_ i π(i) p(i, j)。这意味着,如果初始时刻链的状态服从分布 π,那么下一时刻(以及之后所有时刻)的状态分布将永远都是 π。系统在分布意义上是“平稳”的。 不可约性与非周期性 这两个性质是保证马尔可夫链具有“好”的遍历性的重要条件。 不可约性 (Irreducibility) :如果从任何一个状态 i 出发,经过有限步转移后都能以正概率到达任何一个其他状态 j,那么这个马尔可夫链就是不可约的。这意味着状态空间是一个“连通”的整体,不能被分割成几个互不连通的部分。 非周期性 (Aperiodicity) :一个状态的周期是它能返回自身的所有步数的最大公约数。如果这个最大公约数是 1,则该状态是非周期的。如果一个不可约的马尔可夫链中有一个状态是非周期的,那么整个链都是非周期的。非周期性避免了状态在几个子集之间周期性振荡的行为。 马尔可夫链的遍历定理 现在我们可以阐述核心的遍历性结论。对于一个状态空间 S 有限、且满足 不可约 和 非周期 的马尔可夫链,以下强大的性质成立: a. 唯一不变分布存在 :存在唯一的一个不变分布 π。 b. 极限分布收敛 :无论链的初始状态是什么(即无论初始分布如何),当时间 n 趋向于无穷大时,n 步转移概率矩阵 Pⁿ 都会收敛到由不变分布 π 构成的矩阵。具体来说,对于任意初始状态 i 和目标状态 j,都有: lim (n→∞) pⁿ(i, j) = π(j) 这意味着,经过足够长的时间后,链处于状态 j 的概率近似等于 π(j),而与起点无关。 c. 时间平均等于空间平均(遍历性) :对于任意一个定义在状态空间上的函数 f(例如,每个状态对应的“奖励”或“观测值”),函数沿一条轨道的时间平均值几乎必然(以概率 1)收敛到该函数关于不变分布 π 的空间平均值。即: lim (N→∞) (1/N) Σ_ {n=1}^N f(X_ n) = Σ_ {j∈S} f(j) π(j) 这里 X_ n 是链在第 n 时刻的状态。这表明,对一条足够长的轨道进行观测得到的时间平均,可以准确地反映出整个状态空间在平稳分布下的统计特性。 扩展到一般状态空间 上述结论可以推广到状态空间为不可数集(如 Rⁿ)的情况,这时我们处理的是 马尔可夫过程 。核心思想是相通的: 我们需要在状态空间上定义一个测度(通常是勒贝格测度)。 转移概率由 转移核 (Transition Kernel) 来描述。 遍历定理的表述形式会更为一般化,其结论是:在适当的不可约性和稳定性条件下,时间平均收敛于关于唯一不变测度的空间平均。这便将马尔可夫过程的遍历性与你之前学过的 伯克霍夫平均遍历定理 等更一般的框架联系了起来。 总结来说,马尔可夫链的遍历性理论告诉我们,在满足“不可约”和“非周期”等良好条件下,一个随机的动力系统(马尔可夫链)随着时间的推移,会“忘记”其初始状态,其长期行为将由一个唯一的平稳分布所主导,并且时间上的平均行为等同于整个状态空间上的统计平均。