马尔可夫链的吸收概率与吸收时间

字数 3211 2025-12-11 11:29:58

马尔可夫链的吸收概率与吸收时间

好的，我们开始学习“马尔可夫链的吸收概率与吸收时间”这个词条。这是研究具有吸收态的马尔可夫链长期行为的重要工具。我会循序渐进地为你讲解。

第一步：核心概念铺垫——什么是吸收态？

马尔可夫链回顾：一个马尔可夫链由一系列状态和状态间的转移概率定义。系统的未来状态只依赖于当前状态，不依赖于过去（马尔可夫性）。
吸收态的定义：在一个马尔可夫链中，如果某个状态 \(i\) 满足“一旦进入，就永远无法离开”，即其转移概率满足 \(P_{ii} = 1\)，那么这个状态 \(i\) 就被称为吸收态。从状态 \(i\) 转移到其他任何状态 \(j\) 的概率 \(P_{ij} = 0 \ (j \neq i)\)。
例子：考虑一个简单的3状态链，状态空间为 \(\{1， 2, 3\}\)。如果 \(P_{11} = 1\)，那么状态1是吸收态。如果转移矩阵如下：

\[ P = \begin{pmatrix} 1 & 0 & 0 \\ 0.5 & 0 & 0.5 \\ 0 & 0.5 & 0.5 \end{pmatrix} \]

这里，状态1是吸收态。一旦从状态2或3进入状态1，过程就永远停留在那里。

第二步：核心问题提出——吸收概率与吸收时间

对于一个包含至少一个吸收态和一些非吸收态（瞬态）的马尔可夫链，我们关心两个核心问题：

吸收概率：从某个给定的非吸收态 \(i\) 出发，最终被某个特定的吸收态（比如状态 \(a\)）吸收的概率是多少？这被称为“首次到达吸收态 \(a\) 的概率”。
吸收时间：从某个给定的非吸收态 \(i\) 出发，最终被任意一个吸收态吸收所需要的平均步数（期望步数）是多少？这被称为“平均吸收时间”。

这两个量刻画了过程如何“结束”以及“多久结束”。

第三步：模型标准化与矩阵表示

为了系统地求解，我们通常对马尔可夫链的状态进行重排和分块。假设链有 \(t\) 个瞬态（非吸收态）和 \(r\) 个吸收态。

标准形式：将转移概率矩阵 \(P\) 重新排列，让前 \(r\) 行/列对应吸收态，后 \(t\) 行/列对应瞬态。此时 \(P\) 可以写成如下的分块矩阵形式：

\[ P = \begin{pmatrix} I_r & 0 \\ R & Q \end{pmatrix} \]

其中：

\(I_r\) 是一个 \(r \times r\) 的单位矩阵，表示吸收态到自身的概率为1，到其他态为0。
\(0\) 是一个 \(r \times t\) 的零矩阵，表示从吸收态不可能进入瞬态。
\(R\) 是一个 \(t \times r\) 的矩阵，其元素 \(R_{ij}\) 表示从瞬态 \(i\) 一步转移到吸收态 \(j\) 的概率。
\(Q\) 是一个 \(t \times t\) 的矩阵，其元素 \(Q_{ij}\) 表示从瞬态 \(i\) 一步转移到瞬态 \(j\) 的概率。

第四步：求解吸收概率

定义 \(f_{ij}\) 为从瞬态 \(i\) 出发，最终被吸收态 \(j\) 吸收的概率。所有从瞬态 \(i\) 出发的最终结局概率之和应为1（因为最终必然被某个吸收态吸收）。

求解思路是建立方程。考虑从瞬态 \(i\) 出发的第一步：

有可能第一步直接跳到吸收态 \(j\)，概率是 \(R_{ij}\)。
也有可能第一步跳到另一个瞬态 \(k\)，概率是 \(Q_{ik}\)。此时，问题转化为从瞬态 \(k\) 出发最终被吸收态 \(j\) 吸收的概率，即 \(f_{kj}\)。

根据全概率公式，我们可以得到一组线性方程：

\[f_{ij} = R_{ij} + \sum_{k=1}^{t} Q_{ik} f_{kj}, \quad \text{对于所有瞬态 } i \text{ 和吸收态 } j。 \]

用矩阵表示，令 \(F\) 是一个 \(t \times r\) 的矩阵，其中元素为 \(f_{ij}\)。上面的方程组可以简洁地写为：

\[F = R + Q F \]

整理得到：

\[(I_t - Q)F = R \]

其中 \(I_t\) 是 \(t \times t\) 的单位矩阵。这是一个线性方程组，其解为：

\[F = (I_t - Q)^{-1} R \]

这里的矩阵 \((I_t - Q)^{-1}\) 被称为马尔可夫链的基本矩阵，是求解问题的关键。

第五步：求解平均吸收时间

定义 \(m_i\) 为从瞬态 \(i\) 出发，直到被吸收（进入任意吸收态）所需要的平均步数（期望步数）。

同样考虑第一步：

从状态 \(i\) 出发，已经走了1步。
如果第一步直接跳到了某个吸收态（概率为 \(\sum_{j=1}^{r} R_{ij}\)），那么整个过程结束，总步数就是这1步。
如果第一步跳到了另一个瞬态 \(k\)（概率为 \(Q_{ik}\)），那么从这一步开始，我们还需要平均 \(m_k\) 步才能被吸收，所以总期望步数为 \(1 + m_k\)。

再次应用期望的全概率公式，得到方程组：

\[m_i = 1 \cdot \left( \sum_{j=1}^{r} R_{ij} \right) + \sum_{k=1}^{t} Q_{ik} (1 + m_k) = 1 + \sum_{k=1}^{t} Q_{ik} m_k, \quad \text{对于所有瞬态 } i。 \]

注意到 \(\sum_{j=1}^{r} R_{ij} + \sum_{k=1}^{t} Q_{ik} = 1\)。

用矩阵向量形式表示，令列向量 \(\mathbf{m} = (m_1, m_2, ..., m_t)^\top\)，\(\mathbf{1}\) 是全1的列向量。上述方程组等价于：

\[\mathbf{m} = \mathbf{1} + Q \mathbf{m} \]

整理得：

\[(I_t - Q) \mathbf{m} = \mathbf{1} \]

因此，平均吸收时间向量的解为：

\[\mathbf{m} = (I_t - Q)^{-1} \mathbf{1} \]

这里再次出现了基本矩阵 \((I_t - Q)^{-1}\)。实际上，\(m_i\) 就是基本矩阵的第 \(i\) 行元素之和。

第六步：总结与应用

核心思想：通过分析“第一步”，为吸收概率和吸收时间建立线性方程，其解由转移概率矩阵的标准形式（\(Q\) 和 \(R\)）以及基本矩阵 \((I_t - Q)^{-1}\) 给出。
基本矩阵的意义：\((I_t - Q)^{-1} = I + Q + Q^2 + ...\)。其元素 \((I_t - Q)^{-1}_{ik}\) 表示从瞬态 \(i\) 出发，在吸收前访问瞬态 \(k\) 的期望次数。这解释了为什么平均吸收时间是它的行和。
应用场景：这个概念广泛应用于各种模型，例如：
- 赌博破产问题：赌徒的资金状态是链的状态，资金为0或达到目标值N是吸收态。吸收概率是破产或获胜的概率，吸收时间是预期的赌局次数。
- 系统可靠性分析：系统状态（正常、故障、修复中），故障状态可能是吸收态。吸收概率可以用来计算系统最终失效的概率。
- 人口遗传学：研究基因型在种群中固定或丢失的概率和时间。

通过以上六个步骤，我们从吸收态的定义开始，逐步建立了求解吸收概率和吸收时间的完整数学框架。理解这个框架的关键在于掌握“第一步分析”和基本矩阵 \((I_t - Q)^{-1}\) 的核心作用。

马尔可夫链的吸收概率与吸收时间好的，我们开始学习“马尔可夫链的吸收概率与吸收时间”这个词条。这是研究具有吸收态的马尔可夫链长期行为的重要工具。我会循序渐进地为你讲解。第一步：核心概念铺垫——什么是吸收态？马尔可夫链回顾：一个马尔可夫链由一系列状态和状态间的转移概率定义。系统的未来状态只依赖于当前状态，不依赖于过去（马尔可夫性）。吸收态的定义：在一个马尔可夫链中，如果某个状态 \(i\) 满足“一旦进入，就永远无法离开”，即其转移概率满足 \(P_ {ii} = 1\)，那么这个状态 \(i\) 就被称为吸收态。从状态 \(i\) 转移到其他任何状态 \(j\) 的概率 \(P_ {ij} = 0 \ (j \neq i)\)。例子：考虑一个简单的3状态链，状态空间为 \(\{1， 2, 3\}\)。如果 \(P_ {11} = 1\)，那么状态1是吸收态。如果转移矩阵如下： \[ P = \begin{pmatrix} 1 & 0 & 0 \\ 0.5 & 0 & 0.5 \\ 0 & 0.5 & 0.5 \end{pmatrix} \] 这里，状态1是吸收态。一旦从状态2或3进入状态1，过程就永远停留在那里。第二步：核心问题提出——吸收概率与吸收时间对于一个包含至少一个吸收态和一些非吸收态（瞬态）的马尔可夫链，我们关心两个核心问题：吸收概率：从某个给定的非吸收态 \(i\) 出发，最终被某个特定的吸收态（比如状态 \(a\)）吸收的概率是多少？这被称为“首次到达吸收态 \(a\) 的概率”。吸收时间：从某个给定的非吸收态 \(i\) 出发，最终被任意一个吸收态吸收所需要的平均步数（期望步数）是多少？这被称为“平均吸收时间”。这两个量刻画了过程如何“结束”以及“多久结束”。第三步：模型标准化与矩阵表示为了系统地求解，我们通常对马尔可夫链的状态进行重排和分块。假设链有 \(t\) 个瞬态（非吸收态）和 \(r\) 个吸收态。标准形式：将转移概率矩阵 \(P\) 重新排列，让前 \(r\) 行/列对应吸收态，后 \(t\) 行/列对应瞬态。此时 \(P\) 可以写成如下的分块矩阵形式： \[ P = \begin{pmatrix} I_ r & 0 \\ R & Q \end{pmatrix} \] 其中： \(I_ r\) 是一个 \(r \times r\) 的单位矩阵，表示吸收态到自身的概率为1，到其他态为0。 \(0\) 是一个 \(r \times t\) 的零矩阵，表示从吸收态不可能进入瞬态。 \(R\) 是一个 \(t \times r\) 的矩阵，其元素 \(R_ {ij}\) 表示从瞬态 \(i\) 一步转移到吸收态 \(j\) 的概率。 \(Q\) 是一个 \(t \times t\) 的矩阵，其元素 \(Q_ {ij}\) 表示从瞬态 \(i\) 一步转移到瞬态 \(j\) 的概率。第四步：求解吸收概率定义 \(f_ {ij}\) 为从瞬态 \(i\) 出发，最终被吸收态 \(j\) 吸收的概率。所有从瞬态 \(i\) 出发的最终结局概率之和应为1（因为最终必然被某个吸收态吸收）。求解思路是建立方程。考虑从瞬态 \(i\) 出发的第一步：有可能第一步直接跳到吸收态 \(j\)，概率是 \(R_ {ij}\)。也有可能第一步跳到另一个瞬态 \(k\)，概率是 \(Q_ {ik}\)。此时，问题转化为从瞬态 \(k\) 出发最终被吸收态 \(j\) 吸收的概率，即 \(f_ {kj}\)。根据全概率公式，我们可以得到一组线性方程： \[ f_ {ij} = R_ {ij} + \sum_ {k=1}^{t} Q_ {ik} f_ {kj}, \quad \text{对于所有瞬态 } i \text{ 和吸收态 } j。 \] 用矩阵表示，令 \(F\) 是一个 \(t \times r\) 的矩阵，其中元素为 \(f_ {ij}\)。上面的方程组可以简洁地写为： \[ F = R + Q F \] 整理得到： \[ (I_ t - Q)F = R \] 其中 \(I_ t\) 是 \(t \times t\) 的单位矩阵。这是一个线性方程组，其解为： \[ F = (I_ t - Q)^{-1} R \] 这里的矩阵 \((I_ t - Q)^{-1}\) 被称为马尔可夫链的基本矩阵，是求解问题的关键。第五步：求解平均吸收时间定义 \(m_ i\) 为从瞬态 \(i\) 出发，直到被吸收（进入任意吸收态）所需要的平均步数（期望步数）。同样考虑第一步：从状态 \(i\) 出发，已经走了1步。如果第一步直接跳到了某个吸收态（概率为 \(\sum_ {j=1}^{r} R_ {ij}\)），那么整个过程结束，总步数就是这1步。如果第一步跳到了另一个瞬态 \(k\)（概率为 \(Q_ {ik}\)），那么从这一步开始，我们还需要平均 \(m_ k\) 步才能被吸收，所以总期望步数为 \(1 + m_ k\)。再次应用期望的全概率公式，得到方程组： \[ m_ i = 1 \cdot \left( \sum_ {j=1}^{r} R_ {ij} \right) + \sum_ {k=1}^{t} Q_ {ik} (1 + m_ k) = 1 + \sum_ {k=1}^{t} Q_ {ik} m_ k, \quad \text{对于所有瞬态 } i。 \] 注意到 \(\sum_ {j=1}^{r} R_ {ij} + \sum_ {k=1}^{t} Q_ {ik} = 1\)。用矩阵向量形式表示，令列向量 \(\mathbf{m} = (m_ 1, m_ 2, ..., m_ t)^\top\)，\(\mathbf{1}\) 是全1的列向量。上述方程组等价于： \[ \mathbf{m} = \mathbf{1} + Q \mathbf{m} \] 整理得： \[ (I_ t - Q) \mathbf{m} = \mathbf{1} \] 因此，平均吸收时间向量的解为： \[ \mathbf{m} = (I_ t - Q)^{-1} \mathbf{1} \] 这里再次出现了基本矩阵 \((I_ t - Q)^{-1}\)。实际上，\(m_ i\) 就是基本矩阵的第 \(i\) 行元素之和。第六步：总结与应用核心思想：通过分析“第一步”，为吸收概率和吸收时间建立线性方程，其解由转移概率矩阵的标准形式（\(Q\) 和 \(R\)）以及基本矩阵 \((I_ t - Q)^{-1}\) 给出。基本矩阵的意义：\((I_ t - Q)^{-1} = I + Q + Q^2 + ...\)。其元素 \((I_ t - Q)^{-1}_ {ik}\) 表示从瞬态 \(i\) 出发，在吸收前访问瞬态 \(k\) 的期望次数。这解释了为什么平均吸收时间是它的行和。应用场景：这个概念广泛应用于各种模型，例如：赌博破产问题：赌徒的资金状态是链的状态，资金为0或达到目标值N是吸收态。吸收概率是破产或获胜的概率，吸收时间是预期的赌局次数。系统可靠性分析：系统状态（正常、故障、修复中），故障状态可能是吸收态。吸收概率可以用来计算系统最终失效的概率。人口遗传学：研究基因型在种群中固定或丢失的概率和时间。通过以上六个步骤，我们从吸收态的定义开始，逐步建立了求解吸收概率和吸收时间的完整数学框架。理解这个框架的关键在于掌握“第一步分析”和基本矩阵 \((I_ t - Q)^{-1}\) 的核心作用。