马尔可夫链的吸收概率与吸收时间
好的,我们开始学习“马尔可夫链的吸收概率与吸收时间”这个词条。这是研究具有吸收态的马尔可夫链长期行为的重要工具。我会循序渐进地为你讲解。
第一步:核心概念铺垫——什么是吸收态?
- 马尔可夫链回顾:一个马尔可夫链由一系列状态和状态间的转移概率定义。系统的未来状态只依赖于当前状态,不依赖于过去(马尔可夫性)。
- 吸收态的定义:在一个马尔可夫链中,如果某个状态 \(i\) 满足“一旦进入,就永远无法离开”,即其转移概率满足 \(P_{ii} = 1\),那么这个状态 \(i\) 就被称为吸收态。从状态 \(i\) 转移到其他任何状态 \(j\) 的概率 \(P_{ij} = 0 \ (j \neq i)\)。
- 例子:考虑一个简单的3状态链,状态空间为 \(\{1, 2, 3\}\)。如果 \(P_{11} = 1\),那么状态1是吸收态。如果转移矩阵如下:
\[ P = \begin{pmatrix} 1 & 0 & 0 \\ 0.5 & 0 & 0.5 \\ 0 & 0.5 & 0.5 \end{pmatrix} \]
这里,状态1是吸收态。一旦从状态2或3进入状态1,过程就永远停留在那里。
第二步:核心问题提出——吸收概率与吸收时间
对于一个包含至少一个吸收态和一些非吸收态(瞬态)的马尔可夫链,我们关心两个核心问题:
- 吸收概率:从某个给定的非吸收态 \(i\) 出发,最终被某个特定的吸收态(比如状态 \(a\))吸收的概率是多少?这被称为“首次到达吸收态 \(a\) 的概率”。
- 吸收时间:从某个给定的非吸收态 \(i\) 出发,最终被任意一个吸收态吸收所需要的平均步数(期望步数)是多少?这被称为“平均吸收时间”。
这两个量刻画了过程如何“结束”以及“多久结束”。
第三步:模型标准化与矩阵表示
为了系统地求解,我们通常对马尔可夫链的状态进行重排和分块。假设链有 \(t\) 个瞬态(非吸收态)和 \(r\) 个吸收态。
- 标准形式:将转移概率矩阵 \(P\) 重新排列,让前 \(r\) 行/列对应吸收态,后 \(t\) 行/列对应瞬态。此时 \(P\) 可以写成如下的分块矩阵形式:
\[ P = \begin{pmatrix} I_r & 0 \\ R & Q \end{pmatrix} \]
其中:
- \(I_r\) 是一个 \(r \times r\) 的单位矩阵,表示吸收态到自身的概率为1,到其他态为0。
- \(0\) 是一个 \(r \times t\) 的零矩阵,表示从吸收态不可能进入瞬态。
- \(R\) 是一个 \(t \times r\) 的矩阵,其元素 \(R_{ij}\) 表示从瞬态 \(i\) 一步转移到吸收态 \(j\) 的概率。
- \(Q\) 是一个 \(t \times t\) 的矩阵,其元素 \(Q_{ij}\) 表示从瞬态 \(i\) 一步转移到瞬态 \(j\) 的概率。
第四步:求解吸收概率
定义 \(f_{ij}\) 为从瞬态 \(i\) 出发,最终被吸收态 \(j\) 吸收的概率。所有从瞬态 \(i\) 出发的最终结局概率之和应为1(因为最终必然被某个吸收态吸收)。
求解思路是建立方程。考虑从瞬态 \(i\) 出发的第一步:
- 有可能第一步直接跳到吸收态 \(j\),概率是 \(R_{ij}\)。
- 也有可能第一步跳到另一个瞬态 \(k\),概率是 \(Q_{ik}\)。此时,问题转化为从瞬态 \(k\) 出发最终被吸收态 \(j\) 吸收的概率,即 \(f_{kj}\)。
根据全概率公式,我们可以得到一组线性方程:
\[f_{ij} = R_{ij} + \sum_{k=1}^{t} Q_{ik} f_{kj}, \quad \text{对于所有瞬态 } i \text{ 和吸收态 } j。 \]
用矩阵表示,令 \(F\) 是一个 \(t \times r\) 的矩阵,其中元素为 \(f_{ij}\)。上面的方程组可以简洁地写为:
\[F = R + Q F \]
整理得到:
\[(I_t - Q)F = R \]
其中 \(I_t\) 是 \(t \times t\) 的单位矩阵。这是一个线性方程组,其解为:
\[F = (I_t - Q)^{-1} R \]
这里的矩阵 \((I_t - Q)^{-1}\) 被称为马尔可夫链的基本矩阵,是求解问题的关键。
第五步:求解平均吸收时间
定义 \(m_i\) 为从瞬态 \(i\) 出发,直到被吸收(进入任意吸收态)所需要的平均步数(期望步数)。
同样考虑第一步:
- 从状态 \(i\) 出发,已经走了1步。
- 如果第一步直接跳到了某个吸收态(概率为 \(\sum_{j=1}^{r} R_{ij}\)),那么整个过程结束,总步数就是这1步。
- 如果第一步跳到了另一个瞬态 \(k\)(概率为 \(Q_{ik}\)),那么从这一步开始,我们还需要平均 \(m_k\) 步才能被吸收,所以总期望步数为 \(1 + m_k\)。
再次应用期望的全概率公式,得到方程组:
\[m_i = 1 \cdot \left( \sum_{j=1}^{r} R_{ij} \right) + \sum_{k=1}^{t} Q_{ik} (1 + m_k) = 1 + \sum_{k=1}^{t} Q_{ik} m_k, \quad \text{对于所有瞬态 } i。 \]
注意到 \(\sum_{j=1}^{r} R_{ij} + \sum_{k=1}^{t} Q_{ik} = 1\)。
用矩阵向量形式表示,令列向量 \(\mathbf{m} = (m_1, m_2, ..., m_t)^\top\),\(\mathbf{1}\) 是全1的列向量。上述方程组等价于:
\[\mathbf{m} = \mathbf{1} + Q \mathbf{m} \]
整理得:
\[(I_t - Q) \mathbf{m} = \mathbf{1} \]
因此,平均吸收时间向量的解为:
\[\mathbf{m} = (I_t - Q)^{-1} \mathbf{1} \]
这里再次出现了基本矩阵 \((I_t - Q)^{-1}\)。实际上,\(m_i\) 就是基本矩阵的第 \(i\) 行元素之和。
第六步:总结与应用
- 核心思想:通过分析“第一步”,为吸收概率和吸收时间建立线性方程,其解由转移概率矩阵的标准形式(\(Q\) 和 \(R\))以及基本矩阵 \((I_t - Q)^{-1}\) 给出。
- 基本矩阵的意义:\((I_t - Q)^{-1} = I + Q + Q^2 + ...\)。其元素 \((I_t - Q)^{-1}_{ik}\) 表示从瞬态 \(i\) 出发,在吸收前访问瞬态 \(k\) 的期望次数。这解释了为什么平均吸收时间是它的行和。
- 应用场景:这个概念广泛应用于各种模型,例如:
- 赌博破产问题:赌徒的资金状态是链的状态,资金为0或达到目标值N是吸收态。吸收概率是破产或获胜的概率,吸收时间是预期的赌局次数。
- 系统可靠性分析:系统状态(正常、故障、修复中),故障状态可能是吸收态。吸收概率可以用来计算系统最终失效的概率。
- 人口遗传学:研究基因型在种群中固定或丢失的概率和时间。
通过以上六个步骤,我们从吸收态的定义开始,逐步建立了求解吸收概率和吸收时间的完整数学框架。理解这个框架的关键在于掌握“第一步分析”和基本矩阵 \((I_t - Q)^{-1}\) 的核心作用。