马尔可夫链的泊松方程
我们来学习马尔可夫链的泊松方程。这是一个连接马尔可夫链的瞬时行为(如期望、方差)与其平稳分布的重要工具。
第一步:基本概念回顾与问题引入
首先,我们回顾几个关键概念:
- 马尔可夫链:一个随机过程,其未来状态的条件概率分布仅依赖于当前状态,而与过去状态无关。
- 转移概率矩阵(P):矩阵元素 \(P_{ij}\) 表示从状态 \(i\) 一步转移到状态 \(j\) 的概率。
- 平稳分布(π):一个概率分布,满足 \(\pi P = \pi\)。这意味着如果链的初始分布是 \(\pi\),那么在任何未来时刻的分布也永远是 \(\pi\)。
- 报酬函数(f):我们为链的每个状态 \(i\) 赋予一个实数值 \(f(i)\),可以理解为当链访问状态 \(i\) 时获得的“报酬”或“成本”。
核心问题:假设一个马尔可夫链具有平稳分布 \(\pi\)。对于给定的报酬函数 \(f\),如果我们让链长时间运行,平均报酬是多少?同时,如果我们从某个非平稳的初始状态开始,在达到这个长期平均之前,我们的“累积报酬”与“基于长期平均的期望累积报酬”之间会有多大的差异?泊松方程正是用来描述和解决这个差异的。
第二步:长期平均报酬与偏差的直观理解
让我们用更具体的例子来理解这个问题。
- 长期平均报酬:根据遍历定理,对于遍历的(不可约、非周期、有限状态的)马尔可夫链,从任意状态出发,时间平均几乎必然收敛于空间平均。这个空间平均就是平稳分布下的期望值:
\[ \hat{f} = \mathbb{E}_{\pi}[f] = \sum_{i} \pi(i) f(i) \]
这里的 \(\hat{f}\) 是一个常数,代表系统的长期平均表现。
- 累积偏差:现在,假设我们从某个特定的状态 \(i\) 开始。在有限时间 \(n\) 内,我们获得的总报酬是 \(\sum_{k=0}^{n-1} f(X_k)\)。而如果我们从一开始就按长期平均 \(\hat{f}\) 来累积,总报酬将是 \(n\hat{f}\)。这两者之间的差值就是“累积偏差”:
\[ D_n = \sum_{k=0}^{n-1} f(X_k) - n\hat{f} \]
这个偏差 \(D_n\) 是一个随机变量。我们关心它的统计特性,比如它的期望值是多少?它会收敛吗?
第三步:泊松方程的定义与形式
泊松方程为我们提供了一个函数 \(g\),这个函数可以刻画从每个状态出发的期望累积偏差。
对于给定的报酬函数 \(f\) 和平稳分布 \(\pi\),其对应的长期平均 \(\hat{f} = \mathbb{E}_{\pi}[f]\)。泊松方程寻找一个函数 \(g: S \to \mathbb{R}\)(其中 \(S\) 是状态空间),使得对于所有状态 \(i\) ,满足以下方程:
\[(Pg)(i) - g(i) = - (f(i) - \hat{f}) \]
或者更常见地写成:
\[g(i) = (Pg)(i) + (f(i) - \hat{f}) \]
其中,\((Pg)(i) = \sum_{j} P_{ij} g(j)\) 表示从状态 \(i\) 出发,经过一步转移后函数 \(g\) 的期望值。
方程解读:
- 左边 \(g(i)\):可以理解为从状态 \(i\) 开始的“价值”或“势”。
- 右边第一项 \((Pg)(i)\):是从状态 \(i\) 出发,经过一步后到达新状态的“价值”的期望。
- 右边第二项 \(f(i) - \hat{f}\):是当前状态 \(i\) 的“即时报酬”与“长期平均报酬”的偏差。
这个方程的意义在于:当前状态的总“价值” \(g(i)\) 等于下一步的期望“价值” \((Pg)(i)\) 加上当前步的即时偏差 \((f(i) - \hat{f})\)。函数 \(g\) 被称为势函数。
第四步:泊松方程的解与性质
-
解的存在性与唯一性:对于遍历的马尔可夫链,泊松方程的解 \(g\) 是存在的,但在一个加法常数意义下是唯一的。也就是说,如果 \(g\) 是一个解,那么 \(g + c\)(\(c\) 为任意常数)也是一个解。通常我们会施加一个额外的条件来固定这个常数,例如要求 \(\mathbb{E}_{\pi}[g] = \sum_i \pi(i) g(i) = 0\),即势函数在平稳分布下的期望为零。这样解就是唯一的。
-
势函数的概率解释:势函数 \(g(i)\) 有一个非常重要的概率解释。它等于从状态 \(i\) 出发的累积偏差的期望的极限:
\[ g(i) = \lim_{n \to \infty} \mathbb{E}_i \left[ \sum_{k=0}^{n-1} (f(X_k) - \hat{f}) \right] \]
这里 \(\mathbb{E}_i\) 表示给定初始状态 \(X_0 = i\) 条件下的期望。这个公式直接印证了我们第三步的直观理解:\(g(i)\) 量化了从状态 \(i\) 开始,其累积报酬相对于长期平均的期望总偏差。
第五步:一个简单的计算示例
考虑一个两状态的马尔可夫链,其转移概率矩阵为:
\[P = \begin{bmatrix} 0.7 & 0.3 \\ 0.2 & 0.8 \end{bmatrix} \]
状态空间 \(S = \{1, 2\}\)。
- 求平稳分布 \(\pi\):
解方程 \(\pi P = \pi\) 和 \(\pi(1) + \pi(2) = 1\)。
\[ \begin{cases} 0.7\pi(1) + 0.2\pi(2) = \pi(1) \\ 0.3\pi(1) + 0.8\pi(2) = \pi(2) \\ \pi(1) + \pi(2) = 1 \end{cases} \]
解得 \(\pi(1) = 0.4\), \(\pi(2) = 0.6\)。
-
定义报酬函数:假设 \(f(1) = 5\), \(f(2) = 10\)。
计算长期平均报酬:\(\hat{f} = \mathbb{E}_{\pi}[f] = 0.4 \times 5 + 0.6 \times 10 = 2 + 6 = 8\)。 -
建立泊松方程:
方程为 \(g(i) = \sum_j P_{ij} g(j) + (f(i) - 8)\),对于 \(i = 1, 2\)。
- 对于状态1: \(g(1) = 0.7g(1) + 0.3g(2) + (5 - 8)\)
- 对于状态2: \(g(2) = 0.2g(1) + 0.8g(2) + (10 - 8)\)
化简得:
\[ \begin{cases} 0.3g(1) - 0.3g(2) = 3 \quad \text{(1)} \\ -0.2g(1) + 0.2g(2) = -2 \quad \text{(2)} \end{cases} \]
注意,方程(1)和(2)是线性相关的((2) = - (2/3) × (1))。我们需要附加条件 \(\mathbb{E}_{\pi}[g] = 0\) 来获得唯一解:
\[ 0.4g(1) + 0.6g(2) = 0 \quad \text{(3)} \]
- 求解方程组:
使用方程(1)和(3):
\[ \begin{cases} 0.3g(1) - 0.3g(2) = 3 \\ 0.4g(1) + 0.6g(2) = 0 \end{cases} \]
解得:\(g(1) = -3\), \(g(2) = 2\)。
- 结果解释:
- \(g(1) = -3\):从状态1开始,累积报酬的期望值比长期平均基准要少3个单位。这是因为状态1的报酬(5)低于长期平均(8),链在初始阶段更可能停留在报酬较低的状态1附近。
- \(g(2) = 2\):从状态2开始,累积报酬的期望值比长期平均基准要多2个单位。这是因为状态2的报酬(10)高于长期平均(8)。
第六步:泊松方程的主要应用
泊松方程是分析马尔可夫链的有力工具,其主要应用包括:
-
中心极限定理(CLT):对于马尔可夫链,累积报酬 \(\sum_{k=0}^{n-1} f(X_k)\) 在满足一定条件下也服从中心极限定理。其渐近方差(扩散系数)可以通过势函数 \(g\) 来计算:\(\sigma^2(f) = \mathbb{E}_{\pi}[(f + Pg - g)^2]\)。这有助于我们理解累积报酬的波动性。
-
马尔可夫链蒙特卡洛(MCMC)的误差分析:在MCMC中,我们用样本均值 \((1/n)\sum f(X_k)\) 来估计平稳分布期望 \(\mathbb{E}_{\pi}[f]\)。泊松方程可以帮助计算这个估计量的方差和均方误差,从而评估MCMC模拟的效率和精度。
-
扰动分析:当转移概率矩阵 \(P\) 发生微小变化时,平稳分布 \(\pi\) 和长期平均 \(\hat{f}\) 会如何变化?利用泊松方程的解(势函数),可以给出这种变化的一阶近似,这在可靠性分析、性能优化等领域非常有用。
通过以上六个步骤,我们从问题引入到方程定义,再到求解和实际应用,系统地学习了马尔可夫链的泊松方程。它不仅是连接瞬时量与稳态量的桥梁,也是进行更深入统计分析的基石。