马氏链的谱表示
我来为你讲解概率论与统计中的一个重要概念——马尔可夫链的谱表示。这是一种将马尔可夫链的转移矩阵通过其特征值与特征向量进行分析的强大工具,能够深刻揭示链的长期行为和收敛速度。
第一步:基础知识回顾——转移矩阵与特征值
首先,我们需要明确两个核心对象:
- 有限状态马尔可夫链:假设我们有一个定义在有限状态空间 \(S = \{1, 2, ..., n\}\) 上的马尔可夫链。
- 转移矩阵 \(P\):这是一个 \(n \times n\) 的矩阵,其中元素 \(P_{ij}\) 表示从状态 \(i\) 一步转移到状态 \(j\) 的概率。\(P\) 是一个随机矩阵,即每行元素之和为 1(所有行和为 1)。
一个关键的线性代数事实是:对于任何方阵,如果存在非零向量 \(v\) 和标量 \(\lambda\),使得 \(P v = \lambda v\),那么 \(\lambda\) 称为 \(P\) 的特征值,\(v\) 称为对应的(右)特征向量。
由于 \(P\) 是行和为 1 的随机矩阵,它有一个非常特殊的特征值:
- 最大特征值:总是存在一个特征值 \(\lambda_1 = 1\)。
- 对应的特征向量:与 \(\lambda_1 = 1\) 对应的右特征向量可以取为全 1 向量 \(\mathbf{1} = (1, 1, ..., 1)^T\),因为 \(P \mathbf{1} = \mathbf{1}\)(行和为 1 的直接推论)。
第二步:谱表示的核心思想——对角化
如果转移矩阵 \(P\) 是可对角化的,那么它的谱表示就变得非常简洁。
- 对角化假设:假设 \(P\) 有 \(n\) 个线性无关的右特征向量 \(v_1, v_2, ..., v_n\),对应的特征值为 \(\lambda_1, \lambda_2, ..., \lambda_n\),且 \(\lambda_1 = 1\)。
- 矩阵形式:将这些特征向量作为列向量构成矩阵 \(V = [v_1, v_2, ..., v_n]\),特征值构成对角矩阵 \(\Lambda = \text{diag}(\lambda_1, ..., \lambda_n)\)。那么对角化关系为:
\[ P V = V \Lambda \quad \Rightarrow \quad P = V \Lambda V^{-1} \]
其中 \(V^{-1}\) 的行向量实际上是 \(P\) 的左特征向量(满足 \(u P = \lambda u\))。
这个分解的威力在于计算幂次。对于 \(t\) 步转移矩阵 \(P^t\)(其 \((i, j)\) 元素是 \(t\) 步从 \(i\) 到 \(j\) 的概率),我们有:
\[ P^t = (V \Lambda V^{-1})^t = V \Lambda^t V^{-1} \]
而 \(\Lambda^t = \text{diag}(\lambda_1^t, \lambda_2^t, ..., \lambda_n^t)\) 非常容易计算。
第三步:平稳分布与收敛——谱表示的诠释
-
平稳分布 \(\pi\):一个概率分布 \(\pi = (\pi_1, ..., \pi_n)\) 如果满足 \(\pi P = \pi\),则称为平稳分布。注意,这里 \(\pi\) 被视为一个行向量。这恰恰说明 \(\pi\) 是 \(P\) 的对应于特征值 1 的左特征向量(归一化为概率分布)。
-
用谱表示表达 \(P^t\):
利用对角化,我们可以将 \(P^t\) 明确地写出来。令 \(u_i\) 是 \(V^{-1}\) 的第 \(i\) 行(即归一化的左特征向量),\(v_i\) 是 \(V\) 的第 \(i\) 列(右特征向量),则:
\[ P^t = \sum_{i=1}^n \lambda_i^t v_i u_i \]
更具体地,其矩阵元素为:
\[ P_{ij}^t = \sum_{k=1}^n \lambda_k^t (v_k)_i (u_k)_j \]
其中 \((v_k)_i\) 是第 \(k\) 个右特征向量的第 \(i\) 个分量,\((u_k)_j\) 是第 \(k\) 个左特征向量的第 \(j\) 个分量。
- 收敛到平稳分布:
对于不可约、非周期(遍历)的马尔可夫链,当 \(t \to \infty\) 时,\(P^t\) 的每一行都会收敛到平稳分布 \(\pi\)。
- 从谱表示来看,对应于 \(\lambda_1 = 1\) 的项是 \(1^t v_1 u_1\)。
- 可以证明,对于遍历链,\(v_1\) 可以取为全1向量,而 \(u_1\) 就是平稳分布 \(\pi\)(作为行向量)。所以第一项就是 \(\mathbf{1} \pi\)(一个每行都是 \(\pi\) 的矩阵)。
- 对于其他特征值 \(\lambda_k\)(\(k \ge 2\)),必有 \(|\lambda_k| < 1\)。因此,当 \(t \to \infty\) 时,\(\lambda_k^t \to 0\)。于是:
\[ \lim_{t \to \infty} P^t = \mathbf{1} \pi + \lim_{t \to \infty} \sum_{k=2}^n \lambda_k^t v_k u_k = \mathbf{1} \pi \]
这从代数上清晰地展示了收敛过程。
第四步:收敛速度与谱隙
谱表示最优雅的应用之一是量化收敛速度。
- 谱半径 \(\rho(P)\):定义为 \(P\) 除 1 之外最大特征值的模,即 \(\rho(P) = \max\{ |\lambda_2|, |\lambda_3|, ..., |\lambda_n| \}\)。
- 谱隙 \(1 - \rho(P)\):这个值衡量了次主导特征值(模最大的那个非1特征值)离 1 有多远。谱隙越大,链收敛到平稳分布的速度越快。
- 收敛速率:从谱表示 \(P_{ij}^t = \pi_j + \sum_{k=2}^n \lambda_k^t (v_k)_i (u_k)_j\) 可以看出,收敛的“误差项”以速率 \(O(\rho(P)^t)\) 指数衰减。因此,\(\rho(P)\) 直接控制了混合时间。
第五步:不可对角化的情况与推广
并非所有转移矩阵都可对角化(例如,某些周期链或退化链可能具有约当标准型)。此时,谱表示需要推广:
- 若尔当标准型:更一般地,\(P\) 可以相似于一个若尔当标准型 \(J\),即 \(P = S J S^{-1}\)。此时 \(P^t = S J^t S^{-1}\)。
- \(J^t\) 的计算涉及 \(\lambda^t\) 以及 \(t\) 的多项式项(来自若尔当块)。收敛的长期行为仍然由占主导地位的特征值(模最大的特征值)控制,但衰减速度可能为 \(O(t^m \rho(P)^t)\),其中 \(m\) 是相应若尔当块的阶数减一。
总结与直观理解
马尔可夫链的谱表示,本质上是将概率转移这一动态过程,“翻译”成线性代数中特征值和特征向量的语言。
- 特征值 1 对应了系统的稳态(平稳分布)。
- 其他特征值(其模小于1)对应了系统朝向稳态收敛的瞬态模式。
- 特征值的大小决定了这些瞬态模式衰减的速度。
- 特征向量则刻画了这些瞬态模式在状态空间中是怎样的“波动形态”。
通过分析转移矩阵的谱(即全部特征值),我们可以不依赖于模拟,直接从代数结构上判断链的遍历性、计算精确的 \(t\) 步转移概率、并定量分析其收敛到平稳分布的速度。它是连接概率论、线性代数和动力系统的经典范例。