马尔可夫链的熵率
马尔可夫链的熵率是刻画其状态序列不确定性的渐近速率。对于平稳马尔可夫链,熵率可通过一步转移概率和稳态分布直接计算。
- 熵的初步定义
若随机变量 \(X\) 取值于有限集 \(\mathcal{X}\),其熵为
\[ H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x), \]
表示描述 \(X\) 所需的信息量(以比特或纳特为单位)。
- 序列的联合熵与条件熵
对长度为 \(n\) 的状态序列 \(X_1, X_2, \dots, X_n\),其联合熵为
\[ H(X_1, \dots, X_n) = -\sum_{x_1, \dots, x_n} p(x_1, \dots, x_n) \log p(x_1, \dots, x_n). \]
条件熵 \(H(X_n \mid X_1, \dots, X_{n-1})\) 表示已知前 \(n-1\) 个状态时,\(X_n\) 的不确定性。
- 熵率的定义
熵率定义为平均每步的极限熵:
\[ h = \lim_{n \to \infty} \frac{H(X_1, \dots, X_n)}{n}, \]
或等价地(对平稳过程)为
\[ h = \lim_{n \to \infty} H(X_n \mid X_1, \dots, X_{n-1}). \]
- 平稳马尔可夫链的熵率公式
若链是时间齐次且具有平稳分布 \(\pi\),转移概率为 \(P(x, y)\),则熵率可简化为
\[ h = -\sum_{x, y} \pi(x) P(x, y) \log P(x, y), \]
即对每个状态 \(x\),计算从 \(x\) 出发的条件熵 \(H(Y \mid X=x)\),再按 \(\pi\) 加权平均。
- 熵率的遍历解释
熵率与香农-麦克米伦-布雷曼定理相关:对几乎每条轨道 \(x_1, x_2, \dots\),有
\[ \lim_{n \to \infty} -\frac{1}{n} \log p(x_1, \dots, x_n) = h, \]
表明熵率是典型序列的指数衰减率。
-
非平稳链的推广
若链非平稳但收敛到稳态,熵率仍可通过极限定义计算,但需注意初始分布的影响。 -
与动力系统熵的关系
马尔可夫链可视为符号动力系统,其熵率与科尔莫戈罗夫-西奈熵一致,反映了系统动态的复杂度。 -
应用示例
对于二状态马尔可夫链(转移矩阵 \(\begin{pmatrix} p & 1-p \\ 1-q & q \end{pmatrix}\),稳态分布 \(\pi(0) = \frac{1-q}{2-p-q}\),熵率为
\[ h = \pi(0) \left[ -p \log p - (1-p) \log (1-p) \right] + \pi(1) \left[ -q \log q - (1-q) \log (1-q) \right]. \]