马尔可夫链的熵率
字数 1309 2025-11-03 20:46:05

马尔可夫链的熵率

马尔可夫链的熵率是刻画其状态序列不确定性的渐近速率。对于平稳马尔可夫链,熵率可通过一步转移概率和稳态分布直接计算。

  1. 熵的初步定义
    若随机变量 \(X\) 取值于有限集 \(\mathcal{X}\),其熵为

\[ H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x), \]

表示描述 \(X\) 所需的信息量(以比特或纳特为单位)。

  1. 序列的联合熵与条件熵
    对长度为 \(n\) 的状态序列 \(X_1, X_2, \dots, X_n\),其联合熵为

\[ H(X_1, \dots, X_n) = -\sum_{x_1, \dots, x_n} p(x_1, \dots, x_n) \log p(x_1, \dots, x_n). \]

条件熵 \(H(X_n \mid X_1, \dots, X_{n-1})\) 表示已知前 \(n-1\) 个状态时,\(X_n\) 的不确定性。

  1. 熵率的定义
    熵率定义为平均每步的极限熵:

\[ h = \lim_{n \to \infty} \frac{H(X_1, \dots, X_n)}{n}, \]

或等价地(对平稳过程)为

\[ h = \lim_{n \to \infty} H(X_n \mid X_1, \dots, X_{n-1}). \]

  1. 平稳马尔可夫链的熵率公式
    若链是时间齐次且具有平稳分布 \(\pi\),转移概率为 \(P(x, y)\),则熵率可简化为

\[ h = -\sum_{x, y} \pi(x) P(x, y) \log P(x, y), \]

即对每个状态 \(x\),计算从 \(x\) 出发的条件熵 \(H(Y \mid X=x)\),再按 \(\pi\) 加权平均。

  1. 熵率的遍历解释
    熵率与香农-麦克米伦-布雷曼定理相关:对几乎每条轨道 \(x_1, x_2, \dots\),有

\[ \lim_{n \to \infty} -\frac{1}{n} \log p(x_1, \dots, x_n) = h, \]

表明熵率是典型序列的指数衰减率。

  1. 非平稳链的推广
    若链非平稳但收敛到稳态,熵率仍可通过极限定义计算,但需注意初始分布的影响。

  2. 与动力系统熵的关系
    马尔可夫链可视为符号动力系统,其熵率与科尔莫戈罗夫-西奈熵一致,反映了系统动态的复杂度。

  3. 应用示例
    对于二状态马尔可夫链(转移矩阵 \(\begin{pmatrix} p & 1-p \\ 1-q & q \end{pmatrix}\),稳态分布 \(\pi(0) = \frac{1-q}{2-p-q}\),熵率为

\[ h = \pi(0) \left[ -p \log p - (1-p) \log (1-p) \right] + \pi(1) \left[ -q \log q - (1-q) \log (1-q) \right]. \]

马尔可夫链的熵率 马尔可夫链的熵率是刻画其状态序列不确定性的渐近速率。对于平稳马尔可夫链,熵率可通过一步转移概率和稳态分布直接计算。 熵的初步定义 若随机变量 \( X \) 取值于有限集 \( \mathcal{X} \),其熵为 \[ H(X) = -\sum_ {x \in \mathcal{X}} p(x) \log p(x), \] 表示描述 \( X \) 所需的信息量(以比特或纳特为单位)。 序列的联合熵与条件熵 对长度为 \( n \) 的状态序列 \( X_ 1, X_ 2, \dots, X_ n \),其联合熵为 \[ H(X_ 1, \dots, X_ n) = -\sum_ {x_ 1, \dots, x_ n} p(x_ 1, \dots, x_ n) \log p(x_ 1, \dots, x_ n). \] 条件熵 \( H(X_ n \mid X_ 1, \dots, X_ {n-1}) \) 表示已知前 \( n-1 \) 个状态时,\( X_ n \) 的不确定性。 熵率的定义 熵率定义为平均每步的极限熵: \[ h = \lim_ {n \to \infty} \frac{H(X_ 1, \dots, X_ n)}{n}, \] 或等价地(对平稳过程)为 \[ h = \lim_ {n \to \infty} H(X_ n \mid X_ 1, \dots, X_ {n-1}). \] 平稳马尔可夫链的熵率公式 若链是时间齐次且具有平稳分布 \( \pi \),转移概率为 \( P(x, y) \),则熵率可简化为 \[ h = -\sum_ {x, y} \pi(x) P(x, y) \log P(x, y), \] 即对每个状态 \( x \),计算从 \( x \) 出发的条件熵 \( H(Y \mid X=x) \),再按 \( \pi \) 加权平均。 熵率的遍历解释 熵率与香农-麦克米伦-布雷曼定理相关:对几乎每条轨道 \( x_ 1, x_ 2, \dots \),有 \[ \lim_ {n \to \infty} -\frac{1}{n} \log p(x_ 1, \dots, x_ n) = h, \] 表明熵率是典型序列的指数衰减率。 非平稳链的推广 若链非平稳但收敛到稳态,熵率仍可通过极限定义计算,但需注意初始分布的影响。 与动力系统熵的关系 马尔可夫链可视为符号动力系统,其熵率与科尔莫戈罗夫-西奈熵一致,反映了系统动态的复杂度。 应用示例 对于二状态马尔可夫链(转移矩阵 \( \begin{pmatrix} p & 1-p \\ 1-q & q \end{pmatrix} \),稳态分布 \( \pi(0) = \frac{1-q}{2-p-q} \),熵率为 \[ h = \pi(0) \left[ -p \log p - (1-p) \log (1-p) \right] + \pi(1) \left[ -q \log q - (1-q) \log (1-q) \right ]. \]