交叉熵与相对熵在遍历理论中的作用
字数 2353 2025-10-31 12:29:18

交叉熵与相对熵在遍历理论中的作用

交叉熵与相对熵是信息论中的核心概念,它们在遍历动力系统的研究中扮演着重要角色,特别是在度量系统的复杂性、随机性以及量化轨道分布的“差异性”方面。

  1. 预备知识:从香农熵到相对熵
  • 香农熵:对于一个具有有限个结果的概率分布 $ P = (p_1, p_2, ..., p_n) $,其香农熵定义为 $ H(P) = - \sum_{i=1}^{n} p_i \log p_i $。熵度量了从该分布中随机抽取一个结果时所获得的平均“信息量”或“不确定性”。熵越大,不确定性越高。
  • 相对熵:也称为Kullback-Leibler散度。对于定义在同一个样本空间上的两个概率分布 $ P $ 和 $ Q $,从 $ P $ 到 $ Q $ 的相对熵定义为 $ D_{KL}(P || Q) = \sum_{i} p_i \log \frac{p_i}{q_i} $(离散情况)。它度量了当真实分布为 $ P $ 时,用分布 $ Q $ 来近似所引入的额外信息损失或“差异”程度。值得注意的是,$ D_{KL}(P || Q) \geq 0 $,且当且仅当 $ P = Q $ 时等号成立。但它不是对称的,即 $ D_{KL}(P || Q) \neq D_{KL}(Q || P) $。
  • 交叉熵:交叉熵定义为 $ H(P, Q) = - \sum_{i} p_i \log q_i $。它可以分解为 $ H(P, Q) = H(P) + D_{KL}(P || Q) $。这意味着交叉熵等于真实分布 $ P $ 自身的熵,加上 $ P $ 与近似分布 $ Q $ 之间的相对熵。
  1. 在遍历理论中的引入:经验分布与静态分布
  • 考虑一个保测动力系统 $ (X, \mathcal{B}, \mu, T) $。对于一个点 $ x \in X $ 和一个有限的可测划分 $ \alpha = \{A_1, A_2, ..., A_k\} $,我们可以观察其轨道 $ x, Tx, T^2x, ..., T^{n-1}x $。
  • 经验分布:轨道前 $ n $ 项在划分 $ \alpha $ 上产生的经验分布 $ E_n(x) $ 是一个概率向量。其第 $ i $ 个分量 $ (E_n(x))i $ 是轨道前 $ n $ 项落入集合 $ A_i $ 的频率,即 $ \frac{1}{n} \sum{j=0}^{n-1} \chi_{A_i}(T^j x) $。
  • 静态分布:系统的不变测度 $ \mu $ 在划分 $ \alpha $ 上诱导一个概率分布 $ \mu_\alpha = (\mu(A_1), \mu(A_2), ..., \mu(A_k)) $。
  1. 相对熵作为差异的度量
  • 我们可以计算经验分布 $ E_n(x) $ 相对于静态分布 $ \mu_\alpha $ 的相对熵 $ D_{KL}(E_n(x) || \mu_\alpha) $。
  • 这个值量化了从点 $ x $ 的轨道观测到的统计行为与系统内在的稳态分布 $ \mu $ 之间的差异。如果对于大多数点 $ x $($ \mu $-几乎处处),当 $ n \to \infty $ 时,$ D_{KL}(E_n(x) || \mu_\alpha) \to 0 $,这就为遍历性(时间平均等于空间平均)提供了一个信息论视角的强化版本。它不仅要求频率收敛,还要求整个经验分布“紧密地”逼近静态分布。
  1. 与大偏差原理的联系
  • 相对熵自然出现在遍历理论的大偏差原理中。大偏差原理关心的是,经验分布 $ E_n(x) $ 偏离静态分布 $ \mu_\alpha $ 超过一个给定阈值的概率的渐近衰减速率。
  • 对于“足够好”的遍历系统(如伯努利移位),这个衰减速率由一个称为速率函数的量控制。对于经验分布偏离静态分布的事件,速率函数通常正好就是相对熵 $ D_{KL}(P || \mu_\alpha) $,其中 $ P $ 是那个“偏离”的分布。这意味着:
    \

\[ \mu(\\{x: E_n(x) \approx P\\}) \approx e^{-n D_{KL}(P || \mu_\alpha)} \ \]

    (在指数渐近意义上)。这深刻揭示了相对熵如何量化了观测到非典型轨道统计行为的罕见性。
  1. 与科尔莫戈罗夫-西奈熵的关系
  • 科尔莫戈罗夫-西奈熵 $ h_\mu(T) $ 是系统平均信息产生率的度量。它可以通过对划分的熵取上确界来定义。
  • 相对熵为理解熵提供了另一个视角。系统的熵可以关联到在静态分布 $ \mu $ 下,经验分布 $ E_n(x) $ 的相对熵 $ D_{KL}(E_n(x) || \mu) $ 的期望值的渐近行为。粗略地说,熵衡量了典型轨道所产生的经验分布相对于静态分布的“平均惊奇度”或“平均信息增益”。

总结来说,交叉熵和相对熵为遍历理论提供了强大的信息论工具,使得我们能够精确地度量轨道行为的统计特性与系统稳态之间的差异,分析罕见事件(大偏差)的发生概率,并从信息增益的角度深化对系统复杂性的理解。

交叉熵与相对熵在遍历理论中的作用 交叉熵与相对熵是信息论中的核心概念,它们在遍历动力系统的研究中扮演着重要角色,特别是在度量系统的复杂性、随机性以及量化轨道分布的“差异性”方面。 预备知识:从香农熵到相对熵 香农熵 :对于一个具有有限个结果的概率分布 \\( P = (p_ 1, p_ 2, ..., p_ n) \\),其香农熵定义为 \\( H(P) = - \sum_ {i=1}^{n} p_ i \log p_ i \\)。熵度量了从该分布中随机抽取一个结果时所获得的平均“信息量”或“不确定性”。熵越大,不确定性越高。 相对熵 :也称为Kullback-Leibler散度。对于定义在同一个样本空间上的两个概率分布 \\( P \\) 和 \\( Q \\),从 \\( P \\) 到 \\( Q \\) 的相对熵定义为 \\( D_ {KL}(P || Q) = \sum_ {i} p_ i \log \frac{p_ i}{q_ i} \\)(离散情况)。它度量了当真实分布为 \\( P \\) 时,用分布 \\( Q \\) 来近似所引入的额外信息损失或“差异”程度。值得注意的是,\\( D_ {KL}(P || Q) \geq 0 \\),且当且仅当 \\( P = Q \\) 时等号成立。但它不是对称的,即 \\( D_ {KL}(P || Q) \neq D_ {KL}(Q || P) \\)。 交叉熵 :交叉熵定义为 \\( H(P, Q) = - \sum_ {i} p_ i \log q_ i \\)。它可以分解为 \\( H(P, Q) = H(P) + D_ {KL}(P || Q) \\)。这意味着交叉熵等于真实分布 \\( P \\) 自身的熵,加上 \\( P \\) 与近似分布 \\( Q \\) 之间的相对熵。 在遍历理论中的引入:经验分布与静态分布 考虑一个保测动力系统 \\( (X, \mathcal{B}, \mu, T) \\)。对于一个点 \\( x \in X \\) 和一个有限的可测划分 \\( \alpha = \\{A_ 1, A_ 2, ..., A_ k\\} \\),我们可以观察其轨道 \\( x, Tx, T^2x, ..., T^{n-1}x \\)。 经验分布 :轨道前 \\( n \\) 项在划分 \\( \alpha \\) 上产生的经验分布 \\( E_ n(x) \\) 是一个概率向量。其第 \\( i \\) 个分量 \\( (E_ n(x)) i \\) 是轨道前 \\( n \\) 项落入集合 \\( A_ i \\) 的频率,即 \\( \frac{1}{n} \sum {j=0}^{n-1} \chi_ {A_ i}(T^j x) \\)。 静态分布 :系统的不变测度 \\( \mu \\) 在划分 \\( \alpha \\) 上诱导一个概率分布 \\( \mu_ \alpha = (\mu(A_ 1), \mu(A_ 2), ..., \mu(A_ k)) \\)。 相对熵作为差异的度量 我们可以计算经验分布 \\( E_ n(x) \\) 相对于静态分布 \\( \mu_ \alpha \\) 的相对熵 \\( D_ {KL}(E_ n(x) || \mu_ \alpha) \\)。 这个值量化了从点 \\( x \\) 的轨道观测到的统计行为与系统内在的稳态分布 \\( \mu \\) 之间的差异。如果对于大多数点 \\( x \\)(\\( \mu \\)-几乎处处),当 \\( n \to \infty \\) 时,\\( D_ {KL}(E_ n(x) || \mu_ \alpha) \to 0 \\),这就为遍历性(时间平均等于空间平均)提供了一个信息论视角的强化版本。它不仅要求频率收敛,还要求整个经验分布“紧密地”逼近静态分布。 与大偏差原理的联系 相对熵自然出现在遍历理论的大偏差原理中。大偏差原理关心的是,经验分布 \\( E_ n(x) \\) 偏离静态分布 \\( \mu_ \alpha \\) 超过一个给定阈值的概率的渐近衰减速率。 对于“足够好”的遍历系统(如伯努利移位),这个衰减速率由一个称为 速率函数 的量控制。对于经验分布偏离静态分布的事件,速率函数通常正好就是相对熵 \\( D_ {KL}(P || \mu_ \alpha) \\),其中 \\( P \\) 是那个“偏离”的分布。这意味着: \\[ \mu(\\{x: E_ n(x) \approx P\\}) \approx e^{-n D_ {KL}(P || \mu_ \alpha)} \\ ] (在指数渐近意义上)。这深刻揭示了相对熵如何量化了观测到非典型轨道统计行为的罕见性。 与科尔莫戈罗夫-西奈熵的关系 科尔莫戈罗夫-西奈熵 \\( h_ \mu(T) \\) 是系统平均信息产生率的度量。它可以通过对划分的熵取上确界来定义。 相对熵为理解熵提供了另一个视角。系统的熵可以关联到在静态分布 \\( \mu \\) 下,经验分布 \\( E_ n(x) \\) 的相对熵 \\( D_ {KL}(E_ n(x) || \mu) \\) 的期望值的渐近行为。粗略地说,熵衡量了典型轨道所产生的经验分布相对于静态分布的“平均惊奇度”或“平均信息增益”。 总结来说,交叉熵和相对熵为遍历理论提供了强大的信息论工具,使得我们能够精确地度量轨道行为的统计特性与系统稳态之间的差异,分析罕见事件(大偏差)的发生概率,并从信息增益的角度深化对系统复杂性的理解。