遍历理论中的Kolmogorov-Sinai熵
Kolmogorov-Sinai熵,也称为度量熵或遍历熵,是遍历理论中用于量化动力系统混沌性或信息产生率的一个基本不变量。它是一个实数,赋予每个保测动力系统一个数值,该数值在度量同构下保持不变。
第一步:理解动力系统中的不确定性概念
考虑一个保测动力系统 \((X, \mathcal{B}, \mu, T)\),其中 \(T: X \to X\) 是一个保测变换。系统随时间演化,初始状态 \(x\) 在 \(T\) 的迭代下生成轨道 \(x, Tx, T^2x, \ldots\)。如果我们对系统的初始状态只知道它属于某个可测集 \(A\),那么经过一次迭代后,\(T(x)\) 可能落入不同的集合,这增加了我们对系统精确状态的不确定性。Kolmogorov-Sinai熵旨在度量这种不确定性随时间增长的平均速率。
第二步:从有限划分引入信息
为了量化这种不确定性,我们首先对状态空间 \(X\) 进行一个有限划分 \(\alpha = \{A_1, A_2, \ldots, A_k\}\),即这些 \(A_i\) 是互不相交的可测集,并且它们的并集是 \(X\)。这个划分代表了我们对系统状态进行的一次“粗糙测量”,每个 \(A_i\) 可以看作一个可能的“输出”或“符号”。系统演化时,在时间 \(n\) 观察系统落在划分的哪个元素中,就产生了一个符号序列。初始状态 \(x\) 属于某个 \(A_{i_0}\),\(T(x)\) 属于某个 \(A_{i_1}\),依此类推,从而生成一个序列 \(\ldots, i_{-1}, i_0, i_1, \ldots\)(如果 \(T\) 可逆)或 \(i_0, i_1, \ldots\)(如果 \(T\) 非可逆)。这个序列编码了轨道的信息。
第三步:划分的熵与联合划分
对于一个划分 \(\alpha\),我们定义其熵为 \(H(\alpha) = -\sum_{i=1}^{k} \mu(A_i) \log \mu(A_i)\)。这个熵(以香农熵的形式)度量了单次实验(即观察系统在零时刻处于划分中的哪个部分)所产生的不确定性或平均信息量。为了捕捉时间演化带来的信息,我们考虑联合划分。变换 \(T\) 作用于划分 \(\alpha\) 得到新划分 \(T^{-1}\alpha = \{T^{-1}A_1, \ldots, T^{-1}A_k\}\),它表示在时间1观察系统所对应的划分。划分 \(\alpha\) 和 \(T^{-1}\alpha\) 的联合划分 \(\alpha \vee T^{-1}\alpha\) 由所有形如 \(A_i \cap T^{-1}A_j\) 的非空集合组成,它描述了在时间0和时间1的连续两次观察结果。更一般地,前 \(n\) 次观察对应的联合划分是 \(\alpha \vee T^{-1}\alpha \vee \cdots \vee T^{-(n-1)}\alpha\),记作 \(\alpha_0^{n-1}\)。
第四步:平均熵与Kolmogorov-Sinai熵的定义
联合划分 \(\alpha_0^{n-1}\) 的熵 \(H(\alpha_0^{n-1})\) 度量了前 \(n\) 次观察所产生的不确定性总量。我们关心的是每次迭代平均产生的不确定性,即平均熵增长速率。定义变换 \(T\) 关于划分 \(\alpha\) 的熵为:
\(h(T, \alpha) = \lim_{n \to \infty} \frac{1}{n} H(\alpha_0^{n-1})\)。
这个极限存在(由子加性保证)。最后,Kolmogorov-Sinai熵定义为对所有有限划分取上确界:
\(h(T) = h_{\mu}(T) = \sup_{\alpha} h(T, \alpha)\)。
这里的上确界取自 \(X\) 的所有有限可测划分 \(\alpha\)。熵 \(h(T)\) 是系统整体的一个度量,不依赖于某个特定的划分。
第五步:Kolmogorov-Sinai熵的性质与计算
Kolmogorov-Sinai熵具有以下关键性质:
- 度量不变量:如果两个保测动力系统是度量同构的,那么它们的Kolmogorov-Sinai熵相等。
- 生成划分定理:如果一个有限划分 \(\alpha\) 是生成划分(即联合划分 \(\bigvee_{i=-\infty}^{\infty} T^{-i}\alpha\) 的σ-代数等于整个σ-代数 \(\mathcal{B}\),模零测集),那么 \(h(T) = h(T, \alpha)\)。这极大地简化了计算,因为我们只需要计算关于一个生成划分的熵。
- 熵的数值意义:熵为零的系统通常是确定性较强、可预测的系统(如周期系统)。熵为正的系统则表现出混沌行为,熵值越大,通常意味着系统的混沌程度越高,信息产生越快。
第六步:例子——伯努利移位的熵
考虑一个伯努利移位系统。状态空间 \(X\) 是由符号集 \(\{1, 2, \ldots, k\}\) 构成的双边序列空间,概率测度 \(\mu\) 是乘积测度,每个位置独立地以概率 \(p_i\) 取符号 \(i\)(满足 \(\sum p_i = 1\)),变换 \(T\) 是左移位。取划分 \(\alpha\) 为根据零坐标取值的划分(即 \(A_i = \{ x \in X : x_0 = i \}\))。这个划分 \(\alpha\) 是一个生成划分。计算熵:\(H(\alpha_0^{n-1}) = H(\alpha \vee T^{-1}\alpha \vee \cdots \vee T^{-(n-1)}\alpha)\)。由于独立性,这个联合分布的熵就是 \(n\) 个独立同分布随机变量的熵,即 \(n H(\alpha) = n (-\sum_{i=1}^k p_i \log p_i)\)。因此,\(h(T, \alpha) = \lim_{n \to \infty} \frac{1}{n} n H(\alpha) = H(\alpha) = -\sum_{i=1}^k p_i \log p_i\)。根据生成划分定理,伯努利移位的Kolmogorov-Sinai熵就是 \(-\sum_{i=1}^k p_i \log p_i\)。