随机变量的熵
字数 2570 2025-10-30 11:52:44

随机变量的熵

首先,我们来理解“熵”这个基本概念。在最广泛的语境下,熵是衡量一个系统“无序程度”或“不确定性”的度量。这个概念起源于热力学,后来被引入信息论,成为信息论的核心基石。在概率论与统计学中,我们将其应用于随机变量,用来量化这个随机变量结果的不确定性。

第一步:从不确定性到信息量

想象一个简单的随机实验,比如抛一枚均匀的硬币。这个实验有两个等可能的结果:正面或反面。在结果揭晓之前,我们对其结果具有不确定性。现在,考虑另一个实验:预报明天的天气,结果可能是“晴”、“多云”、“雨”或“雪”。直觉上,第二个实验的结果比第一个更不确定,因为可能性更多,且概率分布可能更分散。

为了量化这种不确定性,我们引入“信息量”的概念。一个事件发生所带来的信息量,与其发生的概率有关。一个非常可能发生的事件(例如“太阳从东边升起”),当其发生时,带给我们的信息量很少,因为我们几乎可以肯定它会发生。相反,一个极不可能的事件(例如“明天下钻石雨”),如果发生了,则会带来巨大的信息量。

香农定义了一个事件A发生所带来的自信息 为:
I(A) = -log(P(A))
其中,P(A)是事件A发生的概率。对数(log)的底数通常取2(此时信息量的单位是“比特”),有时也取自然常数e(单位是“奈特”)。这个定义符合我们的直觉:概率P(A)越小,I(A)越大。

第二步:定义随机变量的熵

自信息衡量的是单个事件的信息量。而一个随机变量X可能取多个值,每个值都有一定的发生可能性和自信息。我们关心的是这个随机变量整体的平均不确定性。因此,我们定义随机变量X的 为其所有可能结果的自信息的期望值(平均值)。

设离散随机变量X的概率质量函数为P(X=x_i) = p_i,其中i=1, 2, ..., n,并且满足Σp_i = 1p_i ≥ 0

随机变量X的熵H(X)定义为:
H(X) = E[I(X)] = E[-log(P(X))] = -Σ_{i=1}^{n} p_i * log(p_i)

这里的期望E[]是对X的概率分布取的。熵H(X)表示的是,在得知随机变量X的具体取值之前,对其取值结果的平均不确定性。它也代表了,为了消除这个不确定性(即确定X的取值),理论上所需要获得的平均信息量。

第三步:通过例子理解熵的性质

让我们看几个具体例子来感受熵:

  1. 确定性分布:假设随机变量X以概率1取值为a(即P(X=a)=1)。那么,H(X) = -[1 * log(1) + 0 * log(0) + ...]。根据极限,我们定义0 * log(0) = 0。所以H(X) = 0。这很好理解:结果完全没有不确定性,所以熵为0。

  2. 伯努利分布(两点分布):假设X是抛一枚硬币的结果,P(X=正面)=pP(X=反面)=1-p
    其熵为:H(X) = -[p * log₂(p) + (1-p) * log₂(1-p)]

    • p=0.5时(均匀硬币),H(X) = -[0.5 * log₂(0.5) + 0.5 * log₂(0.5)] = 1比特。这是该分布下熵的最大值。
    • p=0.9时,H(X) ≈ -[0.9*log₂(0.9) + 0.1*log₂(0.1)] ≈ 0.47比特。不确定性降低了。
    • p趋近于0或1时,熵趋近于0。

从这些例子可以看出熵的一些重要性质:

  • 非负性H(X) ≥ 0
  • 极值性:对于有n个可能结果的随机变量,当其服从均匀分布(即每个结果的概率都是1/n)时,熵达到最大值log(n)。这印证了“均匀分布是最不确定的分布”。
  • 熵是概率分布{p_i}的函数,它衡量的是分布的“平坦”或“集中”程度。分布越平坦(越均匀),不确定性越大,熵越大;分布越集中(越偏向某个结果),不确定性越小,熵越小。

第四步:联合熵、条件熵与互信息

熵的概念可以推广到多个随机变量的情况,这能揭示变量之间的关系。

  1. 联合熵:对于两个随机变量X和Y,其联合分布为P(X,Y)。联合熵H(X,Y)定义为联合分布的不确定性:
    H(X, Y) = -Σ_x Σ_y P(x, y) * log(P(x, y))
    它衡量的是同时确定X和Y的取值所需的信息量。

  2. 条件熵:条件熵H(Y|X)表示在已知随机变量X的条件下,随机变量Y剩余的平均不确定性。
    H(Y|X) = Σ_x P(x) * H(Y|X=x) = -Σ_x Σ_y P(x, y) * log(P(y|x))
    可以证明一个重要关系(熵的链式法则):
    H(X, Y) = H(X) + H(Y|X)
    这很直观:X和Y的总不确定性,等于X的不确定性,加上已知X后Y的平均不确定性。

  3. 互信息:互信息I(X;Y)衡量的是,已知一个随机变量的信息后,能减少的关于另一个随机变量的不确定性。换句话说,它衡量X和Y之间共享的信息量。
    I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y)

    • 如果X和Y独立,则H(X|Y)=H(X),所以I(X;Y)=0,它们不共享信息。
    • 如果X和Y完全相关,则知道X就完全知道Y,H(Y|X)=0,所以I(X;Y)=H(Y)

第五步:熵在统计学中的应用

熵在统计学中有着广泛的应用:

  • 最大熵原理:在只掌握部分信息(如均值、方差等矩条件)的情况下,对概率分布进行推断时,应选择满足这些约束但熵最大的分布。这是因为最大熵分布做出的主观假设最少,是最“公平”的分布。例如,正态分布就是给定均值和方差条件下熵最大的分布。
  • 模型选择与评估:在机器学习中,交叉熵常被用作分类模型的损失函数,它衡量了模型预测的概率分布与真实标签分布之间的差异。
  • 描述分布的形态:熵可以作为描述概率分布形态的一个数字特征。与方差主要描述分布的“分散”程度不同,熵能更全面地捕捉分布的“平坦度”和“多峰性”等信息。

总结来说,随机变量的熵是一个深刻而强大的工具,它从一个统一的视角(不确定性/信息)来刻画随机现象,并成为连接概率论、信息论和统计学的关键桥梁。

随机变量的熵 首先,我们来理解“熵”这个基本概念。在最广泛的语境下,熵是衡量一个系统“无序程度”或“不确定性”的度量。这个概念起源于热力学,后来被引入信息论,成为信息论的核心基石。在概率论与统计学中,我们将其应用于随机变量,用来量化这个随机变量结果的不确定性。 第一步:从不确定性到信息量 想象一个简单的随机实验,比如抛一枚均匀的硬币。这个实验有两个等可能的结果:正面或反面。在结果揭晓之前,我们对其结果具有不确定性。现在,考虑另一个实验:预报明天的天气,结果可能是“晴”、“多云”、“雨”或“雪”。直觉上,第二个实验的结果比第一个更不确定,因为可能性更多,且概率分布可能更分散。 为了量化这种不确定性,我们引入“信息量”的概念。一个事件发生所带来的信息量,与其发生的概率有关。一个非常可能发生的事件(例如“太阳从东边升起”),当其发生时,带给我们的信息量很少,因为我们几乎可以肯定它会发生。相反,一个极不可能的事件(例如“明天下钻石雨”),如果发生了,则会带来巨大的信息量。 香农定义了一个事件A发生所带来的 自信息 为: I(A) = -log(P(A)) 其中, P(A) 是事件A发生的概率。对数(log)的底数通常取2(此时信息量的单位是“比特”),有时也取自然常数e(单位是“奈特”)。这个定义符合我们的直觉:概率 P(A) 越小, I(A) 越大。 第二步:定义随机变量的熵 自信息衡量的是单个事件的信息量。而一个随机变量X可能取多个值,每个值都有一定的发生可能性和自信息。我们关心的是这个随机变量整体的平均不确定性。因此,我们定义随机变量X的 熵 为其所有可能结果的自信息的期望值(平均值)。 设离散随机变量X的概率质量函数为 P(X=x_i) = p_i ,其中 i=1, 2, ..., n ,并且满足 Σp_i = 1 , p_i ≥ 0 。 随机变量X的熵 H(X) 定义为: H(X) = E[I(X)] = E[-log(P(X))] = -Σ_{i=1}^{n} p_i * log(p_i) 这里的期望 E[] 是对X的概率分布取的。熵 H(X) 表示的是,在得知随机变量X的具体取值之前,对其取值结果的平均不确定性。它也代表了,为了消除这个不确定性(即确定X的取值),理论上所需要获得的平均信息量。 第三步:通过例子理解熵的性质 让我们看几个具体例子来感受熵: 确定性分布 :假设随机变量X以概率1取值为a(即 P(X=a)=1 )。那么, H(X) = -[1 * log(1) + 0 * log(0) + ...] 。根据极限,我们定义 0 * log(0) = 0 。所以 H(X) = 0 。这很好理解:结果完全没有不确定性,所以熵为0。 伯努利分布(两点分布) :假设X是抛一枚硬币的结果, P(X=正面)=p , P(X=反面)=1-p 。 其熵为: H(X) = -[p * log₂(p) + (1-p) * log₂(1-p)] 。 当 p=0.5 时(均匀硬币), H(X) = -[0.5 * log₂(0.5) + 0.5 * log₂(0.5)] = 1 比特。这是该分布下熵的最大值。 当 p=0.9 时, H(X) ≈ -[0.9*log₂(0.9) + 0.1*log₂(0.1)] ≈ 0.47 比特。不确定性降低了。 当 p 趋近于0或1时,熵趋近于0。 从这些例子可以看出熵的一些重要性质: 非负性 : H(X) ≥ 0 。 极值性 :对于有n个可能结果的随机变量,当其服从均匀分布(即每个结果的概率都是 1/n )时,熵达到最大值 log(n) 。这印证了“均匀分布是最不确定的分布”。 熵是概率分布 {p_i} 的函数,它衡量的是分布的“平坦”或“集中”程度。分布越平坦(越均匀),不确定性越大,熵越大;分布越集中(越偏向某个结果),不确定性越小,熵越小。 第四步:联合熵、条件熵与互信息 熵的概念可以推广到多个随机变量的情况,这能揭示变量之间的关系。 联合熵 :对于两个随机变量X和Y,其联合分布为 P(X,Y) 。联合熵 H(X,Y) 定义为联合分布的不确定性: H(X, Y) = -Σ_x Σ_y P(x, y) * log(P(x, y)) 它衡量的是同时确定X和Y的取值所需的信息量。 条件熵 :条件熵 H(Y|X) 表示在已知随机变量X的条件下,随机变量Y剩余的平均不确定性。 H(Y|X) = Σ_x P(x) * H(Y|X=x) = -Σ_x Σ_y P(x, y) * log(P(y|x)) 可以证明一个重要关系(熵的链式法则): H(X, Y) = H(X) + H(Y|X) 这很直观:X和Y的总不确定性,等于X的不确定性,加上已知X后Y的平均不确定性。 互信息 :互信息 I(X;Y) 衡量的是,已知一个随机变量的信息后,能减少的关于另一个随机变量的不确定性。换句话说,它衡量X和Y之间共享的信息量。 I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y) 如果X和Y独立,则 H(X|Y)=H(X) ,所以 I(X;Y)=0 ,它们不共享信息。 如果X和Y完全相关,则知道X就完全知道Y, H(Y|X)=0 ,所以 I(X;Y)=H(Y) 。 第五步:熵在统计学中的应用 熵在统计学中有着广泛的应用: 最大熵原理 :在只掌握部分信息(如均值、方差等矩条件)的情况下,对概率分布进行推断时,应选择满足这些约束但熵最大的分布。这是因为最大熵分布做出的主观假设最少,是最“公平”的分布。例如,正态分布就是给定均值和方差条件下熵最大的分布。 模型选择与评估 :在机器学习中,交叉熵常被用作分类模型的损失函数,它衡量了模型预测的概率分布与真实标签分布之间的差异。 描述分布的形态 :熵可以作为描述概率分布形态的一个数字特征。与方差主要描述分布的“分散”程度不同,熵能更全面地捕捉分布的“平坦度”和“多峰性”等信息。 总结来说,随机变量的熵是一个深刻而强大的工具,它从一个统一的视角(不确定性/信息)来刻画随机现象,并成为连接概率论、信息论和统计学的关键桥梁。