概率生成函数
好的,我们接下来讲解“概率生成函数”。这是一个在概率论,特别是处理非负整数值随机变量时极为有用的工具。我将从最基础的概念开始,循序渐进地展开。
第一步:从具体问题与定义出发
首先,我们考虑一类常见的随机变量:离散型、且其取值是非负整数(0, 1, 2, ...)。例如:
- 抛n次硬币,正面朝上的次数。
- 一天内到达某商店的顾客数。
- 一个网络服务器在单位时间内接收到的数据包数量。
对于这样的随机变量 \(X\)(\(P(X=k) = p_k, k=0,1,2,\dots\)),我们如何用一种有力的工具来“封装”它的全部概率信息,并进行计算和分析呢?一种强大的方法就是引入概率生成函数。
定义:设 \(X\) 是一个取非负整数值的随机变量,其概率分布为 \(P(X=k)=p_k, k=0,1,2,\dots\),且 \(\sum_{k=0}^{\infty} p_k = 1\)。则 \(X\) 的概率生成函数(Probability Generating Function, PGF)定义为:
\[G_X(s) = E[s^X] = \sum_{k=0}^{\infty} p_k s^k, \quad 对于所有使得该级数绝对收敛的复数 s。 \]
核心理解:
- 本质:PGF是一个幂级数,其系数正好是随机变量的概率质量函数(PMF)。s 是一个形式变量或参数。
- 收敛域:可以证明,这个级数至少在 \(|s| \le 1\) 时绝对收敛,因为 \(\sum p_k = 1\)。特别地,在 \(s=1\) 时,\(G_X(1) = \sum p_k = 1\)。
- “生成”的含义:之所以叫“生成”函数,是因为我们可以通过对它进行各种运算(特别是求导),来“生成”出关于随机变量 \(X\) 的各种重要信息,如矩、概率等。
第二步:基本性质与计算示例
让我们看一个简单例子,并总结PGF的几个关键性质。
示例:设 \(X\) 服从参数为 \(p\) 的伯努利分布,即 \(P(X=1)=p, P(X=0)=1-p=q\)。
其PGF为:
\[G_X(s) = E[s^X] = s^0 \cdot P(X=0) + s^1 \cdot P(X=1) = q + ps. \]
基本性质:
- 概率恢复:在定义式中,\(p_k\) 是 \(s^k\) 的系数。因此,理论上我们可以通过展开 \(G_X(s)\) 来得到所有 \(p_k\)。
- 归一性:\(G_X(1) = 1\)。
- 矩的生成:PGF与 \(X\) 的矩(期望、方差等)有直接联系。这是PGF最实用的特性之一。
- 一阶矩(期望):对 \(G_X(s)\) 在 \(s=1\) 处求一阶导数:
\[ G_X'(s) = \frac{d}{ds} \sum_{k=0}^{\infty} p_k s^k = \sum_{k=1}^{\infty} k p_k s^{k-1}. \]
令 \(s=1\),得到 \(G_X'(1) = \sum_{k=1}^{\infty} k p_k = E[X]\)。
- 高阶阶乘矩:更一般地,\(E[X(X-1)\cdots(X-r+1)] = G_X^{(r)}(1)\),其中 \(G_X^{(r)}\) 是r阶导数。这种矩称为“阶乘矩”。
- 方差:利用 \(\text{Var}(X) = E[X^2] - (E[X])^2 = E[X(X-1)] + E[X] - (E[X])^2\),而 \(E[X(X-1)] = G_X''(1)\)。所以:
\[ \text{Var}(X) = G_X''(1) + G_X'(1) - [G_X'(1)]^2. \]
用伯努利分布验证:\(G_X(s) = q+ps\),则 \(G_X'(s)=p\),所以 \(E[X]=p\);\(G_X''(s)=0\),所以 \(\text{Var}(X) = 0 + p - p^2 = p(1-p)\)。结果正确。
第三步:核心应用——独立随机变量和的分布
这是PGF大放异彩的领域。考虑 \(N\) 个独立同分布的非负整数值随机变量 \(Y_1, Y_2, \dots\),它们的PGF均为 \(G_Y(s)\)。再考虑一个与所有 \(Y_i\) 都独立的非负整数值随机变量 \(N\),其PGF为 \(G_N(s)\)。我们研究随机和 \(S = Y_1 + Y_2 + \dots + Y_N\)。(当 \(N=0\) 时,定义 \(S=0\))。这个模型在保险风险(理赔总额)、排队论(总服务时间)等领域非常常见。
关键定理:随机和 \(S\) 的概率生成函数为:
\[G_S(s) = E[s^S] = E[ E[s^S | N] ] = E[ (G_Y(s))^N ] = G_N(G_Y(s)). \]
推导如下:固定 \(N=n\),则 \(S|N=n = \sum_{i=1}^{n} Y_i\),由于 \(Y_i\) 独立,故 \(E[s^S | N=n] = [G_Y(s)]^n\)。再对 \(n\) 取期望(即对 \(N\) 的分布取期望),得到 \(E[ (G_Y(s))^N ]\),而这正是 \(N\) 的PGF在点 \(G_Y(s)\) 处的值,即 \(G_N(G_Y(s))\)。
重要性:这个极其简洁的公式 \(G_S(s) = G_N(G_Y(s))\) 表明,和的PGF是“复合”或“迭代”的形式。这使得计算 \(S\) 的分布、矩等变得非常方便,通常比直接计算卷积要简单得多。
示例:设 \(N \sim \text{Poisson}(\lambda)\)(泊松分布),其PGF为 \(G_N(s)=e^{\lambda(s-1)}\);设 \(Y_i \sim \text{Bernoulli}(p)\),其PGF为 \(G_Y(s)=q+ps\)。
则随机和 \(S\)(比如,泊松到达的顾客中,实际完成购买的人数)的PGF为:
\[G_S(s) = G_N(G_Y(s)) = \exp( \lambda( (q+ps) - 1) ) = \exp( \lambda p (s-1) ). \]
这正是参数为 \(\lambda p\) 的泊松分布的PGF。因此,我们立刻得出结论:\(S \sim \text{Poisson}(\lambda p)\)。这是一个经典结论,用PGF证明毫不费力。
第四步:与其他生成函数的关系
为了让你对生成函数体系有更完整的认识,我们需要对比PGF与其他两类重要的生成函数:
- 矩母函数:定义为 \(M_X(t) = E[e^{tX}]\)。它对所有类型的随机变量(不一定非负整数)都有定义。PGF和MGF有紧密联系:\(G_X(s) = E[s^X] = E[(e^{\ln s})^X] = M_X(\ln s)\)。PGF可以看作是MGF的一种变量替换形式,但专用于离散非负整数值变量,形式常常更简洁。
- 特征函数:定义为 \(\phi_X(t) = E[e^{itX}]\)。它是所有随机变量分布最通用的特征表示,总是存在且唯一决定分布。PGF与其关系为 \(G_X(s) = \phi_X(-i\ln s)\)。
核心区别与选择:
- PGF 是处理离散、非负整数值随机变量(尤其是计数过程、分支过程、排队论)的“自然”和“最方便”的工具。其幂级数形式与概率直接对应,处理独立和时有完美的复合性质。
- MGF 和特征函数 适用范围更广,是研究一般分布(特别是连续分布和极限定理)的主要工具。
第五步:高级主题与总结
基于以上基础,概率生成函数可以延伸到更深层次的应用:
- 分支过程:这是PGF的经典应用领域。每个个体独立产生随机数量的后代,用PGF \(G(s)\) 描述单个个体的后代分布。则第n代总个体数的PGF是G函数对自身的n次迭代(复合):\(G_n(s) = G(G_{n-1}(s))\)。通过分析PGF的不动点,可以研究灭绝概率、种群均值等根本问题。
- 随机过程:对于像泊松过程这样的计数过程,PGF可以用来推导在时间区间内事件发生次数的分布,以及处理更复杂的标记过程、复合泊松过程等。
- 递推关系:许多离散分布(如几何分布、负二项分布、帕斯卡分布)满足特定的递推关系,这些关系在用PGF表示时会转化为简单的代数方程或微分方程,从而易于求解。
总结:
概率生成函数 \(G_X(s) = E[s^X]\) 是专为非负整数值随机变量设计的强大工具。它的核心价值在于:
- 封装信息:以紧凑的幂级数形式包含了随机变量的全部概率分布。
- 便捷计算:通过对PGF求导,可以轻松计算期望、方差、阶乘矩等数字特征。
- 简化卷积:处理独立随机变量(尤其是随机和)的分布时,能将复杂的卷积运算转化为简单的函数复合运算 \(G_S(s) = G_N(G_Y(s))\)。
- 分析模型:在分支过程、排队论等随机模型中,PGF是推导分布、研究渐近性质的关键分析工具。
理解PGF,你就掌握了分析和处理一大类离散随机问题的一把利器。