好的,我们接下来讲解 泊松分布。
泊松分布
首先,我们从它要解决的经典问题开始。
第一步:泊松分布的来源与基本思想
想象你是一个银行柜员,你想知道在下一个小时内,会有多少位顾客走进银行。这个问题的一个典型特点是:事件(顾客到来)以某种平均速率随机且独立地发生。类似的问题还有:
- 一个放射性物质在固定时间内发射出的粒子数。
- 一条高速公路上的某个路段,在一天内发生交通事故的次数。
- 一部电话交换机在一分钟内接到的呼叫次数。
这些问题都可以用一个模型来描述:给定一个固定的时间(或空间)区间,事件发生的平均次数(速率)是已知的(记为 λ),但具体发生多少次是随机的。泊松分布就是描述这种“在固定间隔内,事件发生次数”的概率分布。
它的核心假设是:
- 独立性:在不同的小时间段内,事件发生与否相互独立。
- 平稳性:事件发生的平均速率 λ 是恒定不变的。
- 稀有性/单次性:在极短的时间段内,发生两次或以上事件的概率可以忽略不计(基本上只可能发生一次或零次)。
第二步:泊松分布的概率公式
如果一个随机变量 X 服从参数为 λ (λ > 0) 的泊松分布,记作 X ~ Poisson(λ),那么它表示“在单位时间(或单位面积、体积等)内,事件发生的次数”。它取值为非负整数 k (k = 0, 1, 2, ...) 的概率由以下公式给出:
P(X = k) = (λ^k * e^{-λ}) / k!
其中:
- e 是自然常数(约等于 2.71828)。
- k! 是 k 的阶乘(k! = k × (k-1) × ... × 2 × 1,且规定 0! = 1)。
让我们仔细理解这个公式:
- λ^k:平均发生次数 λ 的 k 次方。λ 越大,发生 k 次的可能性基础值越大(但还需要看其他部分)。
- e^{-λ}:这是一个衰减因子,确保所有概率加起来等于 1。因为 λ 是平均次数,所以 e^{-λ} 会随着 λ 增大而迅速减小,对概率进行整体的“归一化”调整。
- k! 在分母上:这非常关键!它表示,当 k 很大时,概率会迅速减小,因为事件发生很多次需要“排列组合”的多种方式(阶乘增长极快),所以概率自然很小。
第三步:一个具体例子
假设某十字路口,平均每小时发生 2 起交通事故(λ = 2)。我们想知道下一小时,恰好发生 3 起事故的概率。
这里,随机变量 X 表示“下一小时发生的事故数”,X ~ Poisson(2)。
计算 P(X = 3):
P(X = 3) = (2^3 * e^{-2}) / 3! = (8 * e^{-2}) / 6。
查表或计算可知 e^{-2} ≈ 0.1353。
所以 P(X = 3) ≈ (8 * 0.1353) / 6 = 1.0824 / 6 ≈ 0.1804。
这意味着,约有 18.04% 的可能性,下一小时会恰好发生 3 起事故。
你可以类似地计算其他 k 值的概率,并画出它的概率质量函数图,你会发现它是一个偏态分布(当 λ 较小时向右偏,λ 增大后逐渐对称)。
第四步:泊松分布的数字特征
了解一个分布,我们通常关心它的平均水平和波动程度。
- 期望(均值) E(X):对于 Poisson(λ),它的期望值正好是 λ。这非常直观,因为 λ 的定义就是平均发生次数。
- 方差 Var(X):有趣的是,泊松分布的方差也等于 λ。
- 标准差 SD(X):等于 √λ。
- 矩母函数 M(t):为 exp[ λ(e^t - 1) ]。通过矩母函数可以方便地推导出各阶矩。
一个重要的性质:期望等于方差 (E(X) = Var(X) = λ)。这在现实中可以作为一个初步判断依据:如果你观察一组计数数据,发现其样本均值与样本方差大致相等,那么它可能近似服从泊松分布。
第五步:泊松分布与二项分布的关系(泊松定理)
这是理解泊松分布来源的另一个关键角度。考虑一个二项分布 Binomial(n, p),它描述在 n 次独立试验中,成功次数(概率为 p)的分布。
当 n 非常大(试验次数极多),而 p 非常小(每次试验成功的概率极低),但两者的乘积 λ = n * p 保持为一个大小适中的常数时,二项分布 Binomial(n, p) 可以非常精确地用泊松分布 Poisson(λ) 来近似。
即:当 n → ∞, p → 0, 且 np → λ (>0) 时,有
C(n, k) * p^k * (1-p)^{n-k} ≈ (λ^k * e^{-λ}) / k!
这解释了为什么泊松分布常用于描述“稀有事件”。例如,在大量人群中,每个人得某种罕见病的概率 p 很小,但人群总数 n 很大,那么发病人数就近似服从泊松分布。
第六步:泊松过程简介(拓展)
泊松分布是静态的,描述固定区间内的事件计数。它的动态版本叫做泊松过程。泊松过程描述了事件随时间连续发生的情况:
- 事件之间的等待时间服从指数分布。
- 在任意长度 t 的时间段内,事件发生次数 N(t) 服从 Poisson(λt),其中 λ 是速率(单位时间平均发生次数)。
所以,泊松分布是泊松过程在固定时间点的一个“切片”。
总结:
泊松分布是一个描述随机、独立、以恒定平均速率发生的事件在固定区间内的计数的离散概率分布。它由单参数 λ(平均次数)决定,其概率公式包含指数和阶乘,具有期望等于方差的独特性质,并且是二项分布在“稀有事件”情形下的极限近似。它是连接概率论、统计学和随机过程(如排队论、可靠性工程)的一个基础且重要的分布。