负二项分布
我们首先从负二项分布要解决的核心问题开始。在概率论中,我们熟悉伯努利试验(如抛硬币)中,成功次数达到某一指定值时,所需试验总数的分布是帕斯卡分布(或称负二项分布)。其核心场景是:我们持续进行独立的伯努利试验,每次试验成功的概率固定为 p,失败的概率为 q=1-p。我们关心的是,为了获得第 r 次成功,总共需要进行的试验次数 X。
第一步:定义与概率质量函数推导
设随机变量 X 表示获得第 r 次成功所需的总试验次数。显然,X 的可能取值为 r, r+1, r+2, ...
考虑事件 {X = k}(其中 k ≥ r)。要使第 k 次试验恰好是第 r 次成功,必须满足:
- 在前 k-1 次试验中,恰好有 r-1 次成功。
- 第 k 次试验必须成功。
由于试验独立,前 k-1 次试验中恰好有 r-1 次成功的概率服从二项分布:C(k-1, r-1) * p^(r-1) * q^{(k-1)-(r-1)} = C(k-1, r-1) * p^(r-1) * q^(k-r)。
第 k 次试验成功的概率为 p。
两者相乘,得到负二项分布的概率质量函数:
P(X = k) = C(k-1, r-1) * p^r * q^(k-r), 其中 k = r, r+1, r+2, ...
这里 r 是一个正整数,称为“成功次数参数”,p 是每次试验的成功概率。
第二步:名称由来与另一种定义
“负二项”的名称源于其概率质量函数与负二项式展开的联系。考虑 (1 - q)^(-r) 的麦克劳林级数展开(当 |q| < 1):
(1 - q)^(-r) = Σ_{k=0}^{∞} C(r+k-1, k) * q^k
如果我们令 k' = r + k(即总试验次数),则上式可以重新整理为对成功概率 p=1-q 的表达式。事实上,概率质量函数也可以写成:
P(X = k) = C(k-1, r-1) * p^r * (1-p)^(k-r) = (-1)^(k-r) * C(-r, k-r) * p^r * (1-p)^(k-r)
其中 C(-r, k-r) 是广义二项式系数。这表明该分布是 (p - (1-p))^{-r} 展开式中的项。
另一种常见但易混淆的定义是:令随机变量 Y = X - r,表示获得第 r 次成功之前所经历的失败次数。则 Y 的取值范围是 0, 1, 2, ...,其概率质量函数为:
P(Y = y) = C(r + y - 1, y) * p^r * (1-p)^y, 其中 y = 0, 1, 2, ...
这种定义在文献中同样常被称为负二项分布。只需注意区分 X(总试验次数)和 Y(失败次数),两者仅相差常数 r。
第三步:数字特征(期望、方差、矩生成函数)
利用 Y = X - r(失败次数)的定义来计算更为方便。Y 可以看作是一系列独立的几何分布随机变量的和。
回忆:在成功概率为 p 的伯努利试验中,第一次成功之前的失败次数服从几何分布(支持在 {0,1,2,...}),其期望为 (1-p)/p,方差为 (1-p)/p²。
现在,获得第 r 次成功之前的失败次数 Y,相当于等待 r 次独立“成功事件”发生,每次等待都独立地服从上述几何分布。因此:
- 期望(利用线性):E[Y] = r * (1-p)/p
- 方差(因独立):Var(Y) = r * (1-p)/p²
由于 X = Y + r,所以: - E[X] = r/p
- Var(X) = r(1-p)/p²
矩生成函数 M_Y(t) = [p / (1 - (1-p)e^t)]^r,对于 t < -ln(1-p)。X 的矩生成函数为 M_X(t) = e^{rt} * M_Y(t)。
第四步:与其他分布的关系
- 与几何分布:当 r=1 时,负二项分布退化为几何分布(总试验次数版本)。因此,负二项分布是几何分布的推广。
- 与泊松分布:当 r → ∞,同时保持 E[Y] = r(1-p)/p = λ(常数)时,即令 p 趋近于 1 且 r(1-p) → λ,则负二项分布收敛于均值为 λ 的泊松分布。这提供了泊松分布的一种混合或过度离散的视角。
- 与伽马-泊松混合:负二项分布可以视为泊松分布的混合,其中泊松分布的均值参数 λ 本身服从伽马分布。具体地,若 Y | λ ~ Poisson(λ),且 λ ~ Gamma(r, β)(形状参数 r,尺度参数 β,其均值为 rβ),则 Y 的边缘分布是负二项分布,其中成功概率 p = 1/(1+β),失败次数参数为 r。这使得负二项分布在建模计数数据中的过度离散性(方差大于均值)时极为有用。
第五步:应用场景
- 可靠性工程与排队论:在达到 r 次故障前设备的总运行时间(离散时间版本)、顾客到达间隔等。
- 生态学与流行病学:如采样直到找到 r 个特定物种个体所需的调查次数;疾病在人群中传播时,出现第 r 个病例所需的时间(离散化)。
- 保险与金融:描述达到一定次数索赔前的保单数。
- 生物信息学:在DNA测序中,覆盖某个基因组区域达到一定深度所需的读取次数。
通过以上五个步骤,我们循序渐进地从定义、名称由来、数字特征、与其他分布的联系到实际应用,完整地梳理了负二项分布的核心知识。