随机变量的变换的分布函数方法
分布函数方法是处理随机变量变换问题的一种基本而强大的技术。它特别适用于当变换函数是单调函数的情况,因为此时我们可以推导出一个精确的解析表达式。
第一步:理解核心概念——分布函数
在深入方法本身之前,我们必须牢固掌握随机变量的分布函数(Cumulative Distribution Function, CDF)的定义。对于一个随机变量 \(X\),其分布函数 \(F_X(x)\) 定义为:
\[F_X(x) = P(X \le x) \]
其中 \(P\) 表示概率。分布函数 \(F_X(x)\) 给出了随机变量 \(X\) 取值小于等于某个特定实数 \(x\) 的概率。它有三个关键性质:
- 单调不减性:如果 \(x_1 < x_2\),那么 \(F_X(x_1) \le F_X(x_2)\)。
- 右连续性:\(F_X(x)\) 是右连续的。
- 极限行为:\(\lim_{x \to -\infty} F_X(x) = 0\) 且 \(\lim_{x \to \infty} F_X(x) = 1\)。
第二步:问题的提出——我们想解决什么?
假设我们有一个随机变量 \(X\),我们完全了解它的概率分布,具体体现在我们知道它的分布函数 \(F_X(x)\) 和/或概率密度函数(PDF)\(f_X(x)\)。
现在,我们定义一个新的随机变量 \(Y\),它是 \(X\) 的一个函数:
\[Y = g(X) \]
其中 \(g\) 是一个已知的函数(例如,\(Y = X^2\), \(Y = e^X\), \(Y = aX + b\))。
我们的目标是:找出这个新随机变量 \(Y\) 的概率分布。具体来说,我们希望找到 \(Y\) 的分布函数 \(F_Y(y) = P(Y \le y)\),并且如果 \(Y\) 是连续型随机变量,我们还希望由此推导出它的概率密度函数 \(f_Y(y)\)。
第三步:方法的原理——从定义出发
分布函数方法的核心思想非常直接:利用原始变量 \(X\) 的分布函数 \(F_X\) 来表示新变量 \(Y\) 的分布函数 \(F_Y\)。
我们直接从 \(F_Y(y)\) 的定义开始:
\[F_Y(y) = P(Y \le y) \]
由于 \(Y = g(X)\),我们可以将上述概率用 \(X\) 来表示:
\[F_Y(y) = P(g(X) \le y) \]
现在,关键的一步来了。我们需要解出不等式 \(g(X) \le y\)。这个不等式的解集定义了在实数轴上,所有使得 \(g(x) \le y\) 成立的 \(x\) 的集合。我们把这个集合记作 \(A_y\):
\[A_y = \{ x \in \mathbb{R} : g(x) \le y \} \]
因此,概率 \(P(g(X) \le y)\) 就等于 \(X\) 的取值落在集合 \(A_y\) 内的概率:
\[F_Y(y) = P(X \in A_y) \]
而 \(P(X \in A_y)\) 正好可以利用我们已知的 \(X\) 的分布函数 \(F_X(x)\) 来表示(可能需要用到概率的加法法则)。最终,我们得到:
\[F_Y(y) = \text{一个由 } F_X(x) \text{ 表达的式子} \]
第四步:应用于单调变换(最重要的情况)
当函数 \(g\) 是严格单调时,方法会变得特别简洁。我们分两种情况讨论:
- 当 \(g\) 严格单调递增时
- 这意味着如果 \(x_1 < x_2\),则 \(g(x_1) < g(x_2)\)。
- 此时,不等式 \(g(X) \le y\) 等价于 \(X \le g^{-1}(y)\),其中 \(g^{-1}\) 是 \(g\) 的反函数。
- 因此,\(F_Y(y) = P(g(X) \le y) = P(X \le g^{-1}(y)) = F_X(g^{-1}(y))\)。
- 当 \(g\) 严格单调递减时
- 这意味着如果 \(x_1 < x_2\),则 \(g(x_1) > g(x_2)\)。
- 此时,不等式 \(g(X) \le y\) 等价于 \(X \ge g^{-1}(y)\)。
- 因此,\(F_Y(y) = P(g(X) \le y) = P(X \ge g^{-1}(y))\)。
- 根据概率的互补性,\(P(X \ge g^{-1}(y)) = 1 - P(X < g^{-1}(y))\)。
- 对于连续型随机变量,\(P(X = g^{-1}(y)) = 0\),所以 \(P(X < g^{-1}(y)) = P(X \le g^{-1}(y)) = F_X(g^{-1}(y))\)。
- 最终,\(F_Y(y) = 1 - F_X(g^{-1}(y))\)。
第五步:从分布函数(CDF)到概率密度函数(PDF)
如果我们还想要求出 \(Y\) 的概率密度函数 \(f_Y(y)\),只需对求得的分布函数 \(F_Y(y)\) 关于 \(y\) 求导即可(前提是 \(F_Y(y)\) 处处可导):
\[f_Y(y) = \frac{d}{dy} F_Y(y) \]
对于单调变换的情况,利用链式法则,我们可以得到一个非常简洁的公式:
- 递增情况:\(f_Y(y) = f_X(g^{-1}(y)) \cdot \left| \frac{d}{dy} g^{-1}(y) \right|\)(绝对值内为正,可省略绝对值符号,但习惯上保留)。
- 递减情况:求导后,\(f_Y(y) = f_X(g^{-1}(y)) \cdot \left( -\frac{d}{dy} g^{-1}(y) \right)\)。由于 \(g\) 递减导致其反函数也递减,导数 \(\frac{d}{dy} g^{-1}(y)\) 为负,所以前面会产生一个负号。
综合两种情况,单调变换的通用PDF公式为:
\[f_Y(y) = f_X(g^{-1}(y)) \cdot \left| \frac{d}{dy} g^{-1}(y) \right| \]
公式中的绝对值确保了概率密度始终为非负值。项 \(\frac{d}{dy} g^{-1}(y)\) 反映了变换对“尺度”的影响,与雅可比行列式的作用类似。
第六步:一个简单示例
设 \(X\) 服从标准正态分布,其PDF为 \(f_X(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}\)。定义 \(Y = e^X\)(这是一个对数正态分布)。函数 \(g(x) = e^x\) 是严格单调递增的。
- 求反函数:\(y = e^x\) 推出 \(x = \ln y\),所以 \(g^{-1}(y) = \ln y\)。
- 求反函数的导数:\(\frac{d}{dy} g^{-1}(y) = \frac{d}{dy} \ln y = \frac{1}{y}\)。
- 应用通用PDF公式:
\[ f_Y(y) = f_X(\ln y) \cdot \left| \frac{1}{y} \right| = \frac{1}{\sqrt{2\pi}} e^{-(\ln y)^2 / 2} \cdot \frac{1}{y}, \quad (y > 0) \]
这就是对数正态分布的概率密度函数。
总结
分布函数方法通过最根本的概率定义——分布函数,将新变量 \(Y\) 的概率问题转化为原始变量 \(X\) 的概率问题。它的优势在于概念直观,普适性强。在处理单调变换时,它能导出极其简洁有效的公式,是概率论中一个非常实用且基础的工具。