随机变量的变换的分布函数方法
我们首先回顾核心问题:已知随机变量 \(X\) 的概率分布,以及一个函数 \(g\),定义新的随机变量 \(Y = g(X)\)。我们的目标是求出 \(Y\) 的概率分布。
分布函数方法,也称为累积分布函数(CDF)法,是解决此问题的一种基本且强大的技术。它的核心思想是:通过寻找 \(Y\) 的分布函数 \(F_Y(y) = P(Y \leq y)\),然后如果需要,再通过求导来得到概率密度函数(PDF)\(f_Y(y)\)。
第一步:方法的基本框架
该方法遵循一个清晰的四步流程:
- 关联事件:将关于 \(Y\) 的事件表示为关于 \(X\) 的事件。具体地,\(Y\) 的分布函数定义为:
\[ F_Y(y) = P(Y \leq y) = P(g(X) \leq y) \]
这一步是整个方法的基础,它将未知的 \(Y\) 的分布与已知的 \(X\) 的分布联系了起来。
- 求解不等式:解出关于 \(X\) 的不等式 \(g(X) \leq y\)。这一步的目的是找到所有使得 \(g(X) \leq y\) 成立的 \(X\) 的取值范围。这个范围通常是实数轴上的一个或多个区间。我们将其表示为:
\[ \{ x \in \mathbb{R} : g(x) \leq y \} \]
- 计算概率:\(Y\) 的分布函数 \(F_Y(y)\) 就等于 \(X\) 落在步骤2中求出的区域里的概率。如果 \(X\) 是连续型随机变量,其概率密度函数为 \(f_X(x)\),那么这个概率可以通过对 \(f_X(x)\) 在该区域上积分得到:
\[ F_Y(y) = \int_{\{x: g(x) \leq y\}} f_X(x) \, dx \]
如果 \(X\) 是离散型随机变量,则通过对该区域内所有取值的概率质量求和得到。
- 求导得密度(仅限连续型):如果 \(Y\) 也是连续型随机变量,那么对分布函数 \(F_Y(y)\) 求导,即可得到 \(Y\) 的概率密度函数:
\[ f_Y(y) = \frac{d}{dy} F_Y(y) \]
第二步:一个具体的例子(单调变换)
考虑最简单也是最常见的情况:\(g\) 是一个严格单调可导的函数。
设 \(Y = aX + b\),其中 \(a > 0\)(严格递增函数)。我们已知 \(X\) 的 PDF 为 \(f_X(x)\),求 \(Y\) 的 PDF。
- 关联事件:
\[ F_Y(y) = P(Y \leq y) = P(aX + b \leq y) \]
- 求解不等式:
\[ aX + b \leq y \implies X \leq \frac{y - b}{a} \]
所以,使得不等式成立的 \(X\) 的取值范围是 \((-\infty, (y-b)/a]\)。
- 计算概率:
\[ F_Y(y) = P\left(X \leq \frac{y - b}{a}\right) = F_X\left( \frac{y - b}{a} \right) \]
这里 \(F_X\) 是 \(X\) 的分布函数。
- 求导得密度:
\[ f_Y(y) = \frac{d}{dy} F_Y(y) = \frac{d}{dy} F_X\left( \frac{y - b}{a} \right) = f_X\left( \frac{y - b}{a} \right) \cdot \frac{d}{dy}\left( \frac{y - b}{a} \right) = \frac{1}{a} f_X\left( \frac{y - b}{a} \right) \]
这个结果就是线性变换的通用公式。
第三步:处理更复杂的情况(非单调变换)
分布函数方法的真正威力在于它能处理非单调的变换。考虑一个经典例子:\(Y = X^2\),其中 \(X\) 是连续型随机变量,PDF 为 \(f_X(x)\)。
- 关联事件:
\[ F_Y(y) = P(Y \leq y) = P(X^2 \leq y) \]
注意,这里 \(y\) 必须大于等于0,因为 \(Y = X^2 \geq 0\)。所以当 \(y < 0\) 时,\(F_Y(y) = 0\)。我们主要分析 \(y \geq 0\) 的情况。
- 求解不等式:
\[ X^2 \leq y \implies -\sqrt{y} \leq X \leq \sqrt{y} \]
所以,使得不等式成立的 \(X\) 的取值范围是区间 \([-\sqrt{y}, \sqrt{y}]\)。
- 计算概率:
\[ F_Y(y) = P(-\sqrt{y} \leq X \leq \sqrt{y}) = \int_{-\sqrt{y}}^{\sqrt{y}} f_X(x) \, dx = F_X(\sqrt{y}) - F_X(-\sqrt{y}) \]
- 求导得密度:
对 \(F_Y(y)\) 求导(\(y > 0\)):
\[ f_Y(y) = \frac{d}{dy} \left[ F_X(\sqrt{y}) - F_X(-\sqrt{y}) \right] \]
应用链式法则:
\[ f_Y(y) = f_X(\sqrt{y}) \cdot \frac{1}{2\sqrt{y}} - f_X(-\sqrt{y}) \cdot \left( -\frac{1}{2\sqrt{y}} \right) = \frac{1}{2\sqrt{y}} \left[ f_X(\sqrt{y}) + f_X(-\sqrt{y}) \right] \]
这就是 \(Y = X^2\) 的通用概率密度函数公式。如果 \(X\) 的分布关于原点对称(即 \(f_X(x) = f_X(-x)\)),公式可以简化为 \(f_Y(y) = \frac{1}{\sqrt{y}} f_X(\sqrt{y})\)。
第四步:方法的优势、局限与总结
-
优势:
-
通用性强:对函数 \(g\) 的形式几乎没有限制,无论是单调还是非单调,一维还是多维(需适当推广)都适用。
- 逻辑清晰:步骤明确,直接基于分布函数的定义,不易出错。
- 基础性:它是推导其他变换方法(如你已学过的卷积公式、矩生成函数方法等)的基石。
-
局限与注意事项:
-
计算复杂度:对于复杂的函数 \(g\) 或 \(X\) 的分布,求解不等式 \(g(X) \leq y\) 和计算积分可能很困难。
-
定义域:必须仔细确定变换后随机变量 \(Y\) 的有效取值范围(支撑集)。例如在 \(Y=X^2\) 的例子中,我们立刻知道 \(F_Y(y)=0\) for \(y<0\)。
-
多维推广:当 \(X\) 是随机向量时,方法的核心思想不变(即 \(F_Y(y) = P(g(\mathbf{X}) \leq y)\)),但求解不等式区域和计算多重积分会变得非常复杂,此时雅可比行列式方法通常是更优选择。
总而言之,分布函数法是求解随机变量变换分布的基石工具。它从最根本的概率定义出发,通过将复杂问题分解为寻找事件等价区域和计算概率两个步骤,为解决一大类问题提供了系统性的框架。掌握此法对于深入理解概率论至关重要。