随机变量的变换
我将为您详细讲解“随机变量的变换”这一概率论核心概念。这个过程是指,当我们已知一个(或多个)随机变量的概率分布时,如何确定由这些变量通过某个函数关系构成的新随机变量的分布。
第一步:理解问题的基本设定
想象一个场景:我们有一个随机变量 \(X\),我们知道它的概率密度函数(PDF)为 \(f_X(x)\)(如果 \(X\) 是连续的)或概率质量函数(PMF)为 \(P(X=x)\)(如果 \(X\) 是离散的)。现在,我们定义一个新的随机变量 \(Y\),它是 \(X\) 的一个函数,即 \(Y = g(X)\)。这里,\(g\) 是一个已知的、确定的函数(例如,\(Y = X^2\), \(Y = e^X\), \(Y = \sin(X)\) 等)。
我们的核心问题是:如何求得新随机变量 \(Y\) 的概率分布?
第二步:处理离散型随机变量的变换
当 \(X\) 是离散型随机变量时,问题相对简单。因为 \(X\) 只能取有限个或可数无限个值,\(Y = g(X)\) 也只能取对应的函数值。
- 方法:直接通过 \(X\) 的PMF来推导 \(Y\) 的PMF。
- 公式:对于 \(Y\) 的每一个可能取值 \(y\),其概率是所有能使得 \(g(x) = y\) 成立的 \(x\) 所对应的 \(X\) 的概率之和。
\[ P(Y = y) = \sum_{\{x | g(x) = y\}} P(X = x) \]
- 举例:设 \(X\) 的PMF为 \(P(X = -1) = 0.2\), \(P(X = 0) = 0.5\), \(P(X = 1) = 0.3\)。令 \(Y = X^2\)。
- \(Y\) 的可能取值:当 \(x = -1\) 或 \(x = 1\) 时,\(y = 1\);当 \(x = 0\) 时,\(y = 0\)。
- 计算 \(Y\) 的PMF:
- \(P(Y = 0) = P(X = 0) = 0.5\)
- \(P(Y = 1) = P(X = -1) + P(X = 1) = 0.2 + 0.3 = 0.5\)
第三步:处理连续型随机变量的变换(核心与难点)
当 \(X\) 是连续型随机变量时,情况更复杂,因为我们需要处理概率密度函数。最常用且通用的方法是 变换定理。
-
前提条件:函数 \(g\) 必须是可逆的(即一一映射)且可微的。这意味着对于 \(X\) 的取值范围,函数 \(g\) 必须是严格单调的(一直递增或一直递减)。
-
定理内容:设 \(X\) 是连续随机变量,PDF 为 \(f_X(x)\)。设 \(Y = g(X)\),且 \(g\) 是单调可微函数。那么,\(Y\) 的概率密度函数 \(f_Y(y)\) 为:
\[ f_Y(y) = f_X(g^{-1}(y)) \cdot \left| \frac{d}{dy}[g^{-1}(y)] \right| \]
其中,\(g^{-1}\) 是 \(g\) 的反函数,\(\frac{d}{dy}[g^{-1}(y)]\) 是反函数关于 \(y\) 的导数。绝对值符号确保了密度函数始终为非负。
-
为什么有这个公式? 直观理解是“概率守恒”。当我们将变量从 \(X\) 变换到 \(Y\) 时,发生在 \(X\) 的微小区间 \([x, x+dx]\) 内的概率,必须等于发生在 \(Y\) 的对应区间 \([y, y+dy]\) 内的概率。即 \(f_X(x)dx = f_Y(y)dy\)。通过微分关系 \(dy = g'(x)dx\) 进行转换,就得到了上述公式。
-
举例(线性变换):设 \(X \sim \text{Uniform}(0, 1)\),即 \(f_X(x) = 1\) for \(0 < x < 1\)。令 \(Y = aX + b\) (\(a > 0\),为单调递增函数)。
-
反函数:\(X = (Y - b)/a\),所以 \(g^{-1}(y) = (y - b)/a\)。
-
反函数的导数:\(\frac{d}{dy}g^{-1}(y) = 1/a\)。
-
代入公式:\(f_Y(y) = f_X((y-b)/a) \cdot |1/a| = 1 \cdot (1/a) = 1/a\)。
-
确定 \(Y\) 的取值范围:由于 \(0 < x < 1\),代入 \(x = (y-b)/a\),得 \(0 < (y-b)/a < 1\),即 \(b < y < a+b\)。
-
结论:\(Y \sim \text{Uniform}(b, a+b)\)。这验证了均匀分布的线性变换仍然是均匀分布。
第四步:处理非单调或多元变量的变换
- 非单调函数:如果 \(g\) 不是单调的(例如 \(Y = X^2\),对于同一个 \(y\) 值,可能对应两个 \(x\) 值,如 \(x\) 和 \(-x\)),我们需要将 \(X\) 的定义域划分为若干个区间,使得 \(g\) 在每个区间上是单调的。然后,对每个单调区间应用变换定理,最后将结果相加。
- 通用公式:\(f_Y(y) = \sum_{i} f_X(g_i^{-1}(y)) \cdot \left| \frac{d}{dy}g_i^{-1}(y) \right|\),其中 \(g_i^{-1}\) 是 \(g\) 在第 \(i\) 个单调分支上的反函数。
- 多元随机变量的变换:当 \(Y\) 是多个随机变量 \(X_1, X_2, ..., X_n\) 的函数时,问题扩展到多维。此时需要使用雅可比矩阵。
- 设定:有随机向量 \(\mathbf{X} = (X_1, ..., X_n)\),联合PDF为 \(f_{\mathbf{X}}(\mathbf{x})\)。定义新随机向量 \(\mathbf{Y} = (Y_1, ..., Y_n)\),其中 \(Y_i = g_i(X_1, ..., X_n)\),且变换是一一对应的。
- 公式:\(\mathbf{Y}\) 的联合PDF为:
\[ f_{\mathbf{Y}}(\mathbf{y}) = f_{\mathbf{X}}(\mathbf{g}^{-1}(\mathbf{y})) \cdot |J| \]
其中,\(\mathbf{g}^{-1}\) 是向量值函数的反函数,\(J\) 是雅可比行列式,即反函数的所有一阶偏导数构成的矩阵的行列式的绝对值。这可以看作是单变量变换定理在多维空间的自然推广。
第五步:累积分布函数(CDF)法
当变换函数 \(g\) 非常复杂或不满足变换定理的条件时,一个更基本、更通用的方法是使用累积分布函数(CDF)。
- 方法:
- 先求出 \(Y\) 的CDF,\(F_Y(y) = P(Y \le y)\)。
- 由于 \(Y = g(X)\),所以 \(P(Y \le y) = P(g(X) \le y)\)。
- 通过解不等式 \(g(X) \le y\),找到使得该不等式成立的 \(X\) 的取值范围。
- 然后通过对 \(X\) 的PDF在该范围内积分来计算这个概率:\(F_Y(y) = \int_{\{x | g(x) \le y\}} f_X(x) dx\)。
- 最后,对CDF求导,即可得到PDF:\(f_Y(y) = \frac{d}{dy}F_Y(y)\)。
- 优点:这种方法思路直接,适用于任何形式的函数 \(g\),是解决复杂变换问题的“万能钥匙”。
- 缺点:计算积分和求导可能比较繁琐。
通过以上五个步骤,我们系统地掌握了求解随机变量变换分布的各种技术,从简单的离散情况到复杂的连续多元情况,并理解了其背后的概率直觉。