随机变量的变换
字数 3449 2025-10-29 11:32:39

随机变量的变换

我将为您详细讲解“随机变量的变换”这一概率论核心概念。这个过程是指,当我们已知一个(或多个)随机变量的概率分布时,如何确定由这些变量通过某个函数关系构成的新随机变量的分布。

第一步:理解问题的基本设定

想象一个场景:我们有一个随机变量 \(X\),我们知道它的概率密度函数(PDF)为 \(f_X(x)\)(如果 \(X\) 是连续的)或概率质量函数(PMF)为 \(P(X=x)\)(如果 \(X\) 是离散的)。现在,我们定义一个新的随机变量 \(Y\),它是 \(X\) 的一个函数,即 \(Y = g(X)\)。这里,\(g\) 是一个已知的、确定的函数(例如,\(Y = X^2\)\(Y = e^X\)\(Y = \sin(X)\) 等)。

我们的核心问题是:如何求得新随机变量 \(Y\) 的概率分布?

第二步:处理离散型随机变量的变换

\(X\) 是离散型随机变量时,问题相对简单。因为 \(X\) 只能取有限个或可数无限个值,\(Y = g(X)\) 也只能取对应的函数值。

  • 方法:直接通过 \(X\) 的PMF来推导 \(Y\) 的PMF。
  • 公式:对于 \(Y\) 的每一个可能取值 \(y\),其概率是所有能使得 \(g(x) = y\) 成立的 \(x\) 所对应的 \(X\) 的概率之和。

\[ P(Y = y) = \sum_{\{x | g(x) = y\}} P(X = x) \]

  • 举例:设 \(X\) 的PMF为 \(P(X = -1) = 0.2\), \(P(X = 0) = 0.5\), \(P(X = 1) = 0.3\)。令 \(Y = X^2\)
  • \(Y\) 的可能取值:当 \(x = -1\)\(x = 1\) 时,\(y = 1\);当 \(x = 0\) 时,\(y = 0\)
  • 计算 \(Y\) 的PMF:
  • \(P(Y = 0) = P(X = 0) = 0.5\)
  • \(P(Y = 1) = P(X = -1) + P(X = 1) = 0.2 + 0.3 = 0.5\)

第三步:处理连续型随机变量的变换(核心与难点)

\(X\) 是连续型随机变量时,情况更复杂,因为我们需要处理概率密度函数。最常用且通用的方法是 变换定理

  • 前提条件:函数 \(g\) 必须是可逆的(即一一映射)且可微的。这意味着对于 \(X\) 的取值范围,函数 \(g\) 必须是严格单调的(一直递增或一直递减)。

  • 定理内容:设 \(X\) 是连续随机变量,PDF 为 \(f_X(x)\)。设 \(Y = g(X)\),且 \(g\) 是单调可微函数。那么,\(Y\) 的概率密度函数 \(f_Y(y)\) 为:

\[ f_Y(y) = f_X(g^{-1}(y)) \cdot \left| \frac{d}{dy}[g^{-1}(y)] \right| \]

其中,\(g^{-1}\)\(g\) 的反函数,\(\frac{d}{dy}[g^{-1}(y)]\) 是反函数关于 \(y\) 的导数。绝对值符号确保了密度函数始终为非负。

  • 为什么有这个公式? 直观理解是“概率守恒”。当我们将变量从 \(X\) 变换到 \(Y\) 时,发生在 \(X\) 的微小区间 \([x, x+dx]\) 内的概率,必须等于发生在 \(Y\) 的对应区间 \([y, y+dy]\) 内的概率。即 \(f_X(x)dx = f_Y(y)dy\)。通过微分关系 \(dy = g'(x)dx\) 进行转换,就得到了上述公式。

  • 举例(线性变换):设 \(X \sim \text{Uniform}(0, 1)\),即 \(f_X(x) = 1\) for \(0 < x < 1\)。令 \(Y = aX + b\) (\(a > 0\),为单调递增函数)。

  • 反函数:\(X = (Y - b)/a\),所以 \(g^{-1}(y) = (y - b)/a\)

  • 反函数的导数:\(\frac{d}{dy}g^{-1}(y) = 1/a\)

  • 代入公式:\(f_Y(y) = f_X((y-b)/a) \cdot |1/a| = 1 \cdot (1/a) = 1/a\)

  • 确定 \(Y\) 的取值范围:由于 \(0 < x < 1\),代入 \(x = (y-b)/a\),得 \(0 < (y-b)/a < 1\),即 \(b < y < a+b\)

  • 结论:\(Y \sim \text{Uniform}(b, a+b)\)。这验证了均匀分布的线性变换仍然是均匀分布。

第四步:处理非单调或多元变量的变换

  1. 非单调函数:如果 \(g\) 不是单调的(例如 \(Y = X^2\),对于同一个 \(y\) 值,可能对应两个 \(x\) 值,如 \(x\)\(-x\)),我们需要将 \(X\) 的定义域划分为若干个区间,使得 \(g\) 在每个区间上是单调的。然后,对每个单调区间应用变换定理,最后将结果相加。
  • 通用公式\(f_Y(y) = \sum_{i} f_X(g_i^{-1}(y)) \cdot \left| \frac{d}{dy}g_i^{-1}(y) \right|\),其中 \(g_i^{-1}\)\(g\) 在第 \(i\) 个单调分支上的反函数。
  1. 多元随机变量的变换:当 \(Y\) 是多个随机变量 \(X_1, X_2, ..., X_n\) 的函数时,问题扩展到多维。此时需要使用雅可比矩阵
  • 设定:有随机向量 \(\mathbf{X} = (X_1, ..., X_n)\),联合PDF为 \(f_{\mathbf{X}}(\mathbf{x})\)。定义新随机向量 \(\mathbf{Y} = (Y_1, ..., Y_n)\),其中 \(Y_i = g_i(X_1, ..., X_n)\),且变换是一一对应的。
  • 公式\(\mathbf{Y}\) 的联合PDF为:

\[ f_{\mathbf{Y}}(\mathbf{y}) = f_{\mathbf{X}}(\mathbf{g}^{-1}(\mathbf{y})) \cdot |J| \]

其中,\(\mathbf{g}^{-1}\) 是向量值函数的反函数,\(J\)雅可比行列式,即反函数的所有一阶偏导数构成的矩阵的行列式的绝对值。这可以看作是单变量变换定理在多维空间的自然推广。

第五步:累积分布函数(CDF)法

当变换函数 \(g\) 非常复杂或不满足变换定理的条件时,一个更基本、更通用的方法是使用累积分布函数(CDF)。

  • 方法
  1. 先求出 \(Y\) 的CDF,\(F_Y(y) = P(Y \le y)\)
  2. 由于 \(Y = g(X)\),所以 \(P(Y \le y) = P(g(X) \le y)\)
  3. 通过解不等式 \(g(X) \le y\),找到使得该不等式成立的 \(X\) 的取值范围。
  4. 然后通过对 \(X\) 的PDF在该范围内积分来计算这个概率:\(F_Y(y) = \int_{\{x | g(x) \le y\}} f_X(x) dx\)
  5. 最后,对CDF求导,即可得到PDF:\(f_Y(y) = \frac{d}{dy}F_Y(y)\)
  • 优点:这种方法思路直接,适用于任何形式的函数 \(g\),是解决复杂变换问题的“万能钥匙”。
  • 缺点:计算积分和求导可能比较繁琐。

通过以上五个步骤,我们系统地掌握了求解随机变量变换分布的各种技术,从简单的离散情况到复杂的连续多元情况,并理解了其背后的概率直觉。

随机变量的变换 我将为您详细讲解“随机变量的变换”这一概率论核心概念。这个过程是指,当我们已知一个(或多个)随机变量的概率分布时,如何确定由这些变量通过某个函数关系构成的新随机变量的分布。 第一步:理解问题的基本设定 想象一个场景:我们有一个随机变量 \( X \),我们知道它的概率密度函数(PDF)为 \( f_ X(x) \)(如果 \( X \) 是连续的)或概率质量函数(PMF)为 \( P(X=x) \)(如果 \( X \) 是离散的)。现在,我们定义一个新的随机变量 \( Y \),它是 \( X \) 的一个函数,即 \( Y = g(X) \)。这里,\( g \) 是一个已知的、确定的函数(例如,\( Y = X^2 \), \( Y = e^X \), \( Y = \sin(X) \) 等)。 我们的核心问题是: 如何求得新随机变量 \( Y \) 的概率分布? 第二步:处理离散型随机变量的变换 当 \( X \) 是离散型随机变量时,问题相对简单。因为 \( X \) 只能取有限个或可数无限个值,\( Y = g(X) \) 也只能取对应的函数值。 方法 :直接通过 \( X \) 的PMF来推导 \( Y \) 的PMF。 公式 :对于 \( Y \) 的每一个可能取值 \( y \),其概率是所有能使得 \( g(x) = y \) 成立的 \( x \) 所对应的 \( X \) 的概率之和。 \[ P(Y = y) = \sum_ {\{x | g(x) = y\}} P(X = x) \] 举例 :设 \( X \) 的PMF为 \( P(X = -1) = 0.2 \), \( P(X = 0) = 0.5 \), \( P(X = 1) = 0.3 \)。令 \( Y = X^2 \)。 \( Y \) 的可能取值:当 \( x = -1 \) 或 \( x = 1 \) 时,\( y = 1 \);当 \( x = 0 \) 时,\( y = 0 \)。 计算 \( Y \) 的PMF: \( P(Y = 0) = P(X = 0) = 0.5 \) \( P(Y = 1) = P(X = -1) + P(X = 1) = 0.2 + 0.3 = 0.5 \) 第三步:处理连续型随机变量的变换(核心与难点) 当 \( X \) 是连续型随机变量时,情况更复杂,因为我们需要处理概率密度函数。最常用且通用的方法是 变换定理 。 前提条件 :函数 \( g \) 必须是 可逆的 (即一一映射)且 可微的 。这意味着对于 \( X \) 的取值范围,函数 \( g \) 必须是严格单调的(一直递增或一直递减)。 定理内容 :设 \( X \) 是连续随机变量,PDF 为 \( f_ X(x) \)。设 \( Y = g(X) \),且 \( g \) 是单调可微函数。那么,\( Y \) 的概率密度函数 \( f_ Y(y) \) 为: \[ f_ Y(y) = f_ X(g^{-1}(y)) \cdot \left| \frac{d}{dy}[ g^{-1}(y) ] \right| \] 其中,\( g^{-1} \) 是 \( g \) 的反函数,\( \frac{d}{dy}[ g^{-1}(y) ] \) 是反函数关于 \( y \) 的导数。绝对值符号确保了密度函数始终为非负。 为什么有这个公式? 直观理解是“概率守恒”。当我们将变量从 \( X \) 变换到 \( Y \) 时,发生在 \( X \) 的微小区间 \( [ x, x+dx] \) 内的概率,必须等于发生在 \( Y \) 的对应区间 \( [ y, y+dy] \) 内的概率。即 \( f_ X(x)dx = f_ Y(y)dy \)。通过微分关系 \( dy = g'(x)dx \) 进行转换,就得到了上述公式。 举例(线性变换) :设 \( X \sim \text{Uniform}(0, 1) \),即 \( f_ X(x) = 1 \) for \( 0 < x < 1 \)。令 \( Y = aX + b \) (\( a > 0 \),为单调递增函数)。 反函数:\( X = (Y - b)/a \),所以 \( g^{-1}(y) = (y - b)/a \)。 反函数的导数:\( \frac{d}{dy}g^{-1}(y) = 1/a \)。 代入公式:\( f_ Y(y) = f_ X((y-b)/a) \cdot |1/a| = 1 \cdot (1/a) = 1/a \)。 确定 \( Y \) 的取值范围:由于 \( 0 < x < 1 \),代入 \( x = (y-b)/a \),得 \( 0 < (y-b)/a < 1 \),即 \( b < y < a+b \)。 结论:\( Y \sim \text{Uniform}(b, a+b) \)。这验证了均匀分布的线性变换仍然是均匀分布。 第四步:处理非单调或多元变量的变换 非单调函数 :如果 \( g \) 不是单调的(例如 \( Y = X^2 \),对于同一个 \( y \) 值,可能对应两个 \( x \) 值,如 \( x \) 和 \( -x \)),我们需要将 \( X \) 的定义域划分为若干个区间,使得 \( g \) 在每个区间上是单调的。然后,对每个单调区间应用变换定理,最后将结果相加。 通用公式 :\( f_ Y(y) = \sum_ {i} f_ X(g_ i^{-1}(y)) \cdot \left| \frac{d}{dy}g_ i^{-1}(y) \right| \),其中 \( g_ i^{-1} \) 是 \( g \) 在第 \( i \) 个单调分支上的反函数。 多元随机变量的变换 :当 \( Y \) 是多个随机变量 \( X_ 1, X_ 2, ..., X_ n \) 的函数时,问题扩展到多维。此时需要使用 雅可比矩阵 。 设定 :有随机向量 \( \mathbf{X} = (X_ 1, ..., X_ n) \),联合PDF为 \( f_ {\mathbf{X}}(\mathbf{x}) \)。定义新随机向量 \( \mathbf{Y} = (Y_ 1, ..., Y_ n) \),其中 \( Y_ i = g_ i(X_ 1, ..., X_ n) \),且变换是一一对应的。 公式 :\( \mathbf{Y} \) 的联合PDF为: \[ f_ {\mathbf{Y}}(\mathbf{y}) = f_ {\mathbf{X}}(\mathbf{g}^{-1}(\mathbf{y})) \cdot |J| \] 其中,\( \mathbf{g}^{-1} \) 是向量值函数的反函数,\( J \) 是 雅可比行列式 ,即反函数的所有一阶偏导数构成的矩阵的行列式的绝对值。这可以看作是单变量变换定理在多维空间的自然推广。 第五步:累积分布函数(CDF)法 当变换函数 \( g \) 非常复杂或不满足变换定理的条件时,一个更基本、更通用的方法是使用累积分布函数(CDF)。 方法 : 先求出 \( Y \) 的CDF,\( F_ Y(y) = P(Y \le y) \)。 由于 \( Y = g(X) \),所以 \( P(Y \le y) = P(g(X) \le y) \)。 通过解不等式 \( g(X) \le y \),找到使得该不等式成立的 \( X \) 的取值范围。 然后通过对 \( X \) 的PDF在该范围内积分来计算这个概率:\( F_ Y(y) = \int_ {\{x | g(x) \le y\}} f_ X(x) dx \)。 最后,对CDF求导,即可得到PDF:\( f_ Y(y) = \frac{d}{dy}F_ Y(y) \)。 优点 :这种方法思路直接,适用于任何形式的函数 \( g \),是解决复杂变换问题的“万能钥匙”。 缺点 :计算积分和求导可能比较繁琐。 通过以上五个步骤,我们系统地掌握了求解随机变量变换分布的各种技术,从简单的离散情况到复杂的连续多元情况,并理解了其背后的概率直觉。