随机变量的变换
字数 2800 2025-10-30 21:16:02

随机变量的变换

随机变量的变换是概率论中的一个基本概念,它研究的是当一个随机变量通过一个函数映射后,新生成的随机变量的分布特性。这在统计学、信号处理、金融工程等领域有广泛应用,例如当我们对数据进行标准化、取对数或进行其他函数操作时。

  1. 基本概念与问题定义
    假设我们有一个随机变量 \(X\),其概率分布是已知的(例如,已知其概率密度函数PDF或概率质量函数PMF)。现在我们定义一个新的随机变量 \(Y\),它是 \(X\) 的一个函数:\(Y = g(X)\)。这里的 \(g\) 是一个已知的、确定的函数(例如 \(g(x) = x^2\), \(g(x) = \log(x)\), 或 \(g(x) = (x - \mu)/\sigma\))。我们的核心问题是:如何根据 \(X\) 的分布和函数 \(g\) 来确定 \(Y\) 的分布?

  2. 离散型随机变量的变换
    \(X\) 是离散型随机变量时,问题相对简单。设 \(X\) 的概率质量函数为 \(P(X = x_i) = p_i\)

  • 步骤:对于每一个 \(X\) 的取值 \(x_i\),计算对应的 \(Y\) 的取值 \(y_i = g(x_i)\)
  • 概率分配:如果函数 \(g\) 是一一对应的(即不同的 \(x_i\) 映射到不同的 \(y_i\)),那么 \(Y\) 取值为 \(y_i\) 的概率就等于 \(X\) 取值为 \(x_i\) 的概率:\(P(Y = y_i) = P(X = x_i) = p_i\)
  • 合并处理:如果函数 \(g\) 不是一一对应的(即多个不同的 \(x_i\) 可能映射到同一个 \(y\) 值,例如 \(g(x) = x^2\),那么 \(x\)\(-x\) 都映射到同一个 \(y\)),则需要将所有映射到该 \(y\) 值的 \(x_i\) 的概率相加:\(P(Y = y) = \sum_{i: g(x_i) = y} P(X = x_i)\)
  1. 连续型随机变量的变换:CDF法
    \(X\) 是连续型随机变量时,最通用、最基础的方法是使用累积分布函数(CDF)。
  • 核心思想:先求出 \(Y\) 的累积分布函数 \(F_Y(y) = P(Y \le y)\),然后通过对 \(y\) 求导来得到概率密度函数 \(f_Y(y)\)
    • 通用步骤
  1. 根据 \(Y\)\(X\) 的关系,将 \(Y\) 的事件表示为 \(X\) 的事件:\(F_Y(y) = P(Y \le y) = P(g(X) \le y)\)

  2. 解出不等式 \(g(X) \le y\),找到使得该不等式成立的 \(X\) 的取值范围。例如,如果 \(Y = X^2\),则 \(P(Y \le y) = P(X^2 \le y)\)。当 \(y \ge 0\) 时,这等价于 \(P(-\sqrt{y} \le X \le \sqrt{y})\)

  3. 利用 \(X\) 的累积分布函数 \(F_X(x)\) 来计算这个概率:\(F_Y(y) = F_X(\sqrt{y}) - F_X(-\sqrt{y})\) (接上例)。

  4. 最后,对 \(F_Y(y)\) 关于 \(y\) 求导,即可得到 \(Y\) 的概率密度函数:\(f_Y(y) = \frac{d}{dy} F_Y(y)\)

  5. 连续型随机变量的变换:公式法(变量变换定理)
    当变换函数 \(g\) 是严格单调且可导时,有一个更直接的公式法,也称为“变量变换定理”。

  • 定理内容:设 \(X\) 是连续随机变量,概率密度函数为 \(f_X(x)\)。设 \(Y = g(X)\),且函数 \(g\)\(X\) 的取值范围内是严格单调(全程单调递增或全程单调递减)且可导的函数,其反函数为 \(x = h(y) = g^{-1}(y)\)
    那么,\(Y\) 的概率密度函数为:

\[ f_Y(y) = f_X(h(y)) \cdot \left| \frac{d}{dy} h(y) \right| \]

其中,\(\left| \frac{d}{dy} h(y) \right|\) 是反函数 \(h(y)\) 的导数的绝对值,称为雅可比行列式在一维情况下的形式。

  • 为何取绝对值?绝对值保证了概率密度函数 \(f_Y(y)\) 始终为非负。无论 \(g\) 是单调增还是单调减,这个公式都成立。对于单调增函数,导数为正;对于单调减函数,导数为负,取绝对值后结果一致。
  1. 多维随机变量的变换
    变换方法可以推广到多个随机变量的情形。设有一个随机向量 \(\mathbf{X} = (X_1, X_2, ..., X_n)\),其联合概率密度函数已知。定义一个新的随机向量 \(\mathbf{Y} = (Y_1, Y_2, ..., Y_n)\),其中每个分量都是 \(\mathbf{X}\) 的函数:\(Y_i = g_i(X_1, X_2, ..., X_n)\)
    • 核心工具:此时需要使用多元变量变换公式,其核心是雅可比矩阵的行列式。
  • 公式:如果变换 \(\mathbf{g}\) 是从 \(\mathbb{R}^n\)\(\mathbb{R}^n\) 的一一对应可逆映射,那么 \(\mathbf{Y}\) 的联合概率密度函数为:

\[ f_\mathbf{Y}(\mathbf{y}) = f_\mathbf{X}(\mathbf{h}(\mathbf{y})) \cdot |J| \]

其中,\(\mathbf{x} = \mathbf{h}(\mathbf{y})\) 是变换 \(\mathbf{y} = \mathbf{g}(\mathbf{x})\) 的反函数,\(|J|\) 是雅可比矩阵 \(J = \frac{\partial (x_1, x_2, ..., x_n)}{\partial (y_1, y_2, ..., y_n)}\) 的行列式的绝对值。这个行列式反映了变换过程中体积元的缩放比例。

通过掌握从离散到连续、从一维到多维的变换方法,我们能够系统地推导出经过函数映射后的新随机变量的分布,这是解决许多实际概率问题的关键工具。

随机变量的变换 随机变量的变换是概率论中的一个基本概念,它研究的是当一个随机变量通过一个函数映射后,新生成的随机变量的分布特性。这在统计学、信号处理、金融工程等领域有广泛应用,例如当我们对数据进行标准化、取对数或进行其他函数操作时。 基本概念与问题定义 假设我们有一个随机变量 \( X \),其概率分布是已知的(例如,已知其概率密度函数PDF或概率质量函数PMF)。现在我们定义一个新的随机变量 \( Y \),它是 \( X \) 的一个函数:\( Y = g(X) \)。这里的 \( g \) 是一个已知的、确定的函数(例如 \( g(x) = x^2 \), \( g(x) = \log(x) \), 或 \( g(x) = (x - \mu)/\sigma \))。我们的核心问题是:如何根据 \( X \) 的分布和函数 \( g \) 来确定 \( Y \) 的分布? 离散型随机变量的变换 当 \( X \) 是离散型随机变量时,问题相对简单。设 \( X \) 的概率质量函数为 \( P(X = x_ i) = p_ i \)。 步骤 :对于每一个 \( X \) 的取值 \( x_ i \),计算对应的 \( Y \) 的取值 \( y_ i = g(x_ i) \)。 概率分配 :如果函数 \( g \) 是一一对应的(即不同的 \( x_ i \) 映射到不同的 \( y_ i \)),那么 \( Y \) 取值为 \( y_ i \) 的概率就等于 \( X \) 取值为 \( x_ i \) 的概率:\( P(Y = y_ i) = P(X = x_ i) = p_ i \)。 合并处理 :如果函数 \( g \) 不是一一对应的(即多个不同的 \( x_ i \) 可能映射到同一个 \( y \) 值,例如 \( g(x) = x^2 \),那么 \( x \) 和 \( -x \) 都映射到同一个 \( y \)),则需要将所有映射到该 \( y \) 值的 \( x_ i \) 的概率相加:\( P(Y = y) = \sum_ {i: g(x_ i) = y} P(X = x_ i) \)。 连续型随机变量的变换:CDF法 当 \( X \) 是连续型随机变量时,最通用、最基础的方法是使用累积分布函数(CDF)。 核心思想 :先求出 \( Y \) 的累积分布函数 \( F_ Y(y) = P(Y \le y) \),然后通过对 \( y \) 求导来得到概率密度函数 \( f_ Y(y) \)。 通用步骤 : 根据 \( Y \) 和 \( X \) 的关系,将 \( Y \) 的事件表示为 \( X \) 的事件:\( F_ Y(y) = P(Y \le y) = P(g(X) \le y) \)。 解出不等式 \( g(X) \le y \),找到使得该不等式成立的 \( X \) 的取值范围。例如,如果 \( Y = X^2 \),则 \( P(Y \le y) = P(X^2 \le y) \)。当 \( y \ge 0 \) 时,这等价于 \( P(-\sqrt{y} \le X \le \sqrt{y}) \)。 利用 \( X \) 的累积分布函数 \( F_ X(x) \) 来计算这个概率:\( F_ Y(y) = F_ X(\sqrt{y}) - F_ X(-\sqrt{y}) \) (接上例)。 最后,对 \( F_ Y(y) \) 关于 \( y \) 求导,即可得到 \( Y \) 的概率密度函数:\( f_ Y(y) = \frac{d}{dy} F_ Y(y) \)。 连续型随机变量的变换:公式法(变量变换定理) 当变换函数 \( g \) 是严格单调且可导时,有一个更直接的公式法,也称为“变量变换定理”。 定理内容 :设 \( X \) 是连续随机变量,概率密度函数为 \( f_ X(x) \)。设 \( Y = g(X) \),且函数 \( g \) 在 \( X \) 的取值范围内是严格单调(全程单调递增或全程单调递减)且可导的函数,其反函数为 \( x = h(y) = g^{-1}(y) \)。 那么,\( Y \) 的概率密度函数为: \[ f_ Y(y) = f_ X(h(y)) \cdot \left| \frac{d}{dy} h(y) \right| \] 其中,\( \left| \frac{d}{dy} h(y) \right| \) 是反函数 \( h(y) \) 的导数的绝对值,称为 雅可比行列式 在一维情况下的形式。 为何取绝对值 ?绝对值保证了概率密度函数 \( f_ Y(y) \) 始终为非负。无论 \( g \) 是单调增还是单调减,这个公式都成立。对于单调增函数,导数为正;对于单调减函数,导数为负,取绝对值后结果一致。 多维随机变量的变换 变换方法可以推广到多个随机变量的情形。设有一个随机向量 \( \mathbf{X} = (X_ 1, X_ 2, ..., X_ n) \),其联合概率密度函数已知。定义一个新的随机向量 \( \mathbf{Y} = (Y_ 1, Y_ 2, ..., Y_ n) \),其中每个分量都是 \( \mathbf{X} \) 的函数:\( Y_ i = g_ i(X_ 1, X_ 2, ..., X_ n) \)。 核心工具 :此时需要使用 多元变量变换公式 ,其核心是 雅可比矩阵 的行列式。 公式 :如果变换 \( \mathbf{g} \) 是从 \( \mathbb{R}^n \) 到 \( \mathbb{R}^n \) 的一一对应可逆映射,那么 \( \mathbf{Y} \) 的联合概率密度函数为: \[ f_ \mathbf{Y}(\mathbf{y}) = f_ \mathbf{X}(\mathbf{h}(\mathbf{y})) \cdot |J| \] 其中,\( \mathbf{x} = \mathbf{h}(\mathbf{y}) \) 是变换 \( \mathbf{y} = \mathbf{g}(\mathbf{x}) \) 的反函数,\( |J| \) 是雅可比矩阵 \( J = \frac{\partial (x_ 1, x_ 2, ..., x_ n)}{\partial (y_ 1, y_ 2, ..., y_ n)} \) 的行列式的绝对值。这个行列式反映了变换过程中体积元的缩放比例。 通过掌握从离散到连续、从一维到多维的变换方法,我们能够系统地推导出经过函数映射后的新随机变量的分布,这是解决许多实际概率问题的关键工具。