随机变量的变换
随机变量的变换是概率论中的一个基本概念,它研究的是当一个随机变量通过一个函数映射后,新生成的随机变量的分布特性。这在统计学、信号处理、金融工程等领域有广泛应用,例如当我们对数据进行标准化、取对数或进行其他函数操作时。
-
基本概念与问题定义
假设我们有一个随机变量 \(X\),其概率分布是已知的(例如,已知其概率密度函数PDF或概率质量函数PMF)。现在我们定义一个新的随机变量 \(Y\),它是 \(X\) 的一个函数:\(Y = g(X)\)。这里的 \(g\) 是一个已知的、确定的函数(例如 \(g(x) = x^2\), \(g(x) = \log(x)\), 或 \(g(x) = (x - \mu)/\sigma\))。我们的核心问题是:如何根据 \(X\) 的分布和函数 \(g\) 来确定 \(Y\) 的分布? -
离散型随机变量的变换
当 \(X\) 是离散型随机变量时,问题相对简单。设 \(X\) 的概率质量函数为 \(P(X = x_i) = p_i\)。
- 步骤:对于每一个 \(X\) 的取值 \(x_i\),计算对应的 \(Y\) 的取值 \(y_i = g(x_i)\)。
- 概率分配:如果函数 \(g\) 是一一对应的(即不同的 \(x_i\) 映射到不同的 \(y_i\)),那么 \(Y\) 取值为 \(y_i\) 的概率就等于 \(X\) 取值为 \(x_i\) 的概率:\(P(Y = y_i) = P(X = x_i) = p_i\)。
- 合并处理:如果函数 \(g\) 不是一一对应的(即多个不同的 \(x_i\) 可能映射到同一个 \(y\) 值,例如 \(g(x) = x^2\),那么 \(x\) 和 \(-x\) 都映射到同一个 \(y\)),则需要将所有映射到该 \(y\) 值的 \(x_i\) 的概率相加:\(P(Y = y) = \sum_{i: g(x_i) = y} P(X = x_i)\)。
- 连续型随机变量的变换:CDF法
当 \(X\) 是连续型随机变量时,最通用、最基础的方法是使用累积分布函数(CDF)。
- 核心思想:先求出 \(Y\) 的累积分布函数 \(F_Y(y) = P(Y \le y)\),然后通过对 \(y\) 求导来得到概率密度函数 \(f_Y(y)\)。
- 通用步骤:
-
根据 \(Y\) 和 \(X\) 的关系,将 \(Y\) 的事件表示为 \(X\) 的事件:\(F_Y(y) = P(Y \le y) = P(g(X) \le y)\)。
-
解出不等式 \(g(X) \le y\),找到使得该不等式成立的 \(X\) 的取值范围。例如,如果 \(Y = X^2\),则 \(P(Y \le y) = P(X^2 \le y)\)。当 \(y \ge 0\) 时,这等价于 \(P(-\sqrt{y} \le X \le \sqrt{y})\)。
-
利用 \(X\) 的累积分布函数 \(F_X(x)\) 来计算这个概率:\(F_Y(y) = F_X(\sqrt{y}) - F_X(-\sqrt{y})\) (接上例)。
-
最后,对 \(F_Y(y)\) 关于 \(y\) 求导,即可得到 \(Y\) 的概率密度函数:\(f_Y(y) = \frac{d}{dy} F_Y(y)\)。
-
连续型随机变量的变换:公式法(变量变换定理)
当变换函数 \(g\) 是严格单调且可导时,有一个更直接的公式法,也称为“变量变换定理”。
- 定理内容:设 \(X\) 是连续随机变量,概率密度函数为 \(f_X(x)\)。设 \(Y = g(X)\),且函数 \(g\) 在 \(X\) 的取值范围内是严格单调(全程单调递增或全程单调递减)且可导的函数,其反函数为 \(x = h(y) = g^{-1}(y)\)。
那么,\(Y\) 的概率密度函数为:
\[ f_Y(y) = f_X(h(y)) \cdot \left| \frac{d}{dy} h(y) \right| \]
其中,\(\left| \frac{d}{dy} h(y) \right|\) 是反函数 \(h(y)\) 的导数的绝对值,称为雅可比行列式在一维情况下的形式。
- 为何取绝对值?绝对值保证了概率密度函数 \(f_Y(y)\) 始终为非负。无论 \(g\) 是单调增还是单调减,这个公式都成立。对于单调增函数,导数为正;对于单调减函数,导数为负,取绝对值后结果一致。
- 多维随机变量的变换
变换方法可以推广到多个随机变量的情形。设有一个随机向量 \(\mathbf{X} = (X_1, X_2, ..., X_n)\),其联合概率密度函数已知。定义一个新的随机向量 \(\mathbf{Y} = (Y_1, Y_2, ..., Y_n)\),其中每个分量都是 \(\mathbf{X}\) 的函数:\(Y_i = g_i(X_1, X_2, ..., X_n)\)。- 核心工具:此时需要使用多元变量变换公式,其核心是雅可比矩阵的行列式。
- 公式:如果变换 \(\mathbf{g}\) 是从 \(\mathbb{R}^n\) 到 \(\mathbb{R}^n\) 的一一对应可逆映射,那么 \(\mathbf{Y}\) 的联合概率密度函数为:
\[ f_\mathbf{Y}(\mathbf{y}) = f_\mathbf{X}(\mathbf{h}(\mathbf{y})) \cdot |J| \]
其中,\(\mathbf{x} = \mathbf{h}(\mathbf{y})\) 是变换 \(\mathbf{y} = \mathbf{g}(\mathbf{x})\) 的反函数,\(|J|\) 是雅可比矩阵 \(J = \frac{\partial (x_1, x_2, ..., x_n)}{\partial (y_1, y_2, ..., y_n)}\) 的行列式的绝对值。这个行列式反映了变换过程中体积元的缩放比例。
通过掌握从离散到连续、从一维到多维的变换方法,我们能够系统地推导出经过函数映射后的新随机变量的分布,这是解决许多实际概率问题的关键工具。