随机变量的方差与协方差
我们从一个随机变量的波动程度开始理解。方差衡量的是随机变量取值与其期望(平均值)的偏离程度。对于一个随机变量X,其期望记为E[X]。方差Var(X)定义为偏离程度的平方的期望:Var(X) = E[(X - E[X])²]。展开计算,常使用公式Var(X) = E[X²] - (E[X])²。方差越大,表示随机变量的取值越分散;方差越小,则取值越集中在期望附近。
接下来,我们考虑两个随机变量之间的关系。协方差度量的是两个随机变量协同变化的趋势。对于随机变量X和Y,它们的协方差Cov(X, Y)定义为:Cov(X, Y) = E[(X - E[X])(Y - E[Y])]。同样,可以展开为Cov(X, Y) = E[XY] - E[X]E[Y]。如果X和Y倾向于同时大于或同时小于各自的平均值,则协方差为正;如果一个大于均值而另一个小于均值,则协方差为负;如果它们的变化没有线性关联,则协方差接近零。
协方差的值受随机变量本身量纲的影响,不便于直接比较关联的强弱。因此我们引入相关系数,它是对协方差进行标准化后的指标。X和Y的相关系数ρ定义为:ρ(X, Y) = Cov(X, Y) / √(Var(X)Var(Y))。相关系数的取值范围是[-1, 1],其绝对值的大小反映了线性关系的强度,符号反映了关系的方向。ρ=1表示完全正相关,ρ=-1表示完全负相关,ρ=0表示不存在线性相关。
方差和协方差在代数运算下具有重要的性质。对于随机变量X, Y和常数a, b,有:Var(aX + b) = a²Var(X);Cov(aX, bY) = ab Cov(X, Y)。更一般地,对于多个随机变量的线性组合,其方差的计算会涉及到所有两两之间的协方差:Var(∑a_i X_i) = ∑∑ a_i a_j Cov(X_i, X_j)。这个性质在投资组合风险分析等领域有核心应用。
最后,我们讨论一个特殊情况:当随机变量X和Y相互独立时,有E[XY] = E[X]E[Y],因此Cov(X, Y) = 0,即独立必然导致不相关。但反过来,不相关(协方差为零)不一定意味着独立,因为不相关只保证没有线性关系,但变量间可能存在其他非线性关系。只有当随机变量服从联合正态分布时,不相关与独立才是等价的。