好的,我们将要学习的新词条是:
随机变量的条件期望的投影解释与几何直观
- 从条件期望到投影的桥梁:回顾与动机
首先,我们回顾你已经学过的两个基础概念:随机变量的期望 和 条件期望。
- 期望:对于一个随机变量 \(X\),其期望 \(\mathbb{E}[X]\) 是一个 数,代表了 \(X\) 取值的“中心”或“平均”。从数据角度看,它是所有可能值的加权平均。
- 条件期望:对于一个随机变量 \(X\) 和另一个随机变量(或事件)\(Y\),条件期望 \(\mathbb{E}[X | Y]\) 本身是一个 新的随机变量。它是 \(Y\) 的函数,对于 \(Y\) 的每一个具体取值 \(y\),\(\mathbb{E}[X | Y=y]\) 给出了在已知 \(Y=y\) 的条件下,\(X\) 的平均值。
现在思考一个问题:在所有关于 \(Y\) 的函数 \(g(Y)\) 中,哪一个函数 \(g^*(Y)\) 是 \(X\) 的“最佳”预测或近似?更精确地说,我们希望找到一个 \(g(Y)\) 使得预测误差 \(X - g(Y)\) 在某种平均意义下“最小”。这自然引出了投影的思想。
- 函数空间与内积:建立几何舞台
要建立几何直观,我们需要一个合适的“空间”。考虑所有方差有限的随机变量,即 \(L^2\) 空间:所有满足 \(\mathbb{E}[Z^2] < \infty\) 的随机变量 \(Z\) 的集合。在这个集合上,我们可以定义“内积”:
\[ \langle U, V \rangle := \mathbb{E}[U V] \]
这个内积衡量了两个随机变量之间的“线性相关性”。如果 \(\mathbb{E}[U V] = 0\),我们称 \(U\) 和 \(V\) 正交(类比于几何中的垂直)。
由此,我们可以定义“范数”(或长度):
\[ \|U\| := \sqrt{\mathbb{E}[U^2]} = \sqrt{\text{Var}(U) + (\mathbb{E}[U])^2} \]
两个随机变量 \(U\) 和 \(V\) 之间的距离就可以定义为 \(\|U - V\|\)。
- 子空间与最佳逼近:定义投影
现在我们关注 \(X\) 和 \(Y\)。考虑所有关于 \(Y\) 的、方差有限的函数构成的空间,即 \(L^2(\sigma(Y))\):
\[ \mathcal{G} := \{ g(Y) : \mathbb{E}[g(Y)^2] < \infty \} \]
这个 \(\mathcal{G}\) 是前面整个 \(L^2\) 空间的一个 子空间。我们可以把 \(\mathcal{G}\) 想象成我们允许使用的“预测器”或“模型”的集合(它们都只用到了 \(Y\) 的信息)。
我们的目标:在子空间 \(\mathcal{G}\) 中,找到一个元素 \(\hat{X}\),使得它与 \(X\) 的距离 \(\|X - \hat{X}\|\) 最小。这个 \(\hat{X}\) 就是 \(X\) 在子空间 \(\mathcal{G}\) 上的 正交投影。
在欧几里得几何中,一个点到一条直线(子空间)的最短距离,是通过向该直线作垂线(正交投影)得到的。这里的概念完全一致,只是我们的“点”和“直线”是随机变量。
- 条件期望就是投影:关键定理
一个深刻而优美的结论是:
条件期望 \(\mathbb{E}[X | Y]\) 就是随机变量 \(X\) 在子空间 \(\mathcal{G} = L^2(\sigma(Y))\) 上的正交投影。
这意味着:
a. 最佳预测:在所有关于 \(Y\) 的函数中,\(\mathbb{E}[X | Y]\) 是 \(X\) 的 均方误差最小 的预测器。即,对于任何 \(g(Y) \in \mathcal{G}\),
\[ \mathbb{E}[(X - \mathbb{E}[X | Y])^2] \le \mathbb{E}[(X - g(Y))^2] \]
b. 正交性(误差不相关):投影的残差(预测误差)\(X - \mathbb{E}[X | Y]\) 与子空间 \(\mathcal{G}\) 中的 任何 元素都正交。具体地,对于任何(可测)函数 \(h(\cdot)\),有:
\[ \mathbb{E}[ (X - \mathbb{E}[X | Y]) \cdot h(Y) ] = 0 \]
这被称为 投影残差的正交性。直观上,这意味着预测误差 \(X - \hat{X}\) 中已经 不包含任何可以通过 \(Y\) 来预测的信息,所有能用 \(Y\) 解释的信息都被“投影” \(\hat{X} = \mathbb{E}[X | Y]\) 提取干净了。
- 迭代期望法则的几何解释
你已知的 迭代期望法则 \(\mathbb{E}[\mathbb{E}[X | Y]] = \mathbb{E}[X]\) 在这里有一个清晰的几何解释。
- 将常数 \(\mathbb{E}[X]\) 视为一个特殊的随机变量(它属于一个更小的子空间:常数空间)。
- \(\mathbb{E}[X | Y]\) 是 \(X\) 在 \(\mathcal{G}\) 上的投影。
- \(\mathbb{E}[X]\) 是 \(\mathbb{E}[X | Y]\)(自然也是 \(X\))在整个空间的原点方向(常数子空间)上的投影。
- 所以,先投影到 \(\mathcal{G}\),再投影到常数,等价于直接投影到常数。这在几何上对应了“投影的投影”性质。
- 推广与意义
这个投影观点极其强大,它是现代统计学和计量经济学的基石之一。
- 线性回归:当我们限制 \(g(Y)\) 为 线性函数 \(\alpha + \beta Y\) 时,在这个更小的线性子空间中寻找最佳预测,得到的就是经典线性回归的系数。条件期望的投影是最优的 非线性 预测,而线性回归是最优的 线性 预测。
- 鞅论:在鞅论中,\(\mathbb{E}[X_{n+1} | X_1, ..., X_n] = X_n\) 可以理解为:基于历史信息对下一时刻的最佳预测(投影)就是当前值。
- 信号处理:从含噪声的观测 \(Y\) 中估计信号 \(X\),最优估计(在均方误差意义下)就是条件期望 \(\mathbb{E}[X | Y]\),这被称为 最小均方误差估计。
通过将条件期望理解为一种 几何投影,我们将一个概率概念与线性代数、泛函分析中的直观联系了起来,这为理解和应用条件期望提供了强大的工具和深刻的洞察力。