随机变量的分位数回归
- 基本概念与动机
在传统线性回归中,我们关注的是在给定自变量 \(X\) 的条件下,因变量 \(Y\) 的条件期望 \(E(Y|X)\)。这描述的是条件分布的中心位置。然而,只关注中心位置可能丢失大量信息。例如,自变量 \(X\) 可能不仅影响 \(Y\) 的平均水平,还会影响其分布的形态(如分散程度、偏度)。
分位数回归 的核心思想就是将“条件期望”这个概念推广到“条件分位数”。它允许我们估计在给定 \(X\) 的条件下,\(Y\) 的任何一个条件分位数(例如中位数、第25百分位数、第75百分位数等)。这使得我们能够更全面地刻画条件分布的特征,而不仅仅是一个中心点。
- 从分位数到分位数回归模型
回忆一个随机变量 \(Y\) 的 \(\tau\) 分位数(\(0 < \tau < 1\))是满足 \(P(Y \le q_\tau) \ge \tau\) 的值 \(q_\tau\)。它可以被定义为以下优化问题的解:
\[ q_\tau = \arg\min_{q} E[\rho_\tau(Y - q)] \]
其中,\(\rho_\tau(u) = u(\tau - I(u < 0))\) 被称为检验函数。这个函数对正残差和负残差施加了不对称的权重。
- 当 \(u \ge 0\) (正残差),\(\rho_\tau(u) = \tau u\)
- 当 \(u < 0\) (负残差),\(\rho_\tau(u) = (\tau - 1)u\)
分位数回归将这一思想推广到条件分布。我们不再寻找一个单一的数 \(q_\tau\),而是寻找一个关于自变量 \(X\) 的函数 \(Q_{Y|X}(\tau)\),即条件 \(\tau\) 分位数。我们通常假设这个条件分位数是 \(X\) 的线性函数(当然也可以是非线性的):
\[ Q_{Y|X}(\tau) = X^T \beta(\tau) \]
其中 \(\beta(\tau)\) 是依赖于分位数 \(\tau\) 的回归系数向量。
- 参数估计:最小化加权绝对残差
给定一组观测数据 \(\{(X_i, Y_i), i=1,...,n\}\),如何估计系数 \(\beta(\tau)\)?我们沿用分位数定义的优化思想。系数 \(\hat{\beta}(\tau)\) 通过最小化以下加权绝对残差和来获得:
\[ \hat{\beta}(\tau) = \arg\min_{\beta} \sum_{i=1}^{n} \rho_\tau(Y_i - X_i^T \beta) \]
这个目标函数可以等价地写为:
\[ \sum_{i: Y_i \ge X_i^T \beta} \tau |Y_i - X_i^T \beta| + \sum_{i: Y_i < X_i^T \beta} (1-\tau) |Y_i - X_i^T \beta| \]
这清晰地表明,对于高于拟合分位数线的点(正残差),我们赋予权重 \(\tau\);对于低于拟合线的点(负残差),我们赋予权重 \(1-\tau\)。通过调整 \(\tau\),我们实际上是在“移动”回归线,使其穿过条件分布的不同位置。
- 分位数回归的独特优势
- 稳健性:由于使用绝对值损失而非平方损失,分位数回归对因变量 \(Y\) 的异常值远不如普通最小二乘回归敏感。
- 全面性:通过估计多个分位数(如 \(\tau = 0.1, 0.5, 0.9\))的模型,可以构建出条件分布的完整图像,包括其中心、展形和不对称性。
- 分布假设宽松:普通最小二乘回归要求误差项同方差且正态分布,以保证估计量的最优性。分位数回归不需要对误差分布做任何假设,其结果在误差项为异方差时尤其有意义。
- 系数解释与一个简单例子
系数 \(\beta_j(\tau)\) 可以解释为:当其他自变量保持不变时,自变量 \(X_j\) 每增加一个单位,因变量 \(Y\) 的 \(\tau\) 分位数预计变化 \(\beta_j(\tau)\) 个单位。
例子:研究收入(\(Y\))与教育年限(\(X\))的关系。
- 用 \(\tau=0.5\) (中位数回归) 拟合模型:系数表示教育年限对收入中位数的影响。
- 用 \(\tau=0.1\) (低分位数) 和 \(\tau=0.9\) (高分位数) 分别拟合模型:可以发现教育年限对低收入群体和高端收入群体的影响程度可能不同。如果 \(\beta(0.9) > \beta(0.1)\),说明多接受一年教育,对高收入者收入的提升幅度大于对低收入者,这可能反映了教育回报率的异质性。
-
统计推断与拓展
分位数回归系数的估计量渐近服从正态分布,其协方差矩阵的估计比OLS复杂,因为它依赖于未知的条件密度函数。常用的估计方法有秩得分法、自助法等。分位数回归还可以进行拓展,例如:
- 分位数处理效应:用于评估政策或处理在不同分位数上的异质性效果。
- 复合分位数回归:同时估计多个分位数的模型,以提高效率。