随机变量的变换的稳健主成分分析
我们将从基础概念开始,逐步深入到方法原理和应用场景,确保每一步都清晰易懂。
1. 主成分分析(PCA)的回顾
主成分分析是一种经典的降维技术,目的是将原始数据投影到一组正交基上,使得投影后的数据方差最大化。
- 设随机向量 \(\mathbf{X} \in \mathbb{R}^p\) 有均值 \(\mathbb{E}[\mathbf{X}] = \boldsymbol{\mu}\) 和协方差矩阵 \(\boldsymbol{\Sigma}\)。
- PCA 通过求解特征值问题 \(\boldsymbol{\Sigma} \mathbf{v} = \lambda \mathbf{v}\) 得到特征向量(主成分方向)和特征值(对应方差)。
- 第一主成分是使投影方差最大的方向,后续主成分依次在正交约束下最大化剩余方差。
局限:PCA 基于样本协方差矩阵计算,对异常值(outliers)非常敏感,因为协方差矩阵受极端值影响大。
2. 稳健统计的基本思想
为了克服异常值的影响,稳健统计方法旨在构造对数据污染(如离群点、测量误差)不敏感的估计量。
- 例如,用中位数代替均值估计中心,用四分位距代替标准差估计尺度。
- 推广到多元数据时,需定义稳健的协方差估计。
3. 稳健协方差估计
经典协方差矩阵的稳健替代包括:
- M估计量:通过加权减小异常值影响,但可能对高维数据计算不稳定。
- 最小协方差行列式(MCD):寻找一个子集(占数据比例 \(h > n/2\)),使其协方差矩阵行列式最小,用该子集的均值和协方差作为稳健估计。
- 最小体积椭球(MVE):类似思想,寻找包含至少 \(h\) 个点的最小体积椭球。
这些方法可抵抗一定比例的异常值污染,用于计算“稳健的协方差矩阵” \(\boldsymbol{\Sigma}_{\text{robust}}\)。
4. 稳健主成分分析(RPCA)的实现
RPCA 有两种主要范式:
4.1 基于稳健协方差矩阵的 PCA
步骤:
- 用稳健方法(如 MCD)估计数据的稳健均值 \(\boldsymbol{\mu}_{\text{robust}}\) 和稳健协方差矩阵 \(\boldsymbol{\Sigma}_{\text{robust}}\)。
- 对 \(\boldsymbol{\Sigma}_{\text{robust}}\) 进行特征分解,得到稳健的主成分方向和得分。
优点:概念直接,可使用现有稳健协方差算法。
4.2 基于投影追踪的 RPCA
不通过协方差矩阵,而是直接寻找能最大化“稳健方差”的投影方向。
- 用稳健的尺度统计量(如中位数绝对偏差,MAD)代替方差作为投影散度的度量。
- 迭代搜索方向,使投影数据的 MAD 最大。
优点:避免协方差估计,适用于非常高维或非椭圆分布数据。
5. 数学表达示例
设数据矩阵 \(\mathbf{X}_{n \times p}\),每行是一个观测。经典 PCA 求解:
\[\max_{\|\mathbf{v}\|=1} \mathbf{v}^\top \widehat{\boldsymbol{\Sigma}} \mathbf{v} \]
其中 \(\widehat{\boldsymbol{\Sigma}}\) 是样本协方差矩阵。
在投影追踪 RPCA 中,可能改为:
\[\max_{\|\mathbf{v}\|=1} \text{MAD}(\mathbf{X} \mathbf{v})^2 \]
这里 MAD 基于中位数计算,对异常值不敏感。
6. 应用与注意事项
- 异常检测:用 RPCA 拟合“干净”数据结构,异常点在主成分子空间中的残差较大。
- 数据预处理:在含噪声或污染的数据中提取稳定模式。
- 计算成本:稳健方法(如 MCD)通常比经典 PCA 计算量大,但现代算法(如 FAST-MCD)已优化效率。
- 选择稳健性参数:需根据预计的异常值比例调节,例如 MCD 中 \(h\) 的选取。
7. 与相关概念的比较
- 稀疏 PCA:关注主成分的稀疏性,不一定稳健。
- 鲁棒 PCA(低秩+稀疏分解):这是一个不同的常用术语,指将矩阵分解为低秩矩阵(主成分结构)加稀疏矩阵(异常)的模型(如用主成分追踪 PCP),常用于视频背景建模。注意避免与“Robust PCA”术语混淆,文献中需明确所指。
通过以上步骤,我们从经典 PCA 的不足引出稳健统计思想,再具体到稳健协方差估计和两种 RPCA 实现路径,最终简要说明了应用场景和注意事项。