随机变量的变换的Tukey深度与半空间深度
我来循序渐进地为您讲解“随机变量的变换的Tukey深度与半空间深度”这一概念。首先,我们将从一个直观的问题出发,逐步构建其数学定义,并探讨其性质、计算方法及应用。
1. 核心问题:如何定义多维数据的“中心”与“深度”?
在高维(特别是二维及以上的)数据分析中,如何度量一个点相对于一个数据集(或一个概率分布)的“中心程度”?一维时,我们有中位数、分位数等概念,它们有自然的排序定义。但在高维空间中,没有唯一的、全序的“排序”。为了解决这个问题,统计学家引入了“数据深度”的概念,旨在为空间中的每个点分配一个数值,描述其相对于数据云(或分布)的“深度”或“中心性”,其中Tukey深度(也称半空间深度)是最著名和最早提出的概念之一。
2. 从一维中位数到高维深度:Tukey深度(半空间深度)的直观定义
在一维情况下,一个点 \(x\) 相对于一个数据集的中位数深度可以定义为:
\[\text{深度}(x) = \min \{ P(X \leq x), P(X \geq x) \} = \min\{ F(x), 1 - F(x^-) \} \]
对于中位数 \(m\),有 \(P(X \leq m) \geq 1/2\) 且 \(P(X \geq m) \geq 1/2\),其深度为 \(1/2\)。
John Tukey(1975年)将此思想推广到高维空间 \(\mathbb{R}^d\) (\(d \geq 2\))。其核心思想是:对于一个给定的点 \(\mathbf{x} \in \mathbb{R}^d\),在所有可能的、以 \(\mathbf{x}\) 为边界点的“半空间”中,找到包含样本点(或概率质量)最少的那一个,这个最小概率(或比例)就定义为 \(\mathbf{x}\) 的深度。
更精确的直觉:想象空间被一个通过点 \(\mathbf{x}\) 的超平面分为两个“半空间”。深度就是这个点在所有这样的划分中,落在“较小”的那个半空间里的数据点所占的最小比例。如果一个点很深(如中心点),那么无论你从哪个方向“切开”空间,它总会在包含大部分数据的那一侧。反之,一个异常点(很浅的点),你总能找到一个方向,用一个通过它的平面把它“切”到只包含很少数据点的那个半空间里。
3. 严格的数学定义
设 \(P\) 是 \(\mathbb{R}^d\) 上的一个概率分布,\(\mathbf{x} \in \mathbb{R}^d\) 是一个点。
- 半空间: 对于任意的单位向量 \(\mathbf{u} \in \mathbb{S}^{d-1}\) 和实数 \(t\),集合 \(H = \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq t \}\) 是一个闭半空间。其边界是超平面 \(\{\mathbf{y}: \mathbf{u}^\top \mathbf{y} = t\}\)。
- 包含点 \(\mathbf{x}\) 的半空间: 我们特别关心那些边界经过 \(\mathbf{x}\) 的半空间,即形如 \(H = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \}\) 的半空间,记为 \(H_{\mathbf{u}}(\mathbf{x})\)。其互补半空间是 \(H_{\mathbf{u}}^c(\mathbf{x}) = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \geq \mathbf{u}^\top \mathbf{x} \}\)。
定义1(总体Tukey深度): 点 \(\mathbf{x}\) 相对于分布 \(P\) 的Tukey深度(或半空间深度)定义为:
\[D(\mathbf{x}; P) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} P( H_{\mathbf{u}}(\mathbf{x}) ) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} P( \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \} ) \]
这里 \(\mathbb{S}^{d-1}\) 是单位球面。由于 \(P(H_{\mathbf{u}}(\mathbf{x})) + P(H_{\mathbf{u}}^c(\mathbf{x})) = 1\),深度也可以等价地写为:
\[D(\mathbf{x}; P) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} \min \{ P( H_{\mathbf{u}}(\mathbf{x}) ), P( H_{\mathbf{u}}^c(\mathbf{x}) ) \} \]
这使得定义与一维情况的形式完全对应。
定义2(样本Tukey深度): 给定一个来自分布 \(P\) 的独立同分布样本 \(\mathbf{X}_1, \dots, \mathbf{X}_n\),其经验分布记为 \(P_n\)。点 \(\mathbf{x}\) 的样本Tukey深度定义为:
\[D_n(\mathbf{x}) = D(\mathbf{x}; P_n) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \sum_{i=1}^n I( \mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x} ) \]
其中 \(I(\cdot)\) 是示性函数。直观上,就是对所有方向 \(\mathbf{u}\),计算在该方向上投影值小于等于 \(\mathbf{x}\) 投影值的样本点所占比例,然后取所有方向上的最小值。
4. 深度函数的关键性质
- 仿射不变性: 对于任何非奇异 \(d \times d\) 矩阵 \(\mathbf{A}\) 和向量 \(\mathbf{b} \in \mathbb{R}^d\),有 \(D(\mathbf{A}\mathbf{x} + \mathbf{b}; P_{\mathbf{AX+b}}) = D(\mathbf{x}; P_{\mathbf{X}})\)。这意味着深度不受数据平移、旋转和缩放的影响,这是一个非常理想的稳健性质。
- 最大值在“中心”: 对于中心对称的分布(如椭球对称分布),深度函数在分布的对称中心(如均值、中位数)达到最大值。这个最大值是分布的“最深处”。
- 单调性: 从“最深点”沿任何射线向外移动,深度值是非递增的。因此,深度轮廓(等深度线)是凸的、嵌套的集合,形似“洋葱皮”。
- 稳健性: Tukey深度对异常值不敏感,因为一个远离中心的异常点,很容易被一个半空间分离出去,使其所在半空间包含的数据比例很小,所以其深度值很低。
5. 计算方法与挑战
计算一个点 \(\mathbf{x}\) 的样本Tukey深度 \(D_n(\mathbf{x})\) 本质上是求解一个全局优化问题:
\[D_n(\mathbf{x}) = \min_{\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \#\{i: \mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x} \} \]
在 \(d=2\) 维时,这个问题可以转化为:考虑所有穿过 \(\mathbf{x}\) 和另一个样本点 \(\mathbf{X}_i\) 的直线(或所有将样本点完美划分开的直线方向)。在这些有限个候选方向中,必然存在达到最小深度值的方向。因此,二维情况下存在 \(O(n \log n)\) 时间复杂度的精确算法。
然而,在 \(d \geq 3\) 维时,问题变成组合几何中的难题,是NP-hard的。实践中,通常采用随机近似算法:随机均匀地选取大量(如数千个)方向向量 \(\mathbf{u}\),计算在这些方向上的样本比例 \(\frac{1}{n} \sum_i I(\mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x})\),然后取这些值中的最小值作为深度估计。随着随机方向数量的增加,这个估计会以高概率收敛到真实的样本深度。
6. 应用
- 深度中位数与深度中心: 具有最大深度值的点(可能不唯一)被称为Tukey中位数或半空间中位数。它是一个稳健的多维位置估计量,比样本均值更能抵抗异常值的影响。
- 深度轮廓与深度域: 给定一个深度水平 \(\alpha\),所有深度 \(D(\mathbf{x}) \geq \alpha\) 的点构成的集合称为 \(\alpha\)-深度域。这些嵌套的凸集(轮廓)可以用来描述数据的形状、离散程度,并构建非参数的多维置信区域或容忍区域。
- 分类: 在分类问题中(如深度-深度图分类),可以比较一个新观测点相对于不同类别数据云的深度,将其归入深度较大的类别。
- 异常值检测: 深度值非常小(例如,低于某个阈值)的点可以被标记为潜在的异常值。
- 非参数检验: 基于数据深度可以构造非参数的双样本或多样本检验,用于比较分布的位置、尺度或形状。
总结
Tukey深度(半空间深度)通过考虑一个点在所有可能半空间中的“最不利情况”来量化其中心性。它将一维中位数的核心思想优雅地推广至高维空间,提供了仿射不变的、稳健的多维数据分析工具。尽管高维精确计算存在挑战,但其丰富的几何内涵和统计性质使其在稳健统计、非参数推断和数据可视化等领域具有重要价值。