随机变量的变换的Tukey深度与半空间深度
字数 4293 2025-12-19 21:07:05

随机变量的变换的Tukey深度与半空间深度

我来循序渐进地为您讲解“随机变量的变换的Tukey深度与半空间深度”这一概念。首先,我们将从一个直观的问题出发,逐步构建其数学定义,并探讨其性质、计算方法及应用。

1. 核心问题:如何定义多维数据的“中心”与“深度”?

在高维(特别是二维及以上的)数据分析中,如何度量一个点相对于一个数据集(或一个概率分布)的“中心程度”?一维时,我们有中位数、分位数等概念,它们有自然的排序定义。但在高维空间中,没有唯一的、全序的“排序”。为了解决这个问题,统计学家引入了“数据深度”的概念,旨在为空间中的每个点分配一个数值,描述其相对于数据云(或分布)的“深度”或“中心性”,其中Tukey深度(也称半空间深度)是最著名和最早提出的概念之一。

2. 从一维中位数到高维深度:Tukey深度(半空间深度)的直观定义

在一维情况下,一个点 \(x\) 相对于一个数据集的中位数深度可以定义为:

\[\text{深度}(x) = \min \{ P(X \leq x), P(X \geq x) \} = \min\{ F(x), 1 - F(x^-) \} \]

对于中位数 \(m\),有 \(P(X \leq m) \geq 1/2\)\(P(X \geq m) \geq 1/2\),其深度为 \(1/2\)

John Tukey(1975年)将此思想推广到高维空间 \(\mathbb{R}^d\) (\(d \geq 2\))。其核心思想是:对于一个给定的点 \(\mathbf{x} \in \mathbb{R}^d\),在所有可能的、以 \(\mathbf{x}\) 为边界点的“半空间”中,找到包含样本点(或概率质量)最少的那一个,这个最小概率(或比例)就定义为 \(\mathbf{x}\) 的深度。

更精确的直觉:想象空间被一个通过点 \(\mathbf{x}\) 的超平面分为两个“半空间”。深度就是这个点在所有这样的划分中,落在“较小”的那个半空间里的数据点所占的最小比例。如果一个点很深(如中心点),那么无论你从哪个方向“切开”空间,它总会在包含大部分数据的那一侧。反之,一个异常点(很浅的点),你总能找到一个方向,用一个通过它的平面把它“切”到只包含很少数据点的那个半空间里。

3. 严格的数学定义

\(P\)\(\mathbb{R}^d\) 上的一个概率分布,\(\mathbf{x} \in \mathbb{R}^d\) 是一个点。

  • 半空间: 对于任意的单位向量 \(\mathbf{u} \in \mathbb{S}^{d-1}\) 和实数 \(t\),集合 \(H = \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq t \}\) 是一个闭半空间。其边界是超平面 \(\{\mathbf{y}: \mathbf{u}^\top \mathbf{y} = t\}\)
  • 包含点 \(\mathbf{x}\) 的半空间: 我们特别关心那些边界经过 \(\mathbf{x}\) 的半空间,即形如 \(H = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \}\) 的半空间,记为 \(H_{\mathbf{u}}(\mathbf{x})\)。其互补半空间是 \(H_{\mathbf{u}}^c(\mathbf{x}) = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \geq \mathbf{u}^\top \mathbf{x} \}\)

定义1(总体Tukey深度): 点 \(\mathbf{x}\) 相对于分布 \(P\) 的Tukey深度(或半空间深度)定义为:

\[D(\mathbf{x}; P) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} P( H_{\mathbf{u}}(\mathbf{x}) ) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} P( \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \} ) \]

这里 \(\mathbb{S}^{d-1}\) 是单位球面。由于 \(P(H_{\mathbf{u}}(\mathbf{x})) + P(H_{\mathbf{u}}^c(\mathbf{x})) = 1\),深度也可以等价地写为:

\[D(\mathbf{x}; P) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} \min \{ P( H_{\mathbf{u}}(\mathbf{x}) ), P( H_{\mathbf{u}}^c(\mathbf{x}) ) \} \]

这使得定义与一维情况的形式完全对应。

定义2(样本Tukey深度): 给定一个来自分布 \(P\) 的独立同分布样本 \(\mathbf{X}_1, \dots, \mathbf{X}_n\),其经验分布记为 \(P_n\)。点 \(\mathbf{x}\) 的样本Tukey深度定义为:

\[D_n(\mathbf{x}) = D(\mathbf{x}; P_n) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \sum_{i=1}^n I( \mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x} ) \]

其中 \(I(\cdot)\) 是示性函数。直观上,就是对所有方向 \(\mathbf{u}\),计算在该方向上投影值小于等于 \(\mathbf{x}\) 投影值的样本点所占比例,然后取所有方向上的最小值。

4. 深度函数的关键性质

  1. 仿射不变性: 对于任何非奇异 \(d \times d\) 矩阵 \(\mathbf{A}\) 和向量 \(\mathbf{b} \in \mathbb{R}^d\),有 \(D(\mathbf{A}\mathbf{x} + \mathbf{b}; P_{\mathbf{AX+b}}) = D(\mathbf{x}; P_{\mathbf{X}})\)。这意味着深度不受数据平移、旋转和缩放的影响,这是一个非常理想的稳健性质。
  2. 最大值在“中心”: 对于中心对称的分布(如椭球对称分布),深度函数在分布的对称中心(如均值、中位数)达到最大值。这个最大值是分布的“最深处”。
  3. 单调性: 从“最深点”沿任何射线向外移动,深度值是非递增的。因此,深度轮廓(等深度线)是凸的、嵌套的集合,形似“洋葱皮”。
  4. 稳健性: Tukey深度对异常值不敏感,因为一个远离中心的异常点,很容易被一个半空间分离出去,使其所在半空间包含的数据比例很小,所以其深度值很低。

5. 计算方法与挑战

计算一个点 \(\mathbf{x}\) 的样本Tukey深度 \(D_n(\mathbf{x})\) 本质上是求解一个全局优化问题

\[D_n(\mathbf{x}) = \min_{\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \#\{i: \mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x} \} \]

\(d=2\) 维时,这个问题可以转化为:考虑所有穿过 \(\mathbf{x}\) 和另一个样本点 \(\mathbf{X}_i\) 的直线(或所有将样本点完美划分开的直线方向)。在这些有限个候选方向中,必然存在达到最小深度值的方向。因此,二维情况下存在 \(O(n \log n)\) 时间复杂度的精确算法。

然而,在 \(d \geq 3\) 维时,问题变成组合几何中的难题,是NP-hard的。实践中,通常采用随机近似算法:随机均匀地选取大量(如数千个)方向向量 \(\mathbf{u}\),计算在这些方向上的样本比例 \(\frac{1}{n} \sum_i I(\mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x})\),然后取这些值中的最小值作为深度估计。随着随机方向数量的增加,这个估计会以高概率收敛到真实的样本深度。

6. 应用

  1. 深度中位数与深度中心: 具有最大深度值的点(可能不唯一)被称为Tukey中位数半空间中位数。它是一个稳健的多维位置估计量,比样本均值更能抵抗异常值的影响。
  2. 深度轮廓与深度域: 给定一个深度水平 \(\alpha\),所有深度 \(D(\mathbf{x}) \geq \alpha\) 的点构成的集合称为 \(\alpha\)-深度域。这些嵌套的凸集(轮廓)可以用来描述数据的形状、离散程度,并构建非参数的多维置信区域或容忍区域
  3. 分类: 在分类问题中(如深度-深度图分类),可以比较一个新观测点相对于不同类别数据云的深度,将其归入深度较大的类别。
  4. 异常值检测: 深度值非常小(例如,低于某个阈值)的点可以被标记为潜在的异常值。
  5. 非参数检验: 基于数据深度可以构造非参数的双样本或多样本检验,用于比较分布的位置、尺度或形状。

总结

Tukey深度(半空间深度)通过考虑一个点在所有可能半空间中的“最不利情况”来量化其中心性。它将一维中位数的核心思想优雅地推广至高维空间,提供了仿射不变的、稳健的多维数据分析工具。尽管高维精确计算存在挑战,但其丰富的几何内涵和统计性质使其在稳健统计、非参数推断和数据可视化等领域具有重要价值。

随机变量的变换的Tukey深度与半空间深度 我来循序渐进地为您讲解“随机变量的变换的Tukey深度与半空间深度”这一概念。首先,我们将从一个直观的问题出发,逐步构建其数学定义,并探讨其性质、计算方法及应用。 1. 核心问题:如何定义多维数据的“中心”与“深度”? 在高维(特别是二维及以上的)数据分析中,如何度量一个点相对于一个数据集(或一个概率分布)的“中心程度”?一维时,我们有中位数、分位数等概念,它们有自然的排序定义。但在高维空间中,没有唯一的、全序的“排序”。为了解决这个问题,统计学家引入了“数据深度”的概念,旨在为空间中的每个点分配一个数值,描述其相对于数据云(或分布)的“深度”或“中心性”,其中Tukey深度(也称半空间深度)是最著名和最早提出的概念之一。 2. 从一维中位数到高维深度:Tukey深度(半空间深度)的直观定义 在一维情况下,一个点 \( x \) 相对于一个数据集的中位数深度可以定义为: \[ \text{深度}(x) = \min \{ P(X \leq x), P(X \geq x) \} = \min\{ F(x), 1 - F(x^-) \} \] 对于中位数 \( m \),有 \( P(X \leq m) \geq 1/2 \) 且 \( P(X \geq m) \geq 1/2 \),其深度为 \( 1/2 \)。 John Tukey(1975年)将此思想推广到高维空间 \( \mathbb{R}^d \) (\( d \geq 2 \))。其核心思想是: 对于一个给定的点 \( \mathbf{x} \in \mathbb{R}^d \),在所有可能的、以 \( \mathbf{x} \) 为边界点的“半空间”中,找到包含样本点(或概率质量)最少的那一个,这个最小概率(或比例)就定义为 \( \mathbf{x} \) 的深度。 更精确的直觉 :想象空间被一个通过点 \( \mathbf{x} \) 的超平面分为两个“半空间”。深度就是这个点在所有这样的划分中,落在“较小”的那个半空间里的数据点所占的最小比例。如果一个点很深(如中心点),那么无论你从哪个方向“切开”空间,它总会在包含大部分数据的那一侧。反之,一个异常点(很浅的点),你总能找到一个方向,用一个通过它的平面把它“切”到只包含很少数据点的那个半空间里。 3. 严格的数学定义 设 \( P \) 是 \( \mathbb{R}^d \) 上的一个概率分布,\( \mathbf{x} \in \mathbb{R}^d \) 是一个点。 半空间 : 对于任意的单位向量 \( \mathbf{u} \in \mathbb{S}^{d-1} \) 和实数 \( t \),集合 \( H = \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq t \} \) 是一个闭半空间。其边界是超平面 \( \{\mathbf{y}: \mathbf{u}^\top \mathbf{y} = t\} \)。 包含点 \( \mathbf{x} \) 的半空间 : 我们特别关心那些边界经过 \( \mathbf{x} \) 的半空间,即形如 \( H = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \} \) 的半空间,记为 \( H_ {\mathbf{u}}(\mathbf{x}) \)。其互补半空间是 \( H_ {\mathbf{u}}^c(\mathbf{x}) = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \geq \mathbf{u}^\top \mathbf{x} \} \)。 定义1(总体Tukey深度) : 点 \( \mathbf{x} \) 相对于分布 \( P \) 的Tukey深度(或半空间深度)定义为: \[ D(\mathbf{x}; P) = \inf_ {\mathbf{u} \in \mathbb{S}^{d-1}} P( H_ {\mathbf{u}}(\mathbf{x}) ) = \inf_ {\mathbf{u} \in \mathbb{S}^{d-1}} P( \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \} ) \] 这里 \( \mathbb{S}^{d-1} \) 是单位球面。由于 \( P(H_ {\mathbf{u}}(\mathbf{x})) + P(H_ {\mathbf{u}}^c(\mathbf{x})) = 1 \),深度也可以等价地写为: \[ D(\mathbf{x}; P) = \inf_ {\mathbf{u} \in \mathbb{S}^{d-1}} \min \{ P( H_ {\mathbf{u}}(\mathbf{x}) ), P( H_ {\mathbf{u}}^c(\mathbf{x}) ) \} \] 这使得定义与一维情况的形式完全对应。 定义2(样本Tukey深度) : 给定一个来自分布 \( P \) 的独立同分布样本 \( \mathbf{X} 1, \dots, \mathbf{X} n \),其经验分布记为 \( P_ n \)。点 \( \mathbf{x} \) 的样本Tukey深度定义为: \[ D_ n(\mathbf{x}) = D(\mathbf{x}; P_ n) = \inf {\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \sum {i=1}^n I( \mathbf{u}^\top \mathbf{X}_ i \leq \mathbf{u}^\top \mathbf{x} ) \] 其中 \( I(\cdot) \) 是示性函数。直观上,就是对所有方向 \( \mathbf{u} \),计算在该方向上投影值小于等于 \( \mathbf{x} \) 投影值的样本点所占比例,然后取所有方向上的最小值。 4. 深度函数的关键性质 仿射不变性 : 对于任何非奇异 \( d \times d \) 矩阵 \( \mathbf{A} \) 和向量 \( \mathbf{b} \in \mathbb{R}^d \),有 \( D(\mathbf{A}\mathbf{x} + \mathbf{b}; P_ {\mathbf{AX+b}}) = D(\mathbf{x}; P_ {\mathbf{X}}) \)。这意味着深度不受数据平移、旋转和缩放的影响,这是一个非常理想的稳健性质。 最大值在“中心” : 对于中心对称的分布(如椭球对称分布),深度函数在分布的对称中心(如均值、中位数)达到最大值。这个最大值是分布的“最深处”。 单调性 : 从“最深点”沿任何射线向外移动,深度值是非递增的。因此,深度轮廓(等深度线)是凸的、嵌套的集合,形似“洋葱皮”。 稳健性 : Tukey深度对异常值不敏感,因为一个远离中心的异常点,很容易被一个半空间分离出去,使其所在半空间包含的数据比例很小,所以其深度值很低。 5. 计算方法与挑战 计算一个点 \( \mathbf{x} \) 的样本Tukey深度 \( D_ n(\mathbf{x}) \) 本质上是求解一个 全局优化问题 : \[ D_ n(\mathbf{x}) = \min_ {\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \#\{i: \mathbf{u}^\top \mathbf{X}_ i \leq \mathbf{u}^\top \mathbf{x} \} \] 在 \( d=2 \) 维时,这个问题可以转化为:考虑所有穿过 \( \mathbf{x} \) 和另一个样本点 \( \mathbf{X}_ i \) 的直线(或所有将样本点完美划分开的直线方向)。在这些有限个候选方向中,必然存在达到最小深度值的方向。因此,二维情况下存在 \( O(n \log n) \) 时间复杂度的精确算法。 然而,在 \( d \geq 3 \) 维时,问题变成组合几何中的难题,是NP-hard的。实践中,通常采用 随机近似算法 :随机均匀地选取大量(如数千个)方向向量 \( \mathbf{u} \),计算在这些方向上的样本比例 \( \frac{1}{n} \sum_ i I(\mathbf{u}^\top \mathbf{X}_ i \leq \mathbf{u}^\top \mathbf{x}) \),然后取这些值中的最小值作为深度估计。随着随机方向数量的增加,这个估计会以高概率收敛到真实的样本深度。 6. 应用 深度中位数与深度中心 : 具有最大深度值的点(可能不唯一)被称为 Tukey中位数 或 半空间中位数 。它是一个稳健的多维位置估计量,比样本均值更能抵抗异常值的影响。 深度轮廓与深度域 : 给定一个深度水平 \( \alpha \),所有深度 \( D(\mathbf{x}) \geq \alpha \) 的点构成的集合称为 \( \alpha \)-深度域。这些嵌套的凸集(轮廓)可以用来描述数据的形状、离散程度,并构建 非参数的多维置信区域或容忍区域 。 分类 : 在分类问题中(如深度-深度图分类),可以比较一个新观测点相对于不同类别数据云的深度,将其归入深度较大的类别。 异常值检测 : 深度值非常小(例如,低于某个阈值)的点可以被标记为潜在的异常值。 非参数检验 : 基于数据深度可以构造非参数的双样本或多样本检验,用于比较分布的位置、尺度或形状。 总结 Tukey深度(半空间深度)通过考虑一个点在所有可能半空间中的“最不利情况”来量化其中心性。它将一维中位数的核心思想优雅地推广至高维空间,提供了仿射不变的、稳健的多维数据分析工具。尽管高维精确计算存在挑战,但其丰富的几何内涵和统计性质使其在稳健统计、非参数推断和数据可视化等领域具有重要价值。