随机变量的变换的Tukey深度与半空间深度
字数 2473 2025-12-11 17:01:04

随机变量的变换的Tukey深度与半空间深度

我们来系统性地学习这个概念。我会从最基础的问题背景开始,层层递进,直到其核心定义、性质和应用。

第一步: 理解问题的起点——什么是“数据的深度”?

在传统的统计学中,我们描述一个数据集的中心或位置,常用的是均值中位数。但均值对异常值(离群点)非常敏感。中位数在一维数据中是一个更稳健的中心度量,它被定义为这样一个点:数据集中有一半比它大,一半比它小。这个思想可以概括为:一个点的“深度”反映了它被其他数据点“包围”或“位于中心”的程度。中位数就是“最深”的点。

“深度”概念的核心目标,是为多元数据(即每个样本是一个向量)定义一个类似中位数的、非参数化的、稳健的“中心”和“顺序”概念,从而可以自然地推广中位数、分位数等概念到高维空间。

第二步: 从一维中位数到高维推广——半空间深度的思想

在一维实数轴 ℝ 上,一个点 θ 相对于数据集 {X₁, …, Xₙ} 的“深度”可以直观地用“包含该点的最小区间内的数据比例”来衡量。更经典的定义基于累计分布函数 F:点 θ 的深度是 F(θ) 和 1-F(θ-) 中的较小者。这等价于:深度(θ) = inf { P(H) : H 是一个包含 θ 的半空间 },在一维中,半空间就是左半直线 (-∞, θ] 或右半直线 [θ, ∞)。P(H) 是数据落在该半空间的概率。

这启发了约翰·图基(John Tukey)在1975年将其推广到高维空间 ℝᵈ。

第三步: 半空间深度的严格定义

对于一个给定的概率分布 P(通常用经验分布,即数据集本身来近似),以及空间 ℝᵈ 中的任意一点 x,其半空间深度(也称为Tukey深度)定义为:

D(x; P) = inf { P(H) : H 是一个包含点 x 的闭半空间 }

让我们拆解这个定义:

  1. 半空间: 在 ℝᵈ 中,一个(闭)半空间是由一个方向向量 u (‖u‖=1) 和一个标量 c 决定的集合 H(u, c) = { y ∈ ℝᵈ : uᵀy ≤ c },它是由超平面 uᵀy = c 界定的一半空间。
  2. 包含 x 的半空间: 我们考虑所有满足 x ∈ H(u, c) 的半空间 H(u, c)。这等价于寻找所有方向 u 和对应的 c,使得 uᵀx ≤ c。
  3. 取概率下确界: 对每一个这样的半空间 H,计算概率 P(H),即随机点(服从分布 P)落在该半空间内的几率。然后,在所有包含 x 的半空间中,取这些概率的最小值(确切地说是下确界)。

直观解释: 从点 x 出发,向任何一个“方向”看去,都有一个由超平面界定的半空间包含 x。D(x; P) 衡量的是,在所有可能的方向上,包含 x 的那个“最稀疏”、“最不被数据支持”的半空间到底有多“满”。深度值越大,说明无论从哪个方向“切割”空间,点 x 都位于一个数据点很密集的区域内部,因此它越“深”、越“中心”。反之,深度为0的点位于数据云的“边界”或外部。

第四步: 关键性质与深度区域

基于深度函数,我们可以定义一系列有用的集合:

  • α-深度区域: D_α(P) = { x ∈ ℝᵈ : D(x; P) ≥ α }。这是所有深度至少为 α 的点构成的集合。这是一个嵌套的、凸的集合族(当 α₁ > α₂ 时,D_α₁ ⊆ D_α₂)。
  • 深度中位数/中心: 具有最大深度值的点(或点集)称为分布 P 的Tukey中位数半空间中位数。它可能是唯一的,也可能是一个区域。这是对多元中位数最自然的推广之一。
  • 仿射不变性: 如果对数据做任何非奇异的仿射变换(如平移、旋转、缩放),点的深度值保持不变。这是一个非常理想的属性,意味着深度不依赖于测量单位或坐标系的选择。
  • 最大值在中心: 如果分布 P 关于某个点 θ 中心对称(即 P(A) = P(2θ - A)),那么该中心点 θ 的深度达到最大值。
  • 趋向于0: 当 ‖x‖ → ∞ 时,深度 D(x; P) → 0。

第五步: 样本版本与计算

在实践中,我们只有来自总体 P 的 n 个 d 维观测样本 {X₁, …, Xₙ}。我们用经验分布 Pₙ 代替 P,得到样本半空间深度
Dₙ(x) = inf { (1/n) * #{ i : X_i ∈ H } : H 是包含 x 的闭半空间 }。

计算样本深度是组合几何问题。在二维中,一个有效算法是:对于每个数据点,将其与 x 连线,然后考虑所有通过 x 的直线。包含 x 的半空间的最小数据比例,可以通过绕 x 旋转一条直线并统计一侧的点数来寻找。计算复杂度通常为 O(n^(d-1) log n) 或更高,因此在高维大数据下计算挑战较大。

第六步: 应用领域

  1. 稳健多元数据分析: Tukey中位数对数据污染和异常值有很强的抵抗能力(崩溃点高达 1/(d+1)),是比均值向量稳健得多的位置估计。
  2. 构造非参数置信区域: 利用深度区域 D_α(Pₙ) 可以构造出总体中位数的置信区域。例如,取最小的 α 使得 D_α(Pₙ) 包含某个点,可以进行假设检验。
  3. 数据可视化与排序: 可以为每个数据点赋予一个深度值,据此绘制“深度等高线图”(类似于地形图),直观展示数据的形状、中心和离群点。也可以根据深度对数据进行排序,构造高维数据的“秩”统计量。
  4. 非参数假设检验: 例如,比较两个多元总体的中心是否相同,可以基于两样本深度的差异构造检验统计量。
  5. 分类: 在深度框架下,可以将新的观测点根据它在不同类别数据云中的深度来分类(最大深度分类法)。

总结: Tukey深度/半空间深度,是从一维中位数思想出发,通过“在所有包含该点的半空间中,寻找数据比例最小的那个”这一几何概率准则,成功地将“深度”和“中心性”概念推广到高维空间。它提供了一套不依赖于分布假设、具有稳健性和几何直观性的强大工具,用于描述多元数据的中心、散布、形状和顺序,是现代非参数多元统计分析的核心概念之一。

随机变量的变换的Tukey深度与半空间深度 我们来系统性地学习这个概念。我会从最基础的问题背景开始,层层递进,直到其核心定义、性质和应用。 第一步: 理解问题的起点——什么是“数据的深度”? 在传统的统计学中,我们描述一个数据集的中心或位置,常用的是 均值 或 中位数 。但均值对异常值(离群点)非常敏感。中位数在一维数据中是一个更稳健的中心度量,它被定义为这样一个点:数据集中有一半比它大,一半比它小。这个思想可以概括为:一个点的“深度”反映了它被其他数据点“包围”或“位于中心”的程度。中位数就是“最深”的点。 “深度”概念的核心目标,是为多元数据(即每个样本是一个向量)定义一个类似中位数的、非参数化的、稳健的“中心”和“顺序”概念,从而可以自然地推广中位数、分位数等概念到高维空间。 第二步: 从一维中位数到高维推广——半空间深度的思想 在一维实数轴 ℝ 上,一个点 θ 相对于数据集 {X₁, …, Xₙ} 的“深度”可以直观地用“包含该点的最小区间内的数据比例”来衡量。更经典的定义基于累计分布函数 F:点 θ 的深度是 F(θ) 和 1-F(θ-) 中的较小者。这等价于: 深度(θ) = inf { P(H) : H 是一个包含 θ 的半空间 } ,在一维中,半空间就是左半直线 (-∞, θ] 或右半直线 [ θ, ∞)。P(H) 是数据落在该半空间的概率。 这启发了约翰·图基(John Tukey)在1975年将其推广到高维空间 ℝᵈ。 第三步: 半空间深度的严格定义 对于一个给定的概率分布 P(通常用经验分布,即数据集本身来近似),以及空间 ℝᵈ 中的任意一点 x,其 半空间深度 (也称为 Tukey深度 )定义为: D(x; P) = inf { P(H) : H 是一个包含点 x 的闭半空间 } 让我们拆解这个定义: 半空间 : 在 ℝᵈ 中,一个(闭)半空间是由一个方向向量 u (‖u‖=1) 和一个标量 c 决定的集合 H(u, c) = { y ∈ ℝᵈ : uᵀy ≤ c },它是由超平面 uᵀy = c 界定的一半空间。 包含 x 的半空间 : 我们考虑所有满足 x ∈ H(u, c) 的半空间 H(u, c)。这等价于寻找所有方向 u 和对应的 c,使得 uᵀx ≤ c。 取概率下确界 : 对每一个这样的半空间 H,计算概率 P(H),即随机点(服从分布 P)落在该半空间内的几率。然后,在所有包含 x 的半空间中,取这些概率的最小值(确切地说是下确界)。 直观解释 : 从点 x 出发,向任何一个“方向”看去,都有一个由超平面界定的半空间包含 x。D(x; P) 衡量的是,在所有可能的方向上,包含 x 的那个“最稀疏”、“最不被数据支持”的半空间到底有多“满”。深度值越大,说明无论从哪个方向“切割”空间,点 x 都位于一个数据点很密集的区域内部,因此它越“深”、越“中心”。反之,深度为0的点位于数据云的“边界”或外部。 第四步: 关键性质与深度区域 基于深度函数,我们可以定义一系列有用的集合: α-深度区域 : D_ α(P) = { x ∈ ℝᵈ : D(x; P) ≥ α }。这是所有深度至少为 α 的点构成的集合。这是一个 嵌套的、凸的 集合族(当 α₁ > α₂ 时,D_ α₁ ⊆ D_ α₂)。 深度中位数/中心 : 具有最大深度值的点(或点集)称为分布 P 的 Tukey中位数 或 半空间中位数 。它可能是唯一的,也可能是一个区域。这是对多元中位数最自然的推广之一。 仿射不变性 : 如果对数据做任何非奇异的仿射变换(如平移、旋转、缩放),点的深度值保持不变。这是一个非常理想的属性,意味着深度不依赖于测量单位或坐标系的选择。 最大值在中心 : 如果分布 P 关于某个点 θ 中心对称(即 P(A) = P(2θ - A)),那么该中心点 θ 的深度达到最大值。 趋向于0 : 当 ‖x‖ → ∞ 时,深度 D(x; P) → 0。 第五步: 样本版本与计算 在实践中,我们只有来自总体 P 的 n 个 d 维观测样本 {X₁, …, Xₙ}。我们用经验分布 Pₙ 代替 P,得到 样本半空间深度 : Dₙ(x) = inf { (1/n) * #{ i : X_ i ∈ H } : H 是包含 x 的闭半空间 }。 计算样本深度是组合几何问题。在二维中,一个有效算法是:对于每个数据点,将其与 x 连线,然后考虑所有通过 x 的直线。包含 x 的半空间的最小数据比例,可以通过绕 x 旋转一条直线并统计一侧的点数来寻找。计算复杂度通常为 O(n^(d-1) log n) 或更高,因此在高维大数据下计算挑战较大。 第六步: 应用领域 稳健多元数据分析 : Tukey中位数对数据污染和异常值有很强的抵抗能力(崩溃点高达 1/(d+1)),是比均值向量稳健得多的位置估计。 构造非参数置信区域 : 利用深度区域 D_ α(Pₙ) 可以构造出总体中位数的置信区域。例如,取最小的 α 使得 D_ α(Pₙ) 包含某个点,可以进行假设检验。 数据可视化与排序 : 可以为每个数据点赋予一个深度值,据此绘制“深度等高线图”(类似于地形图),直观展示数据的形状、中心和离群点。也可以根据深度对数据进行排序,构造高维数据的“秩”统计量。 非参数假设检验 : 例如,比较两个多元总体的中心是否相同,可以基于两样本深度的差异构造检验统计量。 分类 : 在深度框架下,可以将新的观测点根据它在不同类别数据云中的深度来分类(最大深度分类法)。 总结 : Tukey深度/半空间深度,是从一维中位数思想出发,通过“在所有包含该点的半空间中,寻找数据比例最小的那个”这一几何概率准则,成功地将“深度”和“中心性”概念推广到高维空间。它提供了一套不依赖于分布假设、具有稳健性和几何直观性的强大工具,用于描述多元数据的中心、散布、形状和顺序,是现代非参数多元统计分析的核心概念之一。