随机变量的变换的Tukey深度与半空间深度

字数 4293 2025-12-19 21:07:05

随机变量的变换的Tukey深度与半空间深度

我来循序渐进地为您讲解“随机变量的变换的Tukey深度与半空间深度”这一概念。首先，我们将从一个直观的问题出发，逐步构建其数学定义，并探讨其性质、计算方法及应用。

1. 核心问题：如何定义多维数据的“中心”与“深度”？

在高维（特别是二维及以上的）数据分析中，如何度量一个点相对于一个数据集（或一个概率分布）的“中心程度”？一维时，我们有中位数、分位数等概念，它们有自然的排序定义。但在高维空间中，没有唯一的、全序的“排序”。为了解决这个问题，统计学家引入了“数据深度”的概念，旨在为空间中的每个点分配一个数值，描述其相对于数据云（或分布）的“深度”或“中心性”，其中Tukey深度（也称半空间深度）是最著名和最早提出的概念之一。

2. 从一维中位数到高维深度：Tukey深度（半空间深度）的直观定义

在一维情况下，一个点 \(x\) 相对于一个数据集的中位数深度可以定义为：

\[\text{深度}(x) = \min \{ P(X \leq x), P(X \geq x) \} = \min\{ F(x), 1 - F(x^-) \} \]

对于中位数 \(m\)，有 \(P(X \leq m) \geq 1/2\) 且 \(P(X \geq m) \geq 1/2\)，其深度为 \(1/2\)。

John Tukey（1975年）将此思想推广到高维空间 \(\mathbb{R}^d\) (\(d \geq 2\))。其核心思想是：对于一个给定的点 \(\mathbf{x} \in \mathbb{R}^d\)，在所有可能的、以 \(\mathbf{x}\) 为边界点的“半空间”中，找到包含样本点（或概率质量）最少的那一个，这个最小概率（或比例）就定义为 \(\mathbf{x}\) 的深度。

更精确的直觉：想象空间被一个通过点 \(\mathbf{x}\) 的超平面分为两个“半空间”。深度就是这个点在所有这样的划分中，落在“较小”的那个半空间里的数据点所占的最小比例。如果一个点很深（如中心点），那么无论你从哪个方向“切开”空间，它总会在包含大部分数据的那一侧。反之，一个异常点（很浅的点），你总能找到一个方向，用一个通过它的平面把它“切”到只包含很少数据点的那个半空间里。

3. 严格的数学定义

设 \(P\) 是 \(\mathbb{R}^d\) 上的一个概率分布，\(\mathbf{x} \in \mathbb{R}^d\) 是一个点。

半空间：对于任意的单位向量 \(\mathbf{u} \in \mathbb{S}^{d-1}\) 和实数 \(t\)，集合 \(H = \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq t \}\) 是一个闭半空间。其边界是超平面 \(\{\mathbf{y}: \mathbf{u}^\top \mathbf{y} = t\}\)。
包含点 \(\mathbf{x}\) 的半空间：我们特别关心那些边界经过 \(\mathbf{x}\) 的半空间，即形如 \(H = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \}\) 的半空间，记为 \(H_{\mathbf{u}}(\mathbf{x})\)。其互补半空间是 \(H_{\mathbf{u}}^c(\mathbf{x}) = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \geq \mathbf{u}^\top \mathbf{x} \}\)。

定义1（总体Tukey深度）：点 \(\mathbf{x}\) 相对于分布 \(P\) 的Tukey深度（或半空间深度）定义为：

\[D(\mathbf{x}; P) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} P( H_{\mathbf{u}}(\mathbf{x}) ) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} P( \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \} ) \]

这里 \(\mathbb{S}^{d-1}\) 是单位球面。由于 \(P(H_{\mathbf{u}}(\mathbf{x})) + P(H_{\mathbf{u}}^c(\mathbf{x})) = 1\)，深度也可以等价地写为：

\[D(\mathbf{x}; P) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} \min \{ P( H_{\mathbf{u}}(\mathbf{x}) ), P( H_{\mathbf{u}}^c(\mathbf{x}) ) \} \]

这使得定义与一维情况的形式完全对应。

定义2（样本Tukey深度）：给定一个来自分布 \(P\) 的独立同分布样本 \(\mathbf{X}_1, \dots, \mathbf{X}_n\)，其经验分布记为 \(P_n\)。点 \(\mathbf{x}\) 的样本Tukey深度定义为：

\[D_n(\mathbf{x}) = D(\mathbf{x}; P_n) = \inf_{\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \sum_{i=1}^n I( \mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x} ) \]

其中 \(I(\cdot)\) 是示性函数。直观上，就是对所有方向 \(\mathbf{u}\)，计算在该方向上投影值小于等于 \(\mathbf{x}\) 投影值的样本点所占比例，然后取所有方向上的最小值。

4. 深度函数的关键性质

仿射不变性：对于任何非奇异 \(d \times d\) 矩阵 \(\mathbf{A}\) 和向量 \(\mathbf{b} \in \mathbb{R}^d\)，有 \(D(\mathbf{A}\mathbf{x} + \mathbf{b}; P_{\mathbf{AX+b}}) = D(\mathbf{x}; P_{\mathbf{X}})\)。这意味着深度不受数据平移、旋转和缩放的影响，这是一个非常理想的稳健性质。
最大值在“中心”：对于中心对称的分布（如椭球对称分布），深度函数在分布的对称中心（如均值、中位数）达到最大值。这个最大值是分布的“最深处”。
单调性：从“最深点”沿任何射线向外移动，深度值是非递增的。因此，深度轮廓（等深度线）是凸的、嵌套的集合，形似“洋葱皮”。
稳健性： Tukey深度对异常值不敏感，因为一个远离中心的异常点，很容易被一个半空间分离出去，使其所在半空间包含的数据比例很小，所以其深度值很低。

5. 计算方法与挑战

计算一个点 \(\mathbf{x}\) 的样本Tukey深度 \(D_n(\mathbf{x})\) 本质上是求解一个全局优化问题：

\[D_n(\mathbf{x}) = \min_{\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \#\{i: \mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x} \} \]

在 \(d=2\) 维时，这个问题可以转化为：考虑所有穿过 \(\mathbf{x}\) 和另一个样本点 \(\mathbf{X}_i\) 的直线（或所有将样本点完美划分开的直线方向）。在这些有限个候选方向中，必然存在达到最小深度值的方向。因此，二维情况下存在 \(O(n \log n)\) 时间复杂度的精确算法。

然而，在 \(d \geq 3\) 维时，问题变成组合几何中的难题，是NP-hard的。实践中，通常采用随机近似算法：随机均匀地选取大量（如数千个）方向向量 \(\mathbf{u}\)，计算在这些方向上的样本比例 \(\frac{1}{n} \sum_i I(\mathbf{u}^\top \mathbf{X}_i \leq \mathbf{u}^\top \mathbf{x})\)，然后取这些值中的最小值作为深度估计。随着随机方向数量的增加，这个估计会以高概率收敛到真实的样本深度。

6. 应用

深度中位数与深度中心：具有最大深度值的点（可能不唯一）被称为Tukey中位数或半空间中位数。它是一个稳健的多维位置估计量，比样本均值更能抵抗异常值的影响。
深度轮廓与深度域：给定一个深度水平 \(\alpha\)，所有深度 \(D(\mathbf{x}) \geq \alpha\) 的点构成的集合称为 \(\alpha\)-深度域。这些嵌套的凸集（轮廓）可以用来描述数据的形状、离散程度，并构建非参数的多维置信区域或容忍区域。
分类：在分类问题中（如深度-深度图分类），可以比较一个新观测点相对于不同类别数据云的深度，将其归入深度较大的类别。
异常值检测：深度值非常小（例如，低于某个阈值）的点可以被标记为潜在的异常值。
非参数检验：基于数据深度可以构造非参数的双样本或多样本检验，用于比较分布的位置、尺度或形状。

总结

Tukey深度（半空间深度）通过考虑一个点在所有可能半空间中的“最不利情况”来量化其中心性。它将一维中位数的核心思想优雅地推广至高维空间，提供了仿射不变的、稳健的多维数据分析工具。尽管高维精确计算存在挑战，但其丰富的几何内涵和统计性质使其在稳健统计、非参数推断和数据可视化等领域具有重要价值。

随机变量的变换的Tukey深度与半空间深度我来循序渐进地为您讲解“随机变量的变换的Tukey深度与半空间深度”这一概念。首先，我们将从一个直观的问题出发，逐步构建其数学定义，并探讨其性质、计算方法及应用。 1. 核心问题：如何定义多维数据的“中心”与“深度”？在高维（特别是二维及以上的）数据分析中，如何度量一个点相对于一个数据集（或一个概率分布）的“中心程度”？一维时，我们有中位数、分位数等概念，它们有自然的排序定义。但在高维空间中，没有唯一的、全序的“排序”。为了解决这个问题，统计学家引入了“数据深度”的概念，旨在为空间中的每个点分配一个数值，描述其相对于数据云（或分布）的“深度”或“中心性”，其中Tukey深度（也称半空间深度）是最著名和最早提出的概念之一。 2. 从一维中位数到高维深度：Tukey深度（半空间深度）的直观定义在一维情况下，一个点 \( x \) 相对于一个数据集的中位数深度可以定义为： \[ \text{深度}(x) = \min \{ P(X \leq x), P(X \geq x) \} = \min\{ F(x), 1 - F(x^-) \} \] 对于中位数 \( m \)，有 \( P(X \leq m) \geq 1/2 \) 且 \( P(X \geq m) \geq 1/2 \)，其深度为 \( 1/2 \)。 John Tukey（1975年）将此思想推广到高维空间 \( \mathbb{R}^d \) (\( d \geq 2 \))。其核心思想是：对于一个给定的点 \( \mathbf{x} \in \mathbb{R}^d \)，在所有可能的、以 \( \mathbf{x} \) 为边界点的“半空间”中，找到包含样本点（或概率质量）最少的那一个，这个最小概率（或比例）就定义为 \( \mathbf{x} \) 的深度。更精确的直觉：想象空间被一个通过点 \( \mathbf{x} \) 的超平面分为两个“半空间”。深度就是这个点在所有这样的划分中，落在“较小”的那个半空间里的数据点所占的最小比例。如果一个点很深（如中心点），那么无论你从哪个方向“切开”空间，它总会在包含大部分数据的那一侧。反之，一个异常点（很浅的点），你总能找到一个方向，用一个通过它的平面把它“切”到只包含很少数据点的那个半空间里。 3. 严格的数学定义设 \( P \) 是 \( \mathbb{R}^d \) 上的一个概率分布，\( \mathbf{x} \in \mathbb{R}^d \) 是一个点。半空间：对于任意的单位向量 \( \mathbf{u} \in \mathbb{S}^{d-1} \) 和实数 \( t \)，集合 \( H = \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq t \} \) 是一个闭半空间。其边界是超平面 \( \{\mathbf{y}: \mathbf{u}^\top \mathbf{y} = t\} \)。包含点 \( \mathbf{x} \) 的半空间：我们特别关心那些边界经过 \( \mathbf{x} \) 的半空间，即形如 \( H = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \} \) 的半空间，记为 \( H_ {\mathbf{u}}(\mathbf{x}) \)。其互补半空间是 \( H_ {\mathbf{u}}^c(\mathbf{x}) = \{ \mathbf{y}: \mathbf{u}^\top \mathbf{y} \geq \mathbf{u}^\top \mathbf{x} \} \)。定义1（总体Tukey深度）：点 \( \mathbf{x} \) 相对于分布 \( P \) 的Tukey深度（或半空间深度）定义为： \[ D(\mathbf{x}; P) = \inf_ {\mathbf{u} \in \mathbb{S}^{d-1}} P( H_ {\mathbf{u}}(\mathbf{x}) ) = \inf_ {\mathbf{u} \in \mathbb{S}^{d-1}} P( \{ \mathbf{y} \in \mathbb{R}^d: \mathbf{u}^\top \mathbf{y} \leq \mathbf{u}^\top \mathbf{x} \} ) \] 这里 \( \mathbb{S}^{d-1} \) 是单位球面。由于 \( P(H_ {\mathbf{u}}(\mathbf{x})) + P(H_ {\mathbf{u}}^c(\mathbf{x})) = 1 \)，深度也可以等价地写为： \[ D(\mathbf{x}; P) = \inf_ {\mathbf{u} \in \mathbb{S}^{d-1}} \min \{ P( H_ {\mathbf{u}}(\mathbf{x}) ), P( H_ {\mathbf{u}}^c(\mathbf{x}) ) \} \] 这使得定义与一维情况的形式完全对应。定义2（样本Tukey深度）：给定一个来自分布 \( P \) 的独立同分布样本 \( \mathbf{X} 1, \dots, \mathbf{X} n \)，其经验分布记为 \( P_ n \)。点 \( \mathbf{x} \) 的样本Tukey深度定义为： \[ D_ n(\mathbf{x}) = D(\mathbf{x}; P_ n) = \inf {\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \sum {i=1}^n I( \mathbf{u}^\top \mathbf{X}_ i \leq \mathbf{u}^\top \mathbf{x} ) \] 其中 \( I(\cdot) \) 是示性函数。直观上，就是对所有方向 \( \mathbf{u} \)，计算在该方向上投影值小于等于 \( \mathbf{x} \) 投影值的样本点所占比例，然后取所有方向上的最小值。 4. 深度函数的关键性质仿射不变性：对于任何非奇异 \( d \times d \) 矩阵 \( \mathbf{A} \) 和向量 \( \mathbf{b} \in \mathbb{R}^d \)，有 \( D(\mathbf{A}\mathbf{x} + \mathbf{b}; P_ {\mathbf{AX+b}}) = D(\mathbf{x}; P_ {\mathbf{X}}) \)。这意味着深度不受数据平移、旋转和缩放的影响，这是一个非常理想的稳健性质。最大值在“中心” ：对于中心对称的分布（如椭球对称分布），深度函数在分布的对称中心（如均值、中位数）达到最大值。这个最大值是分布的“最深处”。单调性：从“最深点”沿任何射线向外移动，深度值是非递增的。因此，深度轮廓（等深度线）是凸的、嵌套的集合，形似“洋葱皮”。稳健性： Tukey深度对异常值不敏感，因为一个远离中心的异常点，很容易被一个半空间分离出去，使其所在半空间包含的数据比例很小，所以其深度值很低。 5. 计算方法与挑战计算一个点 \( \mathbf{x} \) 的样本Tukey深度 \( D_ n(\mathbf{x}) \) 本质上是求解一个全局优化问题： \[ D_ n(\mathbf{x}) = \min_ {\mathbf{u} \in \mathbb{S}^{d-1}} \frac{1}{n} \#\{i: \mathbf{u}^\top \mathbf{X}_ i \leq \mathbf{u}^\top \mathbf{x} \} \] 在 \( d=2 \) 维时，这个问题可以转化为：考虑所有穿过 \( \mathbf{x} \) 和另一个样本点 \( \mathbf{X}_ i \) 的直线（或所有将样本点完美划分开的直线方向）。在这些有限个候选方向中，必然存在达到最小深度值的方向。因此，二维情况下存在 \( O(n \log n) \) 时间复杂度的精确算法。然而，在 \( d \geq 3 \) 维时，问题变成组合几何中的难题，是NP-hard的。实践中，通常采用随机近似算法：随机均匀地选取大量（如数千个）方向向量 \( \mathbf{u} \)，计算在这些方向上的样本比例 \( \frac{1}{n} \sum_ i I(\mathbf{u}^\top \mathbf{X}_ i \leq \mathbf{u}^\top \mathbf{x}) \)，然后取这些值中的最小值作为深度估计。随着随机方向数量的增加，这个估计会以高概率收敛到真实的样本深度。 6. 应用深度中位数与深度中心：具有最大深度值的点（可能不唯一）被称为 Tukey中位数或半空间中位数。它是一个稳健的多维位置估计量，比样本均值更能抵抗异常值的影响。深度轮廓与深度域：给定一个深度水平 \( \alpha \)，所有深度 \( D(\mathbf{x}) \geq \alpha \) 的点构成的集合称为 \( \alpha \)-深度域。这些嵌套的凸集（轮廓）可以用来描述数据的形状、离散程度，并构建非参数的多维置信区域或容忍区域。分类：在分类问题中（如深度-深度图分类），可以比较一个新观测点相对于不同类别数据云的深度，将其归入深度较大的类别。异常值检测：深度值非常小（例如，低于某个阈值）的点可以被标记为潜在的异常值。非参数检验：基于数据深度可以构造非参数的双样本或多样本检验，用于比较分布的位置、尺度或形状。总结 Tukey深度（半空间深度）通过考虑一个点在所有可能半空间中的“最不利情况”来量化其中心性。它将一维中位数的核心思想优雅地推广至高维空间，提供了仿射不变的、稳健的多维数据分析工具。尽管高维精确计算存在挑战，但其丰富的几何内涵和统计性质使其在稳健统计、非参数推断和数据可视化等领域具有重要价值。