核密度估计的窗宽选择
字数 4178 2025-12-15 08:03:40

核密度估计的窗宽选择

1. 核密度估计的基本概念
核密度估计是一种非参数方法,用于从一组独立同分布的样本数据中,估计其背后未知的概率密度函数。它不像参数估计那样假设数据来自某个已知分布族(如正态分布),而是完全由数据本身驱动来“平滑地”描绘密度曲线。其基本公式为:

\[ \hat{f}_h(x) = \frac{1}{n} \sum_{i=1}^{n} K_h(x - X_i) = \frac{1}{nh} \sum_{i=1}^{n} K\left(\frac{x - X_i}{h}\right) \]

其中:

  • \(X_1, \dots, X_n\) 是来自未知密度 \(f\) 的独立观测样本。
  • \(K(\cdot)\) 是一个核函数,通常是一个对称的概率密度函数(如标准正态密度),满足 \(\int K(u)\,du = 1\)\(\int uK(u)\,du = 0\)
  • \(h > 0\) 称为窗宽带宽,它是整个估计中最重要的控制参数。
  • \(K_h(u) = \frac{1}{h} K(u/h)\) 是缩放后的核函数。

直观理解:想象每个数据点 \(X_i\) 上都放置了一个“小土堆”(由核函数 \(K\) 的形状决定,如钟形曲线)。窗宽 \(h\) 决定了每个“土堆”的宽度。最终的估计密度 \(\hat{f}_h(x)\) 是在点 \(x\) 处所有这些“土堆”高度的平均值。如果 \(h\) 很大,土堆很宽,估计曲线会很平滑,但可能掩盖了数据的真实细节(过平滑);如果 \(h\) 很小,土堆很窄,曲线会呈现出很多由样本随机性带来的波动(欠平滑)。

2. 窗宽的核心作用与偏差-方差权衡
窗宽 \(h\) 的选择直接决定了估计量 \(\hat{f}_h(x)\) 的统计性质,其影响体现在偏差方差的权衡上:

  • 偏差:衡量估计密度与真实密度之间的系统误差。数学上,在点 \(x\) 处的偏差为 \(\text{Bias}[\hat{f}_h(x)] = E[\hat{f}_h(x)] - f(x)\)。当 \(h\) 较大时,过度的平滑会“抹平”真实密度的峰值和波动,导致高偏差(估计过于平坦)。
  • 方差:衡量估计量的波动程度,\(\text{Var}[\hat{f}_h(x)] = E[(\hat{f}_h(x) - E[\hat{f}_h(x)])^2]\)。当 \(h\) 较小时,估计值高度依赖于临近的少数几个样本点,随机波动大,方差高。

权衡关系

  • \(h\) → 低方差,高偏差(估计平滑但可能失真)。
  • \(h\) → 低偏差,高方差(能捕捉细节但噪声大,曲线崎岖)。
    因此,选择 \(h\) 的目标是找到一个最优平衡点,使得估计的整体误差(通常用均方积分误差 衡量)最小。

3. 评价标准:均方积分误差
为了定量地评估和选择窗宽,需要一个全局误差度量。最常用的是均方积分误差

\[\text{MISE}(h) = E\left[ \int \left( \hat{f}_h(x) - f(x) \right)^2 dx \right] \]

MISE可以分解为积分均方偏差积分方差 之和:

\[\text{MISE}(h) = \int \text{Bias}^2[\hat{f}_h(x)]\,dx + \int \text{Var}[\hat{f}_h(x)]\,dx \]

通过渐近分析(当 \(n \to \infty\)\(h \to 0\)\(nh \to \infty\)),在一定的正则条件下,可以推导出MISE的渐近近似AMISE

\[\text{AMISE}(h) = \frac{1}{4} h^4 \left( \int u^2 K(u)\,du \right)^2 \int \left[f''(x)\right]^2 dx + \frac{1}{nh} \int K^2(u)\,du \]

其中:

  • 第一项 \(O(h^4)\) 是渐近积分偏差平方,它与真实密度 \(f\) 的二阶导数的平方积分(称为曲率项)和核函数的二阶矩有关。
  • 第二项 \(O(1/(nh))\) 是渐近积分方差。
  • 其他高阶项被忽略,因此这是一个渐近均方积分误差

4. 最优窗宽的渐近理论公式
对AMISE关于 \(h\) 求导并令导数为零,可以解出理论上使AMISE最小化的渐近最优窗宽 \(h_{\text{opt}}\)

\[h_{\text{opt}} = \left[ \frac{\int K^2(u)\,du}{n \left( \int u^2 K(u)\,du \right)^2 \int \left[f''(x)\right]^2 dx} \right]^{1/5} \]

这个公式揭示了关键规律:

  • \(h_{\text{opt}} \propto n^{-1/5}\)。样本量越大,最优窗宽可以取得越小,以揭示更多细节。
  • \(h_{\text{opt}}\) 依赖于未知的真实密度 \(f\),特别是其光滑度 \(\int [f''(x)]^2 dx\)。如果真实密度非常崎岖(曲率大),最优窗宽应更小以捕捉变化;如果真实密度很平滑,则窗宽可以更大。
  • 它还依赖于核函数的选择,但不同核函数的影响相对较小,通常效率相差不大。

5. 实际窗宽选择方法
由于 \(h_{\text{opt}}\) 公式中含有未知的 \(\int [f''(x)]^2 dx\),我们需要用数据来估计它。以下是几种常用的实用选择方法:

a) 参考分布法
假设数据来自某个参数分布(如正态分布 \(N(\mu, \sigma^2)\)),计算该分布下的 \(\int [f''(x)]^2 dx\),然后代入 \(h_{\text{opt}}\) 公式。对于正态核和正态参考分布,一个著名的经验公式是:

\[h_{\text{normal}} = 1.06 \, \hat{\sigma} \, n^{-1/5} \]

其中 \(\hat{\sigma}\) 是样本标准差。对于有偏或重尾数据,可用更稳健的尺度估计(如四分位距IQR)进行修正,如Silverman经验法则

\[h = 0.9 \, \min\left( \hat{\sigma}, \frac{\text{IQR}}{1.34} \right) \, n^{-1/5} \]

这种方法计算简单,是很好的初始选择,但如果真实分布与正态假设相差甚远(如多峰分布),效果可能不佳。

b) 交叉验证法
这是一种完全由数据驱动、不假设参数形式的方法。最常用的是最小二乘交叉验证。其原理是选择 \(h\) 以最小化真实密度 \(f\) 与估计密度 \(\hat{f}_h\) 之间积分平方误差(ISE)的期望。可以推导出一个仅依赖于数据和 \(h\) 的准则函数:

\[\text{CV}(h) = \int \hat{f}_h^2(x) \,dx - \frac{2}{n} \sum_{i=1}^{n} \hat{f}_{h,-i}(X_i) \]

其中 \(\hat{f}_{h,-i}\) 是去掉第 \(i\) 个观测后得到的密度估计。最小化 \(\text{CV}(h)\) 即可得到数据驱动的最优 \(h\)。这种方法适应性强,但计算量较大,且对于小样本可能不太稳定。

c) 插件法
其思想是:既然 \(h_{\text{opt}}\) 依赖于未知的 \(\psi = \int [f''(x)]^2 dx\),那就先用一个初始的、简单的窗宽 \(g\) 来构造一个初步的密度估计 \(\hat{f}_g\),然后用它来估计 \(\psi\),例如计算 \(\hat{\psi} = \int [\hat{f}''_g(x)]^2 dx\)。再将 \(\hat{\psi}\) 代入 \(h_{\text{opt}}\) 公式,得到最终窗宽。关键在于如何选择初始的 \(g\)(可能依赖于更高阶导数的估计),有成熟的迭代算法(如Sheather-Jones插件法)。插件法通常比交叉验证法更稳定,计算效率也高。

6. 多维情形的推广
对于 \(d\) 维随机向量 \(\mathbf{X} \in \mathbb{R}^d\),多元核密度估计为:

\[\hat{f}_{\mathbf{H}}(\mathbf{x}) = \frac{1}{n |\mathbf{H}|} \sum_{i=1}^{n} K\left( \mathbf{H}^{-1} (\mathbf{x} - \mathbf{X}_i) \right) \]

此时窗宽 \(\mathbf{H}\) 是一个 \(d \times d\) 的正定带宽矩阵。选择变得异常复杂:最简化的情形是使用一个标量 \(h\) 乘以单位矩阵(\(\mathbf{H} = h\mathbf{I}\)),但这要求各分量尺度相近且各向同性。更一般的是使用对角矩阵(每个变量有自己的窗宽),甚至全矩阵(考虑变量间的相关性和不同方向上的平滑程度)。选择方法(如多元交叉验证)的计算和理论复杂度都急剧增加。

总结:核密度估计的窗宽选择是一个经典的偏差-方差权衡问题。理论给出了最优窗宽与样本量、密度光滑度和核函数的依赖关系。实践中,我们通过参考分布法、交叉验证法或插件法等数据驱动方法,来近似实现这一最优权衡,从而获得一个既不过于粗糙也不过于波动的、对未知概率密度函数的合理非参数估计。

核密度估计的窗宽选择 1. 核密度估计的基本概念 核密度估计是一种非参数方法,用于从一组独立同分布的样本数据中,估计其背后未知的概率密度函数。它不像参数估计那样假设数据来自某个已知分布族(如正态分布),而是完全由数据本身驱动来“平滑地”描绘密度曲线。其基本公式为: \[ \hat{f} h(x) = \frac{1}{n} \sum {i=1}^{n} K_ h(x - X_ i) = \frac{1}{nh} \sum_ {i=1}^{n} K\left(\frac{x - X_ i}{h}\right) \] 其中: \( X_ 1, \dots, X_ n \) 是来自未知密度 \( f \) 的独立观测样本。 \( K(\cdot) \) 是一个核函数,通常是一个对称的概率密度函数(如标准正态密度),满足 \( \int K(u)\,du = 1 \), \( \int uK(u)\,du = 0 \)。 \( h > 0 \) 称为 窗宽 或 带宽 ,它是整个估计中最重要的控制参数。 \( K_ h(u) = \frac{1}{h} K(u/h) \) 是缩放后的核函数。 直观理解 :想象每个数据点 \( X_ i \) 上都放置了一个“小土堆”(由核函数 \( K \) 的形状决定,如钟形曲线)。窗宽 \( h \) 决定了每个“土堆”的宽度。最终的估计密度 \( \hat{f}_ h(x) \) 是在点 \( x \) 处所有这些“土堆”高度的平均值。如果 \( h \) 很大,土堆很宽,估计曲线会很平滑,但可能掩盖了数据的真实细节(过平滑);如果 \( h \) 很小,土堆很窄,曲线会呈现出很多由样本随机性带来的波动(欠平滑)。 2. 窗宽的核心作用与偏差-方差权衡 窗宽 \( h \) 的选择直接决定了估计量 \( \hat{f}_ h(x) \) 的统计性质,其影响体现在 偏差 和 方差 的权衡上: 偏差 :衡量估计密度与真实密度之间的系统误差。数学上,在点 \( x \) 处的偏差为 \( \text{Bias}[ \hat{f}_ h(x)] = E[ \hat{f}_ h(x) ] - f(x) \)。当 \( h \) 较大时,过度的平滑会“抹平”真实密度的峰值和波动,导致高偏差(估计过于平坦)。 方差 :衡量估计量的波动程度,\( \text{Var}[ \hat{f}_ h(x)] = E[ (\hat{f}_ h(x) - E[ \hat{f}_ h(x)])^2 ] \)。当 \( h \) 较小时,估计值高度依赖于临近的少数几个样本点,随机波动大,方差高。 权衡关系 : 大 \( h \) → 低方差,高偏差(估计平滑但可能失真)。 小 \( h \) → 低偏差,高方差(能捕捉细节但噪声大,曲线崎岖)。 因此,选择 \( h \) 的目标是找到一个最优平衡点,使得估计的整体误差(通常用 均方积分误差 衡量)最小。 3. 评价标准:均方积分误差 为了定量地评估和选择窗宽,需要一个全局误差度量。最常用的是 均方积分误差 : \[ \text{MISE}(h) = E\left[ \int \left( \hat{f}_ h(x) - f(x) \right)^2 dx \right ] \] MISE可以分解为 积分均方偏差 与 积分方差 之和: \[ \text{MISE}(h) = \int \text{Bias}^2[ \hat{f}_ h(x)]\,dx + \int \text{Var}[ \hat{f}_ h(x) ]\,dx \] 通过渐近分析(当 \( n \to \infty \), \( h \to 0 \) 且 \( nh \to \infty \)),在一定的正则条件下,可以推导出MISE的渐近近似 AMISE : \[ \text{AMISE}(h) = \frac{1}{4} h^4 \left( \int u^2 K(u)\,du \right)^2 \int \left[ f''(x)\right ]^2 dx + \frac{1}{nh} \int K^2(u)\,du \] 其中: 第一项 \( O(h^4) \) 是渐近积分偏差平方,它与真实密度 \( f \) 的二阶导数的平方积分(称为 曲率项 )和核函数的二阶矩有关。 第二项 \( O(1/(nh)) \) 是渐近积分方差。 其他高阶项被忽略,因此这是一个 渐近均方积分误差 。 4. 最优窗宽的渐近理论公式 对AMISE关于 \( h \) 求导并令导数为零,可以解出理论上使AMISE最小化的 渐近最优窗宽 \( h_ {\text{opt}} \): \[ h_ {\text{opt}} = \left[ \frac{\int K^2(u)\,du}{n \left( \int u^2 K(u)\,du \right)^2 \int \left[ f''(x)\right]^2 dx} \right ]^{1/5} \] 这个公式揭示了关键规律: \( h_ {\text{opt}} \propto n^{-1/5} \)。样本量越大,最优窗宽可以取得越小,以揭示更多细节。 \( h_ {\text{opt}} \) 依赖于未知的真实密度 \( f \),特别是其光滑度 \( \int [ f''(x) ]^2 dx \)。如果真实密度非常崎岖(曲率大),最优窗宽应更小以捕捉变化;如果真实密度很平滑,则窗宽可以更大。 它还依赖于核函数的选择,但不同核函数的影响相对较小,通常效率相差不大。 5. 实际窗宽选择方法 由于 \( h_ {\text{opt}} \) 公式中含有未知的 \( \int [ f''(x) ]^2 dx \),我们需要用数据来估计它。以下是几种常用的实用选择方法: a) 参考分布法 假设数据来自某个参数分布(如正态分布 \( N(\mu, \sigma^2) \)),计算该分布下的 \( \int [ f''(x)]^2 dx \),然后代入 \( h_ {\text{opt}} \) 公式。对于正态核和正态参考分布,一个著名的经验公式是: \[ h_ {\text{normal}} = 1.06 \, \hat{\sigma} \, n^{-1/5} \] 其中 \( \hat{\sigma} \) 是样本标准差。对于有偏或重尾数据,可用更稳健的尺度估计(如四分位距IQR)进行修正,如 Silverman经验法则 : \[ h = 0.9 \, \min\left( \hat{\sigma}, \frac{\text{IQR}}{1.34} \right) \, n^{-1/5} \] 这种方法计算简单,是很好的初始选择,但如果真实分布与正态假设相差甚远(如多峰分布),效果可能不佳。 b) 交叉验证法 这是一种完全由数据驱动、不假设参数形式的方法。最常用的是 最小二乘交叉验证 。其原理是选择 \( h \) 以最小化真实密度 \( f \) 与估计密度 \( \hat{f} h \) 之间积分平方误差(ISE)的期望。可以推导出一个仅依赖于数据和 \( h \) 的准则函数: \[ \text{CV}(h) = \int \hat{f} h^2(x) \,dx - \frac{2}{n} \sum {i=1}^{n} \hat{f} {h,-i}(X_ i) \] 其中 \( \hat{f}_ {h,-i} \) 是去掉第 \( i \) 个观测后得到的密度估计。最小化 \( \text{CV}(h) \) 即可得到数据驱动的最优 \( h \)。这种方法适应性强,但计算量较大,且对于小样本可能不太稳定。 c) 插件法 其思想是:既然 \( h_ {\text{opt}} \) 依赖于未知的 \( \psi = \int [ f''(x)]^2 dx \),那就先用一个 初始的、简单的窗宽 \( g \) 来构造一个初步的密度估计 \( \hat{f}_ g \),然后用它来估计 \( \psi \),例如计算 \( \hat{\psi} = \int [ \hat{f}'' g(x)]^2 dx \)。再将 \( \hat{\psi} \) 代入 \( h {\text{opt}} \) 公式,得到最终窗宽。关键在于如何选择初始的 \( g \)(可能依赖于更高阶导数的估计),有成熟的迭代算法(如Sheather-Jones插件法)。插件法通常比交叉验证法更稳定,计算效率也高。 6. 多维情形的推广 对于 \( d \) 维随机向量 \( \mathbf{X} \in \mathbb{R}^d \),多元核密度估计为: \[ \hat{f} {\mathbf{H}}(\mathbf{x}) = \frac{1}{n |\mathbf{H}|} \sum {i=1}^{n} K\left( \mathbf{H}^{-1} (\mathbf{x} - \mathbf{X}_ i) \right) \] 此时窗宽 \( \mathbf{H} \) 是一个 \( d \times d \) 的正定 带宽矩阵 。选择变得异常复杂:最简化的情形是使用一个标量 \( h \) 乘以单位矩阵(\( \mathbf{H} = h\mathbf{I} \)),但这要求各分量尺度相近且各向同性。更一般的是使用对角矩阵(每个变量有自己的窗宽),甚至全矩阵(考虑变量间的相关性和不同方向上的平滑程度)。选择方法(如多元交叉验证)的计算和理论复杂度都急剧增加。 总结 :核密度估计的窗宽选择是一个经典的偏差-方差权衡问题。理论给出了最优窗宽与样本量、密度光滑度和核函数的依赖关系。实践中,我们通过参考分布法、交叉验证法或插件法等数据驱动方法,来近似实现这一最优权衡,从而获得一个既不过于粗糙也不过于波动的、对未知概率密度函数的合理非参数估计。