核密度估计的窗宽选择
1. 核密度估计的基本概念
核密度估计是一种非参数方法,用于从一组独立同分布的样本数据中,估计其背后未知的概率密度函数。它不像参数估计那样假设数据来自某个已知分布族(如正态分布),而是完全由数据本身驱动来“平滑地”描绘密度曲线。其基本公式为:
\[ \hat{f}_h(x) = \frac{1}{n} \sum_{i=1}^{n} K_h(x - X_i) = \frac{1}{nh} \sum_{i=1}^{n} K\left(\frac{x - X_i}{h}\right) \]
其中:
- \(X_1, \dots, X_n\) 是来自未知密度 \(f\) 的独立观测样本。
- \(K(\cdot)\) 是一个核函数,通常是一个对称的概率密度函数(如标准正态密度),满足 \(\int K(u)\,du = 1\), \(\int uK(u)\,du = 0\)。
- \(h > 0\) 称为窗宽 或带宽,它是整个估计中最重要的控制参数。
- \(K_h(u) = \frac{1}{h} K(u/h)\) 是缩放后的核函数。
直观理解:想象每个数据点 \(X_i\) 上都放置了一个“小土堆”(由核函数 \(K\) 的形状决定,如钟形曲线)。窗宽 \(h\) 决定了每个“土堆”的宽度。最终的估计密度 \(\hat{f}_h(x)\) 是在点 \(x\) 处所有这些“土堆”高度的平均值。如果 \(h\) 很大,土堆很宽,估计曲线会很平滑,但可能掩盖了数据的真实细节(过平滑);如果 \(h\) 很小,土堆很窄,曲线会呈现出很多由样本随机性带来的波动(欠平滑)。
2. 窗宽的核心作用与偏差-方差权衡
窗宽 \(h\) 的选择直接决定了估计量 \(\hat{f}_h(x)\) 的统计性质,其影响体现在偏差和方差的权衡上:
- 偏差:衡量估计密度与真实密度之间的系统误差。数学上,在点 \(x\) 处的偏差为 \(\text{Bias}[\hat{f}_h(x)] = E[\hat{f}_h(x)] - f(x)\)。当 \(h\) 较大时,过度的平滑会“抹平”真实密度的峰值和波动,导致高偏差(估计过于平坦)。
- 方差:衡量估计量的波动程度,\(\text{Var}[\hat{f}_h(x)] = E[(\hat{f}_h(x) - E[\hat{f}_h(x)])^2]\)。当 \(h\) 较小时,估计值高度依赖于临近的少数几个样本点,随机波动大,方差高。
权衡关系:
- 大 \(h\) → 低方差,高偏差(估计平滑但可能失真)。
- 小 \(h\) → 低偏差,高方差(能捕捉细节但噪声大,曲线崎岖)。
因此,选择 \(h\) 的目标是找到一个最优平衡点,使得估计的整体误差(通常用均方积分误差 衡量)最小。
3. 评价标准:均方积分误差
为了定量地评估和选择窗宽,需要一个全局误差度量。最常用的是均方积分误差:
\[\text{MISE}(h) = E\left[ \int \left( \hat{f}_h(x) - f(x) \right)^2 dx \right] \]
MISE可以分解为积分均方偏差 与积分方差 之和:
\[\text{MISE}(h) = \int \text{Bias}^2[\hat{f}_h(x)]\,dx + \int \text{Var}[\hat{f}_h(x)]\,dx \]
通过渐近分析(当 \(n \to \infty\), \(h \to 0\) 且 \(nh \to \infty\)),在一定的正则条件下,可以推导出MISE的渐近近似AMISE:
\[\text{AMISE}(h) = \frac{1}{4} h^4 \left( \int u^2 K(u)\,du \right)^2 \int \left[f''(x)\right]^2 dx + \frac{1}{nh} \int K^2(u)\,du \]
其中:
- 第一项 \(O(h^4)\) 是渐近积分偏差平方,它与真实密度 \(f\) 的二阶导数的平方积分(称为曲率项)和核函数的二阶矩有关。
- 第二项 \(O(1/(nh))\) 是渐近积分方差。
- 其他高阶项被忽略,因此这是一个渐近均方积分误差。
4. 最优窗宽的渐近理论公式
对AMISE关于 \(h\) 求导并令导数为零,可以解出理论上使AMISE最小化的渐近最优窗宽 \(h_{\text{opt}}\):
\[h_{\text{opt}} = \left[ \frac{\int K^2(u)\,du}{n \left( \int u^2 K(u)\,du \right)^2 \int \left[f''(x)\right]^2 dx} \right]^{1/5} \]
这个公式揭示了关键规律:
- \(h_{\text{opt}} \propto n^{-1/5}\)。样本量越大,最优窗宽可以取得越小,以揭示更多细节。
- \(h_{\text{opt}}\) 依赖于未知的真实密度 \(f\),特别是其光滑度 \(\int [f''(x)]^2 dx\)。如果真实密度非常崎岖(曲率大),最优窗宽应更小以捕捉变化;如果真实密度很平滑,则窗宽可以更大。
- 它还依赖于核函数的选择,但不同核函数的影响相对较小,通常效率相差不大。
5. 实际窗宽选择方法
由于 \(h_{\text{opt}}\) 公式中含有未知的 \(\int [f''(x)]^2 dx\),我们需要用数据来估计它。以下是几种常用的实用选择方法:
a) 参考分布法
假设数据来自某个参数分布(如正态分布 \(N(\mu, \sigma^2)\)),计算该分布下的 \(\int [f''(x)]^2 dx\),然后代入 \(h_{\text{opt}}\) 公式。对于正态核和正态参考分布,一个著名的经验公式是:
\[h_{\text{normal}} = 1.06 \, \hat{\sigma} \, n^{-1/5} \]
其中 \(\hat{\sigma}\) 是样本标准差。对于有偏或重尾数据,可用更稳健的尺度估计(如四分位距IQR)进行修正,如Silverman经验法则:
\[h = 0.9 \, \min\left( \hat{\sigma}, \frac{\text{IQR}}{1.34} \right) \, n^{-1/5} \]
这种方法计算简单,是很好的初始选择,但如果真实分布与正态假设相差甚远(如多峰分布),效果可能不佳。
b) 交叉验证法
这是一种完全由数据驱动、不假设参数形式的方法。最常用的是最小二乘交叉验证。其原理是选择 \(h\) 以最小化真实密度 \(f\) 与估计密度 \(\hat{f}_h\) 之间积分平方误差(ISE)的期望。可以推导出一个仅依赖于数据和 \(h\) 的准则函数:
\[\text{CV}(h) = \int \hat{f}_h^2(x) \,dx - \frac{2}{n} \sum_{i=1}^{n} \hat{f}_{h,-i}(X_i) \]
其中 \(\hat{f}_{h,-i}\) 是去掉第 \(i\) 个观测后得到的密度估计。最小化 \(\text{CV}(h)\) 即可得到数据驱动的最优 \(h\)。这种方法适应性强,但计算量较大,且对于小样本可能不太稳定。
c) 插件法
其思想是:既然 \(h_{\text{opt}}\) 依赖于未知的 \(\psi = \int [f''(x)]^2 dx\),那就先用一个初始的、简单的窗宽 \(g\) 来构造一个初步的密度估计 \(\hat{f}_g\),然后用它来估计 \(\psi\),例如计算 \(\hat{\psi} = \int [\hat{f}''_g(x)]^2 dx\)。再将 \(\hat{\psi}\) 代入 \(h_{\text{opt}}\) 公式,得到最终窗宽。关键在于如何选择初始的 \(g\)(可能依赖于更高阶导数的估计),有成熟的迭代算法(如Sheather-Jones插件法)。插件法通常比交叉验证法更稳定,计算效率也高。
6. 多维情形的推广
对于 \(d\) 维随机向量 \(\mathbf{X} \in \mathbb{R}^d\),多元核密度估计为:
\[\hat{f}_{\mathbf{H}}(\mathbf{x}) = \frac{1}{n |\mathbf{H}|} \sum_{i=1}^{n} K\left( \mathbf{H}^{-1} (\mathbf{x} - \mathbf{X}_i) \right) \]
此时窗宽 \(\mathbf{H}\) 是一个 \(d \times d\) 的正定带宽矩阵。选择变得异常复杂:最简化的情形是使用一个标量 \(h\) 乘以单位矩阵(\(\mathbf{H} = h\mathbf{I}\)),但这要求各分量尺度相近且各向同性。更一般的是使用对角矩阵(每个变量有自己的窗宽),甚至全矩阵(考虑变量间的相关性和不同方向上的平滑程度)。选择方法(如多元交叉验证)的计算和理论复杂度都急剧增加。
总结:核密度估计的窗宽选择是一个经典的偏差-方差权衡问题。理论给出了最优窗宽与样本量、密度光滑度和核函数的依赖关系。实践中,我们通过参考分布法、交叉验证法或插件法等数据驱动方法,来近似实现这一最优权衡,从而获得一个既不过于粗糙也不过于波动的、对未知概率密度函数的合理非参数估计。