顺序统计量的线性组合的渐近分布
字数 3923 2025-12-15 11:15:52

顺序统计量的线性组合的渐近分布

我们考虑一个简单但重要的统计量:样本中位数。设 \(X_1, X_2, \dots, X_n\) 是独立同分布的随机变量,其共同分布函数为 \(F(x)\),概率密度函数为 \(f(x)\)(假设存在且连续)。样本中位数定义为样本的顺序统计量 \(X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}\) 中位于中间的那个值,记作 \(M_n\)。具体地:

  • 如果 \(n\) 是奇数,\(n=2m+1\),则 \(M_n = X_{(m+1)}\)
  • 如果 \(n\) 是偶数,\(n=2m\),则 \(M_n = (X_{(m)} + X_{(m+1)})/2\)

第一步:从单个顺序统计量到线性组合
样本中位数是顺序统计量的一个特例,更一般地,我们可以研究顺序统计量的线性组合,其形式为:

\[L_n = \sum_{i=1}^{n} c_{ni} X_{(i)}, \]

其中权重系数 \(\{c_{ni}\}\) 是给定的常数。许多常见的统计量都属于这个范畴,例如:

  1. 样本分位数:例如,样本 \(p\) 分位数(\(0)近似为 \(X_{(\lfloor np \rfloor +1)}\),这是只对一个顺序统计量赋予权重1的线性组合。
  2. L-估计量:一类稳健的统计量,如 Winsorized 均值、切尾均值、Gini 均值差等,都是顺序统计量的线性组合。

我们的目标是研究当样本量 \(n \to \infty\) 时,这类线性组合 \(L_n\)渐近分布,即其标准化后的分布收敛于某个极限分布(通常是正态分布)。

第二步:理论基础——分位数函数与中心顺序统计量的渐近正态性
要研究 \(L_n\) 的渐近性,首先需要理解单个顺序统计量 \(X_{(k)}\) 的渐近分布。设 \(k = k(n)\) 满足 \(k/n \to p \ (0,即我们考虑的是样本中“中心”部分的顺序统计量。其渐近正态性有如下经典结论:

定理:假设总体分布函数 \(F\) 在总体 \(p\) 分位数 \(\xi_p = F^{-1}(p)\) 处连续可微,且密度 \(f(\xi_p) > 0\)。则有:

\[\sqrt{n} (X_{(k)} - \xi_p) \xrightarrow{d} N\left( 0, \frac{p(1-p)}{[f(\xi_p)]^2} \right). \]

  • 推导思路:顺序统计量 \(X_{(k)}\) 的分布与二项分布密切相关。定义指示变量 \(I_i = I\{X_i \leq x\}\),则 \(F_n(x) = \frac{1}{n}\sum I_i\) 是经验分布函数。事件 \(\{X_{(k)} \leq x\}\) 等价于事件 \(\{\sum_{i=1}^n I_i \geq k\}\),即至少有 \(k\) 个观测值不超过 \(x\)。利用中心极限定理处理这个二项和,并通过 Delta 方法,可以得到上述渐近正态性。

这个结论告诉我们,单个“中心”顺序统计量,在经过以总体分位数 \(\xi_p\) 为中心、以 \(\sqrt{n}\) 为速率的标准化后,是渐近正态的。其渐近方差依赖于 \(p\) 和密度在分位数点的值 \(f(\xi_p)\)。密度越大(数据在分位数点越密集),估计的方差越小。

第三步:线性组合的渐近理论——主项与投影
对于一般的线性组合 \(L_n = \sum c_{ni} X_{(i)}\),其渐近分布的核心思想是将其表示为一个关于经验分布函数 \(F_n\) 的泛函,然后做线性化(即一阶近似)。

  1. 表示:可以证明,顺序统计量的线性组合常常能近似地写成如下关于经验分布函数的泛函:

\[ T(F_n) = \int_0^1 F_n^{-1}(t) J(t) dt, \]

其中 \(J(t)\) 是一个权重函数,它对应了线性组合中的权重系数 \(\{c_{ni}\}\)。例如,样本均值对应 \(J(t) \equiv 1\),样本 \(p\) 分位数对应 \(J(t)\)\(t=p\) 处的 Dirac 函数。

  1. 线性化与影响函数:将泛函 \(T\) 在真实分布 \(F\) 处进行一阶 von Mises 展开:

\[ T(F_n) \approx T(F) + \int IF(x; F) d(F_n - F)(x), \]

其中 \(IF(x; F)\) 是泛函 \(T\)\(F\) 处的影响函数 (Influence Function)。影响函数度量了在 \(F\) 中加入一个在点 \(x\) 的无穷小观测污染对统计量的影响。

  1. 渐近正态性的推导
    • 将上述近似写为:

\[ \sqrt{n}[T(F_n) - T(F)] \approx \sqrt{n} \int IF(x; F) dF_n(x) - \sqrt{n} \int IF(x; F) dF(x). \]

注意到第二项是一个常数(期望),不影响方差。第一项是独立同分布随机变量 \(IF(X_i; F)\) 的样本均值,即 \(\frac{1}{\sqrt{n}} \sum_{i=1}^n IF(X_i; F)\)

  • 根据中心极限定理,只要 \(E[IF(X; F)] = 0\)\(Var[IF(X; F)] < \infty\),就有:

\[ \sqrt{n}[T(F_n) - T(F)] \xrightarrow{d} N\left( 0, E[IF(X; F)^2] \right). \]

  • 对于由权重函数 \(J(t)\) 定义的 L-泛函,其影响函数在一定的正则条件下具有已知形式:

\[ IF(x; F, T) = -\int_{-\infty}^{\infty} [I\{y \geq x\} - F(y)] J(F(y)) dy. \]

    进而可以计算出其渐近方差。

第四步:应用实例——样本中位数的渐近分布
将上述一般理论应用于样本中位数 \(M_n\)(作为特例)。

  1. 对应关系:样本中位数是样本 0.5 分位数,即 \(p=0.5\)。权重函数 \(J(t)\) 是集中在 \(t=0.5\) 的广义函数。
  2. 影响函数:可以推导出,中位数泛函 \(Med(F)\)\(F\) 处的影响函数为:

\[ IF(x; F, Med) = \frac{\text{sign}(x - \xi_{0.5})}{2f(\xi_{0.5})}, \]

其中 \(\xi_{0.5}\) 是总体中位数,\(\text{sign}(\cdot)\) 是符号函数。
3. 计算渐近方差

  • \(E[IF(X; F, Med)] = \frac{1}{2f(\xi_{0.5})} E[\text{sign}(X - \xi_{0.5})] = 0\)
  • \(E[IF(X; F, Med)^2] = \frac{1}{4 [f(\xi_{0.5})]^2} E[(\text{sign}(X - \xi_{0.5}))^2] = \frac{1}{4 [f(\xi_{0.5})]^2}\)
  1. 结论

\[ \sqrt{n} (M_n - \xi_{0.5}) \xrightarrow{d} N\left(0, \frac{1}{4 [f(\xi_{0.5})]^2} \right). \]

这与第二步中单个顺序统计量的渐近正态性定理当 \(p=0.5\) 时的结果完全一致。

第五步:扩展到更一般的线性组合与注意事项

  1. L-估计量的渐近正态性:对于更广泛的权重系数 \(\{c_{ni}\}\) 或权重函数 \(J(t)\),只要满足一定的正则条件(例如,\(J\) 平方可积,总体分布 \(F\) 光滑等),线性组合 \(L_n\) 在标准化后就是渐近正态的。其渐近方差的表达式为:

\[ \sigma^2 = \iint_{s < t} J(F(s)) J(F(t)) F(s)[1-F(t)] ds dt. \]

这个表达式可以通过影响函数的方差计算得到。
  1. 关键条件:结论成立需要权重系数 \(\{c_{ni}\}\) 以适当的方式收敛到一个权重函数 \(J(t)\),并且总体分布 \(F\) 在相关的分位数点有正的密度。对于涉及样本“尾部”顺序统计量的线性组合(例如,样本极值 \(X_{(1)}\)\(X_{(n)}\)),其极限分布通常不再是正态分布,而是极值分布(如 Gumbel, Fréchet, Weibull 分布)。
  2. 稳健性的视角:通过影响函数可以分析 L-估计量的稳健性。例如,样本中位数的影响函数有界,因此是稳健的;而样本均值的影响函数无界 \((IF(x; F, Mean) = x - \mu)\),因此对异常值不稳健。

总结来说,顺序统计量的线性组合的渐近分布理论,通过将统计量视为经验分布函数的泛函,并利用影响函数进行线性化,最终将其渐近分布归结为独立和的形式,从而应用中心极限定理得到正态极限。这为一大类重要的统计量(L-估计量)提供了统一的渐近推断框架。

顺序统计量的线性组合的渐近分布 我们考虑一个简单但重要的统计量:样本中位数。设 \(X_ 1, X_ 2, \dots, X_ n\) 是独立同分布的随机变量,其共同分布函数为 \(F(x)\),概率密度函数为 \(f(x)\)(假设存在且连续)。样本中位数定义为样本的顺序统计量 \(X_ {(1)} \leq X_ {(2)} \leq \dots \leq X_ {(n)}\) 中位于中间的那个值,记作 \(M_ n\)。具体地: 如果 \(n\) 是奇数,\(n=2m+1\),则 \(M_ n = X_ {(m+1)}\)。 如果 \(n\) 是偶数,\(n=2m\),则 \(M_ n = (X_ {(m)} + X_ {(m+1)})/2\)。 第一步:从单个顺序统计量到线性组合 样本中位数是顺序统计量的一个特例,更一般地,我们可以研究 顺序统计量的线性组合 ,其形式为: \[ L_ n = \sum_ {i=1}^{n} c_ {ni} X_ {(i)}, \] 其中权重系数 \(\{c_ {ni}\}\) 是给定的常数。许多常见的统计量都属于这个范畴,例如: 样本分位数 :例如,样本 \(p\) 分位数(\(0<p<1\))近似为 \(X_ {(\lfloor np \rfloor +1)}\),这是只对一个顺序统计量赋予权重1的线性组合。 L-估计量 :一类稳健的统计量,如 Winsorized 均值、切尾均值、Gini 均值差等,都是顺序统计量的线性组合。 我们的目标是研究当样本量 \(n \to \infty\) 时,这类线性组合 \(L_ n\) 的 渐近分布 ,即其标准化后的分布收敛于某个极限分布(通常是正态分布)。 第二步:理论基础——分位数函数与中心顺序统计量的渐近正态性 要研究 \(L_ n\) 的渐近性,首先需要理解单个顺序统计量 \(X_ {(k)}\) 的渐近分布。设 \(k = k(n)\) 满足 \(k/n \to p \ (0<p <1)\),即我们考虑的是样本中“中心”部分的顺序统计量。其渐近正态性有如下经典结论: 定理 :假设总体分布函数 \(F\) 在总体 \(p\) 分位数 \(\xi_ p = F^{-1}(p)\) 处连续可微,且密度 \(f(\xi_ p) > 0\)。则有: \[ \sqrt{n} (X_ {(k)} - \xi_ p) \xrightarrow{d} N\left( 0, \frac{p(1-p)}{[ f(\xi_ p) ]^2} \right). \] 推导思路 :顺序统计量 \(X_ {(k)}\) 的分布与 二项分布 密切相关。定义指示变量 \(I_ i = I\{X_ i \leq x\}\),则 \(F_ n(x) = \frac{1}{n}\sum I_ i\) 是经验分布函数。事件 \(\{X_ {(k)} \leq x\}\) 等价于事件 \(\{\sum_ {i=1}^n I_ i \geq k\}\),即至少有 \(k\) 个观测值不超过 \(x\)。利用中心极限定理处理这个二项和,并通过 Delta 方法,可以得到上述渐近正态性。 这个结论告诉我们,单个“中心”顺序统计量,在经过以总体分位数 \(\xi_ p\) 为中心、以 \(\sqrt{n}\) 为速率的标准化后,是渐近正态的。其 渐近方差 依赖于 \(p\) 和密度在分位数点的值 \(f(\xi_ p)\)。密度越大(数据在分位数点越密集),估计的方差越小。 第三步:线性组合的渐近理论——主项与投影 对于一般的线性组合 \(L_ n = \sum c_ {ni} X_ {(i)}\),其渐近分布的核心思想是将其表示为一个关于经验分布函数 \(F_ n\) 的泛函,然后做线性化(即一阶近似)。 表示 :可以证明,顺序统计量的线性组合常常能近似地写成如下关于经验分布函数的泛函: \[ T(F_ n) = \int_ 0^1 F_ n^{-1}(t) J(t) dt, \] 其中 \(J(t)\) 是一个权重函数,它对应了线性组合中的权重系数 \(\{c_ {ni}\}\)。例如,样本均值对应 \(J(t) \equiv 1\),样本 \(p\) 分位数对应 \(J(t)\) 是 \(t=p\) 处的 Dirac 函数。 线性化与影响函数 :将泛函 \(T\) 在真实分布 \(F\) 处进行一阶 von Mises 展开: \[ T(F_ n) \approx T(F) + \int IF(x; F) d(F_ n - F)(x), \] 其中 \(IF(x; F)\) 是泛函 \(T\) 在 \(F\) 处的影响函数 (Influence Function)。影响函数度量了在 \(F\) 中加入一个在点 \(x\) 的无穷小观测污染对统计量的影响。 渐近正态性的推导 : 将上述近似写为: \[ \sqrt{n}[ T(F_ n) - T(F)] \approx \sqrt{n} \int IF(x; F) dF_ n(x) - \sqrt{n} \int IF(x; F) dF(x). \] 注意到第二项是一个常数(期望),不影响方差。第一项是独立同分布随机变量 \(IF(X_ i; F)\) 的样本均值,即 \(\frac{1}{\sqrt{n}} \sum_ {i=1}^n IF(X_ i; F)\)。 根据中心极限定理,只要 \(E[ IF(X; F)] = 0\) 且 \(Var[ IF(X; F)] < \infty\),就有: \[ \sqrt{n}[ T(F_ n) - T(F)] \xrightarrow{d} N\left( 0, E[ IF(X; F)^2 ] \right). \] 对于由权重函数 \(J(t)\) 定义的 L-泛函,其影响函数在一定的正则条件下具有已知形式: \[ IF(x; F, T) = -\int_ {-\infty}^{\infty} [ I\{y \geq x\} - F(y) ] J(F(y)) dy. \] 进而可以计算出其渐近方差。 第四步:应用实例——样本中位数的渐近分布 将上述一般理论应用于样本中位数 \(M_ n\)(作为特例)。 对应关系 :样本中位数是样本 0.5 分位数,即 \(p=0.5\)。权重函数 \(J(t)\) 是集中在 \(t=0.5\) 的广义函数。 影响函数 :可以推导出,中位数泛函 \(Med(F)\) 在 \(F\) 处的影响函数为: \[ IF(x; F, Med) = \frac{\text{sign}(x - \xi_ {0.5})}{2f(\xi_ {0.5})}, \] 其中 \(\xi_ {0.5}\) 是总体中位数,\(\text{sign}(\cdot)\) 是符号函数。 计算渐近方差 : \(E[ IF(X; F, Med)] = \frac{1}{2f(\xi_ {0.5})} E[ \text{sign}(X - \xi_ {0.5}) ] = 0\)。 \(E[ IF(X; F, Med)^2] = \frac{1}{4 [ f(\xi_ {0.5})]^2} E[ (\text{sign}(X - \xi_ {0.5}))^2] = \frac{1}{4 [ f(\xi_ {0.5}) ]^2}\)。 结论 : \[ \sqrt{n} (M_ n - \xi_ {0.5}) \xrightarrow{d} N\left(0, \frac{1}{4 [ f(\xi_ {0.5}) ]^2} \right). \] 这与第二步中单个顺序统计量的渐近正态性定理当 \(p=0.5\) 时的结果完全一致。 第五步:扩展到更一般的线性组合与注意事项 L-估计量的渐近正态性 :对于更广泛的权重系数 \(\{c_ {ni}\}\) 或权重函数 \(J(t)\),只要满足一定的正则条件(例如,\(J\) 平方可积,总体分布 \(F\) 光滑等),线性组合 \(L_ n\) 在标准化后就是渐近正态的。其 渐近方差 的表达式为: \[ \sigma^2 = \iint_ {s < t} J(F(s)) J(F(t)) F(s)[ 1-F(t) ] ds dt. \] 这个表达式可以通过影响函数的方差计算得到。 关键条件 :结论成立需要权重系数 \(\{c_ {ni}\}\) 以适当的方式收敛到一个权重函数 \(J(t)\),并且总体分布 \(F\) 在相关的分位数点有正的密度。对于涉及样本“尾部”顺序统计量的线性组合(例如,样本极值 \(X_ {(1)}\) 或 \(X_ {(n)}\)),其极限分布通常不再是正态分布,而是极值分布(如 Gumbel, Fréchet, Weibull 分布)。 稳健性的视角 :通过影响函数可以分析 L-估计量的稳健性。例如,样本中位数的影响函数有界,因此是稳健的;而样本均值的影响函数无界 \((IF(x; F, Mean) = x - \mu)\),因此对异常值不稳健。 总结来说, 顺序统计量的线性组合的渐近分布 理论,通过将统计量视为经验分布函数的泛函,并利用影响函数进行线性化,最终将其渐近分布归结为独立和的形式,从而应用中心极限定理得到正态极限。这为一大类重要的统计量(L-估计量)提供了统一的渐近推断框架。