<u>随机变量的变换的稳健回归M估计方法</u>
字数 4107 2025-12-24 06:37:37

好的,我将为您生成并讲解一个尚未出现在列表中的词条。

随机变量的变换的稳健回归M估计方法

我来为您循序渐进地讲解这个结合了概率统计与稳健性的重要概念。

第一步:问题的起源——经典线性回归的弱点

首先,我们回顾最基础的线性回归模型:
$ y_i = \mathbf{x}_i^T \boldsymbol{\beta} + \epsilon_i $,其中 $ \epsilon_i $ 是独立同分布的误差项,通常假设服从均值为0的正态分布。

经典的参数估计方法是最小二乘法(OLS),即最小化残差平方和:
$ \hat{\boldsymbol{\beta}}{OLS} = \arg\min{\boldsymbol{\beta}} \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 $。

这里的关键是损失函数为 $ \rho(r) = r^2 $(其中 $ r $ 是残差)。平方函数对大的残差($ r $)赋予极高的权重。因此,如果数据中存在离群点(Outliers)——即严重偏离模型主体的异常观测值——即使数量很少,它们产生的巨大残差也会在平方和中被放大,导致估计量 $ \hat{\boldsymbol{\beta}} $ 严重偏离真实值。我们说OLS估计缺乏稳健性

第二步:核心思想——用更稳健的损失函数替代平方函数

为了解决这个问题,稳健统计学家提出用另一个函数 $ \rho(r) $ 来代替平方函数。这个 $ \rho $ 函数需要满足:

  1. 非负性:$ \rho(r) \ge 0 $,且 $ \rho(0) = 0 $。
  2. 偶函数:$ \rho(r) = \rho(-r) $,因为正负残差的影响应对称。
  3. 对大的|r|增长较慢:不像平方函数那样剧烈增长,从而抑制离群点的影响。

于是,我们定义M估计(M-estimator)为:
$ \hat{\boldsymbol{\beta}}{M} = \arg\min{\boldsymbol{\beta}} \sum_{i=1}^{n} \rho(y_i - \mathbf{x}_i^T \boldsymbol{\beta}) $。
“M”来源于“最大似然型估计”,因为如果 $ \rho(r) = -\log f(r) $,其中 $ f $ 是误差的密度函数,那么M估计就是最大似然估计。这里我们将其推广,选取 $ \rho $ 来获得稳健性,而不再拘泥于某个真实的密度。

第三步:常见的稳健 $ \rho $ 函数与影响函数

几个经典的 $ \rho $ 函数例子($ r $ 为残差,$ c $ 为调节常数):

  1. Huber函数
    \

\[ \\rho_c(r) = \\begin{cases} \\frac{1}{2} r^2, & \\text{如果 } |r| \\le c \\\\ c|r| - \\frac{1}{2}c^2, & \\text{如果 } |r| > c \\end{cases} \ \]

它在中心区域($|r| \le c$)表现得像最小二乘(二次),在尾部($|r| > c$)表现得像最小一乘(线性),从而限制了大残差的影响。

  1. Tukey双权(Biweight)函数
    \

\[ \\rho_c(r) = \\begin{cases} \\frac{c^2}{6} \\left[ 1 - \\left(1 - (\\frac{r}{c})^2\\right)^3 \\right], & \\text{如果 } |r| \\le c \\\\ \\frac{c^2}{6}, & \\text{如果 } |r| > c \\end{cases} \ \]

当残差绝对值超过截断点 $ c $ 时,$ \rho $ 函数值变为常数,意味着这些点被完全“降权”或忽略,因此对离群点不敏感

为了衡量单个观测点对估计量的影响,我们引入影响函数 $ \psi(r) = \rho'(r) $(即 $ \rho $ 的导数)。估计方程可以通过对目标函数求导得到:
\

\[ \\sum_{i=1}^{n} \\psi(y_i - \\mathbf{x}_i^T \\boldsymbol{\\beta}) \\mathbf{x}_i = 0 \ \]

  • 对于OLS,$ \psi(r) = 2r $,影响函数无界,意味着一个 $ y_i $ 趋向无穷时,其影响也趋向无穷。
  • 对于Huber估计,$ \psi(r) = \max(-c, \min(r, c)) $ 有界。
  • 对于Tukey双权估计,当 $ |r| > c $ 时,$ \psi(r) = 0 $,称为“再降权”,影响函数不仅有限,甚至将大残差的影响降至0。

第四步:估计过程的实现——迭代重加权最小二乘法

求解方程 $ \sum \psi(r_i) \mathbf{x}_i = 0 $ 通常没有解析解。最常用的数值方法是迭代重加权最小二乘法
定义权重函数 $ w(r) = \psi(r)/r $(当 $ r \neq 0 $时)。则估计方程可重写为:
\

\[ \\sum_{i=1}^{n} w(r_i) r_i \\mathbf{x}_i = 0 \ \]

这看起来像是加权最小二乘的正规方程,权重为 $ w(r_i) $。算法步骤如下:

  1. 初始化:用OLS或最小一乘法得到一个初始估计 $ \hat{\boldsymbol{\beta}}^{(0)} $,计算残差 $ r_i^{(0)} $。
  2. 迭代(第k步):
    a. 根据当前残差 $ r_i^{(k-1)} $ 计算权重 $ w_i^{(k)} = w(r_i^{(k-1)}) $。
    b. 求解加权最小二乘问题:
    $ \hat{\boldsymbol{\beta}}^{(k)} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} w_i^{(k)} (y_i - \mathbf{x}_i^T \boldsymbol{\beta})^2 $。
    (这等价于解方程组 $ \mathbf{X}^T \mathbf{W}^{(k)} \mathbf{X} \boldsymbol{\beta} = \mathbf{X}^T \mathbf{W}^{(k)} \mathbf{y} $,其中 $ \mathbf{W} $ 是对角权重矩阵。)
  3. 重复步骤2,直到参数估计值收敛(变化小于某个阈值)。

可以看到,离群点(大残差)会被赋予很小的权重 $ w_i $,在迭代过程中其影响被不断削弱。

第五步:统计性质与尺度估计

  1. 渐近正态性:在一般正则条件下,M估计量 $ \hat{\boldsymbol{\beta}}_M $ 是相合的,且满足
    \

\[ \\sqrt{n}(\\hat{\\boldsymbol{\\beta}}_M - \\boldsymbol{\\beta}) \\xrightarrow{d} N(\\mathbf{0}, \\mathbf{V}) \ \]

其中渐近协方差矩阵 $ \mathbf{V} = \tau^2 (\mathbb{E}[\mathbf{x} \mathbf{x}^T])^{-1} $, $ \tau^2 = \frac{\mathbb{E}[\psi(\epsilon)^2]}{(\mathbb{E}[\psi'(\epsilon)])^2} $。这为我们构造置信区间和假设检验提供了理论基础。

  1. 尺度估计:上述性质和权重计算通常依赖于误差的尺度(标准差)$ \sigma $。在实际中,$ \sigma $ 未知且也需要稳健估计。通常联合求解两个方程:
  • 位置/系数方程:$ \sum \psi(\frac{r_i}{\hat{\sigma}}) \mathbf{x}_i = 0 $
  • 尺度方程:$ \frac{1}{n} \sum \chi(\frac{r_i}{\hat{\sigma}}) = \delta $ (其中 $ \chi $ 是另一个稳健函数,如中位数绝对偏差MAD,$ \delta $ 是校准常数以保证在正态模型下的相合性)。
    这构成了一个位置-尺度联合M估计问题,也需要迭代求解。

总结
随机变量的变换的稳健回归M估计方法,核心是通过一个精心设计的、增长较慢的损失函数 $ \rho $ 来改造经典的回归估计问题。它将残差 $ r_i = y_i - \mathbf{x}_i^T \boldsymbol{\beta} $ 通过 $ \rho $ 函数进行“变换”并求和作为目标。这种变换抑制了大残差(可能来自离群点)的过度影响,从而获得对模型假设(如误差正态性)不敏感的稳健估计量。其实现依赖于迭代重加权算法,并有着良好的渐近统计性质,是现代数据分析中处理污染数据的强大工具。

好的,我将为您生成并讲解一个尚未出现在列表中的词条。 随机变量的变换的稳健回归M估计方法 我来为您循序渐进地讲解这个结合了概率统计与稳健性的重要概念。 第一步:问题的起源——经典线性回归的弱点 首先,我们回顾最基础的线性回归模型: \\( y_ i = \\mathbf{x}_ i^T \\boldsymbol{\\beta} + \\epsilon_ i \\),其中 \\( \\epsilon_ i \\) 是独立同分布的误差项,通常假设服从均值为0的正态分布。 经典的参数估计方法是最小二乘法(OLS),即最小化残差平方和: \\( \\hat{\\boldsymbol{\\beta}} {OLS} = \\arg\\min {\\boldsymbol{\\beta}} \\sum_ {i=1}^{n} (y_ i - \\mathbf{x}_ i^T \\boldsymbol{\\beta})^2 \\)。 这里的关键是 损失函数 为 \\( \\rho(r) = r^2 \\)(其中 \\( r \\) 是残差)。平方函数对大的残差(\\( r \\))赋予极高的权重。因此,如果数据中存在 离群点 (Outliers)——即严重偏离模型主体的异常观测值——即使数量很少,它们产生的巨大残差也会在平方和中被放大,导致估计量 \\( \\hat{\\boldsymbol{\\beta}} \\) 严重偏离真实值。我们说OLS估计缺乏 稳健性 。 第二步:核心思想——用更稳健的损失函数替代平方函数 为了解决这个问题,稳健统计学家提出用另一个函数 \\( \\rho(r) \\) 来代替平方函数。这个 \\( \\rho \\) 函数需要满足: 非负性 :\\( \\rho(r) \\ge 0 \\),且 \\( \\rho(0) = 0 \\)。 偶函数 :\\( \\rho(r) = \\rho(-r) \\),因为正负残差的影响应对称。 对大的|r|增长较慢 :不像平方函数那样剧烈增长,从而抑制离群点的影响。 于是,我们定义 M估计 (M-estimator)为: \\( \\hat{\\boldsymbol{\\beta}} {M} = \\arg\\min {\\boldsymbol{\\beta}} \\sum_ {i=1}^{n} \\rho(y_ i - \\mathbf{x}_ i^T \\boldsymbol{\\beta}) \\)。 “M”来源于“最大似然型估计”,因为如果 \\( \\rho(r) = -\\log f(r) \\),其中 \\( f \\) 是误差的密度函数,那么M估计就是最大似然估计。这里我们将其推广,选取 \\( \\rho \\) 来获得稳健性,而不再拘泥于某个真实的密度。 第三步:常见的稳健 \\( \\rho \\) 函数与影响函数 几个经典的 \\( \\rho \\) 函数例子(\\( r \\) 为残差,\\( c \\) 为调节常数): Huber函数 : \\[ \\rho_ c(r) = \\begin{cases} \\frac{1}{2} r^2, & \\text{如果 } |r| \\le c \\\\ c|r| - \\frac{1}{2}c^2, & \\text{如果 } |r| > c \\end{cases} \\ ] 它在中心区域(\\(|r| \\le c\\))表现得像最小二乘(二次),在尾部(\\(|r| > c\\))表现得像最小一乘(线性),从而限制了大残差的影响。 Tukey双权(Biweight)函数 : \\[ \\rho_ c(r) = \\begin{cases} \\frac{c^2}{6} \\left[ 1 - \\left(1 - (\\frac{r}{c})^2\\right)^3 \\right ], & \\text{如果 } |r| \\le c \\\\ \\frac{c^2}{6}, & \\text{如果 } |r| > c \\end{cases} \\ ] 当残差绝对值超过截断点 \\( c \\) 时,\\( \\rho \\) 函数值变为常数,意味着这些点被完全“降权”或忽略,因此对离群点 不敏感 。 为了衡量单个观测点对估计量的影响,我们引入 影响函数 \\( \\psi(r) = \\rho'(r) \\)(即 \\( \\rho \\) 的导数)。估计方程可以通过对目标函数求导得到: \\[ \\sum_ {i=1}^{n} \\psi(y_ i - \\mathbf{x}_ i^T \\boldsymbol{\\beta}) \\mathbf{x}_ i = 0 \\ ] 对于OLS,\\( \\psi(r) = 2r \\),影响函数无界,意味着一个 \\( y_ i \\) 趋向无穷时,其影响也趋向无穷。 对于Huber估计,\\( \\psi(r) = \\max(-c, \\min(r, c)) \\) 有界。 对于Tukey双权估计,当 \\( |r| > c \\) 时,\\( \\psi(r) = 0 \\),称为“ 再降权 ”,影响函数不仅有限,甚至将大残差的影响降至0。 第四步:估计过程的实现——迭代重加权最小二乘法 求解方程 \\( \\sum \\psi(r_ i) \\mathbf{x} i = 0 \\) 通常没有解析解。最常用的数值方法是 迭代重加权最小二乘法 。 定义权重函数 \\( w(r) = \\psi(r)/r \\)(当 \\( r \\neq 0 \\)时)。则估计方程可重写为: \\[ \\sum {i=1}^{n} w(r_ i) r_ i \\mathbf{x}_ i = 0 \\ ] 这看起来像是 加权最小二乘 的正规方程,权重为 \\( w(r_ i) \\)。算法步骤如下: 初始化:用OLS或最小一乘法得到一个初始估计 \\( \\hat{\\boldsymbol{\\beta}}^{(0)} \\),计算残差 \\( r_ i^{(0)} \\)。 迭代(第k步): a. 根据当前残差 \\( r_ i^{(k-1)} \\) 计算权重 \\( w_ i^{(k)} = w(r_ i^{(k-1)}) \\)。 b. 求解加权最小二乘问题: \\( \\hat{\\boldsymbol{\\beta}}^{(k)} = \\arg\\min_ {\\boldsymbol{\\beta}} \\sum_ {i=1}^{n} w_ i^{(k)} (y_ i - \\mathbf{x}_ i^T \\boldsymbol{\\beta})^2 \\)。 (这等价于解方程组 \\( \\mathbf{X}^T \\mathbf{W}^{(k)} \\mathbf{X} \\boldsymbol{\\beta} = \\mathbf{X}^T \\mathbf{W}^{(k)} \\mathbf{y} \\),其中 \\( \\mathbf{W} \\) 是对角权重矩阵。) 重复步骤2,直到参数估计值收敛(变化小于某个阈值)。 可以看到,离群点(大残差)会被赋予很小的权重 \\( w_ i \\),在迭代过程中其影响被不断削弱。 第五步:统计性质与尺度估计 渐近正态性 :在一般正则条件下,M估计量 \\( \\hat{\\boldsymbol{\\beta}}_ M \\) 是相合的,且满足 \\[ \\sqrt{n}(\\hat{\\boldsymbol{\\beta}}_ M - \\boldsymbol{\\beta}) \\xrightarrow{d} N(\\mathbf{0}, \\mathbf{V}) \\ ] 其中渐近协方差矩阵 \\( \\mathbf{V} = \\tau^2 (\\mathbb{E}[ \\mathbf{x} \\mathbf{x}^T])^{-1} \\), \\( \\tau^2 = \\frac{\\mathbb{E}[ \\psi(\\epsilon)^2]}{(\\mathbb{E}[ \\psi'(\\epsilon) ])^2} \\)。这为我们构造置信区间和假设检验提供了理论基础。 尺度估计 :上述性质和权重计算通常依赖于误差的尺度(标准差)\\( \\sigma \\)。在实际中,\\( \\sigma \\) 未知且也需要稳健估计。通常联合求解两个方程: 位置/系数方程:\\( \\sum \\psi(\\frac{r_ i}{\\hat{\\sigma}}) \\mathbf{x}_ i = 0 \\) 尺度方程:\\( \\frac{1}{n} \\sum \\chi(\\frac{r_ i}{\\hat{\\sigma}}) = \\delta \\) (其中 \\( \\chi \\) 是另一个稳健函数,如中位数绝对偏差MAD,\\( \\delta \\) 是校准常数以保证在正态模型下的相合性)。 这构成了一个 位置-尺度联合M估计 问题,也需要迭代求解。 总结 : 随机变量的变换的稳健回归M估计方法 ,核心是通过一个精心设计的、增长较慢的损失函数 \\( \\rho \\) 来改造经典的回归估计问题。它将残差 \\( r_ i = y_ i - \\mathbf{x}_ i^T \\boldsymbol{\\beta} \\) 通过 \\( \\rho \\) 函数进行“变换”并求和作为目标。这种变换抑制了大残差(可能来自离群点)的过度影响,从而获得对模型假设(如误差正态性)不敏感的稳健估计量。其实现依赖于迭代重加权算法,并有着良好的渐近统计性质,是现代数据分析中处理污染数据的强大工具。