您好,欢迎访问三七文档
稳健回归(M估计)方法简介浙江大学唐启义估计的稳健性(Robustness)概念指的是在估计过程中产生的估计量对模型误差的不敏感性。因此稳健估计是在比较宽的资料范围内产生的优良估计。如在独立同分布正态误差的线性模型中,最小二乘估计(LSE)是有效无偏估计。然而当误差是非正态分布时,LSE不一定是最有效的。但误差分布事先不一定知道,故有必要考虑稳健回归的问题。稳健回归(RobustRegression)估计,如误差为正态时,它比LSE稍差一点,但误差非正态时,它比LSE要好得多。这种对误差项分布的稳健特性,常能有效排除异常值干扰。DPS提供了稳健回归中常用的最大似然型的M估计。一般回归模型:niexYijijpji,,1,1这里β1,…,βp为未知回归系数,e1,…,en…独立同分布,均值为0。最小二乘法是找p,,1使表达式211pniijjijYxb==骣÷ç÷-ç÷ç÷÷ç桫邋达到最小作为代价函数,即211minpniijjijYxb==骣÷ç÷-=ç÷ç÷÷ç桫邋。这样做会往往使得那些远离数据群体的数据(很可能是异常值)对残差平方和影响比其他数据大得多。这是因为最小二乘估计为了达到极小化残差平方和的目的,必须迁就远端的数据,所以异常值对于参数估计相当敏感(如图1)。M估计稳健回归的基本思想是采用迭代加权最小二乘估计回归系数,根据回归残差的大小确定各点的权wi,以达到稳健的目的,其优化的目标函数是:211minpniiijjijwYxb==骣÷ç÷-=ç÷ç÷÷ç桫邋为减少“异常点”作用,我们可以对不同的点施加不同的权重,即对残差小的点给予较大的权重,而对残差较大的点给予较小的权重,根据残差大小确定权重,并据此建立加权的最小二乘估计,反复迭代以改进权重系数,直至权重系数之改变小于一定的允许误差(tolerance)。其参数j可采用迭代加权最小二乘方法求解。构造权重,许多学者提出了许多方法,因此得到的稳健回归估计大同小异。DPS提供了10种不同的定义权重的公式,供用户选用。在以下公式中,都用到一个“标准化”的残差指标ui,()/0.6745/medmed()iiiiiueseee==?,med()为中位数,s为残差尺度。1.Andrew’s法1/00/sin(/)///iiiiiiucwucucucucppìï=ïïï=íïï£ïïî,式中c一般取1.339。2.Biweight法()220/1/11/iiiiucwucucìïïï=íï£-ïïî如果如果,式中c一般4.685。3.Cauchy法()()211/iiwuc=+,式中c一般2.385。4.Fair法()()211/iiwuc=+,式中c一般1.4。5.Hampel法()()()1///0iiiiiiiiuaauaubwaucucbbuccuìï£ïïï?ïï=íï?-?ïïïïïî这里a,b,c都是参数,0abc。一般a=2,b=4,c=8.6.Huber法1/ihihiihucwcuucì£ïï=íïïî如果如果,式中ch一般取1.345。7.Logistic法()()10TAN///0iiiiiuwucucuìï=ï=íï¹ïî如果如果,式中c一般1.205。8.Median法1/0.0000101/0iiiiuwuuì=ïï=íï¹ïî如果如果。9.Talworth法10iiiucwucì£ïï=íïïî如果如果,式中ch一般取2.795。10.Welsch法()20.5/iuciwe-?=,式中c一般取2.985。DPS提供了上述介绍的Andrews,Biweight,Cauchy,Fair,Hampel,Huber,Logistic,Median,Talworth和Welsch等10种权重定义方法供用户选用,并提供了不加权的普通最小二乘(OLS),以便用户根据其拟合图形进行诊断。DPS分析的数据格式和多元线性回归分析相同,即:自变量在左边,最右边一列是因变量(下图的左边)。用鼠标选中数据后,执行菜单下的“多元分析”→“回归分析”→“回归分析”→“稳健回归(M估计)”功能,即可出现如下图所示的工作界面(下图的右边)。点击“返回”按钮即将当前方法的结果返回到电子工作表中(图2)。图2DPS系统稳健回归M估计分析用户界面
本文标题:稳健回归(M估计)
链接地址:https://www.777doc.com/doc-5011898 .html