您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 回归分析中异常值的诊断与处理
1回归分析中异常值的诊断与处理1引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提.但是通常的统计整理方法往往都对样本数据有一个前提假设,即样本数据是来自同一个总体,而这个假设有时却不能成立.原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混杂进来.当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同的总体,我们称这样的数据为异常数据.若对混有异常数据的样本按常规进行统计整理、分析、推断,往往会得出不符合实际的结论.本文就样本中的异常数据提出了诊断方法和处理方法,并结合实例说明了简单回归中上述方法的具体应用.2异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的数据,也称离群值.社会经济统计中一切失实数据统称为异常值.由于人为或随机因素的影响,失实的数据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端,左端称为异常小值,右端的称为异常大值.残差:考虑线性回归模型yXe,0Ee,2nCoveI.1其中nyyyy21,1,11,2211,111111pnnppxxxxxxX,110p,neeee21.分量形式为2011,11iiippiyxxe,ni,,1.2定义ˆˆˆeyyyX为残差向量,其中ˆˆyX称为拟合值向量,ˆ为在模型1下的最小二乘估计.如果用nxx,1表示X的n个行向量,则称ˆˆiiieyx,ni,,1,为第i次试验或观测的残差.对简单回归,12111nxxXx,nyyyy21,10.则ˆˆiiieyx,ni,,1,其中1,iixx.于是,异常值就是在回归分析中,一组数据iiyx,如果它的残差ieˆ较其它组数据的残差大的多,则称此数据为异常值.异常值的出现有主客观的原因.主观上抽样调查技术有问题,疏忽大意记错,或人为的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值.异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生重要影响,会降低测量的精度.如果不预先处理它们,用通常的统计整理方法所得出的结论可靠性差.而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性的前提.3异常值的诊断方法在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布规律.拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原假设下作假设检验.以下给出两种检验方法.3.1F分布检验法3学生化残差:考虑线性回归模型1,记ˆˆyX,称yˆ为拟合值向量,称其第i个分量ˆˆiixy为第i个拟合值,则1ˆyXXXXyHy,这里1HXXXX.文献中通常称H为帽子矩阵.前面已经定义了ˆˆiiieyx,ni,,1,为第i次试验或观测的残差.将其标准化为iiihe1ˆ,再用ˆ代替,得到所谓学生化残差iiiiher1ˆˆ,ni,,1,这里iih为H的第i个对角元,pnenii122ˆˆ.把正态线性回归模型1改写成分量形式iiiexy,2,0~Nei,ni,,1,这里ie,)1(ni,,相互独立.如果第j组数据jjyx,是一个异常点,那么它的残差就很大.它的残差之所以很大是因为它的均值jyE发生了非随机性漂移.从而jjxyE.这产生了一个新的模型iiijjjyxeyxe2~0,,iijeN3记0,,0,1,0,,0jd.将模型3改写成矩阵的形式jyXde,INe2,0~,4模型3和4称为均值漂移线性回归模型.要判定jjyx,不是异常点,等价于检验假设0:H.引理1用iy,iX和ie分别表示从Y、X和e剔除第i行所得到的向量或矩.从线性回4归模型1剔除第i组数据后,剩余的1n组数据的线性回归模型为iiiyXe,0iEe,21niCoveI.5将从这个模型求到的的最小二乘估计记为iˆ,则iiiiixXXhe11ˆˆˆ.证明:因为1ˆiiiiiXXXy.6设A为nn可逆阵,vu和均为1n向量.用恒等式vAuAvuAAvuA111111有111111iiiiiiiiXXxxXXXXXXxxXXh,7这里ix为X的第i行.将上式两边右乘Xy,并利用iiiiXyXyyx以及6式,有iiiiiiiiihxxXXxXXy1ˆˆˆ11.8将7式右乘ix,可以得到如下关系式iiiiiixXXhxXX1111.将其代入8式,得到iiiiixXXhe11ˆˆˆ.引理2对均值漂移线性回归模型4,和的最小二乘估计分别为jˆ和jjjehˆ11,5其中jˆ为从非均值漂移线性回归模型1剔除第j组数据后得到的的最小二乘估计.XXXXhHjj1,jjh为H的第j个对角元.jeˆ为从模型2导出的第j个残差.证明:显然,jjyyd,1jjdd.记12,,,nXxxx.则jjxdX.于是,根据定义111jjjjjjXXXXxXyXdyddxy.根据分块矩阵的逆矩阵公式(见附录1),以及jjjjxXXxh1.111111111111111111ˆˆ1111ˆ111ˆˆ11ˆ1jjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjXXXXxxXXXXxhhXyyxXXhhXXxxXXxyhhxyhhXXxeheh.再由引理1知命题得证.现在应用引理来求检验0:H的检验统计量.注意到,对现在的情形,在约束条件0下,模型4就化为模型1,于是HRSS模型1无约束情形下的残差平方和yXyyˆ.而模型4的无约束残差平方和ydyXyyRSSj.9利用引理2得62ˆˆˆ1ˆˆ111HjjjjjjjjjjjjRSSRSSXydyeyeexhhh.这里ˆˆjjjxye为第j组数据的残差.利用和的具体表达式将9式作进一步化简:jjjjjjjjhyehyeyXyyRSS1ˆ1ˆˆˆ=jjjhepn1ˆˆ22,其中pnenii122ˆˆ.根据引理2,所求的检验统计量为22222111ˆ1ˆ1ˆ1jjjjjjjjHrpnrpnhpnepnpnhepnRSSRSSRSSF.于是,我们证明了如下事实:定理2对于均值漂移线性回归模型4,如果假设0:H成立,则1,122~1pnjjjFrpnrpnF.据此,我们得到如下检验:对给定的10,若1,1221pnjjjFrpnrpnF,则判定第j组数据jjyx,为异常点.当然,这种检验会犯“判无为有”的错误,也就是jjyx,可能不是异常点,而被误判为异常点.但我们犯这种错误的概率只有,事先我们可以把它控制的很小.显然,根据t分布与F分布的关系,我们也可以用t检验法完成上面的检验.若定义7212211jjjjrpnpnrFt.对给定的,当21pnjtt时,我们拒绝假设0:H.即判定第j组数据jjyx,为异常点.3.2残差及残差图检验异常值前面定义了ˆˆXye,称为残差向量,其分量形式ˆˆiiieyx,1,,in,称为第i次试验或观测的残差.特别地,对简单回归,iixx,1,ni,,1.niiniiixnxyxnyxxy1221110ˆˆˆˆ.所以,iiixye10ˆˆˆ,ni,,1.残差是最重要的一种回归诊断量,它蕴涵了有关模型基本假设的许多重要信息.残差分析就是对残差进行统计处理,从中提炼出这些信息的方法.而残差图就是残差分析中使用的基本工具.所谓残差图就是残差ieˆ对因变量y或自变量nXXX,,21,,或其它导出统计量(如拟合值iyˆ)的点子图,有时候也用残差对时间或对数据序数的点子图.最简单的图,尤其在简单回归中,为残差ieˆ对拟合值iyˆ的图.所谓异常数据就是相对于其它观测值来说,具有大的残差的数据点.利用残差及残差图检验异常值的方法是用所给数据计算出残差ieˆ,与其余观测值的残差进行比较,具有大的残差的数据点被怀疑为异常值.然后作出自变量与因变量的散点图,残差ieˆ对拟合值iyˆ的残差图以及残差ieˆ对自变量ix的残差图,从图中观察,那些远离大多数观测点的孤立的点有理由被认为是异常点.然后从数据中删除这些点,再次估计回归方程,作出X与Y的8散点图以及ieˆ对iyˆ的残差图,计算标准差,与删除前进行比较.4提出两种处理方法4.1采用虚拟变量消除异常值的影响(1)虚拟变量某类变量(如性别、种族、颜色、宗教、国家、战争、地震等)常常表示某属性是否存在,如男或女,黑种人或白种人,教徒或非教徒,对于这类变量可用“数量化”方法设计人为变量来表示,如用“0”或“1”,“0”表示不存在某种属性,“1”表示存在该属性.例如:用“1”表示男性,“0”表示女性,或用“1”表示大学毕业,“0”表示没有大学毕业,等等.这样假设的变量,如“0”或“1”称为虚拟变量,也称为类型变量或属性变量,它的主要特点就是将一些可以划分为不同类型或属性的变量用“0”和“1”分别表示,即属于某一类型的变量用“1”表示,不属于这一类型的变量用“0”表示.这里用D表示虚拟变量.(2)处理异常值的方法在这里,我们用虚拟变量(0或1)把试验数据划分为两类,属于异常值一类用“1”表示,属于正常值一类用“0”表示.引入虚拟变量D,建立回归方程:01122221ˆˆˆˆˆpppYXXXD,其中nyyyY21,111,11212,121,1111ppnnpnxxdxxdXxxd
本文标题:回归分析中异常值的诊断与处理
链接地址:https://www.777doc.com/doc-2171757 .html