您好,欢迎访问三七文档
多元线性回归预测法多元线性回归模型估计回归参数多元线性回归模型的检验预测区间标准化回归系数一、多元线性回归模型设随机变量y与x1,x2,…,xp一般变量的线性回归模型为iippiiixxxy22110(4-20)其中,是p+1个未知参数,称为回归常数,称为回归系数。y称为因变量,而x1,x2,…,xp是p个可以精确测量并可控制的一般变量,称为自变量。是随机误差,对随机误差项假定p,,,100p,,1ijijiEDjiii,0,,cov022ni,,2,1nji,,2,1,对一个实际问题,如果我们获得n组观测数据(xi1,xi2,…,xip;yi),i=1,2,…,n,则线性回归模型式(4-20)可表示为nnppnnnppppxxxyxxxyxxxy2211022222211021112211101写成矩阵形式为XBy(4-21)其中npnpnnppnBxxxxxxxxxXyyyy211021222211121121,111,(4-22)二、估计回归参数1.回归系数B的估计采用最小二乘法估计,设观察值与模型估计值的残差为E,则XBYYYEˆˆ其中(4-23)根据最小平方法要求,应有最小值)ˆ()'ˆ('YYYYEE即最小值)()'('XBYXBYEE由极值原理,根据矩阵求导法则,对B求导,并令其等于零,则得0'2''2'''2'''BXXXYBXBXBXBYYYBXBYXBYBEE整理得回归系数向量B的估计值YXXXB''ˆ1(4-24)2.二元线性回归方程回归系数的估计二元线性回归方程为)2(,ˆˆˆˆ22110pxxyiii此时2122211211210111,ˆˆˆˆnnxxxxxxXB得出的计算公式如下:210ˆ,ˆ,ˆniniiiniiniiiniiniiniiniiixxxxxxxxxxnXXA12121121211211112112'(4-25)niniiiniiiniiiniiniiiniiniiniiixxxyxxxxyxxxyA12121121211211112111021ˆniniiiniiniiiniiiniiniiniiixyxxxxyxxxynA1211121211111121121ˆniiniiiniiniiiniiniiniiniiyxxxxyxxxyxnAi1121121112111111221ˆ(4-28)(4-27)(4-26)以上计算公式较繁,较易算的计算公式为,1111niixnx,1122niixnxniiyny11,211111niixxS212222niixxS,2121111221xxxxSSnii,1111yyxxSiniiyyyxxSiniiy1222211222111222211ˆSSSSSSSSyy211222112111122ˆSSSSSSSSyy2210ˆˆˆxxy(4-30)(4-29)(4-31)三、多元回归模型的检验1.复相关系数检验检验线性关系密切程度的指标称为相关系数,在多元回归模型中,由于自变量在两个以上,所以称为复相关系数.样本复相关系数的计算公式是2222ˆˆ1yyyyyyyyRiiiiii(4-32)复相关系数检验的步骤为:第一步,计算复相关系数二元回归方程复相关系数的计算常用其简捷公式22231212ˆˆˆ1ynyyxyxyyRiiiiiii(4-33)三元回归方程R计算常用其简捷公式2234231212ˆˆˆˆ1ynyyxyxyxyyRiiiiiiiii(4-34)第二步,根据回归模型的自由度n-p和给定的显著性水平值查相关系数临界表,得值pnR第三步,判断。若,表明变量之间线性相关显著,检验通过,这时回归模型可用来进行预测。若,表明变量之间线性相关关系不显著,检验通不过,这时的回归模型不能用来预测,应分析原因,对回归模型重新加以处理。pnRRpnRR2.拟合优度检验拟合优度用于检验回归方程对样本观测值的拟合程度。定义复可决系数R222222ˆˆ1yyyyyyyyRiiiii(4-35)102R复可决系数R2是检验多元线性回归模型拟合优度的度量指标,R2越接近1,表示拟合得越好;反之,则拟合得不好。)1/()/(ˆ1222nyypnyyRiii定义一个校正R2,记为2R(4-36)这里,n-p是残差平方和的自由度,n-1是总离差平方和的自由度。根据式(4-35)和(4-36)可得与之间关系如下2iiyy2yyipnnRR1)1(122(4-37)(1)当时,。说明中包含了自变量个数的影响,随着自变量个数的增加,总小于.(2)尽管总是非负的,但都可能为负。若为负,取值为0。1p22RR2R2R2R2R2R2R2R2R3.回归方程的显著性检验—F检验原假设0:210pH如果H0被接受,则表明随机变量y与x1,x2,…,xp之间的关系由线性回归模型表示不合适。F检验程序如下:第一步,计算统计量F的值。22ˆˆ)1/(/iiiyyQyyUpnQpUF(4-38)第二步,对给定的显著性水平,查F分布表,得临界值1,pnpF第三步,判断。若,则认为回归方程有显著意义,也就是p1=p2=…=pp=0不成立;反之,则认为回归方程不显著.1,pnpFFF统计量与可决系数,相关系数有以下关系:FppnFpRppnRRF111122(4-39)(4-40)4.回归系数的显著性检验——t检验检验假设pjHj,,2,1,0:0如果接受原假设H0j,则xj不显著;如果拒绝原假设H0j,则xj是显著的。t检验的具体步骤如下:第一步,计算估计标准误差其中二元和三元估计标准误差的简捷公式分别为1ˆ2pnyySiiy(4-41)4ˆˆˆˆ3ˆˆˆ34231212231212nyxyxyxyySnyxyxyySiiiiiiiiyiiiiiiy第二步,计算样本标准差式中Cjj为矩阵(X’X)-1对角线上第j个元素。第三步,计算t统计量(4-43)(4-42)(4-44)(4-45)yjjScSjˆpjStjjj,,2,1ˆˆ第四步,对给定的显著水平,查自由度为n-p的t分布表,得。第五步,判断。若,则回归系数与零有显著差异,必须保留在原回归方程中,否则应去掉重新建立回归方程。pnt2pnttj2||jˆjxjx5.自相关检验—DW检验(1)DW检验niiniiieeeDW12121(4-46)其中:,是的估计值。因的最初序号也必须是1,所以分子求和公式必须从2开始。将式(4-46)展开,得iiiyyeˆiniiniiniiiniieeeeeDW1222121222(4-47)1ie在大样本情况下,即n30,可以认为所以上式可以写成(4-48)R1是与的相关系数的估计量。当与正自相关时,R11,DW0;当与负相关时,R1-1,DW4;若不存在自相关或相关程度很小时,R10,DW2。从式(4-48)可以看出,DW值在0~4之间。niiniiniieee2222122)1(21212221ReeeDWniiniiii1i1i1ii1i根据DW统计量,检验模型是否存在自相关,其步骤如下:第一步,利用最小平方法求回归模型及残差;第二步,利用式(4-46)、(4-47)或(4-48)可以计算DW统计量;第三步,确立假设,即假定回归模型不存在自相关;第四步,根据给定的检验水平及自变量个数p从DW检验表中查得相应临界值。第五步,判断。DW的取值域在0~4之间。在DW小于等于2时,DW检验法则规定:如DW认为存在自相关;如DW,认为无自相关;如DW,不能确定是否存有自相关ie0:10HULdd,,LdUdii,LdUdi在DW大于2时,DW检验法则规定:如4-DW4,认为存在负自相关;如4-DW,认为无自相关;如4-DW,不能确定是否有自相关。由图4-2可以看出,值等于2时为最好。根据经验,DW统计量在1.5~2.5之间时表示没有显著自相关问题。LdiUdiLdUdif(DW)DW2dL0dU4-dU4-dL4无自相关区负相关区无结论区负相关区正相关区无结论区图4-2DW统计量的范围与有无序列相关的范围关系图从图4-2可看出,DW检验的最大弊端是存在着无结论区域。无结论区域的大小与样本容量n和自变量个数p有关。当n一定时,p愈大,无结论区域也愈大;当p一定时,n愈大,无结论区就愈小。如果计算的DW统计量落到了无结论区域,那么,决策者就不能做出回归模型是否存在自相关现象的结论。(2)产生自相关的原因及补救办法当检验结果出现和情况时,说明随机误差项相互独立的假设不能成立,回归模型存在相关。在实际预测中,产生自相关的原因可能是:(i)忽略了某些重要的影响要素。(ii)错误地选用了回归模型的数学形式。(iii)随机误差项本身的确是相关的。合适的补救办法是:(i)把略去的重要影响因素引入回归模型中来。(ii)重新选择合适的回归模型形式。(iii)增加样本容量,改变数据的准确性。LdDW044DWdLi6.多重共线性检验多重共线性检验的步骤如下:第一步,计算任何两个自变量和间的相关系数为22jjiijjixxxxxxxxxxrji第二步,对自变量作中心标准化,则X’X=(rij)为自变量的相关阵。记C=(cij)=(X’X)-1称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(VIF).经验表明,当时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。(4-49)(4-50)10jVIF四、预测区间多元回归模型的预测值和预测区间计算步骤如下:(1)计算估计标准误差(2)记预测点为X0=(X01,X02,…,X0P),则预测值为pnyySiiy2ˆ(4-51)BXyˆˆ00预测误差的样本方差为000ˆyye'010220)'(1XXXXSSy(4-52)(3)当预测值的显著性水平为时,多元线性回归模型的预测区间为0ˆy(4-52)(4-53)由于这里X0的是一个影响因素数据向量,按公式(4-52)计算S0较复杂,故在实际预测中,一般运用SY代替S0近似地估计预测区间.30,30,)(02/002/0nSZynSpnty五、标准化回归系数如果先
本文标题:多元线性回归预测法
链接地址:https://www.777doc.com/doc-6049035 .html