您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 统计学10.线性回归分析
第十章线性回归分析变量之间的关系有两种:确定型的函数关系不确定型的函数关系这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。但它们之间存在明显的相互关系(称为相关关系),又是不确定的。回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。例:人均收入X与人均食品消费支出Y的散点图的关系如图。1.一元线性回归是研究一个自变量与一个因变量的统计关系。一.一元线性回归人均收入X人均食品支出YuXY21这两个变量之间的不确定关系,可以用下式表示:式中,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1,2是待估计参数;u是随机干扰项,且与X无关,它反映了Y被X解释的不确定性。如果随机干扰项u的均值为0,对上式求条件均值,有XXYE21)(反映出从“平均”角度看,是确定性关系。例:地区的多孩率与人均国民收入的散点图如下:uLnXY21人均收入X多孩率Y这两个变量之间的不确定关系,大致可以用下式表示:设Z=LnX,可将上式线性关系为:uZY21线性回归的任务:就是用恰当的方法,估计出参数1,2,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参数估计问题。如果把X,Y的样本观测值代到线性回归方程中,就得到iiiuXY21i=1,2,…,n,n为样本容量.从重复抽样的角度看,Xi,Yi也可以视为随机变量。2.高斯基本假设对于线性回归模型iiiuXY21i=1,2,…,n,n为样本容量.高斯基本假设如下:(1)ui为随机变量(本假设成立,因为我们研究就是不确定关系).(2)E(ui)=0,随机干扰项的期望值等于零(本假设成立,如果其均值不是零,可以把它并入到1中).(3)Var(ui)=2u,随机干扰项的方差等于常数(本假设有可能不成立,以后讨论不成立时如何处理).(4)E(uiuj)=0(ij)随机干扰项协方差等于零(本假设有可能不成立,以后讨论不成立时如何处理).(5)ui服从N(0,2u)分布;(6)E(Xiuj)=0,对Xi的性质有两种解释:a.Xi视为随机变量,但与uj无关,所以(6)成立.b.Xi视为确定型变量,所以(6)也成立.3.普通最小二乘法(OLS)设线性回归模型XY21ˆˆˆuXY21其中2,1ˆˆ为1,2的估计值,则Y的计算值Ŷ,可以用下式表达:所要求出待估参数,要使Y与其计算值Ŷ之间的“误差平方和”最小.即:使得2,1ˆˆ22122)ˆˆ()ˆ(iiiXYeYYQ最小.为此,分别求Q对的偏导,并令其为零:2,1ˆˆ0ˆ,0ˆ21QQ由上两式,就可求出待估参数的值.2,1ˆˆ4.所求参数的计算公式YYyXXxxyxiiiiiii,,ˆ22其中,XY21ˆˆ2ˆ的另一个表达式为:xxyxxxyxTT,ˆ2例::在上述家庭可支配收入-消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表进行。参数估计的计算表iXiYixiyiiyx2ix2iy2iX2iY1800594-1350-9731314090182250094750864000035283621100638-1050-92997587011025008637841210000407044314001122-750-44533405056250019838119600001258884417001155-450-41218558020250017007428900001334025520001408-150-1592391022500254084000000198246462300159515028414022500762529000025440257260019694504021807202025001612836760000387696182900207875051138295056250026071284100004318084932002585105010181068480110250010355101024000066822251035002530135096312995101822500926599122500006400900求和21500156745769300742500045900205365000029157448平均21501567777.074250005769300ˆ21iiixyx172.1032150777.01567ˆˆ00XY因此,由该样本估计的回归方程为:iiXY777.0172.103ˆ5.几何解释残差向量e=Y–Ŷ=(Y-Y)-(Ŷ-Y)=y-ŷ向量y,ŷ,e三者之间关系如图所示,普通最小二乘法要使残差平方和e2i最小,也就是要使e的长度尽可能小,等价于在几何上ex.或者说,ŷ的长度应当是y在x上的投影长度.yxexy2ˆˆ二.多元线性回归本节要研究一个被解释变量(因变量),多个解释变量(自变量)的线性模型,即uXXYkk2211.基本假设(1)u为随机变量向量;(2)E(u)=0;(3)cov(u)=E(uuT)=2uIn(包含了两个其本假设:一是不存在序列相关,即ij时,cov(ui,uj)=E(uiuj)=0;二是具有同方差性(齐次方差性),即Var(ui)=2u).(4)u~N(0,2uIn)(5)E(XTu)=0,或者,X为确定矩阵nknkkXXXXXXX2222112111(6)秩(X)=k,(kn)2.普通最小二乘法估计式在模型中,代入样本观测值之后,可得nnkkknnuuXXXXYY1121221111用矩阵方式表达为Y=X+u其中,Y=(Y1,Y2,…,Yn)Tu=(u1,u2,…,un)T=(1,2,…,k)T若估计出,则有Tk)ˆ,,ˆ,ˆ(ˆ21ˆˆXY所以eˆYY于是有eˆeˆXYY两边左乘XT,得eˆTTTXXXYX由几何解释XTe,故有XTe=0,所以可以求出:YXXXTT1)(ˆ这就是普通最小二乘法估计系数公式.3.估计系数的性质ˆ高斯-马尔柯夫定理:在模型的基本假设下,所估计的参数值是最优的.ˆ即,满足最小方差性,线性的、无偏的,且有0)ˆcov(limn4.的方差及分布ˆ1212)()ˆvar()()ˆcov(jjTujTuXXXX表示矩阵的对角线元素,简记cjj.1)(jjTXX1)(XXT(注:为向量)ˆ所以,jjujjujccjˆˆ,)ˆvar(ˆ2即可以证明:(1)(2)分布。)(服从分布。),(服从1)ˆ(ˆ2222jjujjjjujjccN5.干扰项方差的无偏估计得到回归系数后,就可以得到Y的计算值如下:kkXXYˆˆˆˆ221从而有残差值eiiiiYYeˆ向量e由ei组成,niie122e称为残差平方和,记为Q.且knTueeˆ2为的无偏估计量。2uR2称为判定系数,它反映了回归效果的好坏.其定义可以从线性回归的几何解释中引出.多元回归的几何解释的图形与一元回归的几何解释图形完全相同,只是横坐标x不再表示一个变量,而是表示k-1个变量.6.判定系数R2判定系数R2的定义为:2222cosˆyyReyxxy2ˆˆ式中,,其经济解释为YYyYYyXXxiiiiiiˆˆ,,已解释变差占总变差的百分比.判定系数R2的另一种表达:7.回归效果的F检验检验回归效果的F统计量的定义式为:niiniiyeyeyeyyyR12122222222211ˆ)/(1/ˆ22knekyF)(未解释方差已解释方差服从F(k-1,n-k)分布.F越大越好.当计算出的统计值ff(k-1,n-k),就表示回归效果是好的,在水平下,已解释方差(Y的变化中已经解释的部分)明显大于未解释方差(Y的变化中尚未解释的部分).8.F与R2的关系F统计量与R2的统计量的关系,可以从下式的推演中看到:推演中用到勾股定理:。222222111//ˆRRkknkknyeyyF222ˆyye一个二元线性回归的例子销售额、人口数和年人均收入数据地区编号销售额(万元)y人口数(万人)x1年人均收入(元)x21234567891033.335.527.630.431.953.135.629.035.134.532.429.126.331.229.240.729.823.028.226.91250165014501310131015801490152016201570【例】一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度,对线性关系和回归系数进行显著性检验(=0.05)。一个二元线性回归的例子(Excel输出的结果)SUMMARYOUTPUT回归统计MultipleR0.968159025RSquare0.937331897AdjustedRSquare0.919426725标准误差2.010050279观测值10方差分析dfSSMSFSignificanceF回归分析2423.01789211.5089452.349786.1612E-05残差728.2821154.0403021总计9451.3Coefficients标准误差tStatP-valueLower95%Upper95%Intercept-38.82516948.4785911-4.5792010.002546-58.873837-18.7765XVariable11.3406936180.14331599.35481473.31E-051.001805621.679582XVariable20.0228022930.00475424.79621720.0019750.011560350.03404411)1(122pnnRR调整1)ˆ(12pnyySniiy一个二元线性回归的例子(计算机输出结果解释)销售额与人口数和年人均收入的二元回归方程为2.多重判定系数R2=0.9373;调整后的R2=0.91943.回归方程的显著性检验F=52.3498FF0.05(2,7)=4.74,回归方程显著4.回归系数的显著性检验t=9.3548t=0.3646,;t2=4.7962t=2.3646;两个回归系数均显著一个含有四个变量的回归9.校正的判定系数(AdjustedR2)统计量R2中不含有自由度。所谓校正的判定系数,就是指“考虑了自由度的判定系数R2adj”。其定义如下:knnRnykneRadj1)1(1)1/()/(1222这样,R2adj剔除了自由度的影响。10.回归系数的T检验假设Ho:j=0;备择假设H1:j0(即Ho不成立).用统计量:服从t(n-k),可以完成上述假设检验.当时,H1成立,即j显著异于0.jjjtˆˆˆ(n5时,若取=0.05,则当t2时,有H1成立,即j显著异于0)针对回归系数的t统计量的显著性检验,决定了相应的变量能否作为解释变量进入回归方程.)(2kntt注意:1ˆ)(,ˆˆjjTjjjjuXXccj11.回归系数的置信区间得到区间为水平上的置信
本文标题:统计学10.线性回归分析
链接地址:https://www.777doc.com/doc-2138369 .html