您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第三讲-多元线性回归模型检验及stata软件应用
第四章多元线性回归模型检验拟合优度检验方程的显著性检验(总参数的F检验)变量的显著性检验(单参数的t检验)构造置信区间3.2拟合优度检验可决系数与调整的可决系数1.总离差平方和的分解2222)ˆ()ˆ)(ˆ(2)ˆ())ˆ()ˆ(()(YYYYYYYYYYYYYYTSSiiiiiiiiii观测值对均值的分散程度、偏离程度拟合值对均值的分散程度、偏离程度观测值对拟合值的分散程度、偏离程度)ˆ()ˆ)(ˆ(YYeYYYYiiii由于=0所以有:ESSRSSYYYYTSSiii22)ˆ()ˆ(有意思的是:222222ˆˆˆˆˆˆYYYYYYYYYYYYYYYYYYiiiiiiiiiiii条件:模型必须有截距项2.可决系数TSSRSSTSSESSR12该统计量越接近于1,模型的拟合优度越高。问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大(?)这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。3.调整的可决系数在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:n-k为残差平方和的自由度,n-1为总体平方和的自由度。2/()1/(1)RSSnkTSSnR221()11nnkRR一、方程的显著性检验(F检验)方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。1、检验假设即检验模型Y=1+2X2++kXk+中的参数i是否显著不为0。可提出如下原假设与备择假设:H0:2=3==k=0H1:i不全为03.3统计推断F检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS由于回归平方和2ˆiyESS是解释变量X的联合体对被解释变量Y的线性作用的结果,考虑比值22ˆ/iieyRSSESS如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。根据数理统计学中的知识,在原假设H0成立的条件下,统计量服从自由度为(k-1,n-k)的F分布给定显著性水平,可得到临界值F(k-1,n-k),由样本求出统计量F的数值,通过FF(k-1,n-k)或FF(k-1,n-k)来拒绝或不能拒绝原假设H0,以判定原方程总体上的线性关系是否显著成立。2.检验统计量/(1)(1,)/()ESSkFFknkRSSnk~p值检验法为了方便起见,将F统计量的值记为F0计算p=P{FF0}称为p值(p-value)如果p,则p/2/2,F0落入不能拒绝域,不能拒绝H0,如果p,落入拒绝域,应拒绝H0。准则:当P值小于显著性水平时,方程在给定显著性水平下是显著的当P值大于显著性水平时,方程在给定显著性水平下是不显著的。pF0F不能拒绝域拒绝域3.关于拟合优度检验与方程显著性检验的关系2/()1/(1)RSSnkTSSnR/(1)/()ESSkFRSSnk由与可推出211(1)nnkkFR或2/2/()(1)()1kRFnkR二、变量的显著性检验(t检验)方程的总体线性关系显著每个解释变量对被解释变量的影响都是显著的因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的t检验完成的。1.检验假设H0:i=0(i=1,2…k)H1:i02.检验统计量2250Nntn当用正态已知时当未知时也可用正态N用分布很小(1)t变量()()iiiibtbSb其中1()()iXXSbS12(,)()iiiiXXbN~(2)t检验统计量给定显著性水平,可得到临界值t/2(n-k),由样本求出统计量t的数值,通过|t|t/2(n-k)或|t|t/2(n-k)来拒绝或不能拒绝原假设H0,从而判定对应的解释变量是否应包括在模型中。3.判断**关于P值:以t统计量的观测值作为临界值,并计算该检验的响应显著水平,这就是P值。若H0为真,则()()()iiibtnktbSb~P值检验法(p-valuetest)p值的概念:为了方便,将t统计量的值记为计算p=P{|t|t0}称为p值(p-value)通常的计量经济学软件都可自动计算出p值jjSet0如果p,则p/2/2,t0落入拒绝域,应拒绝H00-t/2t/2/2/2不能拒绝H0拒绝H0拒绝H0t0p/2p/2当P值小于等于给定显著性水平时,所研究的解释变量对被解释变量的影响在该显著性水平下是显著的;当P值大于给定显著性水平时,所研究的解释变量对被解释变量的影响在该显著性水平下是不显著的。4.两类错误H0真H0伪不拒H0对取伪Ⅱ拒H0拒真Ⅰ对Ⅰ:拒真。把不应该引入的变量引入模型,导致多列无关变量,造成虽然参数估计值是无偏,但标准差会大。若不想犯第一类错误,则显著水平需要定得小点。Ⅱ:取伪。把该引入的变量没有引入模型遗漏变量造成参数估计量有偏。三、参数的置信区间1.问题的提出(1)区间kkkkkkkkbrbbrr误差注意:不是先有区间,让掉进去,而是先有,再找个区间把它罩住。kk(2)置信度置信度=把握程度比如,置信度=95%的意思是在100个区间里,有95个区间包括。k2.的置信区间k2()()kknkSbrt对称区间,中心是bk,半径是()()kkkkbtbSb2()1()nkkptbt1kkkkkbbPrr如何才能缩小置信区间?•增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;•提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。•提高样本观测值的分散度,一般情况下,样本观测值越分散,的分母的的值越大,致使区间缩小。1()XXXXreggrwkfearSourceSSdfMSNumberofobs=15F(3,11)=40.26Model121450643340483547.7ProbF=0.0000Residual11062414.3111005674.02R-squared=0.9165AdjR-squared=0.8938Total132513057149465218.37RootMSE=1002.8grCoef.Std.Err.tPt[95%Conf.Interval]wk-.0794269.5062903-0.160.878-1.1937641.034911fe4.469721.51863718.620.0003.3282085.611233ar.6956167.08340038.340.000.5120539.8791796_cons-43740.3216648.64-2.630.024-80383.72-7096.921F值R2P值调整的R2T值p值置信区间系数回归平方和残差平方和总平方和标准差Stata操作命令行格式:最常用的方法use“d:\data\auto.dta”,clear/*打开数据库*/regressyx1x2x3菜单格式:Stata8以后开始有菜单选择菜单进行操作后,在命令栏里可以看到命令行格式是如何写的。Stata操作读取数据用use命令调入数据:dta格式数据use“d:\stata\data\auto.dta”,clearExcel格式数据的读取直接拷贝,粘贴到stata中使用Stattransfer把其它格式的数据转成stata格式的数据读入ASCII格式数据文件:比较麻烦常见数据格式Stata格式:dta文本格式:txtExcel格式:xls其它格式:sas、spss、gauss等Stata的主要功能数据管理:datamanagement统计功能:statistics作图功能:graphics矩阵运算:matrix程序设计:programming数据管理作图功能统计功能数据管理数据读取编辑数据产生或改变变量:gen,egen,保存数据库合并和添加数据:merge,append数据集的重新组织:reshape调用数据库程序讲解(E:\panel)调用数据库程序讲解(E:\zhy-apple)相同的变量上下连接按关键变量横向连接产生或改变变量genreplaceegen(对gen的扩展,与一些函数结合使用,如mean,count,min,max等)产生虚拟变量tabulatevid,gen(vdummy)Xi:regyx1x2i.vid变量的命名:性别:gender1=female,0=male不好female1=female,0=male调用数据库程序讲解(E:\panel)产生变量bysorthhid:genorder=_nbysorthhid:gennumber=_N_n:是产生排序的数列_N:产生总数调用数据库程序讲解(E:\panel)给数据或变量加注释Labeldata“Investment:cfliu2006”labelvariablev1county“labeldefine与labelvalues是一起使用的。而labelvariable是单独使用的。另外,比如有个变量gender的值为0和1,1表示male0表示female。你如果用tablegenderx1,会发现是按照01来显示分类的。你如果用了.labeldefinegendervalue0female1male.labelvaluesgendergendervalue在执行tablegenderx1,则是按照female和male来分类的。但gender还是原来的变量类型,如原来是数值型,现在还是。虽然listsex显示为femalemale,但仍然可以按照0或1来操作.调用数据库程序讲解(E:\zhy-apple)数据集的重新组织reshapecollapsecollapse(mean)c,by(t)调用数据库程序讲解(E:\panel)Thelong-longformThewide-yearlong-sexformThewide-wideformThelong-yearwide-sexformReshape命令详细解释:包括矩阵转置等Reshape命令*Fromlong-longformtolong-wideformreshapewide@inc,i(hidyear)j(sex)string*Fromlong-wideformtolong-longformreshapelong@inc,i(hidyear)j(sex)string*Fromlong-longformtowide-longformreshapewideinc,i(hidsex)j(year)*Fromwide-longformtolong-longformreshapelonginc,i(hidsex)j(year)*Fromlong-wideformtowide-wideformreshapewidemincfinc,i(hid)j(year)*Fromwide-wideformtolong-wideformreshapelongmincfinc,i(hid)j(year)*Fromwide-longformtowide-wideformreshapewide@inc90@inc9
本文标题:第三讲-多元线性回归模型检验及stata软件应用
链接地址:https://www.777doc.com/doc-1660942 .html