您好,欢迎访问三七文档
第四章多元线性回归模型经典多元回归模型回归分析的机理经典回归模型及其参数估计残差分析与假设检验含有虚拟变量的回归线性回归过程一、回归分析的机理任意抽出一个妇女,试猜测其体重如何猜?准确性如何?猜平均体重,最大偏差:26如何猜得更准确?影响体重的最直接因素是身高:一般身高高的人体重大。平均身高:62.85inch,标准差:3.3以平均身高分界:最大偏差20E(weight/height)=b0+b1height,09.4ˆ,134ˆ10bb例:20个妇女的体重资料如表,平均体重:123.6pound,标准差:15.5最低体重:93pound,最大体重:155一个身高60的妇女体重平均111.5,最大偏差12heighttweigh09.4134ˆ身高INCH7068666462605856体重POUN1601501401301201101009093155体重均值123.6猜体重平均值,最大偏差:268.4606)(2wwi总变异身高INCH7068666462605856体重POUN16015014013012011010090身高相同的人体重不一定相同平均来看,体重随身高的增加而增加身高INCH7068666462605856体重POUN16015014013012011010090平均身高62.85134.0113.2以平均身高分界,高于平均身高猜134,低于平均身高猜113.2:最大偏差20能不能猜得更准?身高INCH7068666462605856体重POUN16015014013012011010090heighttweigh09.4134ˆ这条直线的含义是什么?一个身高60的妇女体重平均111.5,最大偏差12观测值weighti估计值weight残差iiietweighweightˆ身高INCH7068666462605856体重POUN16015014013012011010090highttweigh09.4134ˆ%8.73%100*8.46063.33995.1207)ˆ((3.3399)ˆ(8.4606)(2222R回归线的解释程度残差平方和)剩余变异身高解释的变异总变异身高体重总体回归线通常,身高高的人体重大。同样身高的人体重不同,即在给定身高下,体重有一个分布。大样本下为正态分布。总体回归线反映了给定身高下,体重的平均水平:E(weight/height)=b0+b1height,b0,b1是未知的参数iiiheightbbweight10实际体重:已知20个妇女的身高体重资料以此为样本估计总体参数样本回归线iiieheightbbweightheightbbtweigh1010ˆˆˆˆˆ为什么要有回归分析的任务:从样本回归线估计总体回归线heighttweigh09.4134ˆheightbbweightheightbbheightweightE1010)/(其随机形式:总体回归函数:总体回归函数说明在给定的身高下,体重平均水平。但对某一个妇女,其体重可能与该平均水平有偏差。被解释变量观察值围绕其期望值的离差,是一个不可观测的随机变量,称为随机误差项。)()/(10iiiiiheightbbweightheightweightEweightweightheight为什么要设随机误差项?在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其它随机因素的影响。产生并设计随机误差项的主要原因:理论的模糊性;数据的欠缺;节省原则;weightheight样本回归函数从被研究总体中随机抽取n个样本(本例n=20),利用样本观测数据可得到样本回归函数:样本回归函数是对总体回归函数的一个估计对某一个妇女,其体重观测值不会恰好等于估计值,而是会有残差残差是对随机误差项的一个估计heightbbtweigh10ˆˆˆiiieheightbbweight10ˆˆ回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。iiiiieXeYY10ˆˆˆiiiiiXXYEY10)|(一、回归分析的机理任意抽出一个妇女,试猜测其体重影响体重的最直接因素是身高:利用身高与体重的关系推测如何猜得更准确(提高回归线的解释程度R2)?除了身高,还有哪些因素影响体重?例:20个妇女的体重资料hightbbweight10实际体重:%8.73%100*8.46063.33992R回归线的解释程度iimotherhightweight210实际体重:heighttweigh09.4134ˆ二、经典回归模型及其参数估计多元回归模型及其经典假设多元回归模型的参数估计偏回归系数的含义1.多元回归模型及其经典假设找到导致被解释变量变化的主要因素作为解释变量,构建多元回归模型:设因变量Y是k个解释变量X1,…Xk和误差项的线性函数:其中:0为常数项,1,…k为偏回归系数,i为随机误差项对容量为n的样本,这一模型实际上包含n个方程:y1=0+1x11+kxk1+1……yn=0+1x1n+kxkn+n总体回归模型ikikiiXXY110多元回归模型的矩阵表示nkknnkknxxxxxxyy211012121111111注意:解释变量个数为k,参数个数为k+111)1()1(1nkknnμβxy样本回归函数(SRF)kikiiiiXXXYˆˆˆˆˆ22110ikikiiiieXXXYˆˆˆˆ22110ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。•样本回归函数的矩阵表达:βXYˆˆeβXYˆkˆˆˆˆ10βneee21e多元回归模型的经典假设假设1:x1,x3,…xk是非随机的。假设2:E(i)=0i=1,2,…n假设3:同方差Var(i)=2(E(ii)=2)假设4:无序列相关,cov(ij)=E(ij)=0假设5:x诸变量间无准确的线性关系,即:无多重共线性。不存在一组不全为零的数1、2、…k,使得:1x1i+2x2i+…+kxki=0假设6:iN(0,2)ikikiiXXY110关于多重共线性的进一步说明如果存在一组不全为零的数1、2、…k,使得:1x1i+2x2i+…+kxki=0不妨设10,则上式可变为:x1i=-(2x2i+…+kxki)/1称解释变量之间存在完全共线性,此时,某个解释变量可以写为其它解释变量的线性组合。如果,会不会破坏无多重共线假定?223iixx不会,因为这两个变量的关系是非线性的!!经典假设的矩阵表示假设2:0000)()()()(2121nnEEEEEμnnnnnnnnEEEI222222122212121212121000000)'(假设3和4:假设5:矩阵x的秩等于回归参数的个数(或解释变量个数加1),R(x)=k+1,nk2.回归参数的普通最小二乘估计:残差平方和最小kjniXYjii,2,1,0,,,2,1),,(KikiiiiXXXYˆˆˆˆˆ221100ˆ0ˆ0ˆ0ˆ210QQQQk2112)ˆ(niiiniiYYeQ2122110))ˆˆˆˆ((nikikiiiXXXY已知假定kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ(221102222110112211022110kjj,,2,1,0,ˆ正规方程组•正规方程组的矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111ˆˆˆYXβX)X(ˆYXXXβ1)(ˆ条件?点估计•OLS估计的矩阵表示0)ˆ()ˆ(ˆβXYβXYβ0)ˆˆˆˆ(ˆβXXββXYYXβYYβ0ˆβXXYXYXXXβ1)(ˆβXXYXˆ)ˆ()ˆ(12βXYβXYeeniieQH)y(IyyexxxxHHyyxxxxβxyxxβyxxxβˆ,)(,)(ˆˆ)()ˆvar()(ˆ'1''1'1'2'1'正规方程组的另一种表达βXXYXˆβXXeXβXXˆˆ0eX001,2,,iiijiieXejk该正规方程组成立的条件是什么?可以证明,随机误差项的方差的无偏估计量为:11ˆ22knkneiee⃟随机误差项的方差的无偏估计例:二元回归模型的参数估计iiiiixxy22110)1()ˆ(2212121rxVari2212221212211)())(())(())((ˆiiiiiiiiiiixxxxxxxyxxy1的置信区间:)ˆ(ˆ)ˆ(ˆ1211121SetSet)ˆ()ˆ(OLS111VarSe估计量的标准误为:的OLS参数估计量的性质在满足基本假设的情况下,其结构参数的普通最小二乘估计具有:线性性、无偏性、有效性。同时,随着样本容量增加,参数估计量具有:渐近无偏性、渐近有效性、一致性。样本容量问题所谓“最小样本容量”,即从最小二乘原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。1)最小样本容量样本最小容量必须不少于模型中解释变量的数目(包括常数项),即n≥k+1因为,无多重共线性要求:秩(X)=k+12)、满足基本要求的样本容量•从统计检验的角度:n30时,Z检验才能应用;n-k≥8时,t分布较为稳定•一般经验认为:当n≥30或者至少n≥3(k+1)时,才能说满足模型估计的基本要求。•模型的良好性质只有在大样本下才能得到理论上的证明3.偏回归系数的含义二元回归模型为:yi=1+2x2i+3x3i+i偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。1)偏相关系数简单相关:两个变量之间线性关联的紧密程度偏相关定义:在多个变量y,x1,x2,…xk之间,如果只考虑两个变量之间的真实相关关系,而排除其他变量对它们的影响(或者说其他变量保持不变),这种相关成为偏相关。例控制第三变量某地15名13岁男童身高x1(cm)、体重x2(kg)、和肺活量y
本文标题:应用统计学回归分析
链接地址:https://www.777doc.com/doc-2420469 .html