您好,欢迎访问三七文档
第四章多元线性回归模型经典多元回归模型回归分析的机理经典回归模型及其参数估计残差分析与假设检验偏回归系数的经济含义含有虚拟变量的回归线性回归过程一、回归分析的机理任意抽出一个妇女,试猜测其体重如何猜?准确性如何?猜平均体重,最大偏差:31如何猜得更准确?影响体重的最直接因素是身高:一般身高高的人体重大。平均身高:62.85inch,标准差:3.3以平均身高分界:最大偏差21E(weight/height)=b0+b1height,09.4ˆ,134ˆ10bb例:20个妇女的体重资料如表,平均体重:123.6pound,标准差:15.5最低体重:93pound,最大体重:155一个身高60的妇女体重平均111.5,最大偏差12heighttweigh09.4134ˆ身高INCH7068666462605856体重POUN1601501401301201101009093155体重均值123.6猜体重平均值,最大偏差:318.4606)(2wwi总变异身高INCH7068666462605856体重POUN16015014013012011010090身高相同的人体重不一定相同平均来看,体重随身高的增加而增加身高INCH7068666462605856体重POUN16015014013012011010090平均身高62.85134.0113.2以平均身高分界,高于平均身高猜134,低于平均身高猜113.2:最大偏差21能不能猜得更准?身高INCH7068666462605856体重POUN16015014013012011010090heighttweigh09.4134ˆ这条直线的含义是什么?一个身高60的妇女体重平均111.5,最大偏差12观测值weighti估计值weight残差iiietweighweightˆ身高INCH7068666462605856体重POUN16015014013012011010090highttweigh09.4134ˆ%8.73%100*8.46063.33995.1207)ˆ((3.3399)ˆ(8.4606)(2222R回归线的解释程度残差平方和)剩余变异身高解释的变异总变异身高体重总体回归线通常,身高高的人体重大。同样身高的人体重不同,即在给定身高下,体重有一个分布。大样本下为正态分布。总体回归线反映了给定身高下,体重的平均水平:E(weight/height)=b0+b1height,b0,b1是未知的参数iiiheightbbweight10实际体重:已知20个妇女的身高体重资料以此为样本估计总体参数样本回归线iiieheightbbweightheightbbtweigh1010ˆˆˆˆˆ为什么要有回归分析的任务:从样本回归线估计总体回归线heighttweigh09.4134ˆheightbbweightheightbbheightweightE1010)/(因变量观测值:总体回归函数:总体回归函数说明在给定的身高下,体重平均水平。但对某一个妇女,其体重可能与该平均水平有偏差。被解释变量观察值围绕其期望值的离差,是一个不可观测的随机变量,称为随机误差项。)()/(10iiiiiheightbbweightheightweightEweightweightheight为什么要设随机误差项?在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其它随机因素的影响。产生并设计随机误差项的主要原因:理论的模糊性;数据的欠缺;节省原则;weightheight样本回归函数从被研究总体中随机抽取n个样本(本例n=20),利用样本观测数据可得到样本回归函数:样本回归函数是对总体回归函数的一个估计对某一个妇女,其体重观测值不会恰好等于估计值,而是会有残差:残差是对随机误差项的一个估计heightbbtweigh10ˆˆˆiiiieheightbbetweighweight10ˆˆˆtweighweighteiˆ回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。iiiiieXeYY10ˆˆˆiiiiiXXYEY10)|(一、回归分析的机理任意抽出一个妇女,试猜测其体重影响体重的最直接因素是身高:利用身高与体重的关系推测如何猜得更准确(提高回归线的解释程度R2)?除了身高,还有哪些因素影响体重?例:20个妇女的体重资料hightbbweight10实际体重:%8.73%100*8.46063.33992R回归线的解释程度iimotherhightweight210实际体重:heighttweigh09.4134ˆ回归建模过程模型设定确定模型包含的变量:回归模型自变量:导致因变量变化的重要因素综合考虑数据的可获得性和数据质量模型设定错误:美国人均CO2排放与中国人均GDP(谬误回归)确定模型的数学形式确定随机扰动项的概率分布特性拟定模型中待估计参数的理论期望值区间回归分析vs方差分析方差分析因素不同水平(分类变量)对响应变量的影响总变异分解为组间变异(因素影响)与组内变异(随机因素影响)模型检验:F检验组间变异是否显著大于组内变异回归自变量不同水平(连续变量)对因变量的影响总变异分解为自变量影响(回归平方和)与随机因素影响(残差平方和)模型总体显著性检验F检验:回归平方和是否显著大于残差平方和估计效应量二、经典回归模型及其参数估计多元回归模型多元回归模型的参数估计经典假设及参数估计量的性质样本容量问题1.多元回归模型找到导致被解释变量变化的主要因素作为解释变量,构建多元回归模型:设因变量Y是k个解释变量X1,…Xk和误差项的线性函数:其中:0为常数项,1,…k为偏回归系数,i为随机误差项对容量为n的样本,这一模型实际上包含n个方程:y1=0+1x11+kxk1+1……yn=0+1x1n+kxkn+n总体回归模型ikikiiXXY110多元回归模型的矩阵表示nkknnkknxxxxxxyy211012121111111注意:解释变量个数为k,参数个数为k+111)1()1(1nkknnμβxy样本回归函数(SRF)kikiiiiXXXYˆˆˆˆˆ22110ikikiiiieXXXYˆˆˆˆ22110ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的一个点估计。•样本回归函数的矩阵表达:βXYˆˆeβXYˆkˆˆˆˆ10βneee21e2.回归参数的普通最小二乘估计:残差平方和最小kjniXYjii,2,1,0,,,2,1),,(KikiiiiXXXYˆˆˆˆˆ221100ˆ0ˆ0ˆ0ˆ210QQQQk2112)ˆ(niiiniiYYeQ2122110))ˆˆˆˆ((nikikiiiXXXY已知假定kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ(221102222110112211022110kjj,,2,1,0,ˆ正规方程组•正规方程组的矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111ˆˆˆYXβX)X(ˆYXXXβ1)(ˆ条件?点估计•OLS估计的矩阵表示0)ˆ()ˆ(ˆβXYβXYβ0)ˆˆˆˆ(ˆβXXββXYYXβYYβ0ˆβXXYXYXXXβ1)(ˆβXXYXˆ)ˆ()ˆ(12βXYβXYeeniieQH)y(IyyexxxxHHyyxxxxβxyxxβyxxxβˆ,)(,)(ˆˆ)()ˆvar()(ˆ'1''1'1'2'1'正规方程组的另一种表达βXXYXˆβXXeXβXXˆˆ0eX001,2,,iiijiieXejk该正规方程组成立的条件是什么?可以证明,随机误差项的方差的无偏估计量为:11ˆ22knkneiee⃟随机误差项的方差的无偏估计例:二元回归模型的参数估计iiiiixxy22110)1()ˆ(2212121rxVari2212221212211)())(())(())((ˆiiiiiiiiiiixxxxxxxyxxy1的置信区间:)ˆ(ˆ)ˆ(ˆ1211121SetSet)ˆ()ˆ(OLS111VarSe估计量的标准误为:的3.经典假设与参数估计量的性质在满足基本假设的情况下,其结构参数的普通最小二乘估计具有:线性性、无偏性、有效性(最优线性无偏估计量BLUE)。同时,随着样本容量增加,参数估计量具有:渐近无偏性、渐近有效性、一致性。多元回归模型的经典假设假设1:x1,x3,…xk是非随机的。假设2:E(i)=0i=1,2,…n假设3:同方差Var(i)=2(E(ii)=2)假设4:无序列相关,cov(ij)=E(ij)=0假设5:x诸变量间无准确的线性关系,即:无多重共线性。不存在一组不全为零的数1、2、…k,使得:1x1i+2x2i+…+kxki=0假设6:iN(0,2)ikikiiXXY110关于多重共线性的进一步说明如果存在一组不全为零的数1、2、…k,使得:1x1i+2x2i+…+kxki=0不妨设10,则上式可变为:x1i=-(2x2i+…+kxki)/1称解释变量之间存在完全共线性,此时,某个解释变量可以写为其它解释变量的线性组合。如果,会不会破坏无多重共线假定?223iixx不会,因为这两个变量的关系是非线性的!!经典假设的矩阵表示假设2:0000)()()()(2121nnEEEEEμnnnnnnnnEEEI222222122212121212121000000)'(假设3和4:假设5:矩阵x的秩等于回归参数的个数(或解释变量个数加1),R(x)=k+1,nk4.样本容量问题所谓“最小样本容量”,即从最小二乘原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。1)最小样本容量样本最小容量必须不少于模型中解释变
本文标题:第四章回归分析.
链接地址:https://www.777doc.com/doc-2092837 .html