您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第六章一元线性回归模型下
1第六章一元线性回归模型(下)总体回归函数:Yi=B1+B2Xi+ui估计的样本回归函数:ˆYi=49.667–2.5176Xi问题:OLS得出的估计回归直线的“优度”如何?即怎样判别它确实是真实的总体回归函数的一个好的估计量呢?6.1古典线性回归模型的一些基本假定为什么对ui做一些假定?Yi依赖于Xi与ui,假设Xi值是给定的或是已知的,是以给定X为条件(条件回归分析),而随机误差项u是随机的。由于Y的生成是在随机误差项(u)上加上一个非随机项(X),因而Y也就变成了随机变量。只有假定随机误差项是如何生成的,才能判定样本回归函数对真实回归函数拟合的好坏。因此必须对ui的生成做一些特殊的假定:6.1.1解释变量(X)与扰动误差项不相关。如果X是非随机的,则该假定自动满足。(回忆:条件回归分析是以给定X值为条件的。)6.1.2扰动项的期望或均值为零。E(ui)=0(6-1)平均地看,随机扰动项对Yi没有任何影响,也就是说,正值与负值相互抵消。26.1.3同方差假定,即每个ui的方差为一常数。Var(ui)=2(6-2)可简单地理解为,与给定X相对应的每个Y的条件分布同方差;即每个Y值以相同的方差分布在其均值周围,否则称为异方差。提问:ui的(条件)方差等于Yi的(条件)方差吗?Yi=B1+B2Xi+ui由于X值是假设给定的或是非随机的,因此Y中惟一变化的部分来自于u。因此,给定Xi,ui与Yi同方差。6.1.4无自相关(noautocorrelation)假定,即两个误差项之间不相关。cov(ui,uj)=0i≠j(6-3)i和j表示任意的两个误差项。假定6.1.4表明两误差项之间没有系统的关系。如果某一个误差项u大于(小于)其均值,并不意味着另一个误差项也在均值之上(下)。简言之,无自相关假定表明误差项ui是随机的。推理因为cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=E(uiuj)-E(ui)E(uj)=0所以E(uiuj)=036.1.5在总体回归函数Yi=B1+B2Xi+ui中,误差项ui服从均值为零,方差为2的正态分布,即ui~N(0,2)(6-4)以上5个条件为经典假设条件。6.2普通最小二乘法估计量的性质(为什么要采用OLS?)OLS法得到广泛的使用,因为它有一些理想的理论性质,即OLS估计量是最优线性无偏(BestLinearUnbiasedEstimator,BLUE)估计量。简言之,OLS估计量b1和b2满足:(1)线性;即b1和b2是被解释变量Y的线性函数。(是不是X的线性函数?)证明:因为22xiyibxi22()xiYiYxiYixiYxixi由于()0xiYYXiX4所以22xiYibxi,设2xikixi2bkiYi说明2b是Yi的线性函数,是以ki为权的一个加权平均。(2)无偏性;即E(b1)=B1E(b2)=B2E(2ˆ)=2平均而言,b1和b2将与B1和B2真实值相一致,2ˆ将与真实的2相一致。(尽管大多数情况下我们并不知道B1和B2的真实值)先了解2xikixi的一些性质:1.因为Xi假定为非随机(给定)的,所以ki也是非随机(给定)的。2.0ki221()xikixixixi,给定一个样本,2xi已知,可作为常量,因此0ki。3.221ikxi因为222222211()()()ixikxixixixi4.1kixikiXi(显而易见)221xikixixi5()kixikiXiXikiXiXikikiXi(3)最小方差性。即b1、b2的方差小于其他任何一个B1、B2的无偏估计量的方差。(证明过程略,详见古扎垃蒂,《计量经济学》,第三版上册,P84-85)根据以上性质,如果使用OLS法,将能够更准确地估计B1和B2,虽然其他的方法也能得到B1和B2的线性无偏估计量。6.3估计量的方差与标准差由于随机误差项服从正态分布,OLS估计量也是随机变量。(回顾22xiYibxi,设2xikixi,2bkiYi。由于xi给定的,ki可以看作常量。)可以得到估计量的方差及标准差:证明:将整体回归方程12YiBBXiui代入2bkiYi,得2(12)bkiBBXiui12BkiBkiXikiui2Bkiui对两边求数学期望值,因为ki可以看作常量,所以(2)2()EbBkiEui2B因为已经假定()0Eui。6var(b1)222iiXnx(6-5)其中xiXiXise(b1)=var(b1)(6-6)var(b2)=22ix(6-7)se(b2)=var2b(6-8)计算过程var(b2)=E[b2-E(b2)]2因为(2)2EbB,得=E[b2-B2]2因为22bBkiui,得=E2()kiui2222221122121211(...2...2)nnnnnnEkukukukkuukkuu因为对每一i,22()niEu,并且对ij,()0ijEuu22ik22ix(回忆221ikxi)7一旦知道了2,可以求得OLS估计量的方差与标准差。但在通常情况下,2是未知的,可以用样本方差来代替,由下式来估计:22ˆ2ein(6-9)22ˆ()eiYiYi是残差平方和(RSS),即Y的真实值与估计值的差的平方和,(n-2)称为自由度。22ˆ2ein是真实2的一个无偏估计量。(为什么)证明:12YiBBXiui因此,(12)YiBBXiui(1)12YiBBXiu(2)(2)-(1)得2()yiBxiuiu由于b2eiyix(3)(见第五章ˆ0eiYi的证明过程)(3)-(2)得2()b2eiBxiuiuxi归并项,平方,整理得2222(b22)()2(b22)()eiBxiuiuBxiuiu两边去数学期望值得2222()(b22)[()]2[(b22)()]ABCEeixiEBEuiuEBxiuiu8同时2ˆˆ(6-10)即正的平方根称为估计值的标准差或是回归标准差,它是Y值偏离估计的回归直线的标准方差。按照经典线性会规模型的以及前面的一些结论,可得222(1)2ABnC(例如,2222222(b22)=var(b2)=iAxiEBxixix具体见赵国庆《计量经济学》第二版,P22-23)代入上式,得22()(2)Eein定义22ˆ2ein其期望值是:222)1ˆ()(2EEein因此,2ˆ是真实2值的一个无偏估计量。9炒栗子一例中的方差和标准差利用上述公式,计算方差及标准差,见表6–1。iˆ=49.6670-2.1576XiY(6-11)se=(0.7464)(0.1203)6.4假设检验b1和b2服从正态分布。(为什么?)已经证明了b2是Y的线性函数(2bkiYi),但Y本身又是ui的线性函数,这可以从Yi=B1+B2Xi+ui中看出。(注:B和X为常量或是非随机的)。如果假定u服从正态分布,则u的线性函数Y也服从正态分布,因此最终b2是u的函数,服从正态分布。同理可证,b1也服从正态分布。b1~N(B1,21b)21bvar(b1)222iiXnxb2~N(B2,22b)2222var(b2)=bix10回到炒栗子一例,假定价格对需求量没有影响,即,零假设为:H0:B2=0在回归分析中,“0”零假设(“Zero”nullypothesis),也称之为稻草人假设(strawmanhypothesis)。为什么选择这样一个假设?选择这样一个假设,是为了看Y究竟是否与X有关。如果一开始X与Y就无关,那么再检验假设,B2为其他任何值就没有意义了。如果零假设为真,则就没有必要把X包括到模型之中。一般期望拒绝“0”零假设H0而接受备择假设H1,例如B2≠0。回忆第4章关于假设检验的讨论,可以选择:(1)置信区间法(2)显著性检验法由于b2服从均值为B2,方差为22ix的正态分布,则变量Z服从标准正态分布222222(0,1)()/ibBbBZNsebx而2是未知的,但可以根据22ˆ2ein用来估计。如果在上式中用ˆ来代替,则上式右边服从自由度为(n-2)的t分布,而不是标准正态分布,即2222ˆ/nibBZtx更一般地2222()nbBZtseb因此,为了检验零假设,可以t分布来代替(标准)正态分布。116.4.1置信区间法在炒栗子一例中,共有10个观察值,因而自由度为(10-2)=8。假定置信水平为5%(犯第一类错误的概率)。由于备择假设是双边的,从t分布表得:P(-2.306≤t≤2.306)=0.95即t值(自由度为8)位于此上限(-2.306)、下限(-2.306)之间的概率为95%;这个上、下限就是t的临界值。将2222ˆ/nibBZtx代到P(-2.306≤t≤2.306)=0.95,得P(-2.306≤222ˆ/ibBx≤2.306)=0.95重新整理得P(2b2ˆ2.306ix≤2B≤2b+2ˆ2.306ix)=0.95更一般地,P[b2-2.306se(b2)≤B2≤b2+2.306se(b2)]=0.95上式给出了B2的一个95%的置信区间。(简单的说,意味着重复应用上述过程,求得的100个这样的区间中将有95个包括真实B2)。根据第4章的讨论,如果这个区间(即接受区域)包括零假设值B2,则不拒绝零假设。但如果零假设值落在置信区间以外(即拒绝区域),则拒绝零假设。(注意:无论做何种决定,都会以一定的概率,比如说5%犯错误。)已知se(b2)=0.1203,将其代入上式,得到一个95%的置信区间-2.4350≤B2≤-1.8802这个区间没有包括零假设值0,所以拒绝零假设。126.4.2假设检验的显著性检验法回顾t统计量22(2)bBtseb它服从自由度为(n-2)的t分布。如果有:H0:22BB其中,2B是2b的某一给定值,(例如,2B=0),则,*22(2)bBtseb由于上式右边所有的量均为已知,因此可用计算出的t值作为检验统计量。设定置信水平(一般为1%,5%或10%),如果计算得到的|t|值超过了t临界值,则拒绝零假设。在具体运用t检验时,需注意:(1)对于一元线性回归模型,自由度总为(n-2)。(2)虽然在经验分析中常用的有1%,5%或10%,但置信水平是可以任意选取。6.3.4两种方法的比较:置信区间法与显著性检验法的区别在于,前者不知道具体的B2值,因而,通过建立一个(1-)的置信区间来猜测B2是否属于置信区间,如果不属于则拒绝假设。在显著性检验方法中,假设真实B2为某一具体值(=2B),通过建立一个的置信水平来猜测B2是否超过了t的临界值,如超过则拒绝零假设。置信区间和显著性检验法只不过是“同一枚硬币的正反两面”。在炒栗子一例中,提出:H0:B2=0,H1:B2≠0*222.1576017.94se(b2)0.1203bBt根据t分布表,求得t的临界值(双边)为13计算的|t|值为17.94,甚至在1%显著水平下,也远远超过了t临界值。因此拒绝零假设:B2=0。6.5拟合优度的检验:判定系数2R虽然根据t检验,估计的斜率和截距均为统计显著的,样本回归函数很好地拟合了数据。但是,并非每一个Y值都准确落在了估计的样本回归线上,即残差并非都未零。如何建立一个“拟合优度”的度量规则,以辨别估计的回归线拟合真实Y值的优劣?2R:判定系数(coefficientofdetermination)ˆiiiYYe(离差形式,即用小写字母表示与均值的偏差为ˆiiiy
本文标题:第六章一元线性回归模型下
链接地址:https://www.777doc.com/doc-2157997 .html