您好,欢迎访问三七文档
Copyright©2011PearsonAddison-Wesley.Allrightsreserved.第6章多元线性回归Copyright©2011PearsonAddison-Wesley.Allrightsreserved.大纲1.遗漏变量偏差2.因果关系与回归分析3.多元回归与OLS4.拟合优度5.OLS估计量的抽样分布6-2Copyright©2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差(教材6.1节)•遗漏变量总是存在的误差u产生于那些影响Y但没有被包含在回归方程中的因素或变量。•存在遗漏变量的后果在有些情况下,遗漏这些变量会导致OLS统计量有偏。6-3Copyright©2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差(续)•因为遗漏的因素或变量导致OLS估计量的偏差叫做遗漏变量偏差。•遗漏变量“Z”必须满足以下两个条件:1.Z是Y的决定因素(即Z是u的一部分);并且2.Z与回归变量X相关(即corr(Z,X)≠0)两个条件同时成立才导致遗漏变量偏差。6-4Copyright©2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差(续)测试成绩的例子中:1.英语语言能力(学生是否将英语作为第二语言)似乎影响标准化成绩分数:Z是Y的一个决定因素。2.移民社区往往并不富裕,因此学校预算较少,学生/教师比更高:Z与X相关。因此,是有偏的。这一偏差的方向是怎样的?常识判断如何?若不能用常识来判断,则有公式…6-5Copyright©2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差公式回顾方程:–β1==其中vi=(Xi–)ui≈(Xi–μX)ui.在最小二乘假设#1下,E[(Xi–μX)ui]=cov(Xi,ui)=0.但若E[(Xi–μX)ui]=cov(Xi,ui)=σXu≠0,则结果会怎样?6-61nvii1nn1nsX2XCopyright©2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差公式(续)在最小二乘假设#2及#3下(即仅LSA#1不成立),–β1===,其中ρXu=corr(X,u).若假设#1成立,则ρXu=0,但如果不成立,我们有…6-7p1n(XiX)uii1n1n(XiX)2i1nXuX2uXXuXuuXXuCopyright©2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差公式:若遗漏变量Z同时满足:1.是Y的一个决定因素(即包含于u中);并且2.与X相关,则ρXu≠0且OLS估计量是有偏的且不一致的。例如,英语为第二语言者少的地区(1)标准化测试成绩较好(2)班级规模小(较多预算)因此,忽略这个因素的影响会导致班级规模的效应被高估。在加州的数据中,这一现象存在么?6-8p1+uXXuCopyright©2011PearsonAddison-Wesley.Allrightsreserved.•较少英语学习者地区的测试分数高些•英语学习者比例较低地区的班级规模较小•在英语学习者比例相当的地区中,班级规模效应很小(回顾:总体“测试分数差”=7.4)6-9Copyright©2011PearsonAddison-Wesley.Allrightsreserved.因果关系及回归分析•测试分数/学生教师之比/英语学习者比例的例子表明:若遗漏变量满足遗漏变量偏差的两个条件,则OLS估计量是有偏的且非一致的。因此,即便样本n很大,估计量也不会逼近真实β1.•由此产生了一个深层次问题:β1是如何定义的?进行回归分析时到底想要估计什么?6-101ˆCopyright©2011PearsonAddison-Wesley.Allrightsreserved.进行回归分析时到底想要估计什么?该问题的三个(至少)合理回答:1.估计穿过散点图的直线的斜率作为数据的简单概括,并没有赋予太多实际的含义。该方法有时很有用,但不是很有意思,也不是本课程所讨论6-11Copyright©2011PearsonAddison-Wesley.Allrightsreserved.2.基于我们所知的X值,预测不在数据集内的Y值预测是经济学家的重要工作,出色的预测可以通过回归方式实现,却不一定需要知道因果关系。我们后面会讨论预测。6-12Copyright©2011PearsonAddison-Wesley.Allrightsreserved.3.我们需要估计X的每一单位变化对Y产生的因果效应这是我们对班级规模感兴趣的原因。假设校董会每个班级减少2个学生,将会对测试分数产生什么影响呢?这是一个因果关系问题(即学生/教师之比对测试分数的因果效应如何?)为此,我们需要估计这种效应。除了预测,本课程的目的也是用回归方法估计因果效应。6-13Copyright©2011PearsonAddison-Wesley.Allrightsreserved.准确地讲,什么是因果效应?•“因果”是一个复杂的概念!•本课程采用一种实际的方式来定义因果关系:因果效应被定义为在理想化随机对照实验中所度量出的效应。5-14Copyright©2011PearsonAddison-Wesley.Allrightsreserved.理想随机对照试验•理想:所有试验对象都服从处理方案–完全遵守,无报告差错等•随机:来自关注总体的试验对象被随机分配至处理组与对照组(因此没有混淆其他因素)•对照:采用对照组度量处理结果的不同效应•试验:处理组作为试验的一部分:实验对象没有选择,所以不存在“反向因果”,即实验对象选择他们认为好的处理方式。6-15Copyright©2011PearsonAddison-Wesley.Allrightsreserved.回到班级规模实例中:设想一个理想随机对照试验来度量减少学生/教师之比对测试成绩的影响效应…•试验中,学生被随机分配到不同规模的班级•由于随机分配,所有的学生特征(因而ui)的分布将独立于学生/教师比STRi•因此,E(ui|STRi)=0——即在随机对照试验中LSA#1满足6-16Copyright©2011PearsonAddison-Wesley.Allrightsreserved.观察数据与理想数据如何不同?•处理组的试验对象并非随机分配的•考虑学区中PctEL——英语学习者比例.该变量满足遗漏变量偏差的两个标准:Z=PctEL是:1.Y的一个决定变量;且2.与回归变量X相关•故,“对照组”与“处理组”存在系统性不同,所以corr(STR,PctEL)≠0。6-17Copyright©2011PearsonAddison-Wesley.Allrightsreserved.•随机+对照组意味着处理组与控制组之间的差异是随机的—与处理没有系统性关联•通过比较同一英语学习者比例地区间的班级规模效应,可消除控制组(大比例组)与处理组(小比例组)在英语学习者比例上的差异。–若大、小班级规模组间仅有的系统性差异存在于PctEL中,则回到每一个PctEL组的随机对照试验。–估计STR效应时,此为一种“控制”PctEL效应的方法。6-18Copyright©2011PearsonAddison-Wesley.Allrightsreserved.回到遗漏变量偏差克服遗漏变量偏差的三个方式1.进行一个随机对照试验,其中处理组(STR)随机分配:则PctEL依然是TestScore的一个决定变量,但PctEL与STR不相关.(此种解决遗漏变量偏差的方式在实践中不可行)2.采用“交叉列表”的方法,在每一组里有更细化的STR与PctEL分组–所有班级有一样的PctEL,故可控制PctEL(但很快会发现数据用完了,那么家庭收入和家庭教育等其他决定因素会如何影响?)3.使用一个PctEL变量没有遗漏的回归模型:在一个多元回归中将PctEL作为一个新增回归变量。6-19Copyright©2011PearsonAddison-Wesley.Allrightsreserved.总体多元回归模型(教材6.2节)•考虑两个回归变量的情况:Yi=β0+β1X1i+β2X2i+ui,i=1,…,n•Y是因变量•X1,X2是两自变量(回归变量)•(Yi,X1i,X2i)表示第ith个Y,X1,X2的观测值•β0=未知的总体截距•β1=X2保持不变的前提下,X1每变化一单位对Y的影响•β2=X1保持不变的前提下,X2每变化一单位对Y的影响•ui=回归误差(遗漏变量)6-20Copyright©2011PearsonAddison-Wesley.Allrightsreserved.多元回归中系数的解释Yi=β0+β1X1i+β2X2i+ui,i=1,…,n保持X2不变的前提下,用ΔX1表示X1的变化量:变化前的总体回归线:Y=β0+β1X1+β2X2变化后的总体回归线:Y+ΔY=β0+β1(X1+ΔX1)+β2X26-21Copyright©2011PearsonAddison-Wesley.Allrightsreserved.变化前:Y=β0+β1(X1+ΔX1)+2X2变化后:Y+ΔY=β0+β1(X1+ΔX1)+β2X2差:ΔY=β1ΔX1故:β1=,X2保持不变β2=,X1保持不变β0=X1=X2=0时Y的预测值.6-22YX1YX2Copyright©2011PearsonAddison-Wesley.Allrightsreserved.多元回归中OLS的估计量(教材6.3节)•二元回归变量的OLS估计量是下式的解:•OLS估计量为真实值Yi和预测值(基于回归线得出)之差的平方和的最小化结果•最小化问题可通过微积分求解•由此得出β0与β1的OLS估计量6-23minb0,b1,b2[Yi(b0b1X1ib2X2i)]2i1nCopyright©2011PearsonAddison-Wesley.Allrightsreserved.例:加利福利亚测试分数数据TestScore对STR的回归:=698.9–2.28×STR现加入地区英语学习者比例(PctEL):=686.0–1.10×STR–0.65PctEL•STR的系数有什么变化?•为什么?Corr(STR,PctEL)=0.196-24TestScoreTestScoreCopyright©2011PearsonAddison-Wesley.Allrightsreserved.STATA的多元回归regtestscrstrpctel,robust;RegressionwithrobuststandarderrorsNumberofobs=420F(2,417)=223.82ProbF=0.0000R-squared=0.4264RootMSE=14.464------------------------------------------------------------------------------|Robusttestscr|Coef.Std.Err.tP|t|[95%Conf.Interval]-------------+----------------------------------------------------------------str|-1.101296.4328472-2.540.011-1.95213-.2504616pctel|-.6497768.0310318-20.940.000-.710775-.5887786_cons|686.03228.72822478.600.000668.8754703.189-
本文标题:计量经济学04
链接地址:https://www.777doc.com/doc-4749704 .html