您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 计量经济学Chap12-1&2
第12章工具变量回归2第12章工具变量回归影响回归结果正确性的三大威胁有:遗漏变量偏差,由于没有遗漏变量的观测数据所以不能把它加到回归中;双向因果关系(X导致了Y,Y导致了X);变量有测量误差(X中带有测量误差)当E(u|X)≠0时,工具变量回归可消除偏差——利用工具变量(instrumentalvariable)Z312.1单个回归变量和单个工具变量的IV回归Yi=0+1Xi+uiIV回归将X分解成两部分:第一部分与u相关,第二部分与u不相关.通过分离出与u不相关的部分,可以用来估计1.利用工具变量Zi可以做到这一点,其中工具变量与ui不相关.工具变量能够检测出Xi中与ui不相关的变动,并利用这部分估计1.4术语:内生性(endogeneity)和外生性(exogeneity)内生变量是指与u相关的变量外生变量是指与u不相关的变量注记:“内生的”字面意思指“在系统内决定,”即,和Y共同确定的变量,也是遭受双向因果关系的变量.然而,这种定义较为狭义,IV回归可用于处理遗漏变量偏差和测量误差偏差,而不仅仅是双向因果关系偏差.5有效工具变量的两个条件Yi=0+1Xi+ui要使工具变量(“工具”)Z有效,必须满足下面两个条件:1.工具相关性:corr(Zi,Xi)02.工具外生性:corr(Zi,ui)=0现假设你找到了这样的Zi(怎么找这样的Z?)问题:如何利用Zi估计1?6IV估计量,一个X和一个Z#1:两阶段最小二乘(TwoStageLeastSquares,TSLS)正如其名字指出的,TSLS分为两个阶段,即两个回归:(1)首先利用X关于Z的OLS回归分离出与u不相关的那部分X:Xi=0+1Zi+vi(1)因为Zi与ui不相关,因此0+1Zi与ui不相关.我们不知道0或者1但我们可以估计它们计算Xi的预测值ˆiX,其中ˆiX=0ˆ+1ˆZi,i=1,…,n.7TSLS(续)(2)将感兴趣回归中的Xi替换为ˆiX:利用OLS建立Y关于ˆiX的回归:Yi=0+1ˆiX+ui(2)因为ˆiX与ui不相关(当n较大时),所以第一个最小二乘假设成立(当n较大时)因此可基于回归(2)利用OLS估计1这个论断依赖于大样本(于是利用回归(1)可较好地估计0和1)得到的估计量被称为两阶段最小二乘(TSLS)估计量,1ˆTSLS.8TSLS小结假设你有有效的工具Zi.第1步:建立Xi关于Zi的回归,得到预测值ˆiX第2步:建立Yi关于ˆiX的回归,ˆiX的系数就是TSLS估计量,1ˆTSLS.1ˆTSLS是1的一致估计量.9IV估计量,一个X和一个Z(续)#2:简单的代数Yi=0+1Xi+ui于是,cov(Yi,Zi)=cov(0+1Xi+ui,Zi)=cov(0,Zi)+cov(1Xi,Zi)+cov(ui,Zi)=0+cov(1Xi,Zi)+0=1cov(Xi,Zi)其中cov(ui,Zi)=0(工具外生性);因此1=cov(,)cov(,)iiiiYZXZ10IV估计量,一个X和一个Z(续)1=cov(,)cov(,)iiiiYZXZIV估计量为将这些总体协方差替换为样本协方差:1ˆTSLS=YZXZss,sYZ和sXZ伪样本协方差.这就是TSLS估计量,只是采用了不同的推导!11实例#1:黄油的供给和需求IV回归最开始是用于估计农产品(例如黄油)的需求弹性:ln(butteriQ)=0+1ln(butteriP)+ui1=黄油的价格弹性=价格变化1%引起的需求量的百分比变化(回顾双对数模型)数据:不同年份中黄油价格和需求量的观测值ln(butteriQ)关于ln(butteriP)的OLS回归中遭遇了双向因果关系偏差(为什么?)12ln(butteriQ)关于ln(butteriP)OLS回归中的双向因果关系偏差源于价格和需求量是由需求和供给共同决定的13供给和需求的交互作用得到了利用这些数据得到的回归是需求曲线吗?14但如果只有供给移动了你将得到什么?TSLS通过分离出价格和量中源于供给移动的变动来估计需求曲线.Z是导致供给移动而需求不动的变量.15在供给需求实例中的TSLS:ln(butteriQ)=0+1ln(butteriP)+ui令Z=牧场地区的降雨量.Z是一个有效的工具变量吗?(1)外生性?corr(raini,ui)=0?合理的:牧场地区是否下雨不影响需求(2)相关性?corr(raini,ln(butteriP))0?合理:雨量不足会使牧草减少而使黄油减少16在供给需求实例中的TSLS(续)ln(butteriQ)=0+1ln(butteriP)+uiZi=raini=牧场地区的降雨量.Stage1:建立ln(butteriP)关于rain的回归,得到ln()butteriP.ln()butteriP分离出了供给(至少是部分供给)引起的价格对数的变化Stage2:建立ln(butteriQ)关于ln()butteriP的回归利用供给曲线的移动追踪需求曲线的对应回归.17基于TSLS的推断大样本下,TSLS估计量服从正态分布推断(假设检验,置信区间)同常规方法(大样本下正确)标准误差的重要注记:来自第二阶段的OLS标准误差是不正确的–它们没有包括第一阶段的估计(ˆiX是估计的).相反,要采用计算TSLS估计量和正确SE的特定命令.同前,利用异方差稳健标准误差(SE)18实例:香烟需求ln(cigarettesiQ)=0+1ln(cigarettesiP)+ui面板数据:年香烟消费和平均支付价格(包含税收)48个美国大陆州,1985-1995提议的工具变量:Zi=每包的一般销售税=SalesTaxi是有效的工具变量吗?(1)相关性?corr(SalesTaxi,ln(cigarettesiP))0?(2)外生性?corr(SalesTaxi,ui)=0?19香烟需求(续)现在,只用1995年的数据.第一阶段OLS回归:ln()cigarettesiP=4.63+.031SalesTaxi,n=48第二阶段OLS回归:ln()cigarettesiQ=9.72–1.08ln()cigarettesiP,n=48具有正确异方差稳健标准误差的两个回归结合的结果为:ln()cigarettesiQ=9.72–1.08ln()cigarettesiP,n=48(1.53)(0.32)20STATA实例:香烟需求,第一阶段工具=Z=rtaxso=一般销售税(实际$/pack)XZ.reglravgprsrtaxsoifyear==1995,r;RegressionwithrobuststandarderrorsNumberofobs=48F(1,46)=40.39ProbF=0.0000R-squared=0.4710RootMSE=.09394------------------------------------------------------------------------------|Robustlravgprs|Coef.Std.Err.tP|t|[95%Conf.Interval]-------------+----------------------------------------------------------------rtaxso|.0307289.00483546.350.000.0209956.0404621_cons|4.616546.0289177159.640.0004.5583384.674755------------------------------------------------------------------------------X-hat.predictlravphat;现在我们有了来自1st阶段的预测值21第二阶段YX-hat.reglpackpclravphatifyear==1995,r;RegressionwithrobuststandarderrorsNumberofobs=48F(1,46)=10.54ProbF=0.0022R-squared=0.1525RootMSE=.22645------------------------------------------------------------------------------|Robustlpackpc|Coef.Std.Err.tP|t|[95%Conf.Interval]-------------+----------------------------------------------------------------lravphat|-1.083586.3336949-3.250.002-1.755279-.4118932_cons|9.7198751.5971196.090.0006.50504212.93471------------------------------------------------------------------------------这些系数是TSLS估计值标准误差是错误的,因为它们忽略了第一阶段是估计的事实22结合到一个命令中YXZ.ivreglpackpc(lravgprs=rtaxso)ifyear==1995,r;IV(2SLS)regressionwithrobuststandarderrorsNumberofobs=48F(1,46)=11.54ProbF=0.0014R-squared=0.4011RootMSE=.19035------------------------------------------------------------------------------|Robustlpackpc|Coef.Std.Err.tP|t|[95%Conf.Interval]-------------+----------------------------------------------------------------lravgprs|-1.083587.3189183-3.400.001-1.725536-.4416373_cons|9.7198761.5283226.360.0006.64352512.79623------------------------------------------------------------------------------Instrumented:lravgprsThisistheendogenousregressorInstruments:rtaxsoThisistheinstrumentalvarible------------------------------------------------------------------------------这次的SE变化很小,但不是一直都是这样的!ln()cigarettesiQ=9.72–1.08ln()cigarettesiP,n=48(1.53)(0.32)2312.2一般IV回归模型前面我们讨论了包含一个内生回归变量(X)和一个工具(Z)的IV回归.我们需要推广到:多个内生回归变量(X1,…,Xk)多个包含在内的外生变量(W1,…,Wr)由于遗漏变量原因这些应该被加入到回归中多个工具变量(Z1,…,Zm)(相关)工具变量越多,得到的TSLS方差越小:第一阶段的R2增大了,你就有了更多的ˆX的变动.术语:识别&过度识别24识别(Identification)在IV回归中,系数是否可识别取决于工具变量的个数(m)和内生回归变量的个数(k)之间的关系直观上,如果工具变量少于内生回归变量,则我们无法估计1,…,k例如,设k
本文标题:计量经济学Chap12-1&2
链接地址:https://www.777doc.com/doc-7222561 .html