stata上机实验第五讲-工具变量(IV)

Stata上机实验二阶段最小二乘法：2SLS主要思想：进行两阶段回归。假设方程为：y=b1x1+b2x2+u其中x1是外生变量，x2是内生变量，找到两个变量z1和z2，作为x2的工具变量。第一阶段回归：regx2x1z1z2x2结合了z1和z2的信息，此时取出x2的拟合值x2_hat。第二阶段回归：regyx1x2_hat广义矩估计法：GMM基本思想：求解如下一般化目标函数,使之最小化J(b_GMM)=n*g(b_GMM)'*W*g(b_GMM)其中，W为权重矩阵在球型扰动项的假定下，2SLS是最有效的。但如果扰动项存在异方差或自相关，则广义矩估计方法效果更好。GMM方法又分为两步GMM法和迭代GMM方法。使用grilic.dta估计教育投资的回报率。变量说明：lw80（80年工资对数），s80（80年时受教育年限），expr80（80年时工龄），tenure80（80年时在现单位工作年限），iq（智商），med（母亲的教育年限），kww（在‘knowledgeoftheWorldofWork’测试中的成绩），mrt（婚姻虚拟变量，已婚=1），age（年龄）。建立方程：usegrilic.dta,clearreglw80s80expr80tenure80对方程进行分析：1。遗漏变量问题：认为方程遗漏了“能力”这个变量，加入iq（智商）作为“能力”的代理变量。2。测量误差问题：iq（智商）对“能力”的测量存在误差。3。变量内生性问题：s80可能与扰动项中除“能力”以外的其他因素相关，因此是内生变量。1238080exp8080lwsrtenure解决方法：使用med，kww，mrt，age作为内生解释变量iq与s80的工具变量。1。使用2SLS。ivregress2slslw80expr80tenure80(s80iq=medkwwmrtage),first2。使用两步GMM。ivregressgmmlw80expr80tenure80(s80iq=medkwwmrtage)3。使用迭代GMM。ivregressgmmlw80expr80tenure80(s80iq=medkwwmrtage),igmm几点注意事项：1。2SLS只能通过stata完成，利用定义手动计算的结果是错误的，因为残差序列是错误的。2。不可能单独为每个内生变量指定一组特定的工具变量，所有外生变变量都作为自己的工具变量。3。在大样本下，IV估计是一致的，但在小样本下，IV估计并非无偏估计量，有些情况下偏误可能很严重。弱工具变量检验工具变量Z与X的相关性较低时，2SLS估计量存在偏误，Z称为“弱工具变量”。检验方法：estatfirststage1。初步判断可以用偏R2(partialR2)(剔除掉模型中原有外生变量的影响)。2。Minimumeigenvaluestatistic(最小特征值统计量)，经验上此数应该大于10。ivregress2slslw80expr80tenure80(s80iq=medkwwmrtage),firstestatfirststage过度识别检验检验工具变量是否与干扰项相关，即工具变量是否为外生变量。目前仅限于在过度识别的情况下，进行过度识别检验。2SLS根据Sargan统计量进行过度识别检验，GMM使用HansenJTest进行过度识别检验。命令均为：estatoverid检验工具变量的外生性H0：所有工具变量都是外生的。H1：至少有一个工具变量不是外生的，与扰动项相关。ivregress2slslw80expr80tenure80(s80iq=medkwwmrtage),firstestatoveridivregressgmmlw80expr80tenure80(s80iq=medkwwmrtage)estatoverid究竟该用OLS还是IV即解释变量是否真的存在内生性？假设能够找到方程外的工具变量。1。如果所有解释变量都是外生变量，则OLS比IV更有效。在这种情况下使用IV，虽然估计量仍然是一致的，会增大估计量的方差。2。如果存在内生解释变量，则OLS是不一致的，而IV是一致的。豪斯曼检验（Hausmanspecificationtest）原假设：H0：所有解释变量均为外生变量。H1：至少有一个解释变量为内生变量。quietlyreglw80s80expr80tenure80iqeststoreolsquietlyivregress2slslw80expr80tenure80(s80iq=medkwwmrtage)eststoreivhausmanivols一些面板数据教材面板数据分析（美）萧政著横截面与面板数据的经济计量分析伍德里奇著，王忠玉译Baltagi.EconometricAnalysisofPanelData最新动态可关注期刊：JournalofEconometrics面板数据一些前沿问题面板向量自回归模型(PanelVAR)面板单位根检验(PanelUnitRoottest)面板协整分析(PanelCointegeration)门槛面板数据模型(PanelThreshold)面板联立方程组面板空间计量静态面板数据静态面板数据模型，是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项)的情形。但严格地讲，随机干扰项服从某种序列相关的模型，如AR(1),AR(2),MA(1)等，也不是静态模型。静态面板数据主要有两种模型------固定效应模型和随机效应模型。面板数据的格式companyyearinvestmvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9面板数据模型考虑如下模型：Yit=Xitb+Uituit=ai+εit其中，i=1,2,…N;t=1,2,…Tuit称为复合扰动项。固定效应模型对于特定的个体i而言，ai表示那些不随时间改变的影响因素，如个人的消费习惯、国家的社会制度、地区的特征、性别等，一般称其为“个体效应”(individualeffects)。如果把“个体效应”当作不随时间改变的固定性因素，相应的模型称为“固定效应”模型。固定效应模型固定效应模型的公式变为：Yit=ai+Xitb+εit回归结果是每个个体都有一个特定的截距项。随机效应模型随机效应模型将个体效应ai视为随机因素，即把个体效应设定为干扰项的一部分。公式将变为：Yit=Xitb+(ai+εit)回归的结果是随机效应模型的所有的个体具有相同的截距项，个体的差异主要反应在随机干扰项的设定上。怎样选择固定效应和随机效应？随机效严格要求个体效应与解释变量不相关，即Cov(ai,XitB)=0而固定效应模型并不需要这个假设条件。这是两种模型选择的关键。面板数据基本命令1。指定个体截面变量和时间变量：xtset2。对数据截面个数、时间跨度的整体描述：xtdes。3。对每个个体分别显示该变量的时间序列图：xtline。4。静态面板数据基本回归命令：xtreg。usegrunfeld,clearxtsetcompanyyearxtdesxtlineinvest混合回归：reginvestmvaluekstock固定效应：xtreginvestmvaluekstock,fe随机效应：xtreginvestmvaluekstock,re结果解读固定效应随机效应特别注意：1。三个R2哪个重要？2。固定效应为什么有两个F检验？3。corr(u_i,Xb)的含义。4。sigma_u、sigma_e、rho的含义。模型选择固定效应还是混合OLS？可以直接观测F值随机效应还是混合OLS？先用随机效应回归，然后运行xttest0固定效应还是随机效应？Hausman检验Hausman检验基本思想：如果Corr(a_i,x_it)=0,Fe和Re都是一致的，但Re更有效。如果Corr(a_i,x_it)!=0,Fe仍然一致，但Re是有偏的。因此原假设是Corr(a_i,x_it)=0，即应该采用随机效应。xtreginvestmvaluekstock,feeststorefixedxtreginvestmvaluekstock,reeststorerandomhausmanfixedrandom本题接受原假设，即应该用随机效应。几个常见问题1。既然固定效应每个个体都有单独的截距项，如何获得每个个体的截距项？xi:reginvestmvaluekstocki.company即LSDV方法或者添加虚拟变量法。2。非平衡面板如何处理？usenlswork,clearxtsetidcodeyearxtdes这是一份典型的大n小t型非平衡面板数据。方法一：下载命令xtbalance提取成一个平衡面板数据，但不推荐使用，因为会损失大量样本。方法二：利用算法填补缺失值，需要经济理论和算法的支撑。3。面板数据格式不符合要求的处理。例如如下表格格式该如何处理？处理方法：扁平数据变长条数据的命令：reshapeuseinvest2,cleareditreshapelonginvestkstock,i(company)j(year)companyinvest2002invest2003invest2004kstock2002kstock2003kstock2004118.919.119.619.616.816.7217.418.418.818.117.41731919.620.120.21717.142020.420.320.417.517.3518.118.318.418.516.416.1619.72019.917.216.316.3其他回归方法1。聚类稳健的标准差通常可以假设不同个体之间的扰动项相互独立，但同一个体在不同时期的扰动项之间往往存在自相关。故须采用聚类稳健的标准差。usegrunfeld,clearxtsetcompanyyearreginvestmvaluekstock,vce(clustercompany)同理有：xtreginvestmvaluekstock,fevce(clustercompany)xtreginvestmvaluekstock,revce(clustercompany)2。对于固定效应模型，可采用虚拟变量法。基本思想：固定效应模型实质上就是在传统的线性回归模型中加入N-1个虚拟变量，使得每个截面都有自己的截距项。由于固定效应模型假设存在着“个体效应”，每个个体都有其单独的截距项。这就相当于在原方程中引入n−1个虚拟变量（如果省略常数项，则引入n个虚拟变量）来代表不同的个体，获得每个个体的截据项。tabcompany,gen(dum)dropdum1reginvestmvaluekstockdum*与上述方法比较一下：xi:reginvestmvaluekstocki.company结果完全一样。组间估计法对于随机效应模型，还可以采用“组间估计量”。对于那些每个个体的时间序列数据较不准确或“噪音”较大的数据，可对每个个体取时间平均值，然后用平均值来回归。xtreginvestmvaluekstock,be由于损失了较多信息量，组间估计法并不常用。极大似然估计如果随机效应模型中假设扰动项服从正态分布，则可以使用最大似然估计法（MLE）来进行估计。xtreginvestmvaluekstock,mle与随机效应模型的估计比较结果几乎完全一致。双向固定效应模型固定效应模型：Yit=ai+XitB+εit双向固定效

stata上机实验第五讲-工具变量(IV)

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

第一节家具的分类

安装工程品质管理(张海东)待审版

家居装修色彩搭配原理和用色禁忌

承台、桥台施工方案

金融案例分析

五星级酒店投资经营战略可行性研究

国家和省级有关法规对评标方法和专家要求一览表

附加合同《美亚附加旅行个人责任保险》条款第四条“责任免除”第

3-2第三章海运代理实务(一)补充_租船合同

劳动合同示范文本

相关文档

相关搜索