您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > stata上机实验第五讲――面板数据的处理
面板数据一些面板数据教材•面板数据分析(美)萧政著•横截面与面板数据的经济计量分析伍德里奇著,王忠玉译•Baltagi.EconometricAnalysisofPanelData•最新动态可关注期刊:JournalofEconometrics面板数据一些前沿问题面板向量自回归模型(PanelVAR)面板单位根检验(PanelUnitRoottest)面板协整分析(PanelCointegeration)门槛面板数据模型(PanelThreshold)面板联立方程组面板空间计量静态面板数据•静态面板数据模型,是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项)的情形。但严格地讲,随机干扰项服从某种序列相关的模型,如AR(1),AR(2),MA(1)等,也不是静态模型。静态面板数据主要有两种模型------固定效应模型和随机效应模型。面板数据的格式companyyearinvestmvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9面板数据模型•考虑如下模型:•Yit=Xitb+Uit•uit=ai+εit其中,i=1,2,…N;t=1,2,…T(既有i又有t的情况则一般是用面板数据)uit称为复合扰动项。固定效应模型•对于特定的个体i而言,ai表示那些不随时间改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称其为“个体效应”(individualeffects)。如果把“个体效应”当作不随时间改变的固定性因素,相应的模型称为“固定效应”模型。固定效应模型•固定效应模型的公式变为:•Yit=ai+Xitb+εit•回归结果是每个个体都有一个特定的截距项。(ai在这里就独立出来了)随机效应模型•随机效应模型将个体效应ai视为随机因素,即把个体效应设定为干扰项的一部分。公式将变为:•Yit=Xitb+(ai+εit)•回归的结果是随机效应模型的所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上。•怎样选择固定效应和随机效应?•随机效严格要求个体效应与解释变量不相关,即•Cov(ai,XitB)=0•而固定效应模型并不需要这个假设条件。•这是两种模型选择的关键。面板数据基本命令•1、指定个体截面变量和时间变量:xtset(•2、对数据截面个数、时间跨度的整体描述:xtdes。分组内、组间和样本整体计算各个变量的基本统计量xtsum。采用列表的方式显示某个变量的分布xttab,较少使用。•3、list、sum、des、tabstat、histogram、kdensity等命令都可以用。•4、对每个个体分别显示该变量的时间序列图:xtline。•5、静态面板数据基本回归命令:xtreg,系统默认GLS估计(广义最小二乘法)。usegrunfeld,clearxtsetcompanyyearxtdesxtlineinvest混合回归:reginvestmvaluekstock(pool回归,其会扩大样本量,)固定效应:xtreginvestmvaluekstock,fe随机效应:xtreginvestmvaluekstock,re用F值或P值进行判断,如果p值较大,则应该用pool回归)•xtregFixed-,between-andrandom-effects,andpopulation-averagedlinearmodels•xtregarFixed-andrandom-effectslinearmodelswithanAR(1)disturbance•xtglsPanel-datamodelsusingGLS•xtpcseOLSorPrais-Winstenmodelswithpanel-correctedstandarderrors•xtrchhHildreth-Houckrandomcoefficientsmodels•xtivregInstrumentalvariablesandtwo-stageleastsquaresforpanel-datamodels•xtabondArellano-Bondlinear,dynamicpaneldataestimator(动态面板估计)•xtabond2Arellano-Bondsystemdynamicpaneldataestimator(需要从网上下载)•xttobitRandom-effectstobitmodels•xtintregRandom-effectsintervaldataregressionmodels•xtregFixed-,between-andrandom-effects,andpopulation-averagedlinearmodels•xtregarFixed-andrandom-effectslinearmodelswithanAR(1)disturbance•xtglsPanel-datamodelsusingGLS•xtpcseOLSorPrais-Winstenmodelswithpanel-correctedstandarderrors•xtrchhHildreth-Houckrandomcoefficientsmodels•xtivregInstrumentalvariablesandtwo-stageleastsquaresforpanel-datamodels•xtabondArellano-Bondlinear,dynamicpaneldataestimator•xtabond2Arellano-Bondsystemdynamicpaneldataestimator(需要从网上下载)•xttobitRandom-effectstobitmodels•xtintregRandom-effectsintervaldataregressionmodels结果解读•固定效应•随机效应•特别注意:•1、三个R2哪个重要?组内、组间、总体拟合优度。•2、固定效应为什么有两个F检验?•3、corr(u_i,Xb)的含义。•4、sigma_u、sigma_e、rho的含义。•sigma_u是固定效应模型估计中的个体效应的方差估计值•sigma_e随机干扰项的方差估计值•rho:rho=sigma_u^2/(sigma_u^2+sigma_e^2),是两者之间的关系(u-i))以及针对u_i显著性的联合检验统计量(F值和p值)。•corr(u_i,Xb)个体效应与解释变量的相关系数,相关系数为0或者接近于0,可以使用随机效应模型;相关系数不为0,需要使用固定效应模型。u-i不表示残差,表示个体效应。模型选择•固定效应还是混合OLS?可以直接观测F值•随机效应还是混合OLS?先用随机效应回归,然后运行xttest0•固定效应还是随机效应?Hausman检验•Hausman检验•基本思想:如果Corr(a_i,x_it)=0,Fe和Re都是一致的,但Re更有效。如果Corr(a_i,x_it)!=0,Fe仍然一致,但Re是有偏的。因此原假设是Corr(a_i,x_it)=0,即应该采用随机效应。•Hausman检验步奏•Step1:估计固定效应模型,存储估计结果;•Step2:估计随机效应模型,存储估计结果;•Step3:进行Hausman检验;xtreginvestmvaluekstock,feeststorefixedxtreginvestmvaluekstock,reeststorerandomhausmanfixedrandom本题接受原假设,即应该用随机效应。几个常见问题•1、既然固定效应每个个体都有单独的截距项,如何获得每个个体的截距项?xi:reginvestmvaluekstocki.company即LSDV方法或者添加虚拟变量法。•2、非平衡面板如何处理?usenlswork,clearxtsetidcodeyearxtdes这是一份典型的大n小t型非平衡面板数据。方法一:下载命令xtbalance提取成一个平衡面板数据,但不推荐使用,因为会损失大量样本。方法二:利用算法填补缺失值,需要经济理论和算法的支撑。•3、面板数据格式不符合要求的处理。•例如如下表格格式该如何处理?•处理方法:•扁平数据变长条数据的命令:reshapeuseinvest2,cleareditreshapelonginvestkstock,i(company)j(year)companyinvest2002invest2003invest2004kstock2002kstock2003kstock2004118.919.119.619.616.816.7217.418.418.818.117.41731919.620.120.21717.142020.420.320.417.517.3518.118.318.418.516.416.1619.72019.917.216.316.3其他回归方法•1、聚类稳健的标准差•通常可以假设不同个体之间的扰动项相互独立,但同一个体在不同时期的扰动项之间往往存在自相关。故须采用聚类稳健的标准差。usegrunfeld,clearxtsetcompanyyearreginvestmvaluekstock,vce(clustercompany)同理有:xtreginvestmvaluekstock,fevce(clustercompany)xtreginvestmvaluekstock,revce(clustercompany)GLS的缺点就是要满足一些特定的条件•2、对于固定效应模型,可采用虚拟变量法。•基本思想:固定效应模型实质上就是在传统的线性回归模型中加入N-1个虚拟变量,使得每个截面都有自己的截距项。由于固定效应模型假设存在着“个体效应”,每个个体都有其单独的截距项。这就相当于在原方程中引入n−1个虚拟变量(如果省略常数项,则引入n个虚拟变量)来代表不同的个体,获得每个个体的截据项。tabcompany,gen(dum)(批量生成变量)dropdum1reginvestmvaluekstockdum*(*表示未知数)与上述方法比较一下:xi:reginvestmvaluekstocki.company结果完全一样。组间估计法•对于随机效应模型,还可以采用“组间估计量”。对于那些每个个体的时间序列数据较不准确或“噪音”较大的数据,可对每个个体取时间平均值,然后用平均值来回归。xtreginvestmvaluekstock,be由于损失了较多信息量,组间估计法并不常用。极大似然估计•如果随机效应模型中假设扰动项服从正态分布,则可以使用最大似然估计法(MLE)来进行估计。xtreginvestmvaluekstock,mle•与随机效应模型的估计比较结果几乎完全一致。双向固定效应模型•固定效应模型:Yit=ai+XitB+εit•双向固定效应模型:Yit=ai+ft+XitB+εit(既固定时间也固定个体的效应)•实际上添加了t-1个时间虚拟变量。主要反应随着时间变化的一些特征。tabyear,gen(yr)editdropyr1xtreginvestmvaluekstockyr*,fe大部分时间虚拟变量显著,说明随着时间的变动,invest有不断变动的趋势。•检验:可以使用似然比检验。•原假设:时间虚拟变量不显著。xtreginvestmvaluekstock,feeststorefe1xtreginvestmvaluekstockyr*,feeststorefe2lrtestfe1fe2整体来看时间虚拟变量不够显著。异方差、序列相关
本文标题:stata上机实验第五讲――面板数据的处理
链接地址:https://www.777doc.com/doc-3252808 .html