您好,欢迎访问三七文档
©陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。第15章短面板15.1面板数据的特点面板数据(paneldata或longitudinaldata),指的是在一段时间内跟踪同一组个体(individual)的数据。它既有横截面的维度(n个个体),又有时间维度(T个时期)。一个3T的面板数据结构如表15.1。2表15.1面板数据的结构y1x2x3xIndividual1:t=1Individual1:t=2Individual1:t=3Individualn:t=1Individualn:t=2Individualn:t=33如果面板数据T较小,而n较大,在使用大样本理论时让n趋于无穷大。这种面板数据被称为“短面板”(shortpanel)。反之,如果T较大,而n较小,则被称为“长面板”(longpanel)。在面板模型中,如果解释变量包含被解释变量的滞后值,则称为“动态面板”(dynamicpanel);反之,则称为“静态面板”(staticpanel)。如果在面板数据中,每个时期在样本中的个体完全一样,则称为“平衡面板数据”(balancedpanel);反之,则称为“非平衡面板数据”(unbalancedpanel)。4面板数据的优点:(1)解决遗漏变量问题:遗漏变量常由不可观测的个体差异或“异质性”(heterogeneity)造成。如果个体差异“不随时间而改变”(timeinvariant),则面板数据可解决遗漏变量问题。(2)提供个体动态行为的信息:例:考虑区分规模效应与技术进步对企业生产效率的影响。对于截面数据,没有时间维度,无法观测到技术进步。对于时间序列,无法区分生产效率的提高究竟有多少由于规模扩大,有多少5由于技术进步。例:对于失业问题,截面数据能告诉在某个时点上哪些人失业,时间序列数据能告诉某个人就业与失业的历史,但这两种数据均无法告诉是否失业的总是同一批人(低流转率),还是失业的人群总在变动(高流转率)。(3)样本容量较大:同时有截面维度与时间维度,面板数据的样本容量更大,可提高估计精度。面板数据也会带来问题,比如,数据通常不满足独立同分布的假定,因为同一个体在不同期的扰动项一般存在自相关。面板数据的收集成本通常较高,不易获得。615.2面板数据的估计策略一个极端策略是将其看成是截面数据而进行混合回归(pooledregression),要求样本中每位个体拥有相同的回归方程。此策略忽略个体间不可观测或被遗漏的异质性(heterogeneity),而该异质性可能与解释变量相关,导致估计不一致。另一极端策略则是,为每位个体估计一个单独的回归方程。此策略忽略了个体的共性,可能没有足够大的样本容量。实践中常采用折衷的估计策略,即假定个体的回归方程拥有相同的斜率,但可有不同的截距项,以此来捕捉异质性。78个体效应模型(individual-specificeffectsmodel)(1,,;1,,)ititiiitintTyuxziz为不随时间而变(timeinvariant)的个体特征,比如性别;itx可随个体及时间而变(time-varying);扰动项由()iitu两部分构成,称为“复合扰动项”(compositeerrorterm);不可观测的随机变量iu是代表个体异质性的截距项。it为随个体与时间而改变的扰动项。假设{}it为iid,且与iu不相关。9如果iu与某个解释变量相关,则称为“固定效应模型”(FixedEffectsModel,简记FE)。此时,OLS不一致。如果iu与所有解释变量(,)itixz均不相关,则称为“随机效应模型”(RandomEffectsModel,简记RE)。15.3混合回归如果所有个体拥有一样的回归方程,则方程可写为ititiityxzitx不包括常数项。把所有数据放在一起,像对待横截面数据那样进行OLS回归,称为“混合回归”(pooledregression)。10应使用聚类稳健的标准误(cluster-robuststandarderrors),聚类(cluster)由每位个体不同期的所有观测值所组成。15.4个体固定效应模型对于固定效应模型,给定个体i,将方程两边对时间平均:iiiiiyuxz将原方程减去平均后的方程可得:()()itiitiitiyyxx定义ititiyyy,ititixxx,ititi,则11ititityx上式已将iu消去,只要it与itx不相关,可用OLS一致地估计,称为“固定效应估计量”(FixedEffectsEstimator),记为FEˆ。FEˆ主要使用了每个位体的组内离差信息,也称“组内估计量”(withinestimator)。即使个体特征iu与解释变量itx相关,组内估计量也一致。在作离差转换时,iz也被消掉,无法估计,故FE无法估计不随时间而变的变量之影响。为保证()iti与()itixx不相关,要求第i个观测值满足严格外12生性,即1E(,,)0itiiTxx,因为ix中包含了所有1(,,)iiTxx的信息。扰动项须与各期解释变量均不相关(不仅仅是当期解释变量)。在原方程中引入(1)n个虚拟变量(如果没有截距项,则引入n个虚拟变量)来代表不同的个体,可得到同样结果。FE也称为“昀小二乘虚拟变量模型”(LeastSquareDummyVariableModel,简记LSDV)。正如线性回归与离差形式的回归在某种意义上是等价的。比如,()()iiiiiiyxyyxx使用LSDV的好处是可以得到个体异质性iu的估计。13LSDV法的缺点是,如果n很大,须在回归方程中引入很多虚拟变量,可能超出计量软件所允许的解释变量个数。15.5时间固定效应引入时间固定效应,可解决不随个体而变(individualinvariant)但随时间而变(timevarying)的遗漏变量问题。假设模型为itititiitySuxztS不可观测。定义ttS,则itititiityuxz14将t视为第t期独有的截距项,并将其解释为“第t期”对y的效应,故1,,T称为“时间固定效应”(timefixedeffects)。使用LSDV法来,对每个时期定义一个虚拟变量,把(1)T个时间虚拟变量包括在回归方程中:22itititTtiityDDTuxz其中,时间虚拟变量21tD,如果2t;20tD,如果2t;以此类推。此方程既考虑个体固定效应,又考虑时间固定效应,称为“双向固定效应”(Two-wayFE)。15为节省参数,可引入时间趋势项,替代(1)T个时间虚拟变量:ititiiitytuxz上式隐含较强假定,即每个时期的时间效应相等,每期均增加。15.6一阶差分法对于固定效应模型,可对原方程两边进行一阶差分,以消去个体效应iu(同时把iz消掉了),,1,1,1()()itititititityyxx16对此方程使用OLS,即得到“一阶差分估计量”(FirstDifferencingEstimator),记为FDˆ。只要,1()itit与,1()ititxx不相关,则FDˆ一致。此一致性条件比严格外生性假定更弱,这是FDˆ的主要优点。可以证明(参见习题),如果2T,则FDFEˆˆ。对于2T,如果it为iid,则FEˆ比FDˆ更有效率,故实践中主要使用FEˆ。对于动态面板(第16章),严格外生性假定无法满足,用差分法。1715.7随机效应模型对于方程ititiiityuxz,随机效应模型假设iu与解释变量,itixz均不相关,故OLS一致。但扰动项由()iitu组成,不是球型扰动项,故OLS不是昀有效率的,应进行FGLS估计。假设不同个体之间的扰动项互不相关。由于iu的存在,同一个体不同时期的扰动项之间仍存在自相关,222,Cov(,),若若uiitiisutsuuts182u为iu的方差,2为it的方差。当ts时,其自相关系数为222Corr(,)uiitiisuuu自相关系数不随时间距离()ts而改变。越大,则复合扰动项()iitu中个体效应的部分()iu越重要。19同一个体扰动项的协方差阵为222222222222.........uuuuuuuuuTTΣ整个样本的协方差阵为块对角矩阵(blockdiagonalmatrix),00nTnT20由于OLS是一致的,且其扰动项为()iitu,故可用OLS的残差来估计22()u。另一方面,FE也一致,且其扰动项为()iti,故可用FE的残差来估计2。然后,用FGLS估计原模型,得到“随机效应估计量”(RandomEffectsEstimator),记为REˆ。具体来说,用OLS来估计以下“广义离差”(quasi-demeaned)模型:ˆˆˆˆˆ()(1)(1)()误差项itiitiiiitiyyuxxz21其中,ˆ是22121()uT的一致估计量。可以证明,此扰动项不再有自相关。对于随机效应模型,如果进一步假设扰动项服从正态分布,可进行MLE估计。2215.8组间估计量对于随机效应模型,还可使用“组间估计量”。如果个体数据较不准确,可对每位个体取时间平均值,然后用平均值来回归:(1,,)iiiiiinyuxz对上式用OLS,可得“组间估计量”(BetweenEstimator),记BEˆ。由于,iixz中包含了,itixz的信息,如果iu与解释变量,itixz相关,则BEˆ不一致。故不能在固定效应模型下使用组间估计法。2315.9拟合优度的度量在有常数项的情况下,线性模型的2R等于被解释变量y与预测值ˆy之间相关系数的平方,即22ˆ[corr(,)]Ryy。对于面板模型,如使用混合回归,可直接用混合回归的2R。如使用固定效应、随机效应或组间回归,拟合优度略复杂。给定估计量)ˆˆ(,,Stata提供了以下三种2R。首先,对应于原模型,称2)]ˆˆ[Corr(,ititiyxz为“整体2R”(2Roverall),衡量估计量)ˆˆ(,对原模型的拟合优度。24其次,对应于组内模型,称2ˆ[Corr(,)]itityx为“组内2R”(2Rwithin),衡量估计量)ˆˆ(,对组内模型的拟合优度。再次,对应于组间模型,称2ˆˆ[Corr(,)]iiiyxz为“组间2R”(2Rbetween),衡量估计量)ˆˆ(,对组间模型的拟合优度。对于固定效应模型,建议使用组内2R,即组内方程的2R。对于组间回归模型,建议使用组间2R,即组间方程的2R。对于随机效应模型,这三种2R都只是相应的相关系数平方,而非随机效应方程的2R。2515.10非平衡面板非平衡面板数据并不影响计算离差形式的组内估计量(withinestimator),固定效应模型的估计可照样进行。对于随机效应模型而言,非平衡面板数据也没有实质性影响,只要在做广义离差变换时让22121()iiuT其中,iT为个体i的时间维度,就可照常进行FGLS估计。非平衡面板的昀大问题是,那些原来在样本中但后来丢掉的个26体,如果“丢掉”的原因是内生的(即与扰动项相关),则会导致样本不具有代表性(不再是随机样本),从而导致估计量不一致。比如,
本文标题:第15章-短面板
链接地址:https://www.777doc.com/doc-3127136 .html