您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第14章-受限被解释变量
14©陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。第14章受限被解释变量被解释变量的取值范围有时受限制,称为“受限被解释变量”(LimitedDependentVariable)。14.1断尾回归对线性模型iiiyx,假设只有满足iyc的数据才能观测到。例:iy为所有企业的销售收入,而统计局只收集规模以上企业数据,比如100,000iy。被解释变量在100,000处存在“左边断尾”。2断尾随机变量的概率分布随机变量y断尾后,其概率密度随之变化。记y的概率密度为()fy,在c处左边断尾后的条件密度函数为(),P()(|)0,若若fyycycfyycyc由于概率密度曲线下面积为1,故断尾变量的密度函数乘以因子1P()yc。3图14.1断尾的效果4断尾分布的期望也发生变化。以左边断尾为例。对于最简单情形,~(0,1)yN,可证明(参见附录)()E(|)1()cyycc对于任意实数c,定义“反米尔斯比率”(InverseMill’sRatio,简记IMR)为()()1()ccc则E(|)()yycc。5图14.2反米尔斯比率6对于正态分布2~(,)yN,定义~(0,1)yzN,则yz。故E(|)E(|)E()E()()yyczzczzczzcc对于模型iiiyx,2|~(0,)iiNx,则2|~(,)iiiyNxx,故E(|)()iiiiyyccxx如果用OLS估计iiiyx,则遗漏了非线性项()icx,与ix相关,导致OLS不一致。7参见图14.3。总体回归线为ix,而样本回归线为ˆˆix。图14.3断尾回归示意图ixiyixab+ˆˆixab+c8使用MLE可得到一致估计。断尾前的概率密度:22111()exp22iiiiiyyfyxx样本被观测到的概率:9P(|)1P(|)1P1P1iiiiiiiiiiiiycycycccxxxxxxxx断尾后的条件密度:1()(|,)1()iiiiiiyfyyccxxx1014.2零断尾泊松回归与负二项回归计数数据有时仅包括正整数,不包括取值为0的观测值,称为“零断尾”(zero-truncated)。例:在商场发放问卷调查,研究消费者每周去商场的次数。例:在公交车上发放问卷调查,研究乘车者每周坐公交的次数。如果不对似然函数进行调整,将得不到一致估计。记()fy为y的概率函数,而()P()FyYy为cdf。如果存在零断尾,则断尾后的概率函数为11()(|1),1,2,1(0)fyfyyyF如果y服从泊松分布,则(|1),1,2,!(1)yefyyyye进行MLE估计,得到“零断尾泊松回归”(zero-truncatedPoissonregression)。如果y服从负二项分布(NB1或NB2),可进行“零断尾负二项回归”(zero-truncatednegativebinomialregression)。14.3随机前沿模型(选读)1214.4偶然断尾与样本选择被解释变量iy的断尾有时与另一变量iz有关,称为“偶然断尾”(incidentaltruncation)或“样本选择”(sampleselection)。称iz为选择变量。例在美国的亚裔移民给人的整体印象是聪明能干。但在美国的亚裔并非亚洲人口的代表性样本。通常只有受过高等教育或具有吃苦冒险精神的亚裔才会“自我选择”(selfselection)移民。决定移民与否的变量便对被解释变量产生了断尾作用,故“样本选择”将导致“选择性偏差”(selectionbias)。13例妇女劳动力供给模型:劳动时间方程0123hourswagechildrenmarriageu工资方程01230ageeducationchildrenlocationwworvwo表示offeredwage,wr表示reservationwage。如果ww0or,则选择不工作,无法观测到劳动时间(hours),造成劳动时间方程的偶然断尾与样本选择问题。14考虑二维正态随机向量(,)yz,记期望为(,)yz,标准差为(,)yz,相关系数为,联合密度函数为(,)fyz。假设个体进入样本的“选择机制”(selectionmechanism)为“选择变量z大于某常数c”。比如,在妇女劳动力供给例子中,wworz,而0c。断尾后的联合分布:(,)(,|)P()fyzfyzzczc偶然断尾y的条件期望:E(|)()yyzzyzcc15()为反米尔斯比率(IMR)函数。如果0(y与z相互独立),则z的选择过程并不对y产生影响。如果0(即y与z正相关),则“zc”偶然断尾的结果是把y的整个分布推向右边(因为()0),从而使得条件期望E(|)yzc大于无条件期望E()y。在“zc”条件下,偶然断尾y的条件期望为E(|)()yyzzyzcc假设回归模型为iiiyx。16iy是否可观测取决于选择变量iz(取值为0或1)=1=0iiiyzz可观测不可观测决定二值变量iz的方程为**1,00,0若若iiizzz*iiizuw*iz为不可观测的潜变量。17假设iu服从正态分布,则iz为Probit模型,故P(1|)()iiizww。可观测样本的条件期望:*E(|)E(|0)E(|0)iiiiiiiiyyyzu可观测xwE(|)E(|)iiiiiiiiuuxwxw()iixw其中,E()E()0iiu,并将Probit扰动项的标准差u标准化为1。OLS估计,将遗漏非线性项()iw。如iw与ix相关,则OLS不一致,除非“0”(即y与z不相关)。18解释变量ikx的边际效应:*E(|0)()iiikikikyzxxw右边第一项为直接影响,第二项是通过改变个体进入样本可能性而产生的间接影响(即选择性偏差)。如知道,就知道()iw,可把它作为解释变量引入回归方程。Heckman(1979)提出“两步估计法”,也称“Heckit”。第一步:用Probit估计方程P(1|)()iizww,得到估计值ˆ,计算ˆˆ()iw。19第二步:用OLS回归OLSˆ,iiiyx,得到估计值ˆˆˆ,,。更有效率的方法是MLE。在两步法中,第一步误差被带入第二步,效率不如MLE的整体估计。两步法的优点在于,操作简便;对于分布的假设也更弱(即使不假设二维正态分布,也可能成立)。为检验是否存在样本选择偏差(sampleselectionbias),可使用似然比检验来检验原假设“0:0H”。如使用Heckit,无法进行此LR检验。2014.5归并回归对于线性模型iiiyx,当iyc(或iyc)时,所有iy都被归并为c,称为“归并数据”(censoreddata)。例(上不封顶的数据,topcoding)在问卷调查中,常有诸如“收入在¥50,000及以上”这样的选项。例(边角解)考虑买车的决定,并考察“买车开支”这个变量。如果不买车,则“买车开支”的最优解为边角解,即买车开支为0;反之,如果买车,则买车开支一定为正数。例(边角解)考察“劳动时间”这个变量。对于失业或待业者而言,“劳动时间”的最优解为边角解,即劳动时间为0;而就业者21的劳动时间一定为正数。归并回归(censoredregression)与断尾回归不同的是,虽有全部观测数据,但某些数据的iy被压缩在一个点上。iy的概率分布就变成由一个离散点与一个连续分布所组成的混合分布(mixeddistribution)。假设*iiiyx(*iy不可观测),2|~(0,)iiNx,归并点为0c。假设可观测到:***,00,0iiiiyyyy若若22如使用满足条件“0iy”的子样本,将导致断尾,出现偏差,因为*E(|;0)E(|;0)iiiiiiyyyyxx(给定0iy,必然*iiyy)*E(|;0)E(|;0)E(|;)iiiiiiiiiiiiiiiiyxxxxxxxxxx由于忽略非线性项ix,导致扰动项与ix相关,故OLS不一致。23对于整个样本,E(|)0P(0|)E(|;0)P(0|)E(|;0)P(0|)iiiiiiiiiiiiiiyyyyyyyyxxxxxx其中,*P(0|)P(0|)P(0|)iiiiiiiyyxxxxP(|)Piiiiiixxxx1iixxE(|)E(|,0)P(0|)iiiiiiiiiiyyyyxxxxxx是解释变量ix的非线性函数。如果使用OLS对整个样本进行回归,非线性项将被纳入扰动项中,导致不一致估计。24Tobin(1958)提出用MLE估计这个模型,称为“Tobit”。在归并数据情况下,0iy时的概率密度依然不变,仍为1()iiyx0iy时的分布被挤到“0iy”上,即P(0|)1P(0|)1iiiyyxxx该混合分布的概率密度为001(|)1()iiyyiiiifyy11xxx25Tobit模型的缺陷是对分布的依赖性强,不够稳健。如果似然函数不正确(扰动项不服从正态分布或存在异方差),则QMLE估计不一致。使用Tobit模型时,需要检验正态性与同方差性。为了检验正态性,可将Tobit模型的MLE一阶条件视为某种矩条件,并基于此进行“条件矩检验”(conditionalmomenttest)。但条件矩统计量的真实分布与渐近分布有相当差距,存在较严重的显著性水平扭曲,故使用“参数自助法”来获得校正的临界值。为了检验同方差的原假设“220:iH”,考虑替代假设26“21:exp()iiHzα”,其中iz通常等于解释变量ix(也可不同)。然后通过辅助回归,构建LM统计量来检验0α,参见CameronandTrivedi(2010,p.550)。如果发现扰动项不服从正态分布或存在异方差,解决方法之一为使用更稳健的“归并最小绝对离差法”(CensoredLeastAbsoluteDeviations,简记CLAD)。CLAD法仅要求扰动项为iid,即使在非正态与异方差情况下也一致,且在一定正则条件下,服从渐近正态分布。将归并数据模型简洁地写为max(0,)iiiyx27如果0iix,则iiiyx;反之,0iy。CLAD法的目标函数为离差绝对值之和:1minmax(0,)niiiyx选择使得离差绝对值之和最小化,即可得到CLAD估计量。14.6归并数据的两部分模型(选读)14.7含内生解释变量的Tobit模型(选读)
本文标题:第14章-受限被解释变量
链接地址:https://www.777doc.com/doc-5111208 .html