您好,欢迎访问三七文档
第二讲:内生的解释变量与工具变量法单方程线性模型•如果我们在经验分析中采用一个单方程线性模型来研究x对y的影响,并得到相关的政策结论,那么则要求方程y=0+1X1+2X2+...kXk+u能够反映X与y之间的因果关系,而不是单纯的统计相关关系假设1•条件期望线性与外生性假设y=E(y|X)+u=0+1X1+2X2+...kXk+u•定义:u=y−E(y|X),则假设1意味E(u|X)=0,这又成为X严格外生性的假设–如果E(u|X)=0成立,线性模型就能够解释x与y之间的因果关系,并成为结构模型–同时E(u|X)=0是E(X’u)=0的充分条件,E(X’u)=0是OLS估计的依据。–E(u|X)=0还意味着Cov(X,u)=0假设2•样本矩阵满列秩rank(X)=Kn•含义–要求有足够多的观测值,nk–变量之间不存在线性组合–保证X‘X可逆,满秩,非奇异,从而估计结果唯一假设3•随机扰动项同方差、无自相关Var(y|X)=²I•含义–y的条件方差为纯量协方差矩阵–由于²为常数,与x无关,所以条件方差等价于无条件方差–该假设等价于Var(u|X)=²,即同方差Var(ui)=²,无序列相关Cov(ui,uj)=0假设4•(yi,xi)为随机样本,i=1,2,⋯,n对模型假设的讨论•线性条件期望不成立的情形E(y|X)≠X’,E(u|X)≠0•来源–模型设定的错误misspecification–变量的误差–联立性模型的设定错误•函数形式的错误–非参数设定来解决•包含了多余变量–如果多加的变量与其它的解释变量无关,OLS估计仍然是无偏,一致,但不有效–如果多加的变量与其它的解释变量有关,OLS估计有偏–例:研究新生儿体重y与母亲在孕期的食品摄入量x的关系,如果考虑家庭收入z。正确的模型设定为:E(y|x,z)=x。如果加入z,模型变为E(y|x,z)=₀x+γz如果z与x无关,则β₀=β,但通常的情况下,z与x相关,从而₀≠•遗漏变量–被遗漏的变量q进入到随机扰动项中,u=rq+v,OLS估计不一致,教材P63例•解决的办法–代理变量–工具变量法–paneldata•教育回报的例子–正确的模型设定log(wage)=0+1exp+2exp²+3edu+abil+v–能力ability通常观察不到,成为遗漏变量,模型成为log(wage)=0+1exp+2exp²+3edu+u–通常ability受到教育的影响abil=₀+₃edu+r,E(r|exp,exp²)=0–从而E(b3)=3+3,b3不仅是有偏的,而且在大样本中也是不一致的。–特别是,如果30,b3会高估教育对工资的影响变量的测量误差•被解释变量的测量误差•真实的模型设定y*=X’+u•y*没有被准确观察到,观察到的是y–y=y*+v,v为测量误差–模型变为:y=X’+u+v–如果E(v|X)=0,假设1没有被破坏–如果E(v|X)≠0,假设1不成立,OLS有偏且不一致•解释变量的测量误差•真实的模型设定y=X’β+z*+u–z*含有测量误差,观察到z=z*+v,E(z|x,z*)=z*,–实际的回归方程为:y=X’+z+(u-v)=X’+z+ε–这时,由于ε=u-v与z=z*+v相关,所以E(ε|X,z)≠0,假设1不成立联立性•所谓联立性是指,两个变量之间的因果关系不是单方向的,它们之间相互影响•在单方程模型中,如果至少一个解释变量同时由被解释变量y部分决定,模型就出现了联立性问题•联立性问题很多情况下,是由于变量遗漏造成的。•在出现联立性的模型中,E(u|X)≠0解释变量的外生性•解释变量外生性是古典线性回归模型的一个基本假定,也是保证线性模型成为结构模型的前提•该假定的基本内容是指扰动项关于解释变量的条件期望等于零:E(u|X)=0–解释变量X产生机制与随机扰动项u无关–可以推出:Cov(Xjk,ui)=0和E(x′ku)=0–大样本条件下的渐进无关性:0)1lim(uXnpk一个说明•E(x′ku)=0表示Xk与u在小样本情形下无关可能成立,即在大样本条件下,Xk与u满足渐近无关性。此时,OLS估计量仍然能够保持良好的大样本性质•但是当E(x′ku)≠0时,仍然有0)1lim(uXnpk内生解释变量的产生•内生解释变量产生的原因基本上可以分为四种:–遗漏变量–观测误差–联立偏差–样本选择问题(sampleselection)遗漏变量•当被遗漏的变量与引入模型的其他解释变量相关,被遗漏的变量进入到随机扰动项时,就会导致解释变量与扰动项相关•假定真实的总体模型设定为:Y=Xβ+Wγ+u•但是由于不可观察的原因,我们无法得到W的数据,这样回归模型就成为:Y=Xβ+ε,其中ε=Wγ+u•如果X中的某个或某几个解释变量,如Xk与W相关,就将导致Cov(xk,ε)≠0,从而出现内生的解释变量问题观测误差•不论是通过现场调查还是二手数据,我们都不可能避免“观测误差”问题•当观测误差进入到随机扰动项中,并与某个或某些解释变量相关时,就出现了内生解释变量–在收入调查中,被访者的报告误差常常与被访者的年龄呈现某种关系,即年龄越小,误差可能越大•即使观测误差与随机扰动项无关,新的随机扰动项仍然会与解释变量相关联立偏差•当X和Y相互作用,相互影响,互为因果时,我们应该用联立方程组的形式来描述它们之间的关系•但如果我们仍然采用单一线性方程形式,以Y为被解释变量,X为解释变量,就会导致与扰动项相关的情况出现,X成为内生的解释变量样本选择•样本选择指的是我们所观察的被解释变量的结果,部分地受到行为主体对是否参与某项活动选择的影响,从而导致我们所得到的样本成为非随机的样本–举例而言,在研究个人健康对于医疗保险保费的影响这一问题中,由于我们只能够观察到投保人的保费和他们的个人信息,而无法得到没有投保的消费者相关信息,从而使得个人健康这一变量具有内生性–具体而言,投保人的个人健康状况一般稍差,并愿意支付更高的保费内生解释变量的影响计量b不一致•当E(u|X)≠0时,OLS估计量b有偏且不一致•在大样本条件下,当,OLS估0)1lim(uXnpk内生解释变量的探查•怎样判断模型的解释变量中出现了与随机扰动项相关的情形,并没有现成的检验方法•当我们找到足够多的工具变量时,可以对疑似内生的解释变量进行检验•除了统计上的检验之外,我们可以根据上述内生解释变量产生的原因,即遗漏变量、观测误差、联立偏差、样本选择与经济理论、所研究的具体问题结合起来,判断回归模型中是否出现了解释变量的内生性•例如,外商直接投资(FDI)技术溢出效应•经验分析中通常都是以行业/企业产出水平或劳动生产率作为被解释变量,通过该变量对于FDI的回归系数的符号、大小以及显著程度,来判断FDI对于引入外资的行业/企业业绩变化的实际影响•由于FDI的进入与外资引入国本身的要素禀赋、技术水平、劳动力状况以及经济发展水平密切相关,因此FDI与行业/产出水平相互影响,使之成为具有内生性的解释变量,人们可能会在溢出效应并没有发生的情况下,把生产效率的提高归因于外资企业的溢出作用,从而在单方程的计量分析中产生联立偏差工具变量法•工具变量的定义•工具变量法•IV估计量的统计性质•两阶段最小二乘法(2StageLeastSquare)•工具变量的选择•对内生性的简单检验•Xk为内生的解释变量•假定我们可以把Xk分解为两个部分,一部分与随机扰动项u相关,另一部分与u无关•如果我们能够找到另一个变量或多个变量Z,它与Xk相关,但与u无关,就可以通过Z将Xk中与u无关的部分分离出来,从而识别出Xk对y的边际影响,这个结果具有一致性•这种方法称为工具变量法(InstrumentalVariablesMethod,简称IV法)y=0+1X1+2X2+...kXk+uy=0+11+2X2+...kXk+uX1=a0+a1Z+a2X2+...akXk+vˆX原方程:新方程(工具变量):主回归:辅助回归:工具变量的定义•在K变量线性回归模型中,不妨假定解释变量XK具有内生性,即E(u|XK)≠0,或E(x′Ku)≠0,或如果变量Z1,Z2,…,ZL,L≥K,满足下面两个条件,则称为工具变量:0)1lim(uXnpk条件1:工具相关性•该条件要求r[E(Z′X)]=K在大样本条件下,上式还可表述为•条件1该条件要求工具变量与解释变量相关,但在实际中,仅仅相关是不够的,只有在高度相关的条件下,IV估计结果才具有良好的大样本性质∑zx满列秩,即行列式≠0)1lim(XZnp弱工具变量•与解释变量之间的相关关系很弱的工具变量被称为“弱工具变量”•运用弱工具变量,IV估计结果不仅具有很低的估计精度和很大的方差,而且会放大变量遗漏的偏差•同时,在大样本的条件下,IV估计量的渐进正态性将不会出现。条件2.工具外生性•该条件要求E(Z′u)=0•上式表明,Z与u无关,Z具有外生性•在大样本条件下,上式还可表述为•由于u不可观测,这个条件在理论上是不可检验的,但在现实中,当满足某些条件时,可以进行事后检验1lim()0pZun例•假定解释变量Xk具有内生性,找到Z=(X1,X2,…,XK−1,ZK)只要Cov(ZK,XK)≠0,Cov(ZK,ε)=0变量Z就满足条件1和2,成为工具变量•实际运用中,寻找工具变量的关键就是要找到与Xk高度相关而与u无关的Zk识别•恰好识别–回归模型中有一个解释变量是内生的,而我们就找到一个工具变量–内生的解释变量个数与工具变量的个数相等•不可识别–内生的解释变量个数大于工具变量的个数,我们无法估计回归参数•过度识别–工具变量的个数更多–只有在这种情形下,我们才能够对工具变量的外生性进行检验讨论:教育回报率研究中的IV•内生的解释变量:教育水平或年限•被解释变量:个人收入或工资水平•文献中使用的工具变量–父母的教育水平–家庭收入–同胞的教育水平–18岁时家庭所在地的蓝领工资、失业率–家庭住址距离大学校区的距离–相关的义务教育法规IV估计量bIV的统计性质•IV估计量在有限样本的条件下表现并不理想–通常是有偏的–此时的IV估计量可能不满足矩条件•在大样本条件下,IV估计量将拥有良好的性质,因此下面就只讨论的大样本性质两阶段最小二乘法•原理和步骤•实际操作•2SLS估计量的性质原理和步骤•回归模型Y=Xβ+u•假定解释变量XK具有内生性•找到XK的M个工具变量:Z1,Z2,…,ZM•如果我们分别运用这M个工具变量对β进行估计,我们将得到M个工具变量估计结果•但是,如果我们在一次回归中运用这M个工具变量,将会得到最好的估计结果,这个方法就是两阶段最小二乘法2SLS具体步骤•以XK为因变量,对X1,X2,…,XK−1,Z1,…,ZM进行OLS回归,得到拟合值–是其它外生的解释变量以及M个工具变量的线性组合–根据假定和工具变量的定义,中的每个因子都与随机扰动项无关,因此也与u无关–同时,是XK的拟合值,因此它又与XK高度相关ˆXˆXˆXˆXˆX•以y为因变量,对回归•得到:X1,X2,…,XK−1,进行OLSˆkX实际操作•ivregressestimatordepvar[varlist1](varlist2=varlist_iv)[if][in][weight][,options](Stata10,之前的版本命令为ivreg•estimator–2slstwo-stageleastsquares(2SLS)–limllimited-informationmaximumlikelihood(LIML)–gmmgeneralizedmethodofmoments(GMM)•例•ivregyG1G2G3(X=Z),first–the“first”optionprovidesyouwiththefirststageresults•ivregyG1G2G3(X=Z1Z2),first–Ifyou’vegotmorethan1ins
本文标题:第2讲-工具变量法
链接地址:https://www.777doc.com/doc-4928754 .html