您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第八章 虚拟变量1577775632
1第八章虚拟变量2第一节虚拟变量回顾:前面各章讨论的变量都是可以直接用数字计量的,即可以获得其实际观测值(如收入、支出、产量物价水平等等)。这些变量称作数量变量。然而,影响被解释变量的不仅有量的因素,还有质的因素(如性别、民族、职业、季节、政策等等)3虚拟变量是用以反映质的属性的一个人工变量,取值为0或1,通常记为D(DummyVariable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设D=0对比较类型或肯定类型设D=1一、虚拟变量的概念5说明虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。例如:可以把居民分为两个年龄组:第一组:20~35岁的居民第二组:35~60岁的居民用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。6二、虚拟变量的设置规则1.两个属性的表示法如性别有两个属性:用Di表示)(0)(1女男iD即:两个属性引入一个变量即可!72.多个属性的表示法假设学历有四个属性:博士、硕士、本科、本科以下等,则:)(0)(11其他博士D)(0)(12其他硕士D)(0)(13其他本科D为什么四个属性只引入3个变量呢?8变量属性D1D2D3博士100硕士010本科001本科以下000即:m个属性引入(m-1)个变量即可。93.多个因素各两个属性的表示法如需要同时表示城乡差别和性别差别)(0)(12女男D)(0)(11农村城市DD1D2城市男性11城市女性10农村男性01农村女性0010一般地,若有m个因素,而每个因素都只有两个不同的属性类型,则引入m个虚拟变量。思考:现有三个定性因素,有两个因素各有4个不同的属性,一个因素有2个不同的属性,应设多少个虚拟变量?(应设3+3+1=7个虚拟变量)11三、虚拟变量的作用1.可以描述和测量定性因素的影响2.分离异常因素的影响例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。3.检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。4.提高模型的精度12四、虚拟变量模型在计量经济模型中,把包含有虚拟变量的模型称为虚拟变量模型。常用的有三种类型:(1)解释变量中只包含虚拟变量;(2)解释变量中既含有定量变量,又含有虚拟变量;(3)被解释变量本身为虚拟变量。13一、加法类型(截距变动模型))(0)(1女男iD第二节虚拟解释变量的回归1、解释变量中只有虚拟变量如:调查某地区性别与收入之间的关系,可以用模型表示如下:Yi=α+βDi+uiYi代表收入,Di为虚拟变量:14代表女性收入代表男性与女性收入之间的差额明显的关系。,则说明收入与性别有检验,若进行,对0ˆˆˆtDyOLSii15如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的差异,消费函数可设为:Yi=α0+α1Di+βXi+uiYi为消费水平,Xi为居民收入,Di为虚拟变量。)(0)(1i农村城市D2、解释变量中既有定量变量又有虚拟变量16iiiixDxyE0)0,(iiiixDxyE10)1,(表示农村居民的消费水平表示城市居民的消费水平假设α1>0,可得到下图:17XiYiα0α0+α1单变量变截距模型18对模型Yi=α0+α1Di+βXi+ui使用OLS法,可得:iiiixDyˆˆˆˆ10对α1进行t检验,若α1≠0,则说明城市居民与农村居民的消费水平有明显差异。19假如还要考虑男女消费水平的差异,消费函数为:Yi=α0+α1D1i+α2D2i+βXi+uiYi为消费水平,Xi为家庭收入,D1i和D2i为虚拟变量。)(0)(11i农村城市D)(0)(12i女性男性D20表示城市男性的消费水平表示城市女性的消费水平表示农村男性的消费水平iiixDxyE02i1i)0D,0,(表示农村女性的消费水平21XiYiα0双变量变截距模型α1α2α222虚拟变量陷阱如某些商品的销售量有季节性,假设销售函数为:=1(第一季)=0(其他季)=1(第二季)=0(其他季)=1(第三季)=0(其他季)=1(第四季)=0(其他季)如果引入4个虚拟变量会出现什么问题呢?2314321iiiiDDDD可视为截距项的解释变量,即α0=α0×1所以引入4个虚拟变量出现了完全多重共线性的问题!OLS法不能使用!这就是虚拟变量陷阱问题!24克服虚拟变量陷阱的方法改为引入虚拟变量:)(0)4,3,2(1其他季季,第jjDji表示。即第一季度用0432iiiDDDiiiiiiPDDDC4433220此时销售函数调整为:25引入虚拟变量的规则补充说明对于具有m个属性的虚拟变量:若模型中含有截距项,引入m-1个虚拟变量;若模型中不含有截距项,引入m个虚拟变量。26二、乘法类型(斜率变动模型)以乘法形式引入虚拟变量,是在所设定的模型中,将虚拟解释变量与其他解释变量相乘作为新的解释变量,以达到调整斜率系数的目的。主要作用在于:(1)比较两个回归模型;(2)分析因素间的交互影响;(3)提高模型的描述精度。271、回归模型的比较例如,研究改革开放前后储蓄、收入的总量关系,分别设定模型如下:(1)改革开放前(2)改革开放后.1977,,1951,195021tuXYttt.2004,,1979,197821tuXYttt其中Yt为储蓄总额,Xt为收入总额。28分别在各自的时间区间内作回归,可能有如下四种结果:2211,)1(表明两个回归模型是相同的,称为重合回归;2211,)2(表明仅在截距上存在差异,称为平行回归;2211,)3(表明截距相同而变化速率不同,称为共点回归;2211,)4(表明两个回归模型完全不同。29XiYi重合回归2211130XiYi平行回归2211221131XiYi共点回归21211132XiYi不同的回归21121133问题:当我们分别运用样本数据对两个模型进行回归后,如何界定所得结果在统计意义上属于那种类型呢?可采用乘法形式引入虚拟变量,可设定为:.2004,,1950)(2121tuXDXDYtttttt其中)(1)(0i改革开放后改革开放前D上式等价于模型:(1)改革开放前(2)改革开放后tttuXY11tttuXY)()(212134tttuXY11tttuXY)()(2121(1)改革开放前(2)改革开放后,22分别是等价模型的截距和斜率差异,分别称为截距差异系数和斜率差异系数。显然,用1950-2004年数据估计(*)式,比分别用1950-1977年和1978-2004年的数据估计(1)和(2)式更好。估计结果为:tttttXDXDY1034.01504.04839.17502.1ˆ(0.3319)(0.4704)(0.0163)(0.0332)t=(-5.2733)(3.1545)(9.2270)(-3.1144)结果表明,截距和斜率差异系数在统计意义下均是显著的,说明改革开放前后不同。35从上面可以看出,以乘法形式引入虚拟变量做回归模型的比较的优点:(1)用一个回归代替多个回归,简化过程;(2)可以对模型结构差异做假设检验;(3)合并的模型增加了自由度,提高了参数估计的精确性。当然,也应注意合并后模型的随机扰动项应服从基本假定,特别是所比较的方程的方差应相同,否则会出现异方差。36在多元线性回归模型中,通过F检验,可以判断各解释变量联合对被解释变量是否有显著影响。那么在包含两个定性变量的虚拟变量模型中,两个定性变量对被解释变量的影响也可能存在一定的交互作用,如何描述呢?例如,研究农副产品生产总收益与农副产品生产投入的关系时,设定模型为iiiiuXDDY332212、交互效应分析37虚拟变量以加法形式引入暗含着假设:油菜籽生产和养蜂生产是分别独立地影响着农副产品总收益。但实际是在发展油菜籽生产的同时发展养蜂生产,所取得的农副产品总收益会高于不发展养蜂生产的情况。即它们之间存在交互作用。iiiiuXDDY33221其中Yi农副产品生产总收益,Xi为农副产品生产总投入,而)(012i其他(发展油菜籽生产)D)(013i其他(发展养蜂生产)D38为了描述交互作用对被解释变量的影响,在模型中引入虚拟变量的乘积,即iiiiiiuXDDDDY)(32433221称为交互效应系数。其中4交互效应是否存在,可借助于交互效应系数的显著性检验加以判断。39在经济关系中常有这样的情况:当解释变量X的值达到某一水平X*之前,与被解释变量Y之间存在某种线性关系;当解释变量X的值达到或超过X*之后,与被解释变量Y的关系就会发生变化。此时,如果已知X的转折点X*,就可以用虚拟变量来估计每一段的斜率。这就是分段线性回归。3、分段线性回归40例如:1979年以前,我国居民的消费支出呈缓慢上升的趋势。从1979年开始,居民消费支出为快速上升趋势。显然,1979年是一个转折点,即:X*=1979所以,可用模型描述我国居民在1955年至2009年消费支出的变动趋势:41Yt=β0+β1t+β2(t-X*)Dt+ut其中Yt为消费支出;t为年份(t=1955,1956,…,2009);1979x*)x*t(0)x*t(1tD上面模型等价于:(1)1979年以前:Yt=β0+β1t+ut(2)1979年以后:Yt=β0-β2X*+(β1+β2)t+ut42t(年份)E(Yi)分段回归模型1955x*(1979)43只要检验β2的统计显著性,就可以判断在所设定的临界水平X*处是否存在“突变”。可以推广到k段回归的情况,只需用k-1个虚拟变量即可。44第三节虚拟被解释变量在计量经济模型中,虚拟变量还可以作为被解释变量,其作用是对某一经济现象或经济活动作“是”与“否”的判断与决策。在计量经济学中称为“二元响应”现象。处理二元型响应的模型常用有线性概率模型和非线性概率模型。45一、线性概率模型1、什么是线性概率模型例如,假设住户是否购买商品房主要取决于其收入水平。考虑下列模型:iiiuXY21其中Xi为住户收入,Yi为虚拟变量,表示住户购买商品房的情况:不买商品房购买商品房01iY(1)46则Yi是取值0或1的随机变量,由(1)式得:iiiXXYE21)(从而iiiippXYE1)1(0)(假设则P(Yi=1︱Xi)=pi,则P(Yi=0︱Xi)=1-pi于是iiXp21这表明购买商品房的概率是收入的线性函数,故模型(1)称为线性概率模型(LPM)。由于0≤pi≤1,所以(1)式必须满足约束条件1)(0iiXYE472、线性概率模型的估计线性概率模型虽然在形式上与普通线性回归模型很相似,但由于Yi是虚拟变量,会出现与普通回归模型不同的新问题,不能直接运用OLS对其进行估计:(1)随机扰动项不服从正态分布;(2)随机扰动项具有异方差性;(3)条件0≤E(Yi︱Xi)≤1不一定成立。48因为OLS估计的无偏性、有效性与扰动项的分布无关,所以第一个问题对参数的估计不会产生影响。但进行参数检验和区间估计时,要求服从正态分布,根据中心极限定理,二项分布趋近于正态分布,所以在大样本情况下,仍然可以进行统计推
本文标题:第八章 虚拟变量1577775632
链接地址:https://www.777doc.com/doc-29859 .html