您好,欢迎访问三七文档
LOGO第8章模型中的特殊解释变量www.themegallery.com虚拟变量(dummyvariable)www.themegallery.comCompanyLogo2主要内容一、为什么引入虚拟变量二、用虚拟变量测量截距变动三、测量斜率变动四、分段线性回归www.themegallery.comCompanyLogo3一、为什么引入虚拟变量1.定量解释变量诸如前几章介绍的,可以在取值范围内连续取值的解释变量,称作定量解释变量。如:人均收入,农产品收购量,等。2.定性变量如性别、民族、国籍、战争、自然灾害和政治体制等,只表示某种特征的存在与不存在,称作定性变量。www.themegallery.comCompanyLogo4一、为什么引入虚拟变量建立回归模型的过程中,被解释变量不仅受定量解释变量影响,有时还受一些诸如如性别、民族、国籍、战争、自然灾害和政治体制等定性变量的影响。因此,当这些定性变量对被解释变量产生影响时,当然也应该包括在回归模型中。www.themegallery.comCompanyLogo5一、为什么引入虚拟变量3.如何将定性变量引入模型由于定性变量通常表示的是某种特征或属性是否存在,如男性、女性,城市户口、非城市户口等,所以量化方法可采用取值为0或1。可以用1表示该属性存在,0表示该属性不存在(也可相反)。www.themegallery.comCompanyLogo6一、为什么引入虚拟变量4.虚拟变量上述这种取值为0或1的变量称作虚拟变量,用D(Dummy)表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。当一个定性变量含有m个类别时,应向模型引入m-1个虚拟变量。www.themegallery.comCompanyLogo7一、为什么引入虚拟变量比如“性别”含男性与女性两个类别,所以当“性别”作解释变量时,应向模型引入一个虚拟变量。取值方式是:01D(男性)(女性)01D(女性)(男性)或www.themegallery.comCompanyLogo8一、为什么引入虚拟变量再例如,定性变量“学历”还有四个类别,即大学学历、中学学历、小学学历和无学历。当“学历”作解释变量时,应向模型引入(4-1)三个虚拟变量,一种取值方式是:011D(大学学历)(非大学学历)013D(小学学历)(非小学学历)012D(中学学历)(非中学学历)www.themegallery.comCompanyLogo9一、为什么引入虚拟变量5.虚拟变量注意事项(1)当定性变量含有m个类别时,模型不能引入m个虚拟变量。否则在虚拟变量间会产生完全多重共线性,无法估计回归参数。例如:一年四季,取m=4个虚拟变量。截距项对应的单位向量等于D1+D2+D3+D4。即出现完全多重共线性。tβ0D1D2D3D41995.1110001995.2101001995.3100101995.4100011996.1110001996.2101001996.3100101996.4100011997.111000www.themegallery.comCompanyLogo10一、为什么引入虚拟变量(2)把虚拟变量取值为0所对应的类别称作基础类别。例如:按上面对“学历”的赋值方法,“无学历”为基础类别。(3)当定性变量含有m个类别时,不能把虚拟变量的值设成如下形式:110mD(第一个类别)(第二个类别)(第m个类别)这种赋值法在一般情形下与虚拟变量赋值是完全不同的两回事。www.themegallery.comCompanyLogo11一、为什么引入虚拟变量(4)回归模型可以只用虚拟变量作解释变量,也可以用定量变量和虚拟变量一起作解释变量。www.themegallery.comCompanyLogo12二、用虚拟变量测量截距变动下面给出的模型都属于测量截距变动的模型。iiiiiuDXYuDY21010以上面第二个模型为例,D=1、0时,回归函数分别是iiiiXYEXYE10120)()()((D=1)(D=0)由此可见,向模型引入虚拟变量,其数学意义就是回归函数截距项发生变化。对虚拟变量的系数作显著性检验,就是判别两条回归直线的截距项是否存在显著性差异。www.themegallery.comCompanyLogo13二、用虚拟变量测量截距变动例8.3随机调查美国旧金山地区20个家庭的储蓄情况,拟建立年储蓄额Yi(千美元)对年收入Xi(千美元)的回归模型。0.00.51.01.52.02.53.03.551015202530354045XY上部的6个样本点,都是自己有房的家庭。下部的14个样本点,都是租房住的家庭。这两类家庭所对应的样本观测点各自都表现出明显的不同的线性关系。www.themegallery.comCompanyLogo14二、用虚拟变量测量截距变动为研究不同住房状况家庭的储蓄情况,引入定性变量“住房状况”,用D表示。虚拟变量D定义如下:建立回归模型:01D(有房户)(租房户)iiiuDXY210Y—年储蓄额Y(千美元)X—年收入(千美元)D—住房状况www.themegallery.comCompanyLogo15二、用虚拟变量测量截距变动因为D不能作为Eviews的用户变量名,所以虚拟变量的名称取D1。www.themegallery.comCompanyLogo16二、用虚拟变量测量截距变动27.2,99.0)0.11()9.16()2.5(8273.00675.03204.0ˆ2DWRDXYii由于虚拟变量D的回归系数显著地不为零,说明对住房状况不同的两类家庭来说,回归函数截距项确实明显不同。(因为D不能作为Eviews的用户变量名,所以取D1)www.themegallery.comCompanyLogo17二、用虚拟变量测量截距变动当模型不引入虚拟变量“住房状况”时,得回归方程如下:85.1,88.0)6.11()5.3(0963.05667.0ˆ2DWRXYii比较上述两个回归方程的统计检验指标,说明该回归模型引入虚拟变量非常必要。www.themegallery.comCompanyLogo18二、用虚拟变量测量截距变动引入虚拟变量后,不同住房状况的居民的储蓄明显具有不同的截距:iiXY0675.05069.0ˆ(1)D=1时,即对于有房户(2)D=0时,即对于租房户iiXY0675.03204.0ˆwww.themegallery.comCompanyLogo19二、用虚拟变量测量截距变动例8.4季节影响“季节”是在研究经济问题中常常遇到的定性因素。比如,酒、肉的销量在冬季要超过其他季节,而饮料的销量又以夏季为最大。当建立这类问题的计量模型时,就要考虑把“季节”因素引入模型。由于一年有四个季节,所以这是一个含有四个类别的定性变量。应该向模型引入3个虚拟变量。www.themegallery.comCompanyLogo20二、用虚拟变量测量截距变动研究,1982年第1季度至1988年第4季度全国按季节市场用煤销售量,时间序列图如下2500300035004000450050005500051015202530TYwww.themegallery.comCompanyLogo21二、用虚拟变量测量截距变动从上图看出,煤销售量随季节不同呈明显的周期性变化。给出三个虚拟变量,设:011D(第四季度)(其他季度)013D(第二季度)(其他季度)012D(第三季度)(其他季度)这里是以第一季度为基础类别,也可以选其他季度为基础类别。设模型为:ttuDDDtY34231210www.themegallery.comCompanyLogo22二、用虚拟变量测量截距变动1982年第1季度取t=1,估计模型参数4.100,2.1,95.0)83.0()96.1()43.13()81.10()04.26(00.8584.20109.138800.4920.2431ˆ2321FDWRDDDtYt给定显著性水平α=0.05,D2、D3的系数没有显著性,说明第二、三季度可以归并入基础类别第一季度。www.themegallery.comCompanyLogo23二、用虚拟变量测量截距变动现在考虑只加入一个虚拟变量D1,把季节因素分为第四季度和第一、二、三季度两类。011D(第四季度)(其他季度)9.184,4.1,94.0)79.14()63.10()03.32(91.129073.4986.2515ˆ21FDWRDtYt这里第一、二、三季度为基础类www.themegallery.comCompanyLogo24二、用虚拟变量测量截距变动tYt73.4986.2515ˆ2500300035004000450050005500051015202530TY第四季度用煤量:tYt73.4977.3806ˆ第一、二、三季度用煤量:www.themegallery.comCompanyLogo25三、测量斜率变动用虚拟变量还可以考察回归函数的斜率是否发生变化,来分析不同“类型”的不同斜率。方法是在模型中加入定量变量与虚拟变量的乘积项:设模型如下按β2、β3是否为零,回归函数可有如下四种形式:iiiiiiuDXDXY)(3210)0()(3210iiXYE)0,0()()()(323120iiXYE)0,0()()(32310iiXYE)0,0()()(32120iiXYEwww.themegallery.comCompanyLogo26三、测量斜率变动0204060801000204060XY0102030405060700204060TY截距、斜率同时发生变化的两种情形:010www.themegallery.comCompanyLogo27三、测量斜率变动例2:利用中国进出口贸易总额数据(1950-1984)。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下:)1984~1979(,1)1978~1950(,0D024681012141950195519601965197019751980TRADE从图中观察到,改革开放前后的散点斜率确实不同,所以可以用虚拟变量进行测度。1978年www.themegallery.comCompanyLogo28三、测量斜率变动模型的数学形式:以时间time为解释变量,进出口贸易总额用trade表示:Eviews先中生成解释变量time和虚拟变量D的乘积:genrtimeD=time*D1(因为D不能作为Eviews的用户变量名,所以取D1)utimeDDtimetrade131210www.themegallery.comCompanyLogo29三、测量斜率变动www.themegallery.comCompanyLogo30三、测量斜率变动)6.9()4.8()2.6()35.1(2559.18809.350746.02818.0timeDDtimetrade还有虚拟变量的两项都是显著的,所以)1984~1979,1(,3305.15991.33)1978~1950,0(,0746.02818.0DtimeDtime上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量(斜率)扩大了17倍。www.themegallery.comCompanyLogo31四、分段线性回归当在模型中使用虚拟变量时,回归函数就不再是连续的了,分段线性回归可以既使用虚拟变量描述出模型结构变化,又可以使回归函数保持
本文标题:第八章 虚拟变量
链接地址:https://www.777doc.com/doc-29854 .html