您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第七章 虚拟变量回归
1第七章虚拟变量回归第一节虚拟变量的性质在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。一、基本概念由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量(dummyvariable)。虚拟变量也称:哑元变量、定性变量等等。通常用字母D或DUM加以表示(英文中虚拟或者哑元Dummy的缩写)。用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。虚拟变量应用于模型中,对其回归系数的估计与检验方法和定量变量相同。虚拟变量表示两分性质,即“是”或“否”,“男”或“女”等。下面给出几个可以引入虚拟变量的例子。例1:你在研究学历和收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。二、虚拟变量设置规则虚拟变量的设置规则涉及三个方面:1.“0”和“1”选取原则虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。“0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。2.属性(状态、水平)因素与设置虚拟变量数量的关系定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。虚拟变量数量的设置规则1.若定性因素具有m(m≥2)个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m个虚拟变量;2.当回归模型无截距项时,则可引入m个虚拟变量;否则,就会陷入“虚拟变量陷阱”。(0,1)(0,0)DD12(1,0)天气阴如:(,)=天气雨其他2例(虚拟变量陷阱)研究居民住房消费支出和居民可支配收入xi之间的数量关系。回归模型的设定为:现在要考虑城镇居民和农村居民之间的差异,如何办?为了对“城镇居民”、“农村居民”进行区分,分析各自在住房消费支出上的差异,设为城镇;为农村。,则模型为(模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态(m=2),故只设定一个虚拟变量。)若对两个相互排斥的“居民属性”,引入m=2个虚拟变量,则有则模型(1)为则对任一家庭都有:D1+D2=1即产生完全共线,陷入了“虚拟变量陷阱”。“虚拟变量陷阱”的实质是:完全多重共线性。第二节虚拟解释变量的回归在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种:即原模型实质:加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。一、加法类型(1)一个两种属性定性解释变量而无定量变量的情形例:按性别划分的教授薪金序号起薪,Y(千美元)性别(男=1,女=0)122121903180421.71518.506211720.51011iiiY=+X+u()iY1=1iD1=0iD01112iiiY=+X+D+u()38170917.501021.21DependentVariable:YMethod:LeastSquaresDate:11/23/11Time:22:19Sample:110Includedobservations:10VariableCoefficientStd.Errort-StatisticProb.C18.000000.31176957.735030.0000D3.2800000.4409087.4391910.0001R-squared0.873701Meandependentvar19.64000AdjustedR-squared0.857913S.D.dependentvar1.849444S.E.ofregression0.697137Akaikeinfocriterion2.293187Sumsquaredresid3.888000Schwarzcriterion2.353704Loglikelihood-9.465934F-statistic55.34156Durbin-Watsonstat0.667284Prob(F-statistic)0.000073Yi=18+3.28Di(2)包含一个定量变量,一个定性变量模型设有模型,薪金18ˆ28.3ˆ女教授男教授4yt=0+1xt+2D+ut,其中yt,xt为定量变量;D为定性变量。当D=0或1时,上述模型可表达为,0+1xt+ut,(D=0)yt=(0+2)+1xt+ut,(D=1)02040600204060XYD=1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。例:中国成年人体重y(kg)与身高x(cm)的回归关系如下:–105+xD=1(男)y=-100+x-5D=–100+xD=0(女)注意:①关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。但解释模型时一定注意1,0是怎样分配的。②定性变量中取值为0所对应的类别称作基础类别(basecategory)。③对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:1(大学)D=0(中学)-1(小学)。(3)一个定性解释变量(两种以上属性)和一个定量解释变量的情形5(4)两个定性解释变量(均为两种属性)和一个定量解释变量的情形例:研究大学教师的年薪是否受到性别、学历的影响。性别和学历是两个不同的标准。按性别标准教师可以分成男、女两类,应该引入一个虚拟变量;按学历标准大学教师可以分为大学本科学历、硕士学历、博士学历三类,应该引入两个虚拟变量,共引入三个虚拟变量:令Y代表年薪,X代表教龄,建立模型:可以看出基准类是本科女教师,B0为刚参加工作的本科女教师的工资;B1为参加工作时间对工资的影响;B2是性别差异系数;B3和B4为学历差异系数,B3是硕士学历与本科学历的收入差异,B4是博士学历与本科学历的收入差异;通过上述分析,我们可以确定Bi的符号。在这个问题中,一共有六个类别,但是我们只引入了三个虚拟变量,而不是五个。在就多个标准引入虚拟变量时,应该注意每一标准下引入虚拟变量个数应该是这一标准下类别数目减一,所以我们在本例中只引入三个虚拟变量而不是五个。如果引入五个虚拟变iiiiiiuDBDBDBXBBY443322106量就会陷入虚拟变量陷阱。运用OLS得到回归结果,再用t检验讨论因素是否对模型有影响。加法方式引入虚拟变量的主要作用为:1.在有定量解释变量的情形下,主要改变方程截距;2.在没有定量解释变量的情形下,主要用于方差分析。二、乘法类型基本思想以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟解释变量与其它解释变量的乘积,作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的。或者将模型斜率系数表示为虚拟变量的函数,以达到相同的目的。乘法引入方式:(1)截距不变;(2)截距和斜率均发生变化;分析手段:仍然是条件期望。以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:yt=0+1xt+2D+3xtD+ut,其中xt为定量变量;D为定性变量。当D=0或1时,上述模型可表达为,(0+2)+(1+3)xt+ut,(D=1)yt=0+1xt+ut,(D=0)通过检验3是否为零,可判断模型斜率是否发生变化。0204060801000204060XY0102030405060700204060TY情形1(不同类别数据的截距和斜率不同)情形2(不同类别数据的截距和斜率不同)例:用虚拟变量区别不同历史时期(file:dummy2)中国进出口贸易总额数据(1950-1984)见下表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下0(1950-1977)D=1(1978-1984)7中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)年tradetimeDtimeD年tradetimeDtimeD19500.41510019681.085190019510.59520019691.069200019520.64630019701.129210019530.80940019711.209220019540.84750019721.469230019551.09860019732.205240019561.08770019742.923250019571.04580019752.904260019581.28790019762.641270019591.493100019772.725280019601.284110019783.5502912919610.908120019794.5463013019620.809130019805.6383113119630.857140019817.3533213219640.975150019827.7133313319651.184160019838.6013413419661.2711700198412.0103513519671.1221800以时间time为解释变量,进出口贸易总额用trade表示,估计结果如下:trade=0.37+0.066time-33.96D+1.20timeD(1.86)(5.53)(-10.98)(12.42)0.37+0.066time(D=0,1950-1977)=-33.59+1.27time(D=1,1978-1984)上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。三、虚拟解释变量综合应用(1)结构变化分析结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然,平行回归、共点回归、不同的回归三个模型均不是同一模型。平行回归模型的假定是斜率保持不变(加法类型,包括方差分析);共点回归模型的假定是截距保持不变(乘法类型,又被称为协方差分析);不同的回归的模型的假定是截距、斜率均为变动的(加法、乘法类型的组合)。例:比较改革开放前、后我国居民(平均)“储蓄—收入”总量关系是否发生了变化?模型的设定形式为:8回归方程:显然,只要、不同时为零,上述模型就能刻画改革开放前后我国居民储蓄收入模型结构是否发生变化。(2)交互效应分析交互作用一个解释变量的边际效应有时可能要依赖于另一个解释变量。为此,Klein和Morgen(1951)提出了有关收入和财产在决定消费模式上相互作用的假设。他们认为消费的边际倾向不仅依赖于收入,而且也依赖于财产的多少——较富有的人可能会有不同的消费倾向。由于YZ捕获了收入和财产之间的相互作用而被称为交互作用项。显然,刻画交互作用的方法,在变量为数量(定量)变量时,是以乘法方式引入虚拟变量的。例:是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。模型设定为:(1)式中,以加法形式引入虚拟变量暗含何假设?(1)式以加法形式引入,暗含的假设为:菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时
本文标题:第七章 虚拟变量回归
链接地址:https://www.777doc.com/doc-3264399 .html