您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 13.第十讲-二元因变量回归解析
二元因变量回归通常的经济计量模型都假定因变量是连续的,但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择,与通常被解释变量是连续变量的假设相反,此时因变量只取有限多个离散的值作为被解释变量建立的计量经济模型,称为离散选择模型(discretechoicemodel,DCM)。二元选择模型在离散选择模型中,最简单的情形是在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(binarychoicemodel)。例如:在讨论家庭是否购车的问题中,可将家庭购车的决策用数字1表示,而将家庭不购车的决策用数字0表示。10yesxno如果x作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购车问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购车的问题。10yesyno如果解释变量是离散的(比如,虚拟变量),这并不影响回归。但有时被解释变量是离散的,而非连续的。比如,个体的如下选择行为(人生充满了选择):二值选择(binarychoices):考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回国。在离散选择模型中,影响是否购车的因素有哪些?汽车本身所具有的属性,如价格、型号等;决策者的收入水平决策者对车的偏好程度等。如果我们要研究是否买车与收入之间的关系,即研究具有某一收入水平的个体买车的可能性。因此,二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。为了深刻地理解二元选择模型,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为:其中:N是样本容量;k是解释变量个数;xj为第j个个体特征的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费者的偏好等。设yi表示取值为0和1的离散型随机变量。ui为相互独立且均值为0的随机扰动项。1122iiikkiiyxxxu1,2,,iN现在约定备择对象的0和1两项选择模型中,下标i表示各不同的经济主体,取值0或1的因变量表示经济主体的具体选择结果,而影响经济主体进行选择的自变量。如果选择响应Yes的概率为:经济主体选择响应No的概率为,(1)ipy(0)1(1)iipypy()1(1)0(0)(1)iiiiEypypypy根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们可以构造线性概率模型:011(1)()iiiikikpyEyxxxβ书上的例子被解释变量:房屋抵押贷款申请是否被拒deny。1:被拒0:不被拒解释变量:种族(是否黑人)black还款收入比P/Iratio下画出了数据集中2380个观测值中127个deny对P/Iratio的数据散点图。通过散点图可以看出deny和P/Iratio的关系:即还款/收入比小于0.3的申请者的申请很少被拒,但还款/收入比超过0.4的申请者的大部分申请都被拒了。由这127个观测值估计出的O15回归线。同前,这条直线画出了用回归变量还款/收入比表示的deny预测值的函数图。例如,当P/Iratio=0.3时,deny的预测值大约为0.2。可以理解为P/Iratio=0.3时,被拒的概率为0.2,即如果有许多申请者的P/Iratio=0.3,则其中有20%的申请会被拒。二元选择模型的三种主要类型:线性概率模型(LPM)Probit模型Logit模型线性概率模型011(1)()iiiikikpyEyxxxβ被拒概率的计算:假设某人的P/Iratio为0.3,计算他的被拒概率:被拒概率=-0.08+0.604*0.3=0.1012=10.12%上述方程再增加一个是否为黑人的虚拟变量,则方程变为:线性概率模型的缺点被解释变量常常超出0-1范围。当P/Iratio小于0.132时deny0当P/Iratio大于1.788时deny1处理方式:发现被解释变量大于1,则取1;被解释变量小于0,则取0。Probit和Logit回归Probit和Logit回归是特别为二元因变量设计的非线性回归模型。由于二元因变量Y的回归建立了Y=1的概率模型,因此采用使预测值落在0到1之间的非线性形式才有意义。由于累积概率分布函数产生的概率位于0到1之间,因此我们把它们应用到Probit和Logit回归中。其中Logit回归也称为logistic回归。Probit回归Probit模型假定误差项的分布形式为标准正态分布:22011(1|)(|)()1()2iiiixikikpyEyxxedxxβxxxβ-4-202400.20.40.60.81累积正态概率分布曲线()iiiyXBProbit模型为Logit模型Logit模型假定模型的误差项服从Logistic分布1(1|)(|)()11iiiiiiepyEyeexβxβxβxxxβ05101520253000.20.40.60.81Logistic分布函数边际效应分析对于Probit模型来说,其边际效应为:对于Logit模型,其边际效应为:其中,Prob(=1|)=()=()iiiiiYXXββXββXProb(=1|)=()=()(1-())iiiiiiYXXββXβXββX()=()(1-())从上式可以看到,Probit和Logit模型中解释变量对Yi取值为1的概率的边际影响不是常数,它会随着解释变量取值的变化而变化。因此:回归结果的系数并不能真正表示其边际效应。例1:利用Probit模型计量出结果为:deny=-2+3*P/Iratio+u当P/Iratio=0.4时,如何计算被拒概率?()(23*/)(23*0.4)(0.8)21.2%idenyXBPIratio例2:利用Probit模型计量出结果为:deny=-2+3*P/Iratio+u当P/Iratio从0.3变到0.4时,被拒概率的变化?同理也可应用与多元Probit模型。(23*0.4)(23*0.3)(0.8)(1.1)21.2%13.6%7.6%deny书上的例子当P/Iratio从0.3变到0.4时,被拒概率的变化?1.求P/Iratio=0.3的白人申请者的被拒的概率将P/Iratio=0.3并且black=0带入,得概率为7.5%。2.求P/Iratio=0.3的黑人申请者的被拒的概率将P/Iratio=0.3并且black=1带入,得概率为23.3%。二者之间相差15.8个百分点?Logit模型与Probit模型累积分布图和计算方法类似,仅累积分布函数形式不同。假设利用Logit模型回归的方程为则P/Iratio=0.3的白人的被拒概率为:(4.135.37*0.31.27*0)11==7.4%111iiiedenyeeexβxβxβProbit和Logit回归算法1.非线性最小二乘估计2.最大似然估计关于拟合优度一个综合例子使用美国妇女就业数据集“womenwork.dta”,估计决定就业的Probit与Logit模型。被解释变量为work=1,就业;work=0,不就业。解释变量为age(年龄),married(婚否),children(子女数),education(教育年限)。usewomenwork,clearregworkagemarriedchildreneducationprobitworkagemarriedchildreneducationmfxlogitworkagemarriedchildreneducationmfx
本文标题:13.第十讲-二元因变量回归解析
链接地址:https://www.777doc.com/doc-8406603 .html