您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 第六章-二元选择模型
第六章二元选择模型第一节线性概率模型模型第二节二元Logit离散模型第三节二元Probit离散模型模型第四节受限Tobit模型二元离散选择模型的经济背景实际经济生活中,人们经常遇到二元选择问题。由于购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即不购买住房购买住房01iY研究家庭是否购买住房。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即不跳槽跳槽01iY分析公司员工的跳槽行为。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即弃权反对支持321iY对某项建议进行投票。从上述被解释变量所取的离散数据看,如果被解释变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。这种二元选择模型或多元选择模型,统称离散选择模型。主要介绍线性概率模型、Probit模型、Logit模型。第一节线性概率模型一、线性概率模型形式NiuXYiii,,2,110设家庭购买住房的选择主要受到家庭收入水平的影响,则用如下模型表示其中:Xi为家庭的收入水平,Yi为家庭购买住房的选择没有购买住房已购买了住房01iY令那么)1(iiYPP)0(1iiYPP被解释变量Yi的分布为Yi01概率1-PiPi于是iiiiPYPYPYE)0(0)1(1)(又因为0)(iuE所以NiuXYiii,,2,110iiiiXPYPYE10)1()(家庭选择购买住房的概率是解释变量-家庭收入的一个线性函数。我们称这一关系式为线性概率函数。根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型iiiiXYEYPP)()1(),,,,1(21kiiiiXXXX),,,(10kiiikikiiuXuXXY110Yi的样本值是0或1。线性概率模型只能在范围内进行估计。01iiPX222()()(1)(1)(1)iiiiiiiEuXPXPPP现在来分析线性概率模型随机干扰项ui的分布iiikikiiuXuXXY110011iiiiiiiYXYXXYuui概率1-PiPiiXiX10)(iuE随机干扰项ui的方差为随机干扰项ui非正态且存在异方差性由于随机干扰项具有异方差性。修正异方差的一个方法就是使用加权最小二乘估计。但是加权最小二乘法无法保证预测值在之间,这是线性概率模型的一个严重缺陷。iYˆ]1,0[可能不成立1)(0iiiXYEP当用线性概率模型进行预测,预测值落在区间[0,1]之内时,则没有什么问题;但当预测值落在区间[0,1]之外时,则会暴露出该模型的严重缺点,所以此时必须强令预测值(概率值)相应等于0或1。因此,线性概率模型常常写成下面的形式iiikikiiuXuXXY110iXiX-0.20.00.20.40.60.81.01.2051015202530XY001110iiiiiXXXXP此模型由JamesTobin1958年提出。JamesTobin1981年获诺贝尔经济学奖。效用模型用表示第i个个体选择1的效用,表示第i个个体选择0的效用。其效用均为随机变量,于是有1iU0iU)()(21000111iiiiiiuXUuXU将(1)-(2),得)()(010101iiiiiuuXUU记01*0101*,,iiiiiiuuuUUY则有**iiiuXY格林称该模型为潜回归当效用差Yi*不大于零,则Yi应该选“0”**iiiuXY这是二元选择模型的切入点。称Yi*为潜在变量。这个变量是不可观测的。当效用差Yi*大于零,则Yi应该选“1”0001**iiiYYY作为研究对象的二元选择模型Yi和Yi*的关系为:则)(1)()0()1(**iiiiiXFXuPYPYP0001**iiiYYY**iiiuXY很明显,我们要得到事件发生的概率就必须知道随机干扰项ui*的概率分布,通常假定ui*服从下列二种分布,于是我们便得到了Logit、Probit模型:标准正态分布xdzexxFz2221)()(逻辑分布)(Λ)exp(1)exp()(xxxxF其中为机会概率比(简称机会比),即事件发生与不发生所对应的概率之比。第二节二元Logit离散模型在最终的效用模型中,假定ui*的分布为逻辑分布,则该模型称为Logit模型。**iiiuXYLogit模型的另一种表述为:)(1)()0()1(**iiiiiXFXuPYPYP)exp(1)exp()(iiiXXXF(非线性))exp()1(1)1(iiiXYPYP(广义非线性)iiiXYPYP)1(1)1(ln)1(1)1(iiYPYP逻辑斯蒂回归模型三、Probit模型在最终的效用模型中,假定ui*的分布为标准正态分布,则该模型称为Probit模型。**iiiuXYProbit模型的另一种表述为:)(1)()0()1(**iiiiiXXuPYPYPizXidzeX2221)(五、Extreme模型在最终的效用模型中,假定ui*的分布为极值分布,则该模型称为Extreme模型。**iiiuXY第二节二元离散选择模型最大似然估计下面我们来构造二元离散选择模型的似然函数。这是二元离散选择模型最关键的问题。我们假设有以Y轴为对称的概率密度函数f(.),则)()(1)1(iiiXFXFYP)(1)()0(iiiXFXFYP于是模型的似然函数为1021)()](1[)(iiYiYinXFXFYYYP,,模型的似然函数为1021)()](1[)(iiYiYinXFXFYYYPL,,iiYiYNiiXFXF)]([)(111iiYiYiPP1)1(Yi01概率1-PiPi两边同时取自然对数,则NiiiiiXFYXFYL1)(ln)(1ln)1(lnNiiiiiXFYXFYL1)(ln)(1ln)1(ln对数似然函数最大化的条件是(*))()()(1)()1(ln1NiiiiiiiiXXFXfYXFXfYL于是我们选择F不同的形式得到不同的经验模型一、Logit模型的最大似然估计对于Logit模型,我们有:密度函数)(Λ)exp(1)exp()(xxxxF分布函数))(Λ1)((Λ))exp(1()exp()(2xxxxxf(*))()()(1)()1(ln1NiiiiiiiiXXFXfYXFXfYL带入(*)式,我们得到:0ln1NiiiiXXYL)Λ(然后运用迭代法来估计系数。Logistic回归参数的极大似然估计值有如下性质(1)极大似然估计为一致估计,当样本容量很大时,模型的参数估计值将比较接近真值;(2)极大似然估计为渐进有效的,当样本容量增大时,参数估计的方差相对缩小,当样本容量时,极大似然的方差不大于用其它方法得到的参数估计的方差;N(3)极大似然估计为渐进正态的,当样本容量较大时,可以采用正态假设来构造模型参数的显著性检验与估计参数的置信区间等。,参数的置信区间为:由于超大样本条件下具有渐进正态分布,因此jˆ)ˆ(/)ˆ(jjjSEZ1jˆj))ˆ(ˆ),ˆ(ˆ(22jjjjSEZSEZ渐进服从标准正态分布,其中)ˆ(jSE是的标准误差,对于给定的显著性水平二、Probit模型、Extreme模型的最大似然估计如果是正态分布,则对数似然函数为NiiiiiXFYXFYL1)(ln)(1ln)1(lnNiiiiiXYXYL1)(ln)(1ln)1(lnProbit模型、Extreme模型的最大似然估计就是使上式有最大值时的。具体求解过程这里不再赘述。如果是极值分布,则对数似然函数为需要指出的是,不同的分布假设虽然给参数估计带来了很大的不同,但对于研究者,他们所感兴趣的估计效应则没有太大的差别。在例子中分析了某种教学方法对学生成绩的有效性。因变量(Grade)表示学生在接受新教学方法后成绩是否得到提高,如果提高,则Grade=1;未提高,则Grade=0。同时使用学生平均学分成绩GPA、调查测试之前学生的期初考试分数SE和个性化教学系统PSI作为学生成绩的预测单元,即解释变量。其中,如果对受调查学生采用新的教学方法,则PSI=1;若没有采用新的教学方法,则PSI=0。学校对32位学生进行了调查,得到表1所示的数据。例1考虑Greene给出的斯佩克特和马泽欧(1980)的例子。*3210**iiiiiiiuPSISEGPAuXGrade根据这些解释变量,建立度量学习效果模型其中,是的不可观测的潜在变量。GradeGradeLogit模型估计结果表达式iiiiPSISEGPAX*379.2*095.0*826.2021.13ˆ)exp(1)exp()1(,)1(1)1(lniiiiiiXXGradePGradePGradePX1.Logit模型的建立与估计Probit模型估计结果表达式iiiiPSISEGPAX*426.1*052.0*626.1452.7ˆ)()1(iiXGradeP2.Probit模型的建立与估计ExtremeValue模型估计结果表达式iiiiPSISEGPAX*616.1*060.0*584.1140.7ˆ)exp(1)1(iXieGradeP3.ExtremeValue模型的建立与估计线性回归模型中的可决系数R2不再适用于测度离散选择模型的拟合优度。原因是离散选择模型的R2不可能接近1(因为Yi的观测值只取0或1,而Yi的预测值是概率)。目前最常用的是McFadden(1974)提出的McFadden-R2,它是一种替代R2的度量拟合优度的较好方法。第三节二元离散模型的评价和参数的统计检验一、模型的拟合优度检验(一)McFadden-R2McfaddenR-squared:麦克法登似然比率指数(likelihoodRatioIndex)其被定义为:0ˆlnˆln1LL其中:是当前模型对数似然函数的最大值(Loglikelihood);仅仅包含常数项和误差项的零模型估计结果的对数似然函数的最大值(Restr.loglikelihood)。Lˆln0ˆlnL如果极大化过程显示所估计参数的任何变化都不会引起对数似然函数的变化,则;如果所估计的似然函数对样本中每一个因变量的预测是完全准确的,则。如果在方程定义对话框的解释变量列表中不包含常数项,则估计结果中不显示McfaddenR-squared统计量。1ˆlnˆln100LL01看模型预测值,检查一下Y=1或Y=0的概率的正确性来判断模型拟合的好坏。将与实
本文标题:第六章-二元选择模型
链接地址:https://www.777doc.com/doc-8134877 .html