您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 综合/其它 > 4.4-计数数据模型
§4.4离散计数数据模型ModelsForCountData一、离散计数数据模型的提出二、计数过程及其分布三、泊松回归模型四、负二项分布回归模型五、零变换泊松模型一、离散计数数据模型的提出1、经济社会研究中的离散计数问题•计数变量是取值为非负整数的变量•许多经济、社会问题的描述变量都为计数变量–一定时间内发生事故的次数–一年中公司申请的专利数量–一定时间内变换工作的次数–一定时间内到医院就诊的次数–家庭生育孩子的数量–学生在本科4年中不及格课程门数•以这些变量为被解释变量,研究它们的影响因素,构成了计量经济学的一类问题。2、计量经济学中的离散计数数据模型•以离散计数变量为被解释变量,研究它们的影响因素,构成了计量经济学的一类问题。这类问题的共同特点是:被解释变量观测值表现为非负整数。•假设是Y计数变量,X是一组解释变量,建立如下的经典线性模型:niEYiii,,2,10)(βXiniYEi,,2,1)(βXXii左端为非负整数,而右端并无限制,致使左右端矛盾。•如果对Y采用对数变换,可以解决非负限制问题。iiYβXi)log(在计数数据应用研究中难以实现,因为相当比例的Y的观测值为0。•当y没有上界时,可以采用指数函数模型)exp()(βXXiiiYE非线性最小二乘方法(NLS)可以用于该模型的估计,但效果不理想。因为NLS估计量非有效,除非y的方差为常数,而实际上,所有计数数据的标准分布都意味着异方差。•被解释变量观测值的非负整数特征,计数数据中零元素和绝对值较小的数据出现得较为频繁,而且离散特征十分明显,以及模型的异方差特征,决定了有必要引进描述非负整数特征的概率分布建立离散计数数据模型。•七十年代末以来,许多学者在计数数据模型的处理方法方面作出了较大贡献,包括:–Gilbert(1979)提出了泊松回归模型,–Hausman,Hall和Griliches(1984)提出了负二项回归模型和Panel方法,–Gourier,Monfort和Trogonon(1984)提出了仿最大似然法。•其中,最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛。二、计数过程及其分布1、计数过程•计数过程的定义–随机过程{N(t),t≥0}被称为计数过程,N(t)表示t时间前发生的事件总量。•平稳性(Stationary)–在任何时间区间上,事件发生数量的分布只由时间区间的长度决定。..2121()()()()idNtsNtsNtNt2、单变量泊松过程•在时间区间(t,t+Δt)上,事件发生1次的概率与t时间前事件发生的数量无关。•在时间区间(t,t+Δt)上,事件发生1次和0次的概率分别为:)(}1),({tttttNP)(1}0),({tttttNP即,在一个足够短的区间上,事件发生两次以上的概率趋近于0。(,)1()PNtttot(0,)()kPNttkptt1()()(1)()()kkkpttpttpttot1()()(()())()kkkkpttptptptott1()(()())kkkdptptptdt0t在t时刻已经发生k次的概率乘以(t+Δt)内发生0次的概率在t时刻已经发生(k-1)次的概率乘以(t+Δt)内发生1次的概率)(0))()(()()(1ttptpttpttpkkkk•使用初始条件,求解以上微分方程•利用概率生成函数得到泊松分布0(0)1P()0(,)()()NtkkkPstEspts011()(,)(()())()(,)kkkkkkkdptsdPstptptssPstdtdt(,)exp[()]Pstst10()exp()()(!)()!kkskdPttPXkkdsk3、泊松分布(Poissondistribution)•在泊松过程中,标准化时间区间长度为t=1,则可以得到参数为λ的标准泊松分布!)exp()()(kkXPk泊松分布的一个重要特征是均值和方差相等,称为分散均衡(equidispersion)。)(,)(XVarXE•泊松分布是计数过程最常见的一类分布。–所谓均值和方差相等,指的是,如果对同一个个体,例如某个人一年内到医院就诊的次数,进行无数次重复抽样,得到的计数数据序列的均值和方差相等。–在实际社会经济生活中,所谓“重复抽样”是不可能实现的,只能根据对不同个体的一次抽样得到的序列近似地判断是否服从泊松分布。•定理令,。当且仅当X与Y独立时,随机变量Z=X+Y是泊松分布。–当X与Y独立时,Z的概率生成函数为–则Z服从泊松分布,参数为()XPo()YPo()()()()()XYXYsssEsEsEseee4、二项分布(Binomialdistribution)•随机变量X服从参数为n和p的二项分布,X~B(n,p),0p1,即()()(1)knknPXkppk均值和方差为:E(X)=np,Var(X)=np(1-p)计数过程的均值大于方差,称为分散不足(underdispersion)。5、负二项分布(NegativeBinomialdistribution)•如果计数过程的均值小于方差,称为分散过度(overdispersion)。•对于这样的计数过程,一般服从负二项分布。X~NB(α,θ),0θ1,α0。kkkkXP)1()11()1()()()(2)1()(,)1()(XVarXE6、对数分布(Logarithmicdistribution)()/kPXkk1[log(1)]1()(1)EX2()(1)(1)VarX方差和均值为:7、计数数据分布特征•如果以泊松分布作为标准,二项分布更集中于均值,而负二项分布更为分散•所有分布都向左侧倾斜(skewedtotheleft),说明在计数分布中,数值较小的数据出现的概率较高。8、Katz分布族•非负整数分布可以用递归概率比表示•Katz分布族定义为–其中,,且当,1()(,)(1)kkpPXkfkPXkp1(1)kkpkpk0/k0()1EX2()(1)VarX•当,分布为泊松分布•当,分布为二项分布•当,分布为负二项分布•当,分布为对数分布,0,11npppp11(),110,三、泊松回归模型1、泊松回归模型(Poissonregressionmodel)•被解释变量Yi服从参数为λi的泊松分布,其中λi与解释变量Xi存在某种关系。模型的初始方程为:,....2,1,0,!)(PriiyiiiyyeyYobiiβXiilnβXiXXeYVarYEiiiiiexp(exp())exp()()!iiiixkxPYkxk2、极大似然估计(MLE)•对数似然函数•最大化似然函数,一阶条件:•Hessian矩阵:1(;,)[exp()ln(!)]niiiiilyxxyxy'1(;,)[exp()]0niiiilyxyxx2''1(;,)(;,)exp()niiiilyxHyxxxx•由于Hessian矩阵是负定的,对数似然函数是凹函数,估计值的二阶条件满足•利用迭代算法,可以求解一阶条件–例如,Newton-Raphson方法g(.)是梯度向量ˆ11ˆˆˆˆ(())()ttttHg(;,)()lyxg3、例题:本科不及格门数的原因分析•变量–Unpass—不及格门数–Score—高考成绩–Stime—平均每周于用学习的时间–Dsa—理、文科虚变量–Dbody—健康状况虚变量•数据•数据•经典模型(OLS)•Poisson回归模型剔除不显著变量4、估计量的性质•模型正确设定,当且仅当存在满足假设模型正确设定,围绕对进行Taylor展开由一阶条件可知,00011(,)()nniiiiiifyxfyxˆ()g0000ˆˆ()()()()ggHˆ()0g100011ˆ()(())()nHgnn根据iid假设和大数定律,–I为Fisher信息矩阵根据中心极限定理因此,00111()()npniiHHInn01()(0,)dngNIn10ˆ()(0,)dnNI'000[()][()()]iiiiiEHxEggxI•以上结果表明,是的一致估计量由于大样本方差矩阵达到Cramer-Rao下界,估计量是大样本有效的因此,正确设定的泊松回归模型满足ˆ0'101ˆ()(0,[exp()])ndiiiinNnxxx5、泊松回归模型的假设检验•泊松回归模型假定被解释变量的均值等于方差,这是一个非常强的假设。•如何检验这个假设条件是否成立?主要有以下两种:–基于回归的检验方法–拉格朗日乘子检验法•基于回归的分布检验],[][:0iiYEYVarH])[(][][:1iiiYEYEYVarHiiYEˆ)(22ˆ)ˆ()(iiiiuYYVariiiuˆˆ2iiiiuˆˆˆ2如果α的估计趋近于1,则不拒绝零假设。如果α的估计趋近于1,β的估计趋近于0,则不拒绝零假设。•拉格朗日乘子检验–泊松分布是负二项分布的一种特殊情况,如果对负二项分布的某个参数施加一定的限制条件后,就能够得到泊松分布。–构造LM统计量:niiiniiiiiwYYwLM12212ˆˆ2])ˆ[(ˆ2/1)'2/()'(YeenLM权重为1•例题:–采用基于回归的检验方法检验被解释变量的均值等于方差,得到回归方程:iiuˆ3566.0ˆ2拒绝均值等于方差零假设。由简单统计分析得到,序列UNPASS的均值为0.48,方差为0.9078,可以认为该序列为分散过度型。应该采用负二项分布回归模型。6、泊松回归模型的拟合优度检验•由于泊松回归模型的条件均值非线性,且回归方程存在异方差,所以它不能产生类似于经典线性模型中的R2统计量。•提出了若干个替代性的统计量,用以衡量该模型的拟合优度。•PseudoR-squared211ˆˆlog(/)()log(/)niiiiniiiyyyRyyy该统计量被应用软件(例如Eviews等)普遍采用。从直观看,如果完全拟合,R2=1。•Rp2统计量.ˆ112212niiniiiipyyyyR该统计量通过把泊松模型同只有一种观察值的模型相比较的方法,考察该模型的拟合优度。但是这个统计量有时为负,而且会随变量的减少而变小。•G2统计量niniiiiiYYdG112)ˆ/ln(2该统计量为各样本观察值的偏差(deviance)之和。如果拟合达到完美状态,则该统计量为零。niiiniiiiiidyyyyyyR112)log()ˆ()ˆlog(1.),(),(),(),ˆ(2iiiiidyylyylyylylR该统计量具有较好的性质。如果用),(iiyl表示对数似然函数,其中i为iy的估计值,则泊松模型得出的对数似然函数为),(iiyl,只有一种观察值的模型的函数为),(iyyl,理想模型的函数为),(iiyyl。于是有分子和分母都衡量了模型在只有一种观察值的模型基础上的改进,分母为改进的最大空间。所以该统计量的数值在0到1之间。•Rd2统计量四、负二项分
本文标题:4.4-计数数据模型
链接地址:https://www.777doc.com/doc-2060721 .html