您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第7章 分位数回归模型的理论与应用
第7章分位数回归模型7.1总体分位数和总体中位数以往介绍的回归模型实际上是研究被解释变量的条件期望。人们当然也关心解释变量与被解释变量分布的中位数,分位数与解释变量呈何种关系。这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。分位数回归估计量的计算是基于加权的最小绝对离差和估计法。分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。(2)中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。1.总体分位数和总体中位数在介绍分位数回归之前先介绍分位数和中位数概念。对于一个连续随机变量y,其总体第τ分位数y(τ)的定义是:y小于等于y(τ)的概率是τ,即τ=P(y≤y(τ))=F(y(τ))其中P()表示概率,F(y(τ))表示y的累积(概率)分布函数(cdf)。比如y(0.95)=1.65,则意味着y≤1.65的概率是0.95。且有y(τ)=F-1(y(τ))即F(y(τ))的反函数是y(τ)。例:若y服从标准正态分布,1.65=F-1(1.65)=-1(1.65)。当τ=0.5时,y(τ)是y的中位数。τ=0.75时,y(τ)是y的第3/4分位数,τ=0.25时,y(τ)是y的第1/4分位数。若y服从标准正态分布,y(0.5)=0,y(0.975)=1.960。另外,如果随机变量y的分布是对称的,那么其均值与中位数是相同的。当其中位数小于均值时,分布是右偏的。反之,分布是左偏的。若yt对以Xt为条件的第τ分位数用函数y(τ)tXt表示,则分位数回归模型的含义是:以Xt为条件的yt小于等于y(τ)tXt的概率是τ。这里的概率是用yt对Xt的条件分布计算的。且有y(τ)tXt=F-1(y(τ)tXt)其中F(y(τ)tXt)是yt在给定X条件下的累积概率分布函数(cdf)。则y(τ)tXt称作被解释变量yt对Xt的条件分位数函数。而F'(y(τ)tXt)=f(y(τ)tXt)则称作分位数概率密度函数。其中F'(y(τ)tXt)表示F(y(τ)tXt)对y(τ)tXt求导。2.总体中位数的估计在介绍分位数回归之前,先来看中位数的估计和中位数回归。下面以连续变量为例介绍定理1。定理1连续变量用y表示,其概率密度函数用f(y)表示,累计概率密度函数用F(y)表示,y的中位数用y(0.5)表示,则y与任一值的离差绝对值的期望)(yE以=y(0.5)时为最小。证明:)(yE=dyyfydyyfy)()()()(--(1)根据莱布尼兹公式,若dyyfFba),()(,则有dyyfFba),()(。令-),(yyf,则有babadydyyF-)-()(。运用于式(1),得)(tyE=dyyfyydyfy)()()()(--=dyyfydyf)()(--=)(-)(-ydFydF=1-)(2))(-(1-)(])(-[1-)(-FFFydFF式(1)求极小的一阶条件是)(tyE=0,即1-)(2F=0,0.5)(F。这意味着等于中位数y(0.5)。=y(0.5)证毕与定理1等价的表述是y以=y(0.5)(中位数)时为最小。因此,中位数回归估计量可以通过最小绝对离差法(leastabsolutedeviation,LAD)估计。其中Xt和分别为(k1)阶列向量。同理,对于线性回归模型yt=Xt+ut,通过求(0.5)ˆβXtty最小,估计的中位数回归系数估计量(0.5)ˆβ,从而得到yt的中位数回归估计量(0.5))5.0(ˆ)ˆ(β'XXttty。3.分位数回归Koenker和Bassett(1978)证明,若用ty)(ˆ表示yt的分位数回归估计量,则对于以检查函数(checkfunction)w为权数,yt对任意值的加权离差绝对值和tyw只有在=ty)(ˆ时取得最小值。其中tyw=)())(1(::TyttTyitiiyy(2)(0,1)。据此,分位数回归可以通过加权最小绝对离差和法(weightedleastabsolutedeviation,WLAD)进行估计。根据式(2),tyw=)())(1(::TyttTyitiiyy,对于线性回归模型yt=Xt+ut,求第分位数回归方程系数的估计量)(ˆβ的方法是求下式(目标函数)最小,TutTutttuuQ0ˆ)(0ˆ)()()(ˆˆ)1(TXyttTXyttttyy)()(ˆ:)(ˆ:)()ˆ()ˆ)(1(βXβX其中tu)(ˆ表示第分位数回归方程的残差。(0,1)。第分位数的回归方程表达式是ty)(ˆ=)(ˆβXt其中Xt,都是k1阶列向量。)(ˆβ称作分位数回归系数估计量,或最小绝对离差和估计量,估计方法称作最小绝对离差和估计法。一旦得到估计的分位数回归方程,就可以计算分位数回归的残差tu)(ˆ。ttttyyyu)()(ˆˆ-)(ˆβXt当=0.5时,式QTXyttTXyttttyy)()(ˆ:)(ˆ:)()ˆ()ˆ)(1(βXβX变为TttTXyttTXyttyyyQtt1)0.5(ˆ:)0.5(ˆ:)0.5(ˆ0.5)ˆ(0.5)ˆ(0.5)0.5()0.5(βXβXβXty)0.5(ˆ=)0.5(ˆβXt称作中位数回归方程,)0.5(ˆβ称作中位数回归系数估计量。对一个样本,估计的分位数回归式越多,对被解释变量yt条件分布的理解就越充分。以一元回归为例,如果用LAD法估计的中位数回归直线与用OLS法估计的均值回归直线有显著差别,则表明被解释变量yt的分布是非对称的。如果散点图上侧分位数回归直线之间与下侧分位数回归直线相比,相互比较接近,则说明被解释变量yt的分布是左偏倚的。反之是右偏倚的。对于不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影响是不同的。4.分位数回归(QuantileRegression)模型的估计由于目标函数(15.3)QTXyttTXyttttyy)()(ˆ:)(ˆ:)()ˆ()ˆ)(1(βXβX不可微,因此传统的对目标函数求导的方法不再适用。估计分位数回归方程参数)(ˆβ的一种较好的方法是线性规划方法。基于Barrodale和Roberts(1973,以下简写为BR)提出的单纯形法(simplexalgorithm),Koenker和D’Orey(1987)提出一种估计分位数回归系数的方法。EViews中应用的是BR算法的改进形式。在弱条件下,分位数回归系数渐近服从正态分布。回归系数的方差协方差矩阵的估计方法根据分位数密度函数是否与解释变量相关分为三种方法:①误差项独立同分布(i.i.d.)假设下的直接估计方法。②误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。③误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。(1)独立同分布假设下的参数渐近分布Koenker和Bassett(1978)在独立同分布假设下得出分位数回归系数渐近服从正态分布,可以表述为在弱条件下:)ˆ()()(n~))1(,0(12)(JsN(5)其中)(lim)(limTXXTXXJniiin(6)))((/1)(11)(FfFs(7)其中s(τ)称为稀疏函数(Sparsityfunction)或分位数密度函数(quantiledensityfunction)。s(τ)是分位数函数的导数,或在第τ分位数条件下概率密度函数的倒数(见Welsh,1988)。另外,模型误差项独立同分布假设意味着s(τ)与解释变量Xt无关,因此,分位数方程只和Xt在局部期间相关,即所有的条件分位数平面互相平行。事实上,式(5)中的))1((12)(Js就是误差项独立同分布假设下解释变量的回归系数估计量的渐近方差协方差矩阵表达式。EViews提供了三种估计s(τ)的方法。①Siddiqui差分商法1:(Koenker(1994))。②Siddiqui差分商法2:(Bassett和Koenker(1982))。上述两种Siddiqui方法都需要估计带宽hn。EViews提供了3种估计带宽的方法:①Bofinger(1975)法,②Hall-Sheather(1988)法③Chamberlain(1994)方法。③核密度(KernelDensity)估计法。EViews中可以选择的核密度函数有7种:Epanechnikov核函数、均匀(Uniform)核函数、三角(Triangular)核函数、二权(Biweight)核函数、三权(Triweight)核函数、正态(Normal)核函数、余弦(Cosinus)核函数。(2)独立但不同分布假设下的参数渐近分布当分位数密度函数独立但不同分布即与解释变量Xt相关时))()(ˆ(T的渐近分布服从Hubersandwich形式:)ˆ()()(T~))()()1(,0(11JHHN(15)其中J同(15.6)式,H的表达式如下:)/))(((lim)(TqfXXHtttttT(16)其中))((ttqf是个体t在第τ分位数上的条件密度函数。如果条件密度函数不依赖于观测值,式(15)中的方差就退化为(5)式中的方差。对于H,EViews提供了两种计算方法。①Hendricks和Koenker(1992)提出的Siddiqui差分法;②Powell(1984,1989)提出的核密度法。(3)参数渐近分布的自举法EViews中给出了四种自举方法,①残差自举法②XY对自举法(XY-pairordesignbootstrap)③MCMB马尔可夫链边际自举法④MBMB-A马尔可夫链边际自举法7.2分位数回归模型的检验5.分位数回归模型的检验评价分位数回归函数好坏的统计量有3个,拟合优度、拟似然比检验和Wald检验。(1)拟合优度(Goodness-of-Fit)Koenker和Machado(1999)提出了分位数回归的拟合优度的概念。它与一般回归分析中的R2很类似。假设分位数回归直线为)()(ˆˆβXty将解释变量矩阵和参数向量都分为两部分,),1(ttZX和)ˆ,ˆ(ˆ)(1)(0)(,且有)(1)(0)(ˆβZty定义:])ˆˆ()ˆˆ)(1(min[ˆ)()(ˆ:)(1)(0ˆ:)(1)(0)(TXyttTXyttttyyQβZβZtt(22)])ˆ()ˆ)(1(min[~)(ˆ:)(0)(ˆ:)(0)(TXyttTXyttttyyQ(23)式(22)和(23)分别表示无约束分位数回归目标函数(最小绝对离差和)和约束的分位数回归目标函数(最小绝对离差和)的极小值。Koenker和Machado拟和优度准则表达式如下:)()()(*~ˆ1Q
本文标题:第7章 分位数回归模型的理论与应用
链接地址:https://www.777doc.com/doc-3995329 .html