您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 分位数回归方法及其应用
分位数回归(QR)方法及其应用陈建宝厦门大学经济学院计统系厦门大学宏观经济研究中心第一部分:方法介绍主要包括分位数回归的概念,分位数回归系数的估计方法及其性质、分位数回归系数的检验方法、模型的拟合优度检验、分位数回归的优良性(与最小二乘法做比较)。分位数回归(QR)产生的根源MostellerandTukey’s(1977)remark:Whattheregressioncurvedoesisgiveagrandsummaryfortheaveragesofthedistributionscorrespondingtothesetofxs.Wecouldgofurtherandcomputeseveraldifferentregressioncurvescorrespondingtothevariouspercentagepointsofthedistributionsandthusgetamorecompletepictureoftheset.Ordinarilythisisnotdone,andsoregressionoftengivesaratherincompletepicture.Justasthemeangivesanincompletepictureofasingledistribution,sotheregressioncurvegivesacorrespondinglyincompletepictureforasetofdistribution.分位数回归的思想Howto“gofurther”?分位数回归的思想最早是由KoenkerandBassett(1978)提出的。它是对古典条件均值模型为基础的最小二乘的拓展。普通最小二乘法是利用因变量的条件均值来建模,通过使残差平方和达到最小来获得回归参数的估计。分位数回归则利用因变量的条件分位数来建模,通过最小化加权的残差绝对值之和来估计回归参数。它可以称之为“加权的最小一乘回归法”。分位数的概念定义:设随机变量Y的分布函数为则Y的第分位数为其中中位数可以表示为。()()FyPYy1()inf{:()}FyFy1(1/2)F分位数回归思想的数学公式化对于Y的一组随机样本,样本均值是的最优解。样本中位数是最小化残差绝对值和的解,即12{,,,}nyyy21min()niiy11(1/2)argminiRiFy对于其他的第分位数,我们可以求解下式:等价的表示为:其中,为示性函数。pR{:}{:}min[(1)]iiiiiiyiiyyy1min()iRiy[0,)(,0)()()(1)()zzIzzIz()I对于一般线性条件均值函数,通过求解得到参数估计值。而一般线性条件分位数函数为,通过求解得到参数估计值对于任意的,估计称为第分位数下的回归系数估计。(Y|X=x)=xEp2R1ˆargmin()niiiyx(|X=x)=x()QpR1ˆ()argmin()niiiyx(0,1)ˆ()分位数回归参数的估计方法(点估计)求解等价于求解以下个线性规划问题:其中e为单位向量。目前对上式的算法主要有如下几种:pR1ˆ()argmin()niiiyxn{|Xz=(1-)Xe,z[0,1]}zMaxyz1.单纯形算法(SimplexMethod):该算法估计出来的参数具有很好的稳定性,但是在处理大型数据时运算的速度会显著的降低(见KoenkerandOrey,1993)。2.内点算法(InteriorPointMethod):内点算法对于那些具有大量观察值和少量变量的数据集运算效率很高(见PortnoyandKoenker,1997)。3.平滑算法(SmoothingMethod):平滑算法在理论上比较简单,它适合处理具有大量观察值以及很多变量的数据集(见Chen,2004)。其他方法:如adaptivemethod等。依据目前的文献,区间估计方法也可分为三种:1.直接估计法(DirectEstimationMethod),见Koenker和Bassett(1982)以及Koenker和Machado(1999)。该方法依据估计出来的回归分位系数的渐进正态性来计算置信区间。比较有代表性的是Sparsity算法,它是一种最直接且运算速度也最快的算法,但该算法得到的估计值对于随机项为独立同分布这一假设十分敏感。2.秩得分法(RankScoreMethod),见Koenker(1994)。秩得分法算法比较简单,但是对于大型数据处理效率较慢。3.重复抽样法(Resamplingmethod),见He和Hu(2002)。该方法使用了MCMB(MarkovChainMarginalBootstrap)算法,这种算法能够进行高效率的运算,大大节省了运算时间。重复抽样法能够克服直接法和秩得分法的缺陷,但是对于小样本时计算出的参数估计值不够稳定。分位数回归参数的估计方法(区间估计)分位数回归参数的显著性检验方法在分位数回归模型中,设Koenker与Machado(1999)提出了检验假设(其中)的两个统计量:和在原假设下都服从从而,它们都可能用来检验回归系数的显著性。12()((),())02:()0H2()qR()wT()LRT2q分位数回归模型的拟合优度Koenker与Machado(1999)依据最小二乘回归中拟合优度的计算思想,提出了分位数回归中拟合优度的计算方法,定义为,且。最小二乘回归中的依据残差平方和度量了回归平方和占总离差平方和的比重,而则按照残差绝对值的加权和,度量了在某个分位数下分位数回归的拟合效果。因此不像反映的是整个分布的拟合情况,描述的是在某个分位数下的局部拟合效果。2R1()R10()1R2R1()R线性分位数回归模型的估计分位数回归的基本性质分位数回归的渐近性质分位数回归的渐近性质与普通线性最小二乘回归方法的比较1.在模型假设方面:OLS法要求满足经典假设的几个条件;QR法只要求扰动项的条件下。2.在计算方面:OLS法求解简单;QR法复杂,但由于计算机技术的发展,其不难完成。3.在估计的优良性方面:两者都有各自的优良性。由于QR法在模型的假设方面要求较少,较容易得到满足。特别是其估计方法(加权最小一乘估计方法)决定了其估计具有较强的稳键性。iieF1()0iF第二部分:应用实例分析主要结合应用实例,介绍如何利用统计软件实现分位数回归,如何对研究结果进行解释和分析。分位数回归模型的软件计算目前,计算分位数回归的统计软件主要有SAS以及R。EstimationinSAS:EstimationinR()Example—RiskfactorsforlowbirthweightLowbirthweightisknowntobeassociatedwith*Higherinfantmortality(Abreveya,2001).*Higherhealth-carecost(Lewitetal.1995).*aWiderangeofsubsequenthealthproblems(Hacketal.,1995).*long-termeducationalattainmentandevenlabormarketoutcomes(CormanandChaikind,1998).Investigatethefacotrsinfluencingbirthweight,especiallytheonesthatmayhelpreducetheincidenceoflowbirthweightinfants.Example—Riskfactorsforlowbirthweight•Theresearchquestioncanberephrasedasexploringthecovariateeffectsonthelowerquantilesofbirthweight.•Potentialcovariatesinclude◦Mother’seducation◦Mother’sprenatalcare◦Mother’sage◦Mother’sweightgain◦...•Covariateeffectsonlowerquantilesmaydifferfromthoseonthemeanormedianbirthweight.•Reference:Abreveya(2001)andKoenkerandHallock(2001).Example:ExploringtheriskfactorsoflowbirthweightExample--ExploringtheriskfactorsoflowbirthweightAquantileregressionmodelforbirthweightSAScodesforthebirthweightmodelSomeconclusionsforexampleAnEngelCurvesforFood:ThisfigureplotsdatatakenfromErnstEngel's(1857)studyofthedependenceofhouseholds'foodexpenditureonhouseholdincome第三部分:分位数回归的发展和应用分位数回归的发展最小二乘方法最早是由Adrien-Marie(1806)提出的。QR法最早是由Koenker和Bassett(1978)提出的。从1978-1994年,从1994-1997年,从1997-2004年,Lessthan370articlesonQRpublished446articlesonQRpublished506articlesonQRpublishedHeteroscedasticityRobustnessCensoringSampleselectionBinaryresponsemodelsPaneldataTimeseries分位数回归的发展分位数回归的发展NoparametricmodelsNon-linearmodelsExtremesMultivariatequantileregression…………..分位数回归的应用在环境科学研究方面:Chock,Winkler和Chen(2000)使用非参数分位数回归法研究了匹兹堡这座城市中日死亡率和空气污染集中度的相互关系;Hilary和Andrzej(2002)运用分位数回归对天气数据进行了分析。在生态学研究方面:KoenkerandSchorfheide(1994)分析了上世纪全球气候改变的过程;Dunham,Cade和Terrell(2002)研究了不同的河流对鲑鱼密度的影响。在生存分析研究方面:Koenker和Hallock(2001)研究了诸多因数对于新生儿出体重的影响;Cole和Green(1992)以及Royston和Altman(1994)还讨论了分位数回归在医学上的应用。分位数回归的应用在劳动力市场研究方面:Buchinsky(1996)研究了美国的劳动力市场;Schultz和Mwabu(1998)研究了南非的劳动力市场;Montenegro(1998)分析了智利的情况;Fithzenberger、Hujer、Macurdy和Schnabe(2001)讨论了德国劳动力市场的情况;值得一提的是Machado与Mata(2001)扩展了Oaxaca的分解法,并提出了一种依据分位数回归过程来模拟边际分布的方法来研究葡萄牙的劳动力市场;Yu,Philippe和Zhang(2005)使用贝叶斯分位数回归研究了英国199
本文标题:分位数回归方法及其应用
链接地址:https://www.777doc.com/doc-4018386 .html