您好,欢迎访问三七文档
浙江财经学院东方学院《应用回归分析》课程论文论文题目:我国民航客运量的因素分析学生姓名徐妙学期2012-2013学年第一学期分院信息专业统计学班级10统计1班学号1020430112教师彭武珍成绩2013年1月1日1我国民航客运量的因素分析摘要:随着人们生活水平的提高,对交通工具的选择也逐渐发生变化。从最开始单调的汽车、轮船,到现在的动车、火车、飞机、地铁,存在多种选择,在与家人出门游玩时也更加方便。在此主要研究民航的客运量,从过去到现在他的发展趋势如何,主要存在哪些客观因素对他造成影响,今后的预测走势又如何等一系列问题将一一分析。其中所用数据均来自《中华人民共和国统计年鉴》,所做的检验结果均由统计软件spss17.0提供。关键字:回归、相关性、显著性、检验。21引言伴随着经济的发展,人们的生活水平也随之增加了,同时带来了消费水平和消费观念的改变;与此同时也促进了经济的增加。为了研究我国民航客运量的变化趋势及其成因,我们以民航客运量作为因变量y,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。y表示民航客运量(万人),x1表示国民收入(亿元),x2表示消费额(亿元),x3表示民航航线里程(万公里),x4来华旅游入境人数(万人)。我们可以对此作一些猜测:我国民航客运量可能随着国民收入的增加而增加,随着铁路客运量的增加而减少,随着民航航线里程的增加而增加,随着来华旅游入境人数的增加而增加。根据《中华人民共和国年鉴》获得1978—2005年的统计数据(见附录)。利用spss17.0软件通过建立回归模型分析我国民航客运量主要受到哪些因素的影响,通过回归模型的建立反映我国经济水平发生的变化。2预备知识2.1多元线性回归模型2.1.1多元线性回归模型的一般形式设随机变量y与一般变量pxxx,...,,21的线性回归模型为ppxxxy...22110,其中:p为解释变量的数目,0为回归常数,p...,1称为回归系数,是随机误差。2.2多元线性回归参数的估计2.2.1回归参数的普通最小二乘估计所谓最小二乘法,就是寻找参数p,...,,10的估计值pˆ,....,ˆ,ˆ10,使离差平方和2110110)....,...,,ippiniipxxyQ达到极小。32.3多元线性回归分析的检验2.3.1方差分析方差分析是对整个方程的显著性检验。检验假设:总体的回归系数为0或不都为非0.使用统计量F进行检验:检验的零假设为:0...:100pH检验统计量:F=)1/(/pnSSEpSSR它服从于自由度为(p,n-p-1)的F分布。若F大于临界值,则拒绝零假设,认为在显著水平下,y对自变量有显著的线性关系,回归方程是显著的;反之则不能拒绝原假设,认为回归方程是不显著的。2.4共线性问题回归方程中,各自变量对因变量虽然都是有意义的,但某些自变量彼此相关,即存在共线性的问题。此时给评价自变量的贡献率带来困难。因此,需要对回归方程中的变量进行共线性诊断,并且确定它们对参数估计的影响。2.5自相关性的问题(1)参数的估计值不再具有最小方差线性无偏性;(2)均方误差可能严重低估误差项的方差;(3)容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论;(4)当存在序列相关时,ˆ仍然是的无偏估计,但是在任一特定的样本中,ˆ可能严重歪曲的真实情况,即最小二乘估计量对抽样波动变得非常敏感;(5)如果不加以处理地运用普通最小二乘法估计模型能够参数,用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。自相关的检验方法:D-W检验:在对回归模型诊断中,需要诊断回归模型中误差项的独立性。如果误差项不成立,那么对回归模型的任何估计与假设所作出的结论是不可靠的。3模型的建立和分析43.1绘制散点图图1时间与y、x1、x2、x3、x4之间的散点图由时间与y、x1、x2、x3、x4之间的散点图可以看出四个自变量都呈现明显的线性相关,都随着时间的增长而增长。3.2简单相关系数5表1spss相关分析结果从相关阵看出,y与x1,x2,x3,x4的相关系数都在0.9以上,说明所选的自变量与y具有高度相关性,用y与自变量作多元线性回归是非常合适的。3.3多元线性回归分析表2用spss软件对原始数据作回归分析输出结果模型汇总b模型RR方调整R方标准估计的误差Durbin-Watson1.993a.986.984420.0731.889a.预测变量:(常量),x4,x2,x3,x1。b.因变量:y6Anovab模型平方和df均方FSig.1回归2.757E846.891E7390.525.000a残差3882149.92522176461.360总计2.795E826系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-56.288200.864-.280.782x1.102.0181.4565.683.000x2-2.806.908-1.267-3.092.005x330.8029.980.5183.086.005x4.328.134.3022.454.022a.因变量:y由回归分析得:(1)回归方程:y=—56.288+0.102x1—2.806x2—30.802x3+0.328x4(2)决定系数由决定系数R方=0.989看回归方程高度显著,回归方程的拟合效果很好。(3)回归系数的显著性检验(t检验)回归系数的显著性检验Sig.一列看出自变量的回归系数都通过t检验(即收尾概率小于规定的显著水平0.05),说明5个自变量对y的影响显著。(4)回归方程的显著性检验(F检验)F值等于514.829,说明方程通过F检验。(5)检验残差序列的自相关(D-W检验)D-W=1.899,查表后由于DW值很接近2,所以可以判断模型不具有自相关性。7(6)回归系数x2的回归系数:—2.806是负的,x2是消费额,负的显然不合理,其原因可能是自变量之间的共线性,因而回归方程还要在多重共线性部分进行修改3.4模型异方差检验图2年份-残差分布图从散点图看,既无明显的喇叭形分布,分布似乎又有点随机,那么我们需要运用更精确的方法进一步分析。利用spss进行等级相关系数法即斯皮尔曼检验对每个自变量的等级相关系数与残差等级相关系数进行分析,得到如下结果。表3spss斯皮尔曼检验最显著结果相关系数eidjx1djSpearman的rhoeidj相关系数1.000.674**Sig.(双侧)..000N2828x1dj相关系数.674**1.000Sig.(双侧).000.N28288相关系数eidjx1djSpearman的rhoeidj相关系数1.000.674**Sig.(双侧)..000N2828x1dj相关系数.674**1.000Sig.(双侧).000.N2828**.在置信度(双测)为0.01时,相关性是显著的。说明x1的相关性比较显著,所以我们用x1作为权重,对各个自变量作回归分析。表4spss以x1作为权重作权重估计结果系数未标准化系数标准化系数tSig.B标准误试用版标准误(常数)638.507143.3974.453.000x1.023.005.234.0474.968.000x2-.010.002-.219.034-6.476.000x319.8922.860.452.0656.954.000x4.294.040.474.0647.394.000从结果看全部通过t检验,说明异方差消除,得到y与x的回归方程为:y=638.507+0.023x1—0.01x2+19.892x3+0.294x43.5多重共线性分析表5spss共线性诊断9系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)-56.288200.864-.280.782x1.102.0181.4565.683.000.007136.638x2-2.806.908-1.267-3.092.005.003349.652x330.8029.980.5183.086.005.01758.759x4.328.134.3022.454.022.03231.482a.因变量:y可以看出个变量的方差扩大因子VIF,显然,变量都与别的变量存在程度不同的共线性,其中x2的共线性最严重。3.6消除多重共线性当回归自变量之间的相关程度越高,多重共线性就越严重,那么回归系数的估计值方差就越大,回归系数的置信区间就变得很宽,估计得精确性就大幅度的降低,使估计值稳定性变得很差,进一步致使在回归方程整体高度显著时,一些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得无法对回归方程得到合理的解释,直接影响到最小二乘法的应用效果,降低回归方程的应用价值,所以我们多多重相关性检验就是为了剔除一些不重要的解释变量。10表6spss作共线性诊断初步结果系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)-56.288200.864-.280.782x1.102.0181.4565.683.000.007136.638x2-2.806.908-1.267-3.092.005.003349.652x330.8029.980.5183.086.005.01758.759x4.328.134.3022.454.022.03231.482a.因变量:y由结果可得x2的方差扩大因子VIF最大,所以应该剔除,留下x1,x3,x4再作一次回归分析。表7spss剔除再作回归分析结果系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)21.184232.134.091.928x1.051.008.7316.069.000.0452.272x35.2576.521.088.806.428.0548.491x4.194.147.1791.319.200.0358.188a.因变量:y由结果可得x1,x3,x4的VIF均小于10,多重共线性已经消除,所以我们可以得回归方程:y=21.184+0.051x1+5.257x3+0.194x4113.7逐步回归分析表8spss逐步回归分析结果模型平方和df均方FSig.1回归3.752E813.752E81355.905.000a残差7194744.97026276720.960总计3.824E8272回归3.753E821.876E8659.283.000b残差7115428.92825284617.157总计3.824E8273回归3.764E831.255E8504.154.000c残差5973231.61624248884.651总计3.824E827模型汇总模型RR方调整R方标准估计的误差1.991a.981.980526.0432.991b.981.980533.4953.992c.984.982498.883a.预测变量:(常量),x1。b.预测变量:(常量),x1,x2。c.预测变量:(常量),x1,x2,x4。12系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)440.059136.1823.231.003x1.069.002.99136.823.0002(常量)354.269213.2721.661.109x1.061.016.8703.785.001x2.269.509.121.528.6023(常量)158.874219.303.724.476x1.064.015.9104.217.000x2-.487.593-.220-.822.419x4.333.156.3072.142.043由结果可得,保留的x1,x2,x4显然没有全部通过t检验,所以不能将x3随便剔除。4总结在消除多重共线性后,民航的客运量与国民收入、民航航线里程、来华旅游入境人数均呈正相关。在
本文标题:应用回归分析论文
链接地址:https://www.777doc.com/doc-7317108 .html