您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 2015重庆大学数理统计大作业
研究生课程考核试卷(适用于课程论文、提交报告)科目:数理统计教师:刘琼荪姓名:xxx学号:xxx专业:机械工程类别:学术上课时间:2016年3月至2016年4月考生成绩:卷面成绩平时成绩课程综合成绩阅卷评语:阅卷教师(签名)我国上世纪70-90年代民航客运量回归分析摘要:中国民航从上实际50年代发展至今已有60多年的历史,这期间中国民航经历了曲折的发展。随着改革开发以来,中国人民的生活水平日渐提高,出行坐乘飞机逐渐人们可选的交通方式。我国民航客运量逐年提高,为了研究其历史变化趋势及其成因,现以民航客运量作为因变量y,假设以国民收入x1、消费额x2、铁路客运量x3、民航航线里程x4、来华旅游入境人数x5为影响民航客运量的主要因素。利用SPSS与excel软件通过建立回归模型分析我国民航客运量主要受到其中哪些因素的影响,并就回归模型分析具体可能的成因。关键词:民航客运量影响因素回归模型一、问题提出及问题分析2004年,民航行业完成运输总周转量230亿吨公里、旅客运输量1、2亿人、货邮运输量273万吨、通用航空作业7、7万小时。截止2004年底,我国定期航班航线达到1200条,其中国内航线(包括香港、澳门航线)975条,国际航线225条,境内民航定期航班通航机场133个(不含香港、澳门),形成了以北京、上海、广州机场为中心,以省会、旅游城市机场为枢纽,其它城市机场为支干,联结国内127个城市,联结38个国家80个城市的航空运输网络。民航机队规模不断扩大,截止至2004年底,中国民航拥有运输飞机754架,其中大中型飞机680架,均为世界上最先进的飞机。2004年中国民航运输总周转量达到230亿吨公里(不包括香港、澳门特别行政区以及台湾省),在国际民航组织188个缔约国中名列第3位。从上述事实可以瞧出我国民航的发展所取得的成果显著。当前我国民航客运量相当巨大,而影响我国航运客运量的因素有很多,例如第三产业增加值(亿元),城市居民消费水平(绝对元),定期航班航线里程(万千里)等[1]。为了研究过去的情况,从中国统计年鉴[2]得到1994年统计摘要,分析类似因素对我国航空客运量的影响。二、数据描述如下为所得统计数据:表11978-1993年统计数据年份y民航客运量(万人)x1国民收入(亿元)x2消费额(亿元)x3铁路客运量(万人)x4民航航线里程(万公里)x5来华旅游入境人数(万人)19782349114、89180、9219792983356420、3919819220419、53570、251981430021、82776、711982445425830549992223、27792、43198339604422、91947、719845545652390511035326、021285、22198574471027、721783、319869977859555210857932、432281、951987611242938、912690、2319881442117388、383169、4819891283380747、192450、141996639571250、682746、219912178165571、913335、6519922886269383、663311、5199333832488296、084152、7三、模型建立:(1)提出假设条件,明确概念,引进参数;参考相关书籍[3],设随机变量民航客运量为Y(万人),解释变量1X,2X,3X,4X,5X分别为国民收入(亿元),消费额(亿元),铁路客运量(万人),民航航线里程(万公里),来华旅游入境人数(万人),且回归函数11225501155(|,,,)EYXxXxXxxx,称201155,0,YxxEDDY,为多元线性回归模型,015,,,为回归系数,为随机误差。125(,,,,),1,2,,5iiiixxxyi为上述来自多元线性回归模型的样本值,满足:201155125,0,,1,2,,5,,,,iiiiiiyxxEDi相互独立为了便于对模型进行参数估计、模型检验、变量选择等,有必要对模型作如下一些基本假定。1、解释变量1X,2X,3X,4X,5X就是可控制的、非随机变量,互不相关。2、随机误差项具有零均值与同方差的性质,即2,1,2,,5iDi,并且125,,,相互独立,则有,0,,,1,2,5ijCovijij…,。3、随机变量误差项服从正态分布,即2~0,,1,2,5iNi…(2)模型构建:由表1通过EXCEL绘制变量,1,2,,5iXi对因变量Y的关系散点图如下:图1民航客运量与国民收入关系图图2民航客运量与消费额关系图图3民航客运量与铁路客运量关系图图4民航客运量与民航航线里程关系图图5民航客运量与来华旅游入境人数关系图由以上的散点图瞧出:y与3x存在非线性关系,但与其它几个变量基本就是线性相关的。所以首先考虑回归模型为多元线性模型。四、模型求解。采用最小二乘估计法求解模型参数,采用SPSS软件计算,得到如下结果:表2拟合过程小结RR平方调整后的R平方标准估算的错误Durbin-Watson(U)1.999a.998.99749.492401.993模型摘要b模型a.预测变量:(常量),x5,x3,x4,x2,x1b.因变量:y表3方差分析平方和自由度均方F显著性回归13818876.76952763775.3541128.303.000b残差24494.981102449.498总计13843371.75015b.预测变量:(常量),x5,x3,x4,x2,x1ANOVAa模型1a.因变量:y表4回归过程统计量标准系数B标准错误贝塔容许VIF(常量)450.909178.0782.532.030x2-.561.125-2.485-4.478.001.0011740.508x1.354.0852.4474.152.002.0011963.337x3-.007.002-.083-3.510.006.3153.171x421.5784.030.5315.354.000.01855.488x5.435.052.5648.440.000.04025.1931a.因变量:y系数a模型非标准化系数t显著性共线性统计图6残差图则回归方程为12345450.9090.3540.5610.00721.5780.435yxxxxx五、模型分析检验(1)决定系数由决定系数2R=0、998瞧出回归方程高度显著。(2)方差分析表123451128.303=0.000,,,yFPxxxxx,值,这说明,整体上对有高度显著的影响。(3)回归系数的显著性检验(t检验):回归系数的显著性检验由显著性一列瞧出自变量的回归系数都通过了t检验(即收尾概率小于规定的显著性水平0、05),说明5个自变量对y的影响显著。其中3x铁路客运量的显著性为0、006最大,但仍小于5%。(4)检验残差序列的自相关性(D-W检验):D-W=1、993≈2,所以认为模型不存在序列的自相关性。(6)异方差检验从残差图瞧出所有点落在±2之间,没有明显变化趋势,所以认为2~0,,1,2,5iNi…综上,认为用最小二乘估计的方法估计的模型理论上就是有效的。(7)模型进一步分析虽然,模型通过了检验,但就是由之前的图可知2x与y正相关,但2x(国民消费额)的回归系数就是负值,显然就是矛盾的,同时1x与2x的VIF很大,4x,5x的VIF也大于10,其原因就是自变量之间的共线性,因而回归模型还要就共线性问题进行谈论。如下表就是各变量之间的相关系数:表5相关系数表yx1x2x3x4x5相关系数1.000.933**.933**.367*.933**.933**显著性(双尾).000.000.048.000.000N161616161616相关系数.933**1.0001.000**.400*.967**.933**显著性(双尾).000.031.000.000N161616161616相关系数.933**1.000**1.000.400*.967**.933**显著性(双尾).000.031.000.000N161616161616相关系数.367*.400*.400*1.000.367*.400*显著性(双尾).048.031.031.048.031N161616161616相关系数.933**.967**.967**.367*1.000.900**显著性(双尾).000.000.000.048.000N161616161616相关系数.933**.933**.933**.400*.900**1.000显著性(双尾).000.000.000.031.000N161616161616**.相关性在0.01级别显著(双尾)。*.相关性在0.05级别显著(双尾)。相关性肯德尔tau_byx1x2x3x4x5可以瞧出,y与1x,2x,4x,5x的相关系数都在0、9以上,说明所选自变量与y高度线性相关,验证之前的散点图。用y与自变量作多元线性回归就是适合的。另一方面,3x与各变量的相关系数均小于0、5,而1x,2x,4x,5x之间的相关系数均达到0、9以上,所以应尝试解决它们之间的共线性。首先剔除VIF最大的1x,计算剩余变量参与的回归方程。结果如下:表6统计量表标准系数B标准错误贝塔容许VIF(常量)695.039264.5252.627.024x2-.053.042-.233-1.262.233.01377.546x3-.012.003-.134-4.207.001.4312.319x432.0374.951.7886.471.000.03033.812x5.399.080.5174.988.000.04124.4691a.因变量:y系数a模型非标准化系数t显著性共线性统计可以瞧出,当前2x的VIF最大,同时2x也没通过t检验,其显著性0、233远大于0、05,故继续剔除2x。计算剩余参数的回归方程,结果如下:表7统计量表标准系数B标准错误贝塔容许VIF(常量)591.876257.7302.296.040x3-.010.003-.119-3.934.002.5041.984x426.4362.249.65011.754.000.1506.650x5.317.048.4116.568.000.1178.5141a.因变量:y系数a模型非标准化系数t显著性共线性统计表8拟合过程小结模型RR方调整R方标准估计的误差1.997.994.99379.78835模型汇总表9方差分析表平方和df均方FSig.回归13766977.58134588992.527720.839.000残差76394.169126366.181总计13843371.75015Anovab模型1可以瞧出三个变量的VIF均小于10,且均通过了t检验。说明此回归模型不存在强多重共线性,回归系数也有合理的经济解释。20.994R说明回归方程高度显著,方差分析的结果也说明回归方程显著性高。图7残差直方图图8残差正态P-P图由P-P图与直方图可知残差服从正态分布,所以模型就是有效的[4]。所以民航客运量的回归模型为:345591.8760.0126.4360.317yxxx。六、岭回归模型除了上述方法,在处理自变量之间存在强线性相关的情况时,可以采用岭回归进行估计(虽然牺牲了一定的无偏性)[5]。采用SPSS编写程序运行可得到如下岭回归结果。表10K值表R-SQUAREANDBETACOEFFICIENTSFORESTIMATEDVALUESOFKKRSQx1x2x3x4x5____________________________________________________.00000.998232.447386-2.48
本文标题:2015重庆大学数理统计大作业
链接地址:https://www.777doc.com/doc-7446713 .html