您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 多元回归分析作业(北航)
单位代码学号SY1401138分类号密级应用数理统计(第一个论文)山东省旅游发展影响因素多元回归分析院(系)名称材料科学与工程学院专业名称材料科学与工程学生姓名李新杰任课教师冯伟2014年12月北京航空航天大学课程论文摘要本文主要通过对山东省旅游收入的多因素分析,建立以山东省旅游总收入为因变量,以国内旅游人数、接待入境人数、旅行社总数、旅游饭店数量以及旅游社职工人数等为自变量的多元线性回归模型,并利用SPSS统计软件建立逐步回归模型,找到影响山东省旅游业发展的显著性变量,并对所得的模型给予合理的经济解释。关键词:逐步回归法山东省旅游发展SPSS相关性显著性主成分北京航空航天大学课程论文目录摘要.............................................................................................................11引言.........................................................................................................12数据收集.................................................................................................23统计数据的初步分析.............................................................................33.1变量间的相关性分析...................................................................33.2一元线性模型的验证....................................................................34回归分析.................................................................................................54.1回归模型的建立...........................................................................54.2回归模型参数的估计...................................................................64.2.1构建模型...............................................................................64.2.2剔除变量分析.......................................................................74.2.3回归系数分析.......................................................................75回归模型的验证与修正........................................................................85.1方差分析.......................................................................................85.2回归方程的拟合度检验...............................................................95.3残差检验.......................................................................................95.3多重共线性检验..........................................................................115.4回归模型的修正.........................................................................126结果.......................................................................................................13参考文献...................................................................................................15北京航空航天大学课程论文1山东省旅游发展影响因素多元回归分析学号:SY1401138姓名:李新杰1引言随着社会经济快速发展,生活节奏加快,人们的压力变得越来越大,为减轻压力,既能放松自己,又能拓展自我视野的旅游就成为了人们的首要选择。从我国近5年的统计数据来看,我国每年的旅游收入正在逐年递增,旅游消费已成为中国人们日常支出中的重要部分。山东省地处黄海之滨和黄河入海口,有着秀丽的自然风光,众多的人文景观,旅游资源十分丰富。全省拥有旅游景区、景点509处,其中泰山和曲阜“三孔”列入世界遗产名录,青岛烟台、威海代表了中国海滨旅游的一大片。全省旅游资源品位高,种类全,分布广,综合条件好,旅游业发展和旅游总收入位于全国前列,为了更好地了解山东省旅游业的发展,对山东省旅游业发展的影响因素建立回归模型分析,找出其核心影响因素。在应用回归分析去处理实际问题时,必须通过合理经济的方法建立最优回归方程。建立最优回归方程时要注意两个方面:(1)方程中要包含所有的显著作用的自变量,不能遗漏;(2)希望变量个数尽可能少,不含有无意义的变量,而且还应该使这类方程的S达到最小。目前最常用的是逐步回归分析方法,即利用自变量和因变量的一系列同步观测数据,通过对相关矩阵的变换和数理统计的假设检验,逐步把显著性的自变量选入回归方程中,同时也把非显著性的自变量从回归方程中剔除,最终建立一个最优回归方程。北京航空航天大学课程论文22数据收集表2-12000-2013年山东省旅游总收入、国内旅游人数、入境旅游人数、旅游社总数、旅游饭店总数、旅行社职工人数注:以上数据根据《山东省统计年鉴2000-2013年》整理所得北京航空航天大学课程论文33统计数据的初步分析3.1变量间的相关性分析为了知道旅游总收入具体和哪些变量有较大的关系,并将这些变量加入到线性模型中,首先要对旅游总收入和5个变量进行相关性分析,得到各个数据之间的相关系数表:表3-1各个变量之间的相关系数表从表3-1可以看出旅游总收入Y和其他变量之间的相关系数,其中旅游总收入(亿元)和X1:国内旅游人数(万人次)的线性正相关程度最高,其次是X2:入境旅游人数(万人次),而旅行社职工人数等相关程度相对较小,所以需要对变量进行一元线性模型验证,以确定是否需要排除掉变量。3.2一元线性模型的验证以上我们通过相关性分析确定了各相应变量对旅游总收入Y的影响,为了确定是否需要将所有的变量都加入到线性模型中,下面将通过做出旅游总收入Y北京航空航天大学课程论文4分别和其他5个变量的散点图来进行验证:(a)(b)(c)(d)(e)图3-1因变量和自变量间的散点图:北京航空航天大学课程论文5(a)为旅游总收入Y和国内旅游人数的散点图,(b)为旅游总收入Y和入境旅游人数的散点图,(c)为旅游总收入Y和旅行社总数的散点图,(d)为旅游总收入Y和旅游饭店总数的散点图,(e)为旅游总收入Y和旅行社职工人数的散点图从图3-1中的因变量旅游总收入和5个自变量的散点图来看,旅游总收入和5个自变量都有很好的线性关系,这说明通过相关性分析得到的这5个和旅游总收入有关系的自变量都是正确的,而旅游社总数、饭店总数、旅行社职工人数与旅游总收入的相关性差不多,故无需对数据进行删除,因此在接下来进行多元逐步回归分析的时候会将这5个变量都加入到多元线性模型中进行模型建立和分析。4回归分析4.1回归模型的建立采用线性回归分析建立的模型为:Y=a+b1X1+b2X2+…+bnXn;其中Y为因变量的预测值或估计值;X1,X2……Xn为自变量。a和b1、b2……bn为回归系数。若使以上线性回归分析方法达到最优,就要求自变量满足以下两个条件:(1)在线性回归分析模型中,要包含所有对Y影响显著的自变量,消除对Y影响不显著的自变量。(2)模型包含的各自变量之间不存在多重共线性,即各自变量之间不存在线性关系或近似线性关系。为了解决以上两个问题,最有效的方法是采用逐步回归分析方法。其基本思想是在所考虑的全部因素中,按其对Y作用显著程度的大小,由大到小地逐个引入回归方程。那些对Y作用不显著的变量可能自始至终都未被引人回归方程。另一方面,已被引人回归方程的变量在引入新变量后也可能因为变成对Y作用不显著而从回归方程中剔除。在回归分析中,对自变量的选择很重要。逐步回归法能使回归式子保留几个最为显著的自变量经过分析,影响山东省旅游收入的主要因素有国内旅游人数、接待入境人数、旅行社总数、旅游饭店数量以及旅游社职工人数,为此设定以下多元线性回归模型:北京航空航天大学课程论文6Y=a+b1X1+b2X2+b3X3+b4X4+b5X5其中Y为山东省旅游总收入(亿元),X1为国内旅游人数(万人次)、X2为入境游客人数(万人次)、X3为旅行社总数(家)、X4为旅游饭店总数(家)、X5为旅行社职工人数(人次)。其中:bi=(1,2,3,4,5)分别表示各变量系数,表示各解释变量对被解释变量Y的影响程度。4.2回归模型参数的估计4.2.1构建模型通过利用SPSS软件的线性回归分析,将国内旅游人数(万人次)、入境游客人数(万人次)、旅行社总数(家)、旅游饭店总数(家)、旅行社职工人数(人次)作为自变量,将山东省旅游总收入作为因变量,进行逐步分析法,得到表4-1。表4-1输入或者移出到模型中的变量表从表4-1中可以看到最终模型中存在的自变量是国内旅游人数和入境旅游人数。选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。最先进入构建模型1的变量是国内旅游人北京航空航天大学课程论文7数,之后分别进入的是入境旅游人数,构成了模型2。4.2.2剔除变量分析表4-2中给出了2种模型中分别不处在其中的相关变量的有关统计量,包括标准化回归系数Beta、回归系数显著性检验的t值、P(Sig)值、偏相关系数、共线性统计容差。表4-2逐步回归过程中不在模型中的变量4.2.3回归系数分析表4-3中给出了各个模型的偏回归系数B、标准差、常数、标准化回归系数、回归系数显著性检验的t值和P值。按照表格数据,最终得到的线性回归的结果为:Model1:Y=-352.656+0.100X1Model2:Y=-305.679+0.117X1-1.893X2两个模型经t检验的P值分别都是0.000,按照=0.10水平,均有显著性意义。表4-3逐步回归过程的各方程的系数表北京航空航天大学课程论文85回归模型的验证与修正5.1方差分析对回归方程的显著性检验就是要看自变量从整体上对随机变量Y是否有明显的影响,主要检验方法有F检验法和t检验法,在这里通过t检验法来进行,在=0.05的水平下得到表5-1所示的方差分析表:表5-1各个模型的方差分析表表5-1为方差分析表,从图中可以看出统计量F(1)=9141.508,F(2)=13209.207,相伴P值均小于0.000。其明显小于0.05的水平值,拒绝原假
本文标题:多元回归分析作业(北航)
链接地址:https://www.777doc.com/doc-7313757 .html