您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > 北航数理统计回归分析大作业
数理统计(课程大作业1)逐步回归分析学院:机械工程学院专业:材料加工工程日期:2014年12月7日1摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。关键字:多元线性回归逐步回归法财政收入SPSS1引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。2多元线性回归2.1多元线性回归简介在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下:如果随机变量y与m)2(m个普通变量mxxx21,有关,且满足关系式:mmxxxy221102,0DE(2.1)其中,2210,,,m是与mxxx21,无关的未知参数,是不可观测的随机变量,),0(~2NIN。2式(2.1)为m元理论线性回归模型,其中m210,,为回归系数,mxxx21,为回归因子或设计因子。),,2,1(mii实际上反映了因子),,2,1(mixi对观测值y的作用,因此也称),,2,1(mii为因子),,2,1(mixi的效应。通过对回归系数),,2,1(mii进行最小二乘估计后,可以得到m元经验回归方程为:mmxxxyˆˆˆˆˆ22110(2.2)也称式(2.2)为m元线性回归方程。0ˆ为回归常数,也称回归系数,mˆˆ,ˆ21称为回归系数。2.2逐步回归法在多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。因此,人们常根据某种规则对自变量进行筛选。本次选用的方法是逐步回归法。1)回归效果的显著性检验y与变量mxxx21,线性相关的密切程度可以用回归平方和U在总平方和yyL中所占的比例来衡量。称yyLUR为y关于mxxx21,的样本复相关系数,yyLUR2为样本决定系数。在多元线性回归的实际应用中,用复相关系数来表示回归方程对原有数据拟合程度的好坏。显然102R,其越接近1,回归方程拟合程度越高。2)偏F检验检验某个自变量对y的影响是否显著的正规方法是偏F检验。设原回归方程(全模型)为:mmiiiiiixxxxxxyˆˆˆˆˆˆˆˆ1111221103去掉变量ix后的新回归方程(减模型)为:mmiiiixxxxxyˆˆˆˆˆˆˆ111122110全模型的复相关系数的平方为2R,减模型的复相关系数的平方为2iR,定义222iiRRR。若2iR几乎为零,则说明x对y没有显著影响,反之则表示x对y有其它变量不可替代的显著影响。检验假设:0:;0:2120iiRHRH当0H为真时,检验统计量为)1,1(~ˆ)1/()1(2222mnFcSmnRRFiiiii对于给定显著性水平,由样本计算出iF的值,若),1,1(1mnFFi则拒绝0H,说明x对y有显著影响,应在减模型中引入自变量x;反之则应剔除x,使之成为减模型。偏F检验通常被用作变量筛选的依据。逐步回归法中就是对各变量采用偏F法进行检验的。3)逐步回归法的步骤逐步回归法的基本思想是:将变量逐个引入,引入条件是该变量的偏F检验是显著的。同时,每引入一个新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。具体步骤如下:1、对m个自变量分别与y建立回归模型iiixy)0()0(0ˆˆˆ,对它们分别计算iF,得iF中最大的那个值,比如1LF。(Ⅰ)如果进FFL1,则计算结束,即y与所有自变量均线性无关;(Ⅱ)如果进FFL1,则引入1xL,建立回归方程1)1(1)1(0ˆˆˆLxy(2.3)42、建立y与自变量子集},{1iLxx(1Li)的二元回归模型iiLiixxy)0()0(1)0(0ˆˆˆˆ1(2.4)以式(2.4)为全模型,式(2.3)为减模型求iF值,并取得iF中最大的那个值,比如说2LF。⑴如果进FFL2,则计算结束,这时建立的模型为式(2.3);⑵如果进FFL2,则引入2xL,建立回归方程21)2(2)2(1)2(0ˆˆˆˆLLxxy(2.5)3、当引入2xL后,对1xL做偏F检验,看1xL是否需要剔除;⑴如果出FFL1,则不剔除1xL,并继续引入下一个变量;⑵如果出FFL1,则从式2.4中剔除1Lx,再继续引入下一个变量。重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。3财政收入回归分析实例本次作业利用SPSS软件和逐步回归法,对原始数据进行了回归分析,并最终获得了“最优”回归方程,解决这个问题。3.1数据收集及处理首先进行参考数据的选择,根据查阅书籍以及中国统计局网站得到的数据资料,归纳出可能影响国家财政收入的一些主要因素,包括国内生产总值(亿元),人口数(万人)等。本文从中选取了国内生产总值(亿元),人口数(万人),能源生产总量(标准煤)(万吨),农作物总播种面积(千公顷),货运量(万吨),出口总额(亿元),进口总额(亿元),建筑业总产值(亿元)8个因素作为本次考查的重点,并对其与财政收入的相关关系进行分析。表1所示为所选取的自1995年至2012年18年间财政收入与所选变量的数据汇总。5年份国内生产总值(亿元)人口数(万人)能源生产总量(标准煤)(万吨)农作物总播种面积(千公顷)货运量(万吨)出口总额(亿元)进口总额(亿元)建筑业总产值(亿元)财政收入(亿元)199560793.7121121129034149879123493812452110485793.756242.2199671176.6122389133032152381129842112576115578282.257407.99199778973123626133460153969127821815161118079126.488651.14199884402.31247611298341557061267427152241162610061.999875.95199989677.11257861319351563731293008161601373611152.8611444.08200099214.61267431350481563001358682206341863912497.613395.232001109655.21276271438751557081401786220242015915361.5616386.042002120332.71284531506561546361483447269482443018527.1818903.642003135822.81292271719061524151564492362883419623083.8721715.252004159878.31299881966481535531706412491034643629021.4526396.472005184937.41307562162191554881862066626485427434552.131649.292006216314.41314482321671521492037060775976337741557.1638760.262007265810.31321292472791534642275822935647330051043.7151321.782008314045.413280226055215626625859371003957952762036.8161330.352009340902.81334502746191586142825222820306861876807.7468518.3201040120213409129691616067532418071070239469996031.1383101.512011473104.01347353179871622833696961123240.6113161.4115734.19103874.432012518942.11354043318481634164099400129359.3114801.0137217.86117253.523.2建立回归模型过程为了研究财政收入与各种影响因素的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响财政收入的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立财政收入的数学模型往往是很难的。但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:Y=α1X1+α2X2+α3X3+α4X4+α5X5+α6X6+α7X7+α8X8其中,Y是因变量,iX是自变量,i是各个自变量的系数。各变量符号的定义见表2。YX1X2X3X4X5X6X7X8财政收入(亿元)国内生产总值(亿元)人口数(万人)能源生产总量(标准煤)(万吨)农作物总播种面积(千公顷)货运量(万吨)出口总额(亿元)进口总额(亿元)建筑业总产值(亿元)3.3线性回归模型的验证通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。然而这些假设是否合理,所建模型是否接近实际的工业生产总值,需要进一步验证。故7作出数据散点图,观察因变量与自变量之间关系是否有线性特点。散点图结果如图1所示。(1)(2)(3)(4)(5)(6)8(1)财政收入与国内生产总值散点图;(2)财政收入与人口数散点图;(3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图;(5)财政收入与货运量散点图;(6)财政收入与出口总额散点图;(7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图图1财政收入与各种因素散点图由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。所以首先判断因变量和自变量是否存在非线性关系。从图1可以看出,人口数X2与财政收入Y之间大致呈指数关系,而农作物总播种面积X4与财政收入Y之间的线性关系很不显著,都是可以首先剔除的变量。其余变量错误!未找到引用源。都与财政收入Y具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。3.4线性回归的结果及分析利用统计数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。被选择的判据是变量进入回归方程的F的概率不大于0.05,被剔除的判据是变量进入回归方程的F的概率不小于0.10。(7)(8)9表
本文标题:北航数理统计回归分析大作业
链接地址:https://www.777doc.com/doc-1882479 .html