您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 股票报告 > 北航数理统计回归分析大作业
应用数理统计大作业我国粮食总产量线性回归模型建立学号:姓名:二〇一年月我国粮食总产量线性回归模型建立1摘要本文选取了我国在2010年全国31个省份的粮食总产量作为因变量,并对可能影响粮食总产量的五个因素:播种面积、有效灌溉面积、化肥施用量、受灾面积、乡村办水电站进行了统计。进一步利用专业统计软件SPSS对以上数据进行了多元逐步线性回归,最终确定全国粮食总产量与各因素之间的“最优”线性回归模型,并对统计结果进行相应的讨论。关键词:线性回归;逐步回归法;粮食总产量;SPSS我国粮食总产量线性回归模型建立2目录摘要............................................................................................................................11引言............................................................................................................................32解决问题的方法与计算结果....................................................................................32.1样本数据的采集..............................................................................................32.2建模及其结果讨论..........................................................................................43结论..........................................................................................................................10参考文献......................................................................................................................1131引言中国是一个粮食生产大国,也是一个粮食消费大国。中国的粮食生产和供求情况不仅关系到中国13亿人口的吃饭问题,而且会影响国际粮食的供求和价格状况。从国家安全战略角度看,我国人口众多、农业受自然风险和市场风险影响较大,在国民经济发展全局中,粮食始终被视为特殊商品和战略物资,如果放松国内粮食生产,过度依赖国际市场,在战略上极易受制于人,在关系国家生存发展的国际竞争中处于被动。因此对全国粮食生产总量的预测与控制具有重要的战略意义,本文选取了五个可能影响粮食生产总产量的因素:播种面积、有效灌溉面积、化肥施用量、受灾面积、乡村办水电站,参考《中国统计年鉴》得到了因变量——粮食总产量与各个可能影响因素在2010年全国各省的具体数额,并对其做线性回归分析,得出“最优”回归模型,并对模型的相关问题进行讨论。2解决问题的方法与计算结果2.1样本数据的采集本文在进行统计时,查阅《中国统计年鉴》中收录的2010年全国31个省份关于粮食总产量、播种面积、有效灌溉面积、化肥施用量、受灾面积、乡村办水电站相关数据,并将粮食总产量作为因变量,其余各项数据为自变量。具体数据如表2-1所示。表2-12010年全国各省份粮食产量及可能影响因素统计表地区Y1X2X3X4X5X安徽3080.59053.43519.8319.81752.0810.0北京115.7317.3211.413.73.072.0福建661.92270.8967.5121.0605.06606.0甘肃958.33995.21278.485.31304.0736.0广东1316.54524.51872.5237.3724.09641.0广西1412.35896.91523.0237.21665.02266.0贵州1112.34889.11131.786.51681.01367.0海南180.4833.7243.846.4306.0323.0河北2975.98718.44548.0322.91527.0236.0河南5437.114248.75081.0655.21568.0545.0黑龙江5012.812156.23875.2214.91432.071.0湖北2315.87997.62379.8350.82466.01751.0湖南2847.58216.12739.0236.62841.04158.0吉林2842.55221.41726.8182.8896.0209.0我国粮食总产量线性回归模型建立4江苏3235.17619.63819.7341.1648.0133.0江西1954.75457.71852.4137.62075.03517.0辽宁1765.44073.81537.5140.1756.0170.0内蒙古2158.27002.53027.5177.22033.037.0宁夏356.51247.9464.637.9145.01.0青海102.0546.9251.78.8111.0213.0山东4335.710818.24955.3475.32582.089.0山西1085.13763.91274.2110.41396.0168.0陕西1164.94185.61284.9196.81122.0585.0上海118.4401.2201.011.80.00.0四川3222.99478.82553.1248.02324.04135.0天津159.7459.3344.625.533.01.0西藏91.2240.2237.04.751.0401.0新疆1170.74758.63721.6167.61307.0455.0云南1531.06437.31588.4184.63215.01690.0浙江770.79053.41451.092.2283.03175.0重庆1156.13359.4685.391.8575.01251.0注:Y、1X、2X、3X、4X、5X分别代表粮食总产量(万吨)、播种面积(千公顷)、有效灌溉面积(千公顷)、化肥施用量(万吨)、受灾面积(千公顷)、乡村办水电站个数。2.2建模及其结果讨论本文选取粮食总产量为因变量,播种面积、有效灌溉面积、化肥施用量、受灾面积、乡村办水电站个数为自变量,建立如下统计模型:222110)(,0)(VarExxxypp其中0,1,2,,p,2是与1x,2x,px无关的未知参量,是不可观测的随机变量。选择最优回归方程时,选用逐步回归法,它的基本思想是将一个变量引入,引入的条件是该变量的偏F检验是显著的。同时,每引入一个新变量后又要对老变量逐个检验,将变得不显著的变量从回归模型中剔除。这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。由此可见,逐步回归法是向前法和向后法的一种结合。将表2-1中数据录入SPSS,生成数据文件,如图2-1所示。包括2010年我国31个省份相关数据,其中“地区”为字符型变量,其余为数值型变量。我国粮食总产量线性回归模型建立5图2-1SPSS数据文件(部分)各个变量的全部观测量统计量如图2-2所示,包括,平均值、标准差以及观测量个数。图2-2观测值统计量在图2-3中给出了相关系数矩阵表,可以从中得到各个变量之间的Pearson相关系数。从图中可以看出,粮食总产量与播种面积、有效灌溉面积、化肥施用量存在显著相关关系。图2-3相关系数矩阵图2-4给出了输入、剔除的变量,从表中我们可以看出播种面积与有效灌溉我国粮食总产量线性回归模型建立6面积成为输入变量,而其他变量被剔除。图2-4输入/剔除变量表图2-5给出了模型整体拟合效果的概述,从表中我们可以看出,模型1的拟合优度系数为0.918,模型二的拟合优度系数为0.935,反映了因变量与自变量之间具有高度显著的线性关系,但是DW=1.486,可能存在序列相关。图2-5模型概述图图2-6给出了方差分析表,可以看出模型一回归平方和为54112049.640,残差平方和为10118458.066,模型二回归平方和为56125565.788,残差平方和为8104941.920,总平方和为64230507.708,模型二中回归平方和解释了总发平方和的更大部分,此外,根据F统计量与Sig可知,两个模型的显著性都很高。图2-6方差分析图我国粮食总产量线性回归模型建立7图2-7给出模型参数表,从中可以看出各变量的VIF都不超过10,同时给出了回归系数和变量显著性检验的T值,通过表中的回归系数可以算出两个模型的回归模型,并且通过变量显著性检验的T值,对变量的显著性进行检验,可以看出两个模型解释变量的显著性水平都非常小,甚至趋于0,可以认为解释变量的系数很显著。图2-7模型参数图图2-8给出了已排除的变量表,从表中可以看出,在模型一中,被排除的变量为有效灌溉面积、化肥施用量、受灾面积、乡村办水电站个数,而模型二中,被排除的变量为化肥施用量、受灾面积、乡村办水电站个数。图2-8已排除变量表图2-9给出了共线性诊断表,可以看出其中的ConditionIndex15,两个模型都不存在严重的线性相关。图2-9共线性诊断图我国粮食总产量线性回归模型建立8图2-10给出了残差统计图,图中给出了预测值、残差、标准化预测值、预测值的标准误、残差、标准化残差等的最小值、最大值、均值、标准差及样本容量。从中也可以看出标准残差的绝对值最大为3.0843,可能存在奇异值。图2-10残差统计图图2-11给出了残差分析图,其中横坐标X为标准化残差,纵坐标Y为因变量,从图中可以看出散点呈随机分布,且随机分布在标准化残差0值两侧,因此可以认为模型的方差性检验通过,并且模型的拟合程度良好。图2-11残差分析图我国粮食总产量线性回归模型建立9图2-12、2-13分别给出了残差分布直方图与正态概率P-P图。从这两张图中我们可以判断回归后的实际残差是否符合我们以前残差正态的假设,由2-12看出残差分布不是很明显地服从正态分布,但介于我们样本数量较少,又根据2-13点基本散布在斜线附近,因此,可以认为残差分布基本上是正态的。图2-12残差分布直方图图2-13正态概率P-P图我国粮食总产量线性回归模型建立103结论在上述建模过程中,通过对采集数据用逐步回归法进行了保留与剔除,得出两个较为合适的模型,我们对两个模型进行了方差分析、偏回归系数检验、方差齐性检验、残差的正态检验。并且通过对两个模型的拟合优度系数,回归平方和占总平方和的比例,最终选择模型二,即003.203367.0232.021XXY(单位:万公顷)认为它的拟合效果更好,更能真实反映全国粮食总产量,并利用此模型对次年粮食总产量的数值进行预测。同时,由于样本数量少,时间不够充裕,模型也存在一些不足,包括DW值小于2,可能存在回归模型中误差项不独立的情况,还有标准残差最大绝对值稍大于3,可能存在奇异值,这些都有可能对我们模型的估计与结论产生不好的影响。不过综合来看,该模型满足一般需求,能够对全国粮食总产量进行基本的预测。我国粮食总产量线性回归模型建立11参考文献[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:北京航空航天大学数学系,2014:167-190[2]吕振通,张凌云.SPSS统计分析与应用[M].北京:机械工业出版社,2009:94-105[3]李兴绪,殷溪源.SPSS经济统计分析[M].北京:中国统计出版社,2008:169-185[4]国家统计
本文标题:北航数理统计回归分析大作业
链接地址:https://www.777doc.com/doc-2624514 .html