您好,欢迎访问三七文档
2014数学建模培训第9讲综合预测实例一、引言2020/4/24预测类问题是数学建模中较为常见的问题,如2005A长江水质的评价与预测、2006B艾滋病疗法评价及疗效预测和2007A中国人口增长预测。常用的预测方法有灰色模型、多元回归、时间序列和神经网络等。本题“北京市旅游需求的预测”来源于2006年全国大学生数学建模夏令2020/4/25营。本讲内容主要以一篇优秀论文为基础,介绍了时间序列、灰色系统、多元回归和神经网络四种预测模型,并对其进行了比较、分析。希望本讲不仅能帮助各位熟悉几种预测方法,特别是神经网络,而且有助于培养收集数据、处理数据和多方法、多模型的建模意识。二、问题简介2020/4/27选择合适的旅游城市或地区,对旅游需求的预测和预报建立数学模型,以帮助有关部门进一步规划好旅游资源。具体要求为:1.根据查到的旅游资料,分析旅游资源、环境、交通、季节、费用和服务质量等因素对旅游需求的影响,建立旅游需求的预测数学模型。2020/4/282.利用国内外已有的与旅游需求预测相关的数学建模资料和方法,分析这些建模方法能否直接移植过来,做出合理、正确的预测预报;如果不行的话,请对这些方法的优、缺点做出评估,并提出改进的办法。2020/4/293.为了能够用数学建模的方法对旅游需求进行预测预报,必须做好哪些准备工作(包括有关数据的采集和整理)。4.在调研及对所建立的数学模型分析的基础上写出一篇报告,向有关旅游部门提出具体的建议。三、数据的采集与处理2020/4/211在各级别数学建模竞赛中,时常会遇见一类比较开放的题目。这类题目只提出需要研究的问题,并不提供具体数据。这就要求参赛者具备一定的收集数据的意识和能力。一般来说,题目中所需的大部分数据应该可以通过公开、正常的途径获取。那种需要比较专业的数据,但2020/4/212又很难通过正常途径获取的问题是不合适的,例如“轮胎的花纹”。获取数据最自然的途径当然是网络。除了查询中国统计年鉴及各省市自治区统计年鉴外,在国家统计局网站上(国家数据)可以查询到国家、各省市、各行业的各种数据和指标。对采集的数据,最好要说明其来2020/4/213源、出处。对于查询不到的数据,可以采用相关文献中数据或进行合理假设。本文选择北京市海外入境旅游人数作为主要研究对象。从1978年开始每年各国到北京旅游的人数可以从北京旅游网及硕士论文“北京入境旅游客源市场结构”一文中获得。2020/4/2141978~2011入境北京旅游人数2020/4/215由于众所周知的原因,1989(六四)和2003(非典)两年的数据出现了异常,应该对其进行适当的处理,以免影响预测精度。可采用插值方法对上述两个异常值进行处理,处理后的数据如下:2020/4/216处理后的旅游人数四、问题分析2020/4/218常用预测方法有灰色模型、多元回归、时间序列和神经网络等,但上述方法各有特点,适用范围不同,应根据问题的特点选择适当的方法。另外,还要尽可能地用多种方法进行预测,以进行比较、印证。下面首先做出数据的折线图,以此初步判定预测方法。2020/4/219处理后的数据折线图2020/4/220处理后的数据上升趋势明显,且一定的波动。首先不考虑影响因素,只根据已有旅游人数进行预测,可以考虑时间序列分析和灰色预测方法。为了检验模型的预测效果,保留2007~2011年的数据以做检验。五、时间序列模型2020/4/222经专家建模器识别,最佳模型为Holt线性趋势指数平滑。2020/4/223模型相关统计量为BIC=5.8,RMSE=16.223,MAE=12.591。模型预测结果及误差年份观测值预测值相对误差%2008469448.24.432009453461.51.872010490474.73.122011520487.96.172020/4/224观测值与预测值对比图4004204404604805005205401234观测值预测值2020/4/225观测值与预测值的相对误差相对误差0.001.002.003.004.005.006.007.0012342020/4/226尽管时间序列预测的精度尚可,但时间序列并没有充分反映出数据的波动趋势等细节。原因在于,时间序列的特长在于能够较好地预测有季节性、有一定随机波动性的序列,而对于以趋势为主导的序列,其预测效果并不占优势。本题若选择看似高级的ARMA类2020/4/227方法,预测效果其实并不好。在建模竞赛中,比拼的不是模型和方法的高级性。在都能较好解决问题的前提下,反而是那些简单的模型和方法更能赢得评委的青睐。对某些高端问题,当然可尝试用高级的模型或方法,如偏微分方程。这或将大大提高你的论文档次。六、灰色预测模型2020/4/229选用1991~2007数据建立GM(1,1),用2008~2011年的数据检验。2020/4/230模型预测结果及误差年份观测值预测值相对误差%2008469431.18.082009453456.60.792010490483.51.322011520512.11.522020/4/231观测值与预测值对比图4004204404604805005205401234观测值预测值2020/4/232观测值与预测值的相对误差相对误差0.001.002.003.004.005.006.007.008.009.0012342020/4/233就本问题而言,除了第一点外,其余三个点的预测误差非常小,且预测值与观测值的趋势极为接近。但并不能断言灰色预测优于时间序列,因为灰色预测的效果与所取点的数量及位置有关。若只用2008年前几个点进行预测,可以发现预测效果相当不好。七、多元回归模型2020/4/235时间序列和灰色模型仅仅根据数据本身的特征进行预测,模型较为简单,且具有一定的预测精度。若按题目要求,需要考虑、分析预测数据的影响因素时,上述方法并不适用。此时,可考虑采用多元回归和神经网络方法。下面介绍多元回归预测模型。2020/4/2361.因素的选定及数据收集若要根据影响因素对旅游人数进行预测,首先面临的一个问题是如何合理地选定影响因素。参照相关文献,可以选择居民物价指数、工农业总产值、旅游资源等10个影响旅游人数的因素。相关数据可以通过网络(国家统2020/4/237计局,国家数据,统计年鉴等)或相关文献收集。原论文中并没有提供各影响因素数据。通过查询相关文献,获得影响因素初值化(dij=aij/ai1)无量纲数如下:2020/4/238各因素无量纲化数据199920002001200220032004旅游人数11.11771.13231.22981.23671.25人口数11.00731.02071.03351.04481.0557出租车客流量111.01611.03230.87101.0323公交车客流量10.95321.05391.15221.00001.2037工业总产值11.26661.41371.44891.73972.2285居民物价指数10.88240.90430.85800.83380.8576农业总产值11.05911.16171.25011.29081.3782商品零售价格11.00110.99600.99391.004销售品零售额11.0991.21341.32861.45951.6689旅游资源1111.91091.97751.9775旅游环境10.87651.33191.49841.76262.04442020/4/2392.数据及相关性分析显然,上述数据的一个特征是:影响因素较多,高达10个,但每个因素的数据值较少,仅有6个。从统计学角度讲,这是不合适的。因为因素多而数据少的一个可能后果是残差的自由度为零,无法进行方差分析和F检验。2020/4/240统计学中一个经验法则是:4个因素至少需要6个数据。显然,本题数据远远不满足这个法则。此外,还要考虑因变量与各自变量间以及各自变量相互间的线性相关性,以便为重要自变量的选择及多重共线性的判定提供依据。可以先用相关分析对上述问题做2020/4/241初步研究。旅游人口与各因素的相关系数因素人口出租车公交车工业总产值物价指数关联度0.928-0.1730.6130.838-0.943因素农业总产值商品零售价消费品零售额旅游资源旅游环境关联度0.942-0.2410.8960.8800.8362020/4/242由于自变量数量较多,相互间的关系错综复杂,很难准确判定变量的重要性及共线性现象是否严重。3.回归分析及结果根据旅游人口与各因素的相关系数,可以初步筛选出与旅游人口相关性较高的因素。由于很难进一步从初选因素中确2020/4/243定最终的回归变量,所以进行逐步回归,自动进行因素筛选。逐步多元线性回归的结果是选择居民物价指数和农业总产值做为预测变量,回归方程为旅游人数=1.513-0.865*居民物价指数+0.351*农业总产值。2020/4/2442020/4/2452020/4/2462020/4/247由于找不到2004年以后影响因素的数据,故只能将回归方程与已知数据比较,效果图如下:2020/4/248值得一提的是,若采用全部变量进入的回归分析,系统将显示:对于具有因变量旅游人数的最终模型,拟合相当完美,无法计算影响统计量。出现上述问题的表面原因是残差的自由度等于零,无法进行F检验。根据原因就是前面提及的每个因素的数据量太少。2020/4/2492020/4/2502020/4/251多元线性回归方法与时间序列、灰色模型相比,优点是可以考虑预测的影响因素,但付出的代价是要收集各因素的历史数据。若数据的数量不足或质量不高,则很难保证回归方程的可信度。本题的回归方程,仅仅从统计分析的角度也许无可挑剔,但从经济学2020/4/252角度却难以理解,因为稍具常识的人都很难接受旅游人数受农业总产值影响较大,而与旅游资源、旅游环境基本无关。出现上述问题的原因自然是数据量太少、数据质量值得怀疑,数据初值化的处理方式也有待商榷。八、神经网络预测模型2020/4/254人工神经网络是一种模拟人类神经网络行为特征,进行分布式并行信息处理的数学模型。人工神经网络具有自学习和自适应能力。人工神经网络大致可分为输入、输出和隐藏三个层次,其模型如下:2020/4/2552020/4/256人工神经网络的用途极为广泛,在数学建模中的典型应用有模式识别与分类、优化控制、预测预报等。可以利用Matlab,SPSS和专用软件进行神经网络计算。下面给出用SPSS进行神经网络预测的过程和结果。2020/4/257根据相关研究成果,可以选择外国的GDP、外币的汇率、中国的CPI做为影响因素,用以预测入境旅游人数。外国的GDP和外币的汇率为以该国入境旅游人数/入境旅游总人数为权的加权平均值。1999~2008的数据如下:2020/4/258年份GDP汇率CPI旅游人数199918632.94113.0098.6252.39200021678.23135.25100.4282.09200120576.12170.98100.7285.79200221588.24163.7399.2310.40200320428.10169.97101.2307.50200424016.27150.64103.9315.50200524257.70120.26101.8362.90200625359.77110.84101.5390.30200728321.70102.90104.8435.50200828666.56109.32155.0379.002020/4/259用SPSS-分析-神经网络-多层感知器-进行预测(人数为因变量,GDP,CPI和汇率为协变量)。首先选择7个数据做训练,3个数据做检验。下面给出某次预测结果及误差:2020/4/260观察值预测值相对误差%252.39254.880.99282.09286.481.56285.79293.782.80310.4294.585.10307.5292.
本文标题:第9讲综合预测实例
链接地址:https://www.777doc.com/doc-4672044 .html