您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 预测模型数据处理方法.
预测模型最近几年,在全国大学生数学建模竞赛常常出现预测模型或是与预测有关的题目,例如疾病的传播,雨量的预报,人口的预测等。什么是预测模型?如何预测?有那些方法?对此下面作些介绍。预测的目的在于认识自然和社会发展规律,以及在不同历史条件下各种规律的相互作用,揭示事物发展的方向和趋势,分析事物发展的途径和条件,使人们尽早地预知未来的状况和将要发生的事情,并能动地控制其发展,使其为人类和社会进步服务。一预测的前期准备工作为保证预测结果的精确度,预测之前必须做一系列的准备工作:(一)数据的准备:数据的收集和整理;数据的分析和处理;数据的内涵及数量;数据处理的原则•准确,处理后的数据能正确反映事物发展的未来趋势和状况;•及时,数据的处理要及时;•适用,处理的数据能满足建模的需要;•经济,要尽量减少数据处理的费用,以降低预测成本;•一致,处理的数据在整个比较性。使用期间内必须是一致的,具有可比较性数据处理的方法(1)判别法通过对历史数据的判断,选择其中可代表整个预测过程中很可能发生的模式的数据作为建模数据(2)剔除法如果数据量比较大,且非必须具备连续的数据量,这时可剔除数据中受随机干扰的异常值;(3)平均值法在数据比较少或需要连续数据时,则可采取平均值法对数据进行处理。(4)拉平法由于条件发生变化,常常使一些厉史数据不能反映现时的情况,例如,大型钢铁厂、化肥厂、或油气田的建成投产或开发,可以使产量猛增,这时历史数据将发生突变,出现一个转折,如用这类数据建模,则需要处理。这时拉平法是一种较好的方法。它的原理是对转折点前的数据加一个适当的量值,使其与折点后的数据走向一致。(5)比例法销售条件与环境的变化常常会引起一个企业产品市场销售比例的改变。当比例变化较大时,说明销售条件与环境对销售的影响己超过其他因素对销售的影响,也说明以前的销售统计数据所体现出的销售发展规律不再适用之于目前的情况了。如果仍然利用这些数据建立预测模型,将无法体现销售条件和环境变化后的销售量变化的规律,用这样的模型进行预测,将会造成较大的误差。因此,如果还想利用这些数据建立模型,进行预测,就应该把它们处理成能体现条件与环境发生变化之后的情况的数据。对于这类数据,比例法就是一种比较有效的处理方法。(6)移动平均和指数平滑法如果原始数据总体走向具有一定规律性,但因受随机因素干扰,数据离散度很大,采用平均值法也难以处理。这时可采用一次、二次、甚至三次移动平均和指数平滑对数据进行平滑,用平滑的数据建模。在分解预测时,为处理季节数据,则必须采用高次幂的移动平均法,对数据平滑。(7)差分法有些模型,例如鲍克斯-詹金斯模型只能处理平稳数据,如果原始数据为非平稳数据,则需釆取差分处理。差分有三种主要类型:前向差分、后向差分、中心差分。前向差分:在处理时间数列时,一阶前向差分定义为一阶前向差分是当时间由t变到t+1时,的改变量。二阶前向差分定义为后向差分:在处理时间数列时,一阶后向差分定义为一阶后向差分是当时间由t递推到t-1时,的改变量。二阶后向差分定义为'1tttxxxtx'''1212ttttttxxxxxx'1tttxxxtx''''1122ttttttxxxxxx中心差分:在处理时间数列时,一阶中心差分定义为二阶中心差分为在处理时间数列时,主要应用后向差分。一次多项式数据通过一阶差分就可转换为平稳数据,二次多项式和三次多项式数据分别通过二阶和三阶差分可转换为平稳数据,而三次以上的高次多项式在应用中很少采用。1122'tttxxx1122''''112ttttttxxxxxx二预测的数学准备•在预测过程中需要很多数学知识,主要有微分方程、概率与数理统计、线性规划和非线性规划等等。但使用最多的是统计学的相关知识:常用的统计量、参数的估算、假设检验、区间估计等。这些我们就不做介绍了。定量预测法•时间序列模型时间序列模型主要研究事物的自身发展规律,借以预测事物的未来趋势。主要方法有移动平均、指数平滑、分解预测、鲍克斯詹金斯模型、多变量模型以及类推法等。特点和应用范围时间序列一般指一组按时间顺序排列的数据,展示了研究对象在一定时期的发生变化过程。时间序列模型,就是根据预测对象时间变化特征,研究事物自身的发展规律,探讨未来发展趋势,是一种重要的定量预测方法,包括多种模型,主要适用于经济预测、商业预测、需求预测、库存预测等,预测期限主要为中、短期,不适用于有拐点的长期预测。(一)移动平均值模型移动平均法是一种最简单的适应模型,是在算术平均的基础上发展起来的一种预测方法。算术平均虽能代表一组数据的平均水平,但它不能反映数据的变化趋势,而原始数据虽然存在某种趋势,但数据可能是零散的或杂乱无章的,无法直接加以分析。移动平均法克服了上述弱点,其基本方法是,选一个固定的周期N,对数据进行平均,每递推一个周期就加上后一个数据,舍去初始数据,依次类推,直至把数据处理完毕。1123455123456655YYYYYMYYYYYM1156MM、111tttNtYYYMN…1tM以N=5为例:表示第五、第六个周期的一次移动平均值,依次类推。若移动平均的周期为N,则可得到计算移动平均值的一般公式:其中,表示第t期的一次移动平均值可见,移动平均法实际上是对于某一期数据,取前N个数据进行平均,N个数权数相同,而其它数据的权这样,经过移动平均,将消除数据列中异常的因素,对数据进行修匀。一般情况下,如果数据没有明显的周期变化和趋势变化,可用第t期的一次移动平均值作为t+1期的预测值,即11ttYM111ttNttYYMMN其一般公式为表1中的的第一列和第二列,即是原始数据与一次移动平均值的对比。始取N=3的3期移动平均,则第三期数据的移动值为5766.33,是l由(5600+5796+5930)/3得到的。如用于预测,它可以作为第4期的预测值。在一次移动平均值的基础上,应用移动平均的原理,还可以进行二次甚至多次的移动平均,二次移动平均,就是以一项移动平均值为原始数据,再进行一次移动平均,如以N=5为例:其公式为其公式为1111125678995MMMMMM式中:29M表示第9期的二次移动平均值,其一般公式为11221ttNttMMMMN二次移动平均使原始数据得到了进一步修匀,使其显现线性趋势。表1中的第三列数据为N=3的二次移动平均值。序列原始数据一次移动平均值二次移动平值1234567891011560057965930609262576567685171417436773880455775.35939.36093.06305.36558.36853.07142.77438.37739.75935.96112.56318.96572.26851.37144.77440.21M2M移动平均值表(1)tttYab1212221ttttttaMMbMMN式中:τ---预测超前期数通过查表(多项式模型参数估算公式)可知:对于上表中的数据,如以11期数据预测12期值,当取N=3时,则有:在二次移动平均值的基础上,可建立线性模型:1211111112111111227739.77440.28039.22()7739.77440.2299.531aMMbMM预测方程为11128039.2299.5809.2299.518338.7YY使用移动平均法,最重要的是移动周期N的选择。因为22aSSN2S2aS2S式中:——移动平均值方差——原始数据点方差N——数据点数也就是说,移动平均修匀后的方差,随着N的加大而减少。也就是N越大,对原始数据修匀能力越强。下表数据可清楚反映这一规律。(1)月份(2)期数(3)实际销售额(4)三个月移动平均值(5)五个月移动平均值123456789101112123456789101112200.0135.0195.0197.5310.0175.0155.0130.0220.0277.0235.0————————176.7175.8234.2227.5213.3153.3168.3209.2244.2——————————207.5202.5206.5193.5198.0191.4203.5(某日用品电器销售额的移动平均预测)表(2)然而修匀能力与对外界变化的反映速度是互相矛盾的,两者不能兼得。因此,对于N值一般应视具体情况,采用折衷办法确定。根据过程的实际发展趋势,N值大体有如下四种选择方法:(1)水平式也就是趋势保持不变,移动平均值是无编差的,M值与N值无关。(2)脉冲式趋势仅在某一段时间突然增加或减少,随后又保持不变,N取得越大,M的误差越小,因此N应取得较大些。(3)阶梯式趋势仅在开始一段时间保持不变,然后增加或减少到一个新的水平后又保持不变,N取得越小,M的误差越小,因此N应取得较小。(4)斜坡式趋势周期的递增或递减,M总是比实际趋向落后,因此N应取得越小越好。一般情况下,如欲加大原始数据的修句力度,则N宜取大些,如果希望加大对外界变化的反映力度,刨N宜取小些。N的取值范围一般为3~20。例我国1980~1990年工业劳动人数见表,用二次移动平均数法预测1991~1994年的劳动人数。年份19801981198219831984198519861987198819891990人数5600579659306092625765676857147436773880451980~1990年我国工业劳动人数(万人)(表3)首先,选择移动平均周期N。本例中数据趋势较明显,呈直线趋势,为尽量反映近期变化动向,可取N=3。利用移动平均公式,首先计算一次移动平均数:1314560057965930/35775.33579659306092/35939.3MM……………………………………111743677388045/37739.7M在此基础上再计算二次移动平均数:25265775.35939.36039/35935.85939.360396305.3/36112.5MM2117142.77438.37739.7/37440.2M……………………………………计算结果见(表)。根据表(3)的数据可建立线性趋势模型:111111Yab前已计算得:11118039.2299.5ab,则:121314158039.2299.518338.78039.2299.528638.28039.2299.538937.78039.2299.549236.2YYYY由此得1991~1994年劳动人数分别为8338.7,8638.2,8937.7,和9236.2万人。(二)指数平滑模型在时间序列预测过程中,一般来说历史数据对未来发展的影响是不等价的,数据由近及远对未来的影响价值递减。如果这种递减遵循指数规律,并以此进行预测,则可采用指数平滑法。指数平滑法比移动平均法需要的数据量少,计算更为方便。一次指数平滑公式为1111tttSaYaS其中1tS———t期数据的指数平滑值,a———平滑常数,0a1,tY———现期数据值。对上式递推展开则得111221121111tttttttSaYaaYaSaYaaYaS依此类推可得一次指数平滑的一般公式为2112110111001111111………LtttttLtttttkttkkSaYaaYaYaaYaaYaSaaYaS,1,
本文标题:预测模型数据处理方法.
链接地址:https://www.777doc.com/doc-4243740 .html