您好,欢迎访问三七文档
当前位置:首页 > 财经/贸易 > 资产评估/会计 > 第二十二章 常用统计预测方法(3)―ARIMA
2020/2/31第三节ARIMA预测方法陈炳为2020/2/32group12MEAN_Y1.11.21.31.41.51.61.71.81.92.02.12.22.32.42.52.6TIME01234567892020/2/33传统的时间序列分析的应用,主要是确定性的时间序列分析方法,包括指数平滑法、滑动平均法、时间序列的分解等等,这些方法的应用有一个前提条件:时间序列的随机性部分相对来说并不显著。事实上,这一条件在大多数情况下都是不成立的。因为,随着社会的发展,许多不确定性因素的影响越来越大,必须引起人们的重视。2020/2/341970年,Box和Jenkins提出了以随机理论为基础的时间序列分析方法,使时间序列分析理论上升到一个新的高度,预测的精确度大大提高。其基本模型有三种:自回归(AR)模型;滑动平均(MA)模型自回归滑动平均(ARIMA)模型。2020/2/35两个问题:(1)分析时间序列的随机性、平稳性和季节性;(2)在对时间序列分析的基础上,选择适当的模型进行预测(AR(p),MA(q),ARIMA(p,d,q))。2020/2/361ARIMA预测数学模型自回归滑动平均混合模型(autoregressiveintegratedmovingaverage)ARIMA(p,d,q)其中:p为自回归的阶数;d为差分阶数;q为滑动平均阶数。2020/2/37ARIMA模型可分为:(1)自回归模型(AR),即ARIMA(p,0,0);(2)滑动平均模型(MA),即ARIMA(0,0,q);(3)自回归滑动平均混合模型(ARIMA(p,d,q))。2020/2/38ARIMA方法依据的基本思想:将预测对象随时间推移而形成的时间序列视为一个随机序列,即除去个别偶然原因引起的观测值外,时间序列是一组依赖于时间t的随机变量。这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来,就可以从时间序列的过去及现在的值预测未来值。2020/2/39运用ARIMA方法的前提条件:作为预测对象的时间序列是一零均值的平稳时间序列。平稳随机序列的统计特性不随时间的推移而变化。直观的看,平稳随机序列的折线图无明显的上升或下降趋势。(如图22-10)2020/2/310对非零均值的非平稳的时间序列,若用ARIMA预测方法,需先对时间序列进行零均值化和差分平稳化处理.零均值化:对均数不为零的序列每一项都减去该序列的平均数,构成一个均值为零的新的时间序列。如例22-2:可取YYXtt2200Y2020/2/311差分平稳化处理(I)对均值为零的非平稳时间序列进行差分,使之成为平稳时间序列。一般情况下,非平稳序列经过一阶差分或二阶差分都可以平稳化。如:有线性增长趋势的时间序列可用一阶差分;若为二次增长可用二阶差分。)2()1(121tXXXtXXXtttttt2020/2/312月份717171717171717171717171门诊人数(千)7006005004003002001000例22-3某医院从1990年1月-2001年12月的门诊量数据(P336)门诊情况的序列图2020/2/313月份5915915915915915918006004002000-200-400门诊人数(千)均零法一阶差分门诊、均零、一阶差分法的序列图2020/2/314171717171717171717171717月份-2000200400600DIFF(PEOPLE,1)DIFF(people,2)门诊人数(千)门诊、一阶差分法、二阶差分的序列图2020/2/315具体计算:2020/2/316自回归模型(AR)经典统计中的回归模型:表示因变量对于自变量依赖(相关)关系。等式右侧将随机变量分解成两部分,一部分是自变量它们代表某些已知的可变化因素;另一部分是残差量,它是由一些不可捉摸的因素及测量误差产生。通常假定为正态零均值独立序列。ttrrtttXXXY2211tYtt2020/2/317将经典统计回归模型推广,得到一类新的线性模型称为自回归模型。可用来描述某些时间序列。特别是当时间序列难于和其它因素建立联系时,用自回归模型建模更显重要。Yt代表在t时的观察值,et代表误差或偏差,表示不能用模型说明的随机因素。tptptttYYYY22112020/2/318此模型和经典统计回归模型的本质区别:在经典统计回归模型中是已知的可变化因素。自变量间的关系是相互独立的。在自回归模型中同属于一个序列,它们彼此之间不是独立的,而是有一定的相互依赖关系。pttttYYYY,,,21和),,,(21trttXXX2020/2/319一阶自回归模型上面的模型称为p阶自回归模型。当p=1时是一阶自回归模型。意义:Yt变量受Yt-1的影响。tttYY112020/2/320例如:考虑一个阻尼单摆。以Yt表示t时刻的最大摆幅,由于阻尼的作用,Yt与Yt-1之间具有关系式:式中的代表阻尼系数。表示第t个摆动周期中单摆还受到外加的力所额外加的摆幅。tttYY111t2020/2/321滑动平均(MA)模型式中是时间序列在t时刻的观察值;q是滑动平均的阶数;是时间序列模型在t时刻的误差或偏差。在滑动平均的过程中,每一个值是由当前干扰以及前一个或多个干扰的均值决定的。滑动平均的阶确定了有多少个前干扰被用于平均。qtqttttY2211tYt2020/2/322三、自回归滑动平均混合(ARIMA)模型将自回归模型和滑动平均模型组合,便构成自回归滑动平均混合(ARIMA)模型qtqtttptptttXXXX221122112020/2/323应用ARIMA方法预测分为三个阶段:1.模型的识别:利用自相关分析和偏相关分析等方法,分析时间序列的随机性、平稳性及季节性,并选定一个特定的模型以拟合所分析的时间序列。2020/2/3242模型中参数的估计和模型的检验:用时间序列的数据,估计模型的参数,并进行检验,以判定该模型是否恰当。3预测应用:用选定的模型对将来某个时刻的数值作出预测。2020/2/325ARIMA的计算步骤1、识别必须确定三个整数p,d,q,另外还须确定是否具有周期性。首先应从散点图判别时间序列是否平稳。从上面差分之后的图可见:进行一阶差分I(1)=ARIMA(1)之后,其随机性较好。故d=1。I(2)=ARIMA(2)d通常取为0或1,一般不超过2。如图22-10d=02020/2/326p的确定:AR(p)=ARIMA(p,0,0)。其意义为在自回归序列中,每个值都是前一个值或多个值的线性组合。AR(1)代表每个值对前值的依赖程序。对于非周期的时间序列,P值的决定可取决于PACF。若Lag滞后项开始急剧减小,则通常令p=Lag。否则是拖尾的,其p=0。如:图22-12,P=0。2020/2/327q值的确定:滑动平均MA(q),每一项是由当前干扰以及前或一个或前多个干扰的均值决定的。MA(q)=ARIMA(0,0,q)对于非周期的时间序列,q值的决定可取决于ACF。若在Lag滞后项开始急剧减小,则通常令q=Lag。否则是拖尾的,其q=0。如:图22-12,由于在滞后1处显示了一个负的低谷,其后几个值与其相差较大。故q=1。2020/2/3282、估计给出模型后ARIMA(0,1,1),计算模型的参数,并获得拟合值或预测值(FIT_1)、残差(ERR_1)、其可信限(LCL_1,UCL_1)及标准误(SEP_1)。结果表22-7,模型中MA1=0.78105,表示序列中的每个值等于当前的随机干扰减去前一个随机干扰的0.78倍。2020/2/3293诊断可从两个方面考虑:(1)残差的ACF和PACF不应与0有显著的差异。ACF、PACF高阶相关相关可能偶尔会超过95%的可信区间,但如一或二阶很大,那么模型就是错误的。2020/2/330(2)残差应是随机的,即是白噪声(whitenoise)。可用Box-LjungQ统计量。应在大约有1/4的滞后项中考察Q值(但滞后项不能多于50)。Q统计量应没有统计学意义。(3)考察AIC和SBC考虑多个模型,如AIC与SBC均小,说明这个模型较好。AIC适用于自回归模型,SBC适用于更通用的模型。2020/2/331(4)控制图的建立可在同一个序列图中,作出其实测值、95%的可信限上、下界及预测值。图22-14。2020/2/332季节性ARIMA模型(seasonalARIMA)。JAN1990MAY1990SEP1990JAN1991MAY1991SEP1991JAN1992MAY1992SEP1992JAN1993MAY1993SEP1993JAN1994MAY1994SEP1994JAN1995MAY1995SEP1995JAN1996MAY1996SEP1996JAN1997MAY1997SEP1997JAN1998MAY1998SEP1998JAN1999MAY1999SEP1999JAN2000MAY2000SEP2000JAN2001MAY2001SEP2001Date100200300400500600700门诊人数(千)2020/2/333ARIMA(0,1,1)12代表12为周期。1季节性后移算子B(backfit)代表时间序列后移一时间点考察。B2代表往后移动两个单位。对于周期为12的观察值,则为B12季节性ARIMA(0,0,1)12Zt=(1-θB12)etARIMA(0,1,1)12(1-B12)Zt=(1-θB12)et2020/2/3342识别季节模型的一些问题(1)序列的长度要较长。如至少应有7或8个季节周期的数据。(2)季节性与非季节性的混合若ACF或PACF或两者在季节周期的整数倍时点处都显示了特别值,说明存在季节过程。2020/2/335135791113151719212325272931333537394143454749LagNumber-1.0-0.50.00.51.0ACFCoefficientUpperConfidenceLimitelement_simpleline_2135791113151719212325272931333537394143454749LagNumber-1.0-0.50.00.51.0PartialACFCoefficientUpperConfidenceLimitLowerConfidenceLimit门诊人数(千)(1)ACF图和PACF图2020/2/3361次差分后的序列图FEB1990JUN1990OCT1990FEB1991JUN1991OCT1991FEB1992JUN1992OCT1992FEB1993JUN1993OCT1993FEB1994JUN1994OCT1994FEB1995JUN1995OCT1995FEB1996JUN1996OCT1996FEB1997JUN1997OCT1997FEB1998JUN1998OCT1998FEB1999JUN1999OCT1999FEB2000JUN2000OCT2000FEB2001JUN2001OCT2001Date-100-50050100门诊人数(千)Transforms:difference(1)2020/2/337(2)季节模型的识别1次差分存在问题(1)仍存在季节性问题,仍有上升的趋势,可考虑用季节性差分。(2)方差非齐,可考虑用对数变换。2020/2/338季节性差分中D=1。季节性差分可平滑急剧的季节波动。左图为一次性季节差分后的序列图。JAN1991JUN1991NOV1991APR1992SEP1992FEB1993JUL1993DEC1993MAY1994OCT1994MAR1995AUG199
本文标题:第二十二章 常用统计预测方法(3)―ARIMA
链接地址:https://www.777doc.com/doc-3449601 .html