您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > MBA统计学15时间序列分析
统计学─从数据到结论第十五章时间序列分析横截面数据时间序列数据人们对统计数据往往可以根据其特点从两个方面来切入,以简化分析过程。一个是研究所谓横截面(crosssection)数据,也就是对大体上同时,或者和时间无关的不同对象的观测值组成的数据。横截面数据时间序列数据另一个称为时间序列(timeseries),也就是由对象在不同时间的观测值形成的数据。前面讨论的模型多是和横截面数据有关。这里将讨论时间序列的分析。我们将不讨论更加复杂的包含这两方面的数据。时间序列和回归时间序列分析也是一种回归。回归分析的目的是建立因变量和自变量之间关系的模型;并且可以用自变量来对因变量进行预测。通常线性回归分析因变量的观测值假定是互相独立并且有同样分布。时间序列和回归而时间序列的最大特点是观测值并不独立。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。即时间序列的因变量为变量未来的可能值,而用来预测的自变量中就包含该变量的一系列历史观测值。当然时间序列的自变量也可能包含随着时间度量的独立变量。例tssales.txt下面看一个时间序列的数据例子。这是某企业从1990年1月到2002年12月的销售数据(tssales.txt)。我们希望能够从这个数据找出一些规律,并且建立可以对未来的销售额进行预测的时间序列模型。从该表格中的众多的数据只能够看出个大概;即总的趋势是增长,但有起伏。例tssales.txtDateSEP2002JAN2002MAY2001SEP2000JAN2000MAY1999SEP1998JAN1998MAY1997SEP1996JAN1996MAY1995SEP1994JAN1994MAY1993SEP1992JAN1992MAY1991SEP1990JAN1990SALES12010080604020利用点图则可以得到对该数据更加直观的印象:某企业从1990年1月到2002年12月的销售数据图(单位:百万元)例tssales.txt从这个点图可以看出。总的趋势是增长的,但增长并不是单调上升的;有涨有落。但这种升降不是杂乱无章的,和季节或月份的周期有关系。当然,除了增长的趋势和季节影响之外,还有些无规律的随机因素的作用。DateSEP2002JAN2002MAY2001SEP2000JAN2000MAY1999SEP1998JAN1998MAY1997SEP1996JAN1996MAY1995SEP1994JAN1994MAY1993SEP1992JAN1992MAY1991SEP1990JAN1990SALES12010080604020SPSS的实现:时间序列数据的产生SPSS并不会自动把某些变量看成带有某些周期的时间序列;需要对该变量的观测值附加上时间因素。例数据tasales.sav原本只有一个变量sales。这样就需要附加带有周期信息的时间。方法是通过选项Data-DefineDates,然后在CasesAre选择years,months(年月),并指定第一个观测值(FirstCaseIs)是1990年1月。SPSS的实现:时间序列数据的点图对时间序列点图可以选择Graphs-Sequence,对本例选择sales为变量,months为时间轴的标记即可。15.1时间序列的组成部分从该例可以看出,该时间序列可以有三部分组成:趋势(trend)、季节(seasonal)成分和无法用趋势和季节模式解释的随机干扰(disturbance)。例中数据的销售就就可以用这三个成分叠加而成的模型来描述。一般的时间序列还可能有循环或波动(Cyclic,orfluctuations)成分;循环模式和有规律的季节模式不同,周期长短不一定固定。比如经济危机周期,金融危机周期等等。时间序列的组成部分一个时间序列可能有趋势、季节、循环这三个成分中的某些或全部再加上随机成分。因此,如果要想对一个时间序列本身进行较深入的研究,把序列的这些成分分解出来、或者把它们过虑掉则会有很大的帮助。时间序列的组成部分如果要进行预测,则最好把模型中的与趋势、季节、循环等成分有关的参数估计出来。就例中的时间序列的分解,通过计算机统计软件,可以很轻而易举地得到该序列的趋势、季节和误差成分。时间序列的组成部分下图表示了去掉季节成分,只有趋势和误差成分的序列。DateSEP2002JAN2002MAY2001SEP2000JAN2000MAY1999SEP1998JAN1998MAY1997SEP1996JAN1996MAY1995SEP1994JAN1994MAY1993SEP1992JAN1992MAY1991SEP1990JAN1990SeasonaladjustedSALES12010080604020时间序列的组成部分下图用两条曲线分别描绘了趋势成分和季节成分。DateSEP2002JAN2002MAY2001SEP2000JAN2000MAY1999SEP1998JAN1998MAY1997SEP1996JAN1996MAY1995SEP1994JAN1994MAY1993SEP1992JAN1992MAY1991SEP1990JAN1990120100806040200-20Trend-cycleforSALESfromSEASON,MOD_1SeasfactorsforSALESfromSEASON,MOD_时间序列的组成部分下图用两条曲线分别描绘了趋势成分和误差成分。DateSEP2002JAN2002MAY2001SEP2000JAN2000MAY1999SEP1998JAN1998MAY1997SEP1996JAN1996MAY1995SEP1994JAN1994MAY1993SEP1992JAN1992MAY1991SEP1990JAN1990120100806040200-20Trend-cycleforSALESfromSEASON,MOD_1ErrorforSALESfromSEASON,MOD_1ADDSPSS的实现:时间序列的分解前面对例tssales.sav数据进行分解利用SPSS的选项Analyze-TimeSeries-SeasonalDecomposition,然后在Variable(s)(变量)处选择sales,在Model选择Additive(可加模型,也可以试可乘模型Multiplicative),最后得到四个附加变量,它们是:误差(err_1)、季节调整后的序列(sas_1)、季节因素(saf_1)去掉季节后的趋势循环因素(stc_1)。前面图都是利用Graphs-Sequence选项所做。注意附加变量的名字根据前面已经得到过的附加变量数目而调整(按照性质及顺序)15.2指数平滑如果不仅满足于分解现有的时间序列,而想要对未来进行预测,就需要建立模型。这里先介绍比较简单的指数平滑(exponentialsmoothing)。指数平滑只能用于纯粹时间序列的情况,而不能用于含有独立变量时间序列的因果关系的研究。15.2指数平滑指数平滑的原理为:当利用过去观测值的加权平均来预测未来的观测值时(这个过程称为平滑),离得越近的观测值要给以更多的权。而“指数”意味着:依已有观测值“老”的程度,其权数按指数速度递减。以简单的没有趋势和没有季节成分的纯粹时间序列为例,指数平滑在数学上是一个几何级数。指数平滑这时,如果用Yt表示在t时间的平滑后的数据(或预测值),而用X1,X2,…,Xt表示原始的时间序列。那么指数平滑模型为1(1),(01)tttYXY或者,等价地,0(1)kttkkYX这里的系数为几何级数。因此称之为“几何平滑”比使人不解的“指数平滑”似乎更有道理。指数平滑自然,这种在简单情况下导出的公式(如上面的公式)无法应对具有各种成分的复杂情况。后面将给出各种实用的指数平滑模型的公式。根据数据,可以得到这些模型参数的估计以及对未来的预测。指数平滑在和我们例子有关的指数平滑模型中,需要估计12个季节指标和三个参数(包含前面公式权重中的,和趋势有关的g,以及和季节指标有关的d)。在简单的选项之后,SPSS通过指数平滑产生了对2003年一年的预测。下图为原始的时间序列和预测的时间序列(光滑后的),其中包括对2003年12个月的预测。图下面为误差。DateJUL2003OCT2002JAN2002APR2001JUL2000OCT1999JAN1999APR1998JUL1997OCT1996JAN1996APR1995JUL1994OCT1993JAN1993APR1992JUL1991OCT1990JAN1990140120100806040200-20SALESFitforSALESErrorforSALES我们例中时间序列数据的指数平滑和对未来的预测SPSS的实现:指数平滑:tssales.sav数据用选项Analyze-TimeSeries-ExponentialSmoothing,然后在Variable(s)(变量)处选择sales,在Model选择custom(自选模型),再点Custom之后再在TrendComponent选Exponential(这主要是因为看到序列原始点图趋势不象直线,其实选Linear也差不多;此外还有Damped(减幅)选项)在SeasonalComponent选Additive(这是可加模型,也可以试选可乘模型:Multiplicative,细节可参看公式)Continue之后,再点击Parameters来估计参数,在三个有关参数选项上:General(Alpha)、Trend(Gamma)和Seasonal(Delta)可均选GridSearch(搜寻,这是因为不知道参数是多少合适,参数意义参见后面公式),然后Continue。最后如果要预测新观测值,在主对话框点击Save,在PredictCases中选择Predictthrough下面的截止年月(这里选了2003年12月)。这样就可以得到各种结果了。SPSS的实现:指数平滑结果中增加的变量有误差(err_1)和拟合(预测)值fit_1。这在前面图中绘出。在SPSS输出文件中还有那些估计的参数值(三个参数加上季节因子)。15.3Box-Jenkins方法:ARIMA模型如果要对比较复杂的纯粹时间序列进行细致的分析,指数平滑往往是无法满足要求的。而若想对有独立变量的时间序列进行预测,指数平滑更是无能为力。需要更加强有力的模型。这就是下面要介绍的Box-JenkinsARIMA模型。数学上,指数平滑仅仅是ARIMA模型的特例。ARIMA模型:AR模型比指数平滑要有用和精细得多的模型是Box-Jenkins引入的ARIMA模型。或称为整合自回归移动平均模型(ARIMA为AutoregressiveIntegratedMovingAverage一些关键字母的缩写)。该模型的基础是自回归和移动平均模型或ARMA(AutoregressiveandMovingAverage)模型。ARIMA模型:AR模型ARMA由两个特殊模型发展而成,一个是自回归模型或AR(Autoregressive)模型。假定时间序列用X1,X2,…,Xt表示,则一个纯粹的AR(p)模型意味着变量的一个观测值由其以前的p个观测值的线性组合加上随机误差项at(该误差为独立无关的)而得:11ttptptXXXa这看上去象自己对自己回归一样,所以称为自回归模型;它牵涉到过去p个观测值(相关的观测值间隔最多为p个.ARIMA模型:MA模型ARMA模型的另一个特例为移动平均模型或MA(MovingAverage)模型,一个纯粹的MA(q)模型意味着变量的一个观测值由目前的和先前的q个随机误差的线性的组合:由于右边系数的和不为1(q甚至不一定是正数),因此叫做“移动平均”不如叫做“移动线性组合
本文标题:MBA统计学15时间序列分析
链接地址:https://www.777doc.com/doc-722943 .html