您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第一讲 时间序列分析
时间序列分析从统计学的内容来看,统计所研究和处理的是一批有“实际背景”的数据,尽管数据的背景和类型各不相同,但从数据的形成来看,无非是横剖面数据和纵剖面数据两类(或者叫做静态数据和动态数据)。横剖面数据是由若干相关现象在某一时点上所处的状态组成的,它反映一定时间、地点等客观条件下诸相关现象之间存在的内在数值联系。研究这种数据结构的统计方法是多元统计分析。纵剖面数据是由某一现象或若干现象在不同时刻上的状态所形成的数据,它反映的是现象以及现象之间关系的发展变化规律性。研究这种数据的统计方法就是时间序列分析。时间序列分析是用随机过程理论和数理统计学的方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。由于在大多数的问题中,随机数据都是依照时间先后顺序排列的,故称为时间序列。它包括一般统计分析,统计模型的建立与推断,以及关于随机序列的最优预测、控制和滤波等。时间序列分析在第二次世界大战前就已应用于经济预测。二次大战中和战后,在军事科学、空间科学、气象预报和工业自动化等部门的应用更加广泛。近年来多维时间序列分析的研究有所进展。第一节时间序列分析的一般问题一、时间序列的含义从统计意义上讲,所谓时间序列就是将某一个指标在不同时间上的不同数值,按照时间的先后顺序排列而成的数列。这种数列由于受到各种偶然因素的影响,往往表现出某种随机性,彼此之间存在着统计上的依赖关系。一、时间序列的含义例1、国际航线旅客客票数.图1给出某国际航空公司1949—1960年间客票月总数(单位:千张)的时间序列曲线.直观上看,每年有一次大的峰值和一次小的降值.并且逐年不断增加。一、时间序列的含义例2,图2是我国铁路客流员的统计曲线,记录了1971—1981年客票月总数.从铁路客流量的时间序列曲线上可见,每年都有一次较大的峰值,大约是在1、2月份,也就是每年的春节前后有一次最大的峰值.时间序列分析的任务就是根据以往的数据找出变化规律,预报将来的客流量。一、时间序列的含义如表1中列出的是某地电风扇1994年到1996年间各月的销售量(单位:万台),按时间顺序排成一个数列,就是一个时间序列。相对于时间的数据图如图1所示。电风扇月销售量数据图0501001502002503001357911131517192123252729313335图1电风扇月销售量数据图按时间次序排列的随机变量序列X1,X2,…,Xi,…,XN(1.1)称为时间序列。如果用x1,x2,…,xi,…,xN(1.2)分别表示随机变量X1,X2,…,Xi,…,XN的观察值,则称(1.2)是时间序列(1.1)的N个观测样本,这里N为观测样本的个数。从系统意义上看,时间序列就是某一系统在不同时间(地点、条件等)的响应。这个定义从系统运行的观点出发,不仅指出时间序列是按一定顺序排列而成的;这里的“一定顺序”既可以是时间顺序,也可以是具有各种不同意义的物理量,如代表长度、温度,速度或其它单调递增地取值的物理量。可见,时间序列只强调顺序的重要性,而并非强调必须以时间顺序排列。例如:材料裂纹长度与其承受的压力有关,将材料裂纹长度按其所受压力周期数排列,也是一个时间序列(见表2),其散点图见图2。材料裂纹长度与其承受的压力时间序列是所研究系统的历史行为的客观记录,因而它包含了系统结构特征及其运行规律。时间序列分析是根据观察数据的特点为数据建立尽可能合理的统计模型,然后利用模型的统计特性去研究和认识系统的结构特征(如周期波动的周期、振幅、趋势的种类等);揭示其运行规律,进而用以预测、控制其未来行为;修正和重新设计系统(如改变其周期、参数),使之按照新的结构运行。时间序列的一个目的是用变量过去的观测值来预测同一变量的未来值。综上所述,时间序列具有如下特点:序列中的数据或数据点的位置依赖于时间,即数据的取值依赖于时间的变化,但不一定是时间t的严格函数。每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值预测。前后时刻(不一定是相邻时刻)的数值或数据点的位置有一定的相关性,这种相关性就是系统的动态规律性。从整体上看,时间序列往往呈现某种趋势性或出现周期性变化的现象。下面看一个时间序列的数据例子。我们希望能够从这个数据找出一些规律,并且建立可以对未来的销售额进行预测的时间序列模型。例1.某企业从1990年1月到2002年12月的销售数据(单位:百万元)。该数据有按照时间顺序的按月记录,共156个观测值。数据如下。二、时间序列的分解图1某企业从1990年1月到2002年12月的销售数据图(单位:百万元)图1就是由该数据得到的一个时间序列图。从这个点图可以看出。总的趋势是增长的,但增长并不是单调上升的;有涨有落。大体上看,这种升降不是杂乱无章的,和季节或月份的周期有关系。当然,除了增长的趋势和季节影响之外,还有些无规律的随机因素的作用。这个只有一种随着时间变化的变量(销售额)的序列一般称为纯粹时间序列(puretimeseries)。时间序列的组成部分从例1可以看出,该时间序列可以有三部分组成:趋势(trend)、季节(seasonal)成分和无法用趋势和季节模式解释的随机干扰(disturbance)。例1数据的销售额就可以用这三个成分叠加而成的模型来描述。一般的时间序列还可能有循环或波动(Cyclic,orfluctuations)成分;循环模式和有规律的季节模式不同,周期长短不一定固定。比如经济危机周期,金融危机周期等等。一个时间序列可能有趋势、季节、循环这三个成分中的某些或全部再加上随机成分。因此,如果要想对一个时间序列本身进行较深入的研究,把序列的这些成分分解出来、或者把它们过滤掉则会有很大的帮助。如果要进行预测,则最好把模型中的与这些成分有关的参数估计出来。对例1的时间序列通过软件进行分解,则可以轻而易举地得到该序列的趋势、季节和误差成分。下面的图2表示了去掉季节成分,只有趋势和误差成分的序列的一条曲线。图3用两条曲线分别描绘了纯趋势成分和纯季节成分。图4用两条曲线分别描绘了纯趋势成分和纯误差成分。这些图直观地描述了对于带有几种成分的时间序列的分解。图2去掉季节成分,只有趋势和误差成分的例1的时间序列图3例1的时间序列分解出来的纯趋势成分和纯季节成分两条曲线。DateSEP2002JAN2002MAY2001SEP2000JAN2000MAY1999SEP1998JAN1998MAY1997SEP1996JAN1996MAY1995SEP1994JAN1994MAY1993SEP1992JAN1992MAY1991SEP1990JAN1990120100806040200-20Trend-cycleforSALESfromSEASON,MOD_1SeasfactorsforSALESfromSEASON,MOD_图4例1的时间序列分解出来的纯趋势成分和纯误差成分两条曲线DateSEP2002JAN2002MAY2001SEP2000JAN2000MAY1999SEP1998JAN1998MAY1997SEP1996JAN1996MAY1995SEP1994JAN1994MAY1993SEP1992JAN1992MAY1991SEP1990JAN1990120100806040200-20Trend-cycleforSALESfromSEASON,MOD_1ErrorforSALESfromSEASON,MOD_1ADD三、时间序列的主要分类1.按所研究的对象的多少分,有一元时间序列和多元时间序列。前面例子中,我们所研究的只是某种商品销售量这一数列,即为一元时间序列;但是,如果我们所研究的对象不仅仅是这一数列,而是多个变量,如是按年、月顺序排列的气温、气压、雨量数据,每个时刻t对应着多个变量,则这种序列为多元时间序列。多元时间序列不仅描述了各个变量的变化规律,而且还揭示了各变量间相互依存关系的动态规律性。2.按时间的连续性可将时间序列分为离散时间序列和连续时间序列两种。如果某一序列中的每一个序列值所对应的时间参数为间断点,则该序列就是一个离散时间序列;如果某一序列中的每个序列值所对应的时间参数为连续函数,则该序列就是一个连续时间序列。我们主要研究离散时间序列,并用Xt表示,对于连续时间序列,可通过等间隔采样使之转化为离散时间序列后加以研究。3.按序列的统计特性分有平稳时间序列和非平稳时间序列两类。如果一个时间序列的概率分布与时间t无关,则称该序列为严格的(狭义的)平稳时间序列。如果序列的一、二阶矩存在,而且对任意时刻t满足:(1)均值为常数(2)协方差为时间间隔τ的函数则称该序列为宽平稳时间序列,也叫广义平稳时间序列,如图3所示。注意:我们以后所研究的时间序列主要是宽平稳时间序列。如果不明确提出严平稳,所谓的平稳即指宽平稳。反之,不具有平稳性即序列均值或协方差与时间有关的序列称之为非平稳序列,如图1、图2所示。图3列车运行数量平稳化后数据图4.按序列的分布规律来分,有高斯型(Gaussian)时间序列和非高斯型(non—Gaussian)时间序列。服从高斯分布(正态分布)的时间序列叫做高斯型时间序列,否则叫做非高斯型时间序列。本书所介绍的模型多数是假设服从高斯分布的高斯型时序模型。对于一些非高斯序列,往往通过适当变换,则可近似地看成是高斯型时间序列。四、随机过程、时间序列为什么在研究时间序列之前先要介绍随机过程?因为时间序列是由相应随机过程产生的。我们从随机过程的理论来理解和认识时间序列的一般规律。对时间序列的认识才会更深刻。自然界中事物变化的过程可以分成两类。一类是确定型过程,一类是非确定型过程。确定型过程即可以用关于时间t的函数描述的过程。例如,真空中的自由落体运动过程,电容器通过电阻的放电过程,行星的运动过程等。非确定型过程即不能用一个(或几个)关于时间t的确定性函数描述的过程。换句话说,对同一事物的变化过程独立、重复地进行多次观测而得到的结果是不相同的。例如,对河流水位的测量。其中每一时刻的水位值都是一个随机变量。如果以一年的水位纪录作为实验结果,便得到一个水位关于时间的函数xt。这个水位函数是预先不可确知的。只有通过测量才能得到。而在每年中同一时刻的水位纪录是不相同的。随机过程:由随机变量组成的一个有序序列称为随机过程,记为{x(s,t),sS,tT}。其中S表示样本空间,T表示序数集。对于每一个t,tT,x(·,t)是样本空间S中的一个随机变量。对于每一个s,sS,x(s,·)是随机过程在序数集T中的一次实现。随机过程简记为{xt}或xt。随机过程也常简称为过程。随机过程一般分为两类。一类是离散型的,一类是连续型的。如果一个随机过程{xt}对任意的tT都是一个连续型随机变量,则称此随机过程为连续型随机过程。如果一个随机过程{xt}对任意的tT都是一个离散型随机变量,则称此随机过程为离散型随机过程。本课程只考虑离散型随机过程。严(强)平稳过程:一个随机过程中若随机变量的任意子集的联合分布函数与时间无关,即无论对T的任何时间子集(t1,t2,…,tn)以及任何实数k,(ti+k)T,i=1,2,…,n都有F(x(t1),x(t2),…,x(tn))=F(x(t1+k),x(t2+k),…,x(tn+k))成立,其中F(·)表示n个随机变量的联合分布函数,则称其为严平稳过程或强平稳过程。严平稳意味着随机过程所有存在的矩都不随时间的变化而变化。严平稳的条件是非常严格的,而且对于一个随机过程,上述联合分布函数不便于分析和使用。因此希望给出不象强平稳那样严格的条件。若放松条件,则可以只要求分布的主要参数相同。如只要求从一阶到某阶的矩函数相同。这就引出了宽平稳概念。如果一个随机过程m阶矩以下的矩的取值全部与时间无关,则称该过程为m阶平稳过程。比如E[x(ti)]=E[x(ti+k)]=,Var[x(ti)]=Var[x(ti+k)]=
本文标题:第一讲 时间序列分析
链接地址:https://www.777doc.com/doc-736183 .html