您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 【清华】09-环境数据分析方法-7-649409884
环境数据处理与数学模型环境数据分析方法董欣环境系统分析教研所2015年4月13日01020304基本概念数据处理与展示描述性统计二总体的假设检验05060708回归分析主成分分析聚类分析时间序列分析数据挖掘/大数据介绍(邀请讲座,待定)基本概念01分析方法02平稳序列分析03时间序列分析基本概念时间序列及时间序列分析时间序列(Timeseries):同一个变量在在不同时间的相继观察值排列而成的序列某污水处理厂全年进水时间序列分析(Timeseriesanalysis):根据动态数据揭示变量动态规律的统计方法动态·变化规律基本概念时间序列的分类平稳序列(Stationaryseries):基本上不存在趋势的序列变量基本上在某个固定的水平上波动不同的时间段波动的程度不同,但不存在某种规律波动可以看成是随机的基本概念时间序列的分类非平稳序列(Non-stationaryseries):包含趋势性、季节性或周期性的序列可能只含有其中的一种成分,也有可能是几种成分的组合,即复合型序列趋势性Trend要素周期性Cyclity季节性Seaso-nality随机性Rand-om基本概念时间序列的要素在长时期内呈现出来的增长或下降的趋势一年内重复出现的周期性波动围绕长期趋势的一种波浪形或震荡式变动除去趋势、周期性和季节性之后的偶然性波动由于某种固定性的因素作用于变量而形成线性的、非线性的旅游旺季/淡季季节不仅是指一年中的四季,可以指任何一种周期性变化大多在一年内变动周期多在一年以上,且周期长短不一偶然性因素对变量的影响基本概念时间序列的要素趋势性季节性周期性随机性基本概念时间序列的要素基本概念时间序列的要素时间序列(Y)的构成可分为:趋势(T)、季节性(S)、周期性(C)、随机性(I)乘法模型Yi=Ti*Si*Ci*Ii加法模型Yi=Ti+Si+Ci+Ii分析方法描述性分析——图形描述作图是观察时间序列形态的一种有效方法,是时间序列分析首要步骤先根据动态数据作图,然后通过图形观察数据随时间的变化模式及变化趋势1949~2013年我国人均GDP、建筑业总产值、人口自然增长率、COD排放量分析方法描述性分析——图形描述分析方法描述性分析——增长率分析增长率是对变量在不同时间的变化状况进行定量描述增长率(Growthrate)变量的观察值与基期观察值之比减1环比增长率:Gi=(Yt-Yt-1)/Yt-1=Yt/Yt-1-1定基增长率:Gi=(Yt-Y0)/Y0=Yt/Y0-1平均增长率(Averagerateofincrease)变量逐期环比值的几何平均值减1𝐺=𝑌1𝑌0𝑌2𝑌1𝑌3𝑌2…𝑌𝑡𝑌𝑡−1𝑛−1=𝑌𝑡𝑌0𝑛−1序列中的有0或负数时,不宜计算增长率分析方法统计性分析变量的随机性使得通过简单的观测和描述,总结出变量的变化规律,并进行准确的走势预测非常困难为了更准确地估计随机变量发展变化的规律,20世纪20年代开始,出现了使用数理统计的方法分析时间序列狭义的“时间序列分析”方法频域分析法(Frequencydomainanalysis)时域分析法(Timedomainanalysis)分析方法统计性分析频域分析基本思想:任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动傅里叶变换、最大熵谱估计理论…复杂、分析结果比较抽象不易直观解释时域分析基本思想:事件的发展通常具有一定的惯性,用统计语言就是序列值之间存在着一定的相关关系,而这种相关关系又具有某种统计规律找这种统计规律,并建立适当的数学模型来描述这种规律,利用模型预测序列未来走势操作步骤规范、结果易于解释分析方法时域分析主要从序列自相关的角度揭示时间序列的发展规律通常的分析步骤考察变量观察值序列的特征根据序列特征选择适当的拟合模型根据序列的观察数据确定模型检验模型,优化模型利用拟合好的模型来推断序列其他的性质或者预测序列未来的趋势常用模型自回归模型(Autoregressive,AR)移动平均模型(Movingaverage,MR)自回归移动平均模型(Autoregressivemovingaverage,ARMA)求和自回归移动平均模型(Autoregressiveintegratedmovingaverage,ARIMA)……平稳序列分析平稳性的描述平稳性是时间序列具有的一种统计特征,通常用一些特征统计量来描述均值对于时间序列{Xt,t∈T}而言,任意时刻的序列值Xt都是一个随机变量,都有它的概率分布,这个分布的均值μt就是序列{Xt}在t时刻的均值当t取遍所有的观察时刻时,就得到一个均值序列{μt,t∈T}反映时间序列{Xt,t∈T}每时每刻的平均水平方差与上述均值类似,可以得到方差序列{𝜎𝑡2,t∈T}平稳序列分析平稳性的描述自协方差和自相关系数对于时间序列{Xt,t∈T},任取t,s∈T,定义r(t,s)为序列{Xt}的自协方差r(t,s)=E(Xt-μt)(Xs-μs)定义ρ(t,s)为序列{Xt}的自相关系数,简记为ACFρ(t,s)=r(t,s)𝜎𝑡2𝜎𝑠2度量同一变量在两个不同时期之间的相关程度,可以认为是度量变量过去的行为对变量现在的影响平稳序列分析平稳性的描述严平稳(Strictlystationary)只有当序列所有的统计性质都不会随着时间的推移而发生变化时,序列才能被认为是平稳每时刻的概率分布相同条件比较苛刻的平稳性定义,只有理论意义宽平稳(Weakstationary)使用序列的特征统计量定义的一种平稳性如果序列{Xt}满足下面3个条件,则为宽平稳(1)任取t∈T,有EXt2∞(2)任取t∈T,有EXt=μ,μ为常数(3)任取t,s,k∈T,且k+s-t∈T,有r(t,s)=r(k,k+s-t)通常情况下,严平稳序列满足宽平稳条件,宽平稳序列不能反推严平稳成立当序列服从多元正态分布时,宽平稳可以推出严平稳实际中研究最多的是宽平稳平稳序列分析平稳性序列的统计性质常数均值任取t∈T,有EXt=μ自协方差只依赖于时间的平移步长,而与时间的起止点无关任取t,s,k∈T,且k+s-t∈T,有r(t,s)=r(k,k+s-t)序列{Xt}的延迟k自协方差:r*(k)=r(t,t+k)平稳随机序列一定具有常数方差自相关系数只依赖于时间的平移步长,而与时间的起止点无关序列{Xt}的延迟k自相关系数:ρ*(k)=ρ(t,t+k)平稳序列分析平稳性序列的意义传统的统计分析针对n个样本,m个变量(n越大越好,m越小越好)时间序列分析针对随机序列{Xt,t∈T},且由于时间的不可重复性,该变量在任意一个时刻只能获得唯一的样本观测值(1个样本,t个变量)平稳序列均值是常数任取t∈T,有μt=μ原本每个随机变量的均值μt只能依靠唯一的样本观测值xt去估计每一个样本观测值xt都变成了常数均值μ的样本观测值增大了样本的个数,减少了变量的个数平稳序列平稳序列分析平稳性序列的意义延迟k自协方差的估计值总体方差的估计值延迟k自相关系数的估计值*1()()()nkttktxxxxrknk221()1nttxxn2*()*()rkk平稳序列分析平稳性的图检验时序图检验横轴表示时间,纵轴表示序列取值根据平稳序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数附近随机波动,且波动的范围有界时序图显示序列有明显的趋势性或周期性,通常不是平稳序列平稳序列分析平稳性的图检验自相关图检验横轴表示延迟时期数,纵轴表示自相关系数平稳序列的自相关系数会很快地随着延迟期数的增加向零衰减•自相关系数缓慢递减到零又开始为负•明显的三角对称性•具有单调趋势的非平稳序列典型自相关图某地区纱产量自相关图•自相关系数围绕零上下波动•具有明显的正弦波动规律•具有周期性的非平稳序列典型自相关图某地区月均气温自相关图•自相关系数比较小,控制在2倍的标准差范围内•在零附近波动•随机性非常强的平稳时间序列特征某地区年最高气温自相关图平稳序列分析纯随机性检验如果序列平稳,可以对其建模,识别规律,预测未来,但不是所有的平稳序列都值得建模只有序列值之间具有密切的相关关系,历史数据对未来的发展有一定影响的系列,才可用来建模,预测序列的未来发展如果序列值彼此之间没有任何相关性,意味着该序列是一个没有“记忆”的序列,过去的行为对将来的发展没有丝毫影响,这种序列称为纯随机序列纯随机序列没有任何分析价值为了确定平稳序列有没有必要继续分析,需要进行纯随机性检验!平稳序列分析纯随机性检验纯随机序列如果时间序列{Xt}满足如下性质,则称为纯随机序列(1)任取t∈T,有EXt=μ(2)任取t,s∈T,有也称白噪声(Whitenoise)简记Xt~WN(μ,)2,(,)0,tsrtsts𝜎2平稳序列分析纯随机性检验纯随机序列的纯随机性序列各项没有任何关联,完全无序波动一旦变量呈现纯随机波动,就认为该变量没有包含任何值得提取的有用信息一旦变量中的相关信息充分提取出来了,剩下的残差序列就应该呈现出纯随机的性质纯随机序列的方差齐性序列中各项的方差都相等对于纯随机序列而言,r(k)=0实际上,由于观察值序列的有限性,纯随机序列样本的自相关系数不会绝对为零,但在零附近很小范围内波动判断是否还要继续分析判断信息是否提取充分平稳序列分析纯随机性检验如果一个时间序列是纯随机的得到一个观察期数为n的序列{xt,t=1…n},该序列的延迟非零期的样本自相关系数近似服从均值为零,方差为序列观察期倒数的正态分布ρ*(k)~N(0,1/n)纯随机性检验的假设原假设:延迟期数小于或等于m期的序列值之间相互独立备择假设:延迟期数小于或等于m期的序列值之间有相关性H0:ρ*1=ρ*2=ρ*3…=ρ*m=0H1:至少存在某个ρ*1≠0平稳序列分析纯随机性检验纯随机性检验的统计量Q统计量:•n为序列观测期数,m为制定延迟期数•当Q统计量大于临界值,在1-α的置信水平下拒绝原假设,该序列不是纯随机序列,反之LB统计量:*221~()mkkQnm21()m*221(2)()~()mkkLBnnmnk•n为序列观测期数,m为制定延迟期数•当Q统计量大于临界值,在1-α的置信水平下拒绝原假设,该序列不是纯随机序列,反之21()m大样本小样本平稳序列通常具有短期相关性,如果一个平稳序列短期延迟的序列值之间都不存在显著的相关关系,通常长期延迟之间更不会存在显著的相关关系。如果一个平稳序列显示出显著的短期相关性,那该序列一定不是纯随机序列。m不用太大。平稳序列分析纯随机性检验纯随机性检验的统计量Q统计量:•n为序列观测期数,m为制定延迟期数•当Q统计量大于临界值,在1-α的置信水平下拒绝原假设,该序列不是纯随机序列,反之LB统计量:*221~()mkkQnm21()m*221(2)()~()mkkLBnnmnk•n为序列观测期数,m为制定延迟期数•当Q统计量大于临界值,在1-α的置信水平下拒绝原假设,该序列不是纯随机序列,反之21()m大样本小样本平稳序列通常具有短期相关性,如果一个平稳序列短期延迟的序列值之间都不存在显著的相关关系,通常长期延迟之间更不会存在显著的相关关系。如果一个平稳序列显示出显著的短期相关性,那该序列一定不是纯随机序列。m不用太大。平稳序列分析自回归移动平均模型一个序列经过平稳性检验与纯随机性检验后,被识别为平稳非白噪音序列,说明该序列是一个蕴含相关信息的序列希望建立一个线性模型来拟合该序列的发展规律自回归移动平均模型自回归模型(AR,autoregressionmodel)移动平均模型(MR,movingaveragemodel)
本文标题:【清华】09-环境数据分析方法-7-649409884
链接地址:https://www.777doc.com/doc-6090868 .html