您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 2015年统计学基本概念
2015年统计学基本概念一、聚类分析1.概念:聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类。或者说,聚类分析就是要找出具有相近程度的点或类聚为一类;距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:2.步骤:应用系统聚类法进行聚类分析的步骤如下:①确定待分类的样品的指标;②收集数据;③对数据进行变换处理(如标准化或规格化);④使各个样品自成一类,即n个样品一共有n类;⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止;⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。3.聚类分析的种类二、ARIMA模型(一)ARMA模型三种基本形式:自回归模型(AR:Auto-regressive),移动平均模型(MA:Moving-Average)和混合模型(ARMA:Auto-regressiveMoving-Average)。ARMA模型全称为自回归移动平均模型(AutoregressiveMovingAverageModel,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。ARIMA模型的基本思想ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未来进行预测。ARIMA模型预测的基本程序(1)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,经济运行的时间序列都不是平稳序列。(2)对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。(3)根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。(4)进行参数估计,检验是否具有统计意义。(5)进行假设检验,诊断残差序列是否为白噪声。(6)利用已通过检验的模型进行预测分析。白噪声(Whitenoise):白噪声一个平稳的随机过程满足下列条件的随机过程称为白噪声,记为:注:所谓时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而发生变化。直观上,一个平稳的时间序列可以看作一条围绕其均值上下波动的曲线。根据平稳时间序列分析的理论可知,当时,该序列{Yt}是平稳的,此模型是经典的Box-Jenkins时间序列AR(1)模型。因此,检验序列的非平稳性就变为检验特征方程是否有单位根,这就是单位根检验方法的由来。时间序列的非平稳性:是指时间序列的统计规律随着时间的位移而发生变化,即生成变量时间序列数据的随机过程的特征随时间而变化。DF检验:统计学家Dickey、Fuller得到DF检验的临界值,并编制了DF检验临界值表供查。在进行DF检验时,比较t统计量值与DF检验临界值,就可在某个显著性水平上拒绝或接受原假设。ADF检验:AugmentedDickey-Fuller检验(ADF检验):DF检验存在的问题是,在检验所设定的模型时,假设随机扰动项不存在自相关。但大多数的经济数据序列是不能满足此项假设的,当随机扰动项存在自相关时,直接使用DF检验法会出现偏误,为了保证单位根检验的有效性,人们对DF检验进行拓展,从而形成了扩展的DF检验(AugmentedDickey-FullerTest),简称为ADF检验。DF和ADF检验的步聚:计算在原假设成立的条件下t统计量值,查DF检验临界值表得临界值,然后将t统计量值与DF检验临界值比较:若t统计量值小于DF检验临界值,则拒绝原假设,说明序列不存在单位根;说明是平稳序列。若t统计量值大于或等于DF检验临界值,则接受原假设,说明序列存在单位根;有单位根说明非平稳。(二)平稳性检验方法1.单位根方法2.自相关函数法3.DF检验方法4.如果该特征方程的所有根在单位圆外(根的模大于1),则AR(p)模型是平稳的。特征根z=1/j,当|j|1,则表示特征根大于1,说明是平稳的,否则是非平稳的。三、灰色系统关联度四、描述性统计与推断统计学1.描述性统计学是指研究如何取得反映客观规律的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。其内容包括数据收集方法,数据的加工处理方法、数据显示方法,数据分布特征的概括与分析、解释方法.2.推断统计学。是指研究如何根据样本数据去推断总体数量的特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量做出以概率的形式表述的推断(既利用样本信息和概率论对总体的数量特征进行估计和检验)。五、数据类型(StatisticalData)统计数据它是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。可以将统计数据分为以下四种类型:定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。例如将国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并用(01)代码表示国有经济,(02)表示集体经济,(03)表示私营经济,(04)表示个体经济。定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。定序尺度不但可以用数表示量的不同类(组)别,而且也反映量的大小顺序关系,从而可以列出各单位、各类(组)的次序。这种尺度的主要数学特征是“”或“”。例如对合格产品按其性能和好坏,分成优等品、一等品、合格品等等。定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。例如,学生某门课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。它们不仅有明确的高低之分,而且可以计算差距,90分比80分高10分,比70分高20分等等。定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据(Oualitativedata);后两类数据说明的是现象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据(Quantitativedata)。由于定距尺度和定比尺度属于同一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的统计方法来处理和分析。比如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关系数等非参数分析;对定距或定比数据还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验等。我们所处理的大多为数量数据。这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性。比如:在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。比如,对于定距和定比数据可以计算平均数,但对于定类数据和定序数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。六、数据的分布特征与测度(一)集中度测度:是指一组数据向某一中心值靠拢的倾向。1.定类数据的测度指标:众数(mode):是指一组数据中出现次数最多的变量值。用MO表示。2.定序数据的测度指标:中位数(median):处于中间位置上的变量值,用ME表示。3.定距数据和定比数据的测度指标:均值(mean):它在统计学具有重要地位,是集中度测度值的最重要指标。(1)当三者相等时,表示数据分布是对称分布的;(2)当均值MEMO,表示是左偏分布或负偏。(3)当均值MEMO表示左偏或正偏分布。在实际利用统计软件中,常常看偏态值(Skewness)来判断数据的偏态方向。其计算公式是:当偏态值=0时,表示对称分布;当偏态值0表示正偏;当偏态值0时表示负偏。同时为了得到数据分布集中趋势的高峰的形状,还需要另一个指标:峰度(Kurtosis),若分布形状比正态分布还要高则称为尖峰分布,若比正态分布更矮则表示平峰分布。判断准则:由于正态分布的峰度系数等于3,所以当峰度(Kurtosis)3,表示尖峰分布,当峰度(Kurtosis)3表示平峰分布。在E-VIEWS软件中,JB统计量值用来检验观测值是否服从正态分布,统计量的公式,它服从,其中n为样本容量,S为偏态值,K为峰度值,在此假设检验中,原假设H0:变量服从正态分布H1:变量不服从正态分布,当P值大于0.05时,则接受原假设,否则拒绝原假设。(二)离散程度的测度:它反映的是各变量运离中心值的程度。1.定类数据的离散程度的测度指标:异众比率(Variationration),是指非众数组的频数占总频数的比率。2.定序数据的离散程度的测度指标:四分位差。3.定距和定比数据的测度指标:方差和标准差,还有极差极差=max(Xi)-min(Xi)离散系数(Coefficientofvatiation):对于平均水平不同或计量单位不同的不同组别的变量值,是不能用方差和标准差、极差等测度值进行比较的,为削除变量值水平高低和计量单位的不同对离散程度的影响,引入了离散系数,它标准差与均值的之比。离散系数七、数据标准化的方法(NormalizationMethod);标准化数值(Z-Score)数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。一般常用的有以下几种方法。1.统计标准化:z-score规范化也称零-均值规范化:它是最广泛的使用方法,计算公式为:其中Xi是原值,是均值,是标准差。2.极值标准化(rang):=3.定基与环比转换:此种方法主要用于构造时间序列指数的指标转换。定基转换环比转换八、权数的构造方法权重的构造方法一般有两种,一是主观构权法:它是指根据研究者的主观判断来指定指标权重的一种方法,主要有专家评判法、层次分析法(Theanalytichierarchyprocess,简称AHP)。另一种方法是客观构权法,它是指根据原始信息通过数学或统计方法处理后获得的权数的一种方法,具体有:主成成分分析法、因子分析法、相关法、回归法。九、特征值(eigen)应用:1.在多个变量之间计算其协整关系,其检验就要用到特征值。2.时间序列平稳性的理论识别条件。十、假设检验统计学中,假设检验是对我们所关心的却又是未知的总体参数先作出假设,然后抽取样本,利用样本所提供的信息对假设的正确性进行判断的过程。(一)假设检验的步骤1.提出假设(原假设和备择假设)。假设检验实践中
本文标题:2015年统计学基本概念
链接地址:https://www.777doc.com/doc-2992293 .html