您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > GIS的核心之三:空间统计分析
第10章空间统计分析统计分析是空间分析的主要手段,贯穿于空间分析的各个主要环节。空间统计分析方法不仅仅限于常规统计方法,还包括利用空间位置的空间自相关分析。本章主要介绍常用统计量、数据特征分析(即探索性数据分析)、分级统计分析、空间插值和空间回归分析五方面内容。10.1概述10.1.1基本概念空间统计分析可包括“空间数据的统计分析”及“数据的空间统计分析”,前者着重于空间物体和现象的非空间特性的统计分析,解决的一个中心议题就是如何以数学统计模型来描述和模拟空间现象和过程,即将地理模型转换成数学统计模型,以便于定量描述和计算机处理,着重于常规的统计分析方法,尤其是多元统计分析方法对空间数据的处理,而空间数据所描述的事物的空间位置在这些分析中不起制约作用。如趋势面拟合被广泛应用于地理数据的趋势分析中,但在这种分析中,仅考虑了样本值的大小,而并不考虑这些样本在地理空间的分布特征及其相互间的位置关系。从这个意义上讲,空间数据的统计分析在很多方面,与一般的数据分析并无本质差别,但是对空间数据的统计分析结果的解释则必然要依托于地理空间进行,在很多情况下,分析的结果以地图方式来描述和表达的。因此,空间数据的统计分析尽管在分析过程中没有考虑数据抽样点的空间位置,但描述的仍然是空间过程,揭示的也是空间规律和空间机制。数据的空间统计分析则是直接从空间物体的空间位置、联系等方面出发,研究既具有随机性又具有结构性,或具有空间相关性和依赖性的自然现象。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性,都是数据的空间统计分析的研究内容。数据的空间统计分析不是抛弃了传统的统计学的理论和方法,它是在传统的统计学基础上发展起来的。数据的空间统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布、均值、方差等关系及其相应规则的分析,确定其空间分布格局与相关关系。数据的空间统计学区别于经典统计学的最大特点是:数据的空间统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离。空间数据具有空间依赖性(空间自相关)和空间非均质性(空间结构),扭曲了经典统计方法的假设条件,使得经典统计模型对空间数据的分析会产生虚假的解释。经典统计学模型是在观测结果相互独立的假设基础上建立的,但实际上地理现象之间大都不具有独立性。数据的空间统计学研究的基础是空间对象间的相关性和非独立的观测,它们与距离有关,并随着距离的增加而变化。这些问题为经典的统计学所忽视,但却成为数据的空间统计学的核心。10.1.2主要分析内容空间统计分析与经典统计学的内容往往是交叉的。空间统计分析使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。同时,它又具有自己独有的空间自相关分析。主要分析内容包含以下几点:1.基本统计量统计量是数据特征的反映,也是统计分析的基础。2.探索性数据分析探索性数据分析能让用户更深入了解数据,认识研究对象,从而对与其数据相关的问题做出更好的决策。探索性数据分析主要包括确定统计数据属性、探测数据分布、全局和局部异常值(过大值或过小值)、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。3.分级统计分析分级统计是对数据的进一步处理分析,以便于更好得揭示数据规律或在制图中获得更好的效果。4.空间插值基于探索性数据分析结果,选择合适的数据内插模型,由已知样点来创建表面,研究空间分布。5.空间回归研究两个或两个以上的变量之间统计关系,通过空间关系,包括考虑空间的自相关性,把属性数据与空间位置关系结合起来,更好的解释地理事物的空间关系。6.空间分类基于地图表达,采用与变量聚类分析相类似的方法来产生新的综合性或者简洁性专题地图。包括多变量统计分析,如主成分分析、层次分析,以及空间分类统计分析,如系统聚类分析、判别分析等。10.2基本统计量常用的基本统计量主要包括:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征,对进一步的数据分析起着铺垫作用(见图10.1)。图10.1基本统计量10.2.1代表数据集中趋势的统计量代表数据集中趋势的统计量包括平均数、中位数、众数,它们都可以用来表示数据的分布位置和一般水平。表10.1中,列出了各统计量的含义以及在实际应用的作用。其中,ix表示数据集中的第i个变量,i=1,2,……,n。平均数中位数众数分位数偏度峰度总和比率比例种类集中趋势描述数据特征的统计量离散程度基本统计量其他统计量分布形状极值极差离差平均离差离差平方和方差标准差变差系数表10.1代表集中趋势的统计量的含义、特点及作用统计量含义特点及作用平均数算术平均数简单算术平均数n个数据的总和与数据的总个数n的比值xnxnii1平均数是最常用的表示数据集中趋势的指标,平均数可分为三种:算术平均数、几何平均数、调和平均数。其中,前两者在GIS分析中最常用到。算术平均数代表了数据集的平均水平,不受总体范围的影响,因此可以作为比较分析的指标,还可作为评价事物的客观标准。如一个地区某一年的人均收入可以作为衡量该地区当年经济状况的指标;要比较该地区近几年的经济增长水平,也需要用该地区近几年的人均收入来比较,因为人均收入能代表该地区经济状况的平均水平,可以用来做比较分析。另外求取离差、平均离差、离差平方和、方差、标准差、变差系数、偏度系数和峰度系数等时,要先求得算术平均数;算术平均数也可用于图像处理中的平滑运算。加权平均数与算术平均数的应用是大致相同的,但加权平均数要考虑各数据点的贡献作用。加权算术平均数在求算术平均数时,考虑到数据集中的n个值有时会含有不同的比重,对平均数的影响也就不同。所以用加权平均法来计算其算术平均数。权重if为ix出现的频数,加权平均数可以按下式计算:niiiinnxfnfxfxfxfx122111......其中,inffffn......21几何平均数n个数据的连乘积再开n次方所得的方根数nnigxxxxx......21几何平均数用于分析和研究平均改变率、平均增长率、平均定比等,还在偏相关系数里有应用。中位数若将数据值按大小顺序排列,位于中间的那个值就是中位数或称中值。当数据集中有奇数个数据时,数据按大小顺序排列,那么第21n位数就是中位数;当有偶数个数据时,中位数为第2n项与第)12(n项的平均数。中位数不受极端数值的影响,如果数据集的分布形状是左右对称的,则中位数等于平均数;当数据集的分布形状呈左偏或右偏,以中位数表示它们的集中趋势比算术平均数更合理。众数是数据集中最常出现的,因此一定是数据集中的某个值,代表了多少意见,不受极端值的影响,在频数分布曲线上位居最高点,即曲线的峰值。众数常用于投票选举。若数据集的分布并不是明显集中在某个数值上,用众数来代表集中情形就没有多大意义,甚至会有误导作用。众数众数是数据集中出现频数(次数)最多的某个(或某几个)数。10.2.2代表数据离散程度的统计量平均数、中位数、众数在反映总体一般数量水平的同时,也掩盖了总体中各单位的数量差异。所以,只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。代表数据离散程度的统计量包括最大值、最小值、分位数、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低;离散程度越小,则数据波动性小,以小样本数据代表数据总体的可靠性越高。表10.2列出了表示离散程度各个统计量的含义及在实际应用的作用。表10.2代表离散程度的统计量及其特点、作用统计量含义特点及作用最大值与最小值把数据从小到大排列,最前端的值就是最小值,最后一个就是最大值通过最大、最小值和极差,可以了解数据的取值范围、分散程度,易于计算,容易理解,但他们都易受极端数值的影响,漠视了其他值的存在,无法精确地反映所有数据的分散情形,因此可能会有误导作用。在地形分析中,极差主要用于求取一定区域内的高差。对于两个不同地区,虽然它们的平均高程相同,但最高点、最低点及高差不同,说明了这两个地区的高程分布状况有差异。极差一个数据集的最大值与最小值的差值称为极差,它表示这个数据集的取值范围分位数将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的值就是分位数。分位数剔除了数据集中极端值的影响,但计算麻烦,且没有用到数据集中的所有数据点。分位数在数据分级中应用较多。离差离差表示各数值与其平均值的离散程度,其值等于某个数值与该数据集的平均值之差di=xi-x两个数据集的均值相同,但其离差可以有很大的差别,这说明这两个数据集与各自平均值的离散程度不同。平均离差和离差平方和可以克服iixx)(恒等于零的缺点,还可以把负数消除,只剩正值,这样更易于描述离散程度,而且离差平方和得到的结果较大,使离散程度更明显。离差平方和用于相关分析中求取相关系数在回归分析中,对回归方程进行显著性检验时,需要对原始数据进行离差平方和的分解,即把离差平方和分解为剩余平方和与回归平方和两部分,这两部分的比值可以反映回归方程的显著性。在趋势面分析中,对于趋势面的拟合程度可以用离差平方和来检验,其方法也是将原始数据的离差平方和分解为剩余平方和与回归平方和两部分,回归平方和的值越大,表明拟合程度越高。平均离差平均离差是把离差取决对值,然后求和,再除以变量个数nxxii离差平方和离差平方和是把离差求平方,然后求和iixx2)(方差方差是均方差的简称。它是以离差平方和除以变量个数而得到的σ22)(nxxi它们是表示一组数据对于平均值的离散程度的很重要的指标,为了应用上的方便,常对方差进行开方,即为标准差。方差和标准差都可应用于相关分析、回归分析、正态分布检验等,还可用于误差分析、评价数据精度、求取变差系数、偏度系数和峰度系数等。标准差还可用于数据分级。标准差对方差进行开方,即为标准差σ2)(nxxi变差系数变差系数也称为离差系数或变异系数,是标准差与均值的比值,以vC表示xSCv×100%式中vC为变差系数,其值为百分率;S是标准差;x为平均值。变差系数是用相对数的形式来刻画数据离散程度的指标,它可以用来衡量数据在时间与空间上的相对变化(波动)的程度。变差系数可用来求算地形高程变异系数。10.2.3代表数据分布形态的统计量分布形态可以从两个角度考虑,一是数据分布对称程度,另一个是数据分布集中程度。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。偏度和峰度是衡量数据分布特征的重要指标。表10.3代表分布形态的统计量及其作用统计量含义作用偏度偏度是刻画数据在均值两侧的对称程度的参数,用偏度系数来衡量。标准偏度系数(g1):g1=3)(61Sxxni当g10、g1=0、g10时,数据的分布情况如下图:f(x)是数据分布的密度函数,x是数据的平均值偏度可以表示数据分布的不对称性,刻画出是向正的方向偏还是向负的方向偏(小于x或大于x)峰度可以表示数据频数分布曲线峰形的相对高耸程度或尖平程度。这两个指标主要用于分析数据的频率统计图以及评价正态分布性,当g1=0且g2=0时,数据是标准正态分布。f(x)f(x)f(x)f(x)xxxf(x)f(x)峰度峰度是刻画数据在均值两侧的集中程度的参数,用峰度系数来衡量。标准峰度系数g2按下式计算:g2=)3)(1(244iiSxxnnf(x)是数据分布的密度函数,x是数据的平均值,S是标准差10.2.4其它统计量表10.4其他统计量统计量含义作用总和数据集中所有数据相加得到的值总和一般用于求取总值及各种比值。通过求取一定流域内的沟壑总长度与总面积,可以获得该流
本文标题:GIS的核心之三:空间统计分析
链接地址:https://www.777doc.com/doc-5520801 .html