您好,欢迎访问三七文档
第七章空间统计分析统计分析是空间分析的主要手段,贯穿于空间分析的各个主要环节。空间统计分析方法不仅仅限于常规统计方法,还包括利用空间位置的空间自相关分析。本章主要介绍常用统计量、数据特征分析(即探索性数据分析)、分级统计分析、空间插值和空间回归分析5方面内容。第一节概述1.1基本概念空间统计分析包括空间数据的统计分析及数据的空间统计分析。空间数据的统计分析着重于空间物体和现象的非空间特性的统计分析,而空间数据所描述的事物的空间位置在这些分析中不起制约作用。从这个意义上讲,空间数据的统计分析在很多方面与一般的数据分析并无本质差别,但是对于空间数据统计分析的结果的解释则要依托与地理空间进行,在很多情况下,分析的结果是以地图的方式描述和表达的。数据的空间统计分析是直接从空间物体的空间位置、联系等方面出发,研究既具有随机性又具有结构性,或具有空间相关性和依赖性的自然现象。数据的空间统计分析,其核心就是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关,通过空间位置建立数据间的统计关系。空间统计分析的任务就是运用有关的统计分析方法,建立空间统计模型,从凌乱的数据中挖掘空间自相关和空间变异规律。数据的空间统计分析与经典统计分析方法的关系共同点:都是在大量采样的基础上,通过对样本的属性值的频率分布、均值、方差等关系及其相应规则分析,确定其空间分布格局与相关关系。不同点:数据的空间统计分析既考虑到样本的大小,又重视样本空间位置及样本间的距离。空间数据具有空间依赖性(空间自相关)和空间异质性,扭曲了经典统计分析的假设条件,使得经典统计分析对空间数据的分析会产生虚假的解释。经典统计分析模型是在观测结果相互独立的假设基础上建立的,但实际上地理现象之间大都不具有独立性。数据的空间统计学研究的基础是空间对象间的相关性和异质性,它们与距离有关,并随距离的增加而变化。这些问题为经典统计学所忽视,却成为数据空间统计分析的核心。注意:在使用任何统计分析分析方法分析和空间位置有关的数据之前,我们都必须先测度和检验空间自相关的显著性。这是因为如果所研究的空间数据具有空间自相关性,那么观测样本可能会包含相似的信息,从而导致有效样本容量的减小。相似或者自相关的观测单位会使变量间的关系重复或被夸大。第二节基本统计量2.1代表数据集中趋势的统计量代表数据集中趋势的统计量包括平均数、中位数、众数,它们都可以用来表示数据的分布位置和一般水平。描述地理数据一般水平指标的选择当数据为对称分布或接近对称分布时,应选择平均数作为集中趋势的代表值,因为此时均值与众数、中位数的差异很小,而且平均数综合考虑了全部数据,具有很好的代表性。当数据呈偏态分布时,由于均值考虑了所有观察值,因此容易受极端数值的影响,而众数又缺乏良好的数学性质,依分组求得的众数不够精确,所以此时多选用中位数作为描述集中性趋势的统计量。当变量为名义尺度数据时通常只能用众数来描述集中趋势。2.2代表数据离散程度的统计量代表数据离散程度的统计量包括最大值、最小值、分位数、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低。2.3代表数据分布形态的统计量代表数据离散程度的统计量主要有偏度系数和峰度系数。图1偏度系数的三种情形正偏态负偏态正态图2标准峰度系数的三种情形第三节探索性数据分析探索性数据分析首先分析出数据的模式和特点,再根据数据特点选择合适的模型。探索性数据分析还可以用来揭示数据对于常见模型的意想不到的偏离。3.1基本分析工具1.直方图:SPSS,ARCGIS2.QQplot分布图:SPSS,ARCGIS3.Voronoi图:ARCGIS4.方差变异分析工具:GS+3.01用直方图检验数据的分布1)在ArcMap目录表中单击需要进行数据检测分析的点要素层。2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击Histogram2用QQPlot图检验数据的分布1)NormalQQplot检验数据是否符合正态分布:单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击NormalQQplot2)generalQQplot评估两个数据集分布的相似性:单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击generalQQplot3Voronoi图单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击Voronoi图。Voronoi图中多边形值的几种分配方式和计算方法(见课本273页)使用ARCGIS进行探索性数据分析半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,如果分别以h为横坐标,变异函数γ(0)或协方差函数C(h)为纵坐标,就得到了变异函数曲线图和协方差函数图:4方差变异分析协方差函数和半变异函数随着距离的加大基本呈反向变化特征,它们之间的近似关系表达式为:变异函数曲线图和协方差函数图反应了采样点与其相邻采样点的空间关系,同时还能给出这种空间相关的范围,对异常采样点有很好的探测作用。我们通常选择半变异函数图来描述地理数据的空间变异特征。)()0()(hchc在半变异曲线图中有两个非常重要的点:间隔为0时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:块金值(Nugget)、变程(Range)、基台值(Sill)、偏基台值(PartialSill)变异函数的参数。※理论上,当采样点间的距离为0时,半变异函数值应为0,但由于存在测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为0,即存在块金值。测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。块金值(Nugget):当间隔距离h=0时,γ(0)=C0,该值称为块金值或块金方差(nuggetvariance)。※当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。基台值(Sill):当采样点间的距离h增大时,半变异函数从初始的块金值达到一个相对稳定的常数时,该常数值称为基台值。sill=C0+C偏基台值(PartialSill):基台值与块金值的差值:partialsill=C※在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。当hR时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。变程(Range):当半变异函数的取值由初始的块金值达到基台值时,采样点的间隔距离称为变程。变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度的限定。3.2检验数据分布空间统计分析中检验数据分布的意义和主要方法:在空间统计分析中,许多统计分析模型,如地统计分析,都是建立在平稳假设的基础上的,这种假设一定程度上要求所有数据具有相同的变异性。另外,克里金插值都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换,从而使其服从正态分布。因此在进行地统计分析之前,检验数据分布特征,了解和认识数据具有非常重要的意义。数据的检验可以通过直方图和NormalQQplot图来完成。3.3寻找数据离群值概念:全局离群值:局部离群值:离群值的出现可能是真实异常值,也可能是由于不正确的测量或记录引起的。如果是真实异常值,这个点可能就是研究和理解这个现象的最重要的点。反之,如果它是由于测量或数据输入的明显错误引起的,在生成表面之前,应对它们进行修正或剔除。寻找离群值的主要方式:1.利用直方图查找离群值2.用半变异/协方差函数云图识别离群值3.用Voronoi图查找局部离群值3.4全局趋势分析全局趋势(空间趋势)反映了空间物体在空间区域上的变化的主题特征,它主要揭示了空间物体的总体规律,而忽略局部变异。•趋势面分析单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击trendanlysis。3.5空间自相关分析(一)全局空间自相关全局空间自相关系数反映的是研究区域内所有区域单元的整体空间关系。Moran指数和Geary系数是最常用的两种测度全局自相关的指标。如果是位置(区域)的观测值,则该变量的全局Moran指数I,用如下公式计算式中:I为Moran指数;Wij为权重系数ninjniiijninjjiijxxwxxxxwnI111211ninijijninijjiijwSxxxxw121))((22)(1iixxnSniixnx11;Moran’sIGeary系数C计算公式如下式中:C为Geary系数;其他变量同上式。ninjniiijninjjiijxxwxxwnC111211221Geary’sC•Moran’sI和Geary’sC计算公式中的大部分项都可以直接根据点的属性值来计算,唯一无法根据属性值计算的是表示i与j之间空间接近度的权重系数Wij。接下来我们就来看一下空间权重系数Wij的确定通常定义一个二元对称空间权重矩阵W,来表达n个位置的空间区域的邻近关系,其形式如下式中:Wij表示区域i与j的临近关系,它可以根据邻接标准或距离标准来度量。空间权重矩阵nnnnnn212222111211①简单的二进制邻接矩阵②基于距离的二进制空间权重矩阵常用的确定空间权重矩阵的规则其他相邻接和当区域01jiwij其他时的距离小于和当区域01djiwij反距离权重系数:假定随着两点之间距离的增加,它们之间关系的重要性会出现线性递减。常用的确定空间权重矩阵的规则(补充)ijijdw/1常用的确定空间权重矩阵的规则(补充)而只体现了线性递减关系,当相关性随距离呈现非线性递减关系时则需引入参数α。上式改造为:α=2广泛适用于许多地理现象。ijijdw/1ijijdw/1Moran’sI和Geary’sC的取值区间空间模式Geary’sCMoran’sI邻近点具有相似特征的聚集模式0C1IE(I)各点不具有特定相似性的随机模式C~=1I~=E(I)邻近点具有相异特征的分散模式1C2IE(I)标注:E(I)=-1/n-1,n表示区域单元总数(样本总数)需要指出的是,Geary’s比率的取值区间与相关系数的传统取值范围(-1,1)不符,而Moran’sI的取值区间更加接近于传统相关性指标的取值范围。但需要注意的是:1.不存在空间自相关时,Moran’sI的值不是0,而是E(I)2.从某些实证研究的结果来看,Moran’sI的取值范围并不局限于(-1,1),尤其是上限并不局限于1。3.Moran’sI的期望值E(I)始终为负,其大小与区域单元个数n有关。当区域单元的数量n越多时,Moran’sI的期望值E(I)就越接近于0;当n较小时,Moran’sI的期望值E(I)是个绝对值较大的负值。因此当n较小时,负的Moran’sI未必意味着负的空间自相关或分散模式。空间自相关指标的显著性检验空间自相关指标的显著性检验是通过标准化Z值来实现的。Moran’sI的显著性检验为:)()(IVARIEIZ式中E(I)=1/n-1;2222212)]([)1()3()(IEnWWnSSnIVARNjijinijininjjiijninjijNN)(2)(;)]([)1()3()(•VARN(I)为自由抽样方差;非自由抽样的方差另有公式,在此不做介绍了。•参考《ArcViewGIS与ArcGIS地理信息系统统计分析》)()(CVARCECZGeary’s
本文标题:空间统计分析
链接地址:https://www.777doc.com/doc-3991716 .html