您好,欢迎访问三七文档
全局空间自相关:JoinCount算法空间虾神daxialu(虾神)·2015-11-1807:38ArcGIS里面,全局空间自相关只提供了一个Moran'sI方法,当然要说一招鲜吃遍天也是可以的,不过关于全局自相关还是有不少其他的方法的,这次给大家介绍一种更加简单并且容易理解的全局空间自相关方法:JoinCount方法。这个方法最早是英国剑桥大学的著名地理学家AndrewD.Cliff教授和美国乔治敦大学的J.KeithOrd提出,就是下面的两位老帅哥:后面这个为J.KeithOrd更是厉害,以前说的GeneralG指数也有他的一份。JoinCounts这种算法对比那些公式复杂到抓狂的各种算法来说,简单到让人眼前一亮,下面我们来看看他的原理:首先从他的名字上来看,就能够猜出是怎么完的了。这个算法,就是对两个要素之间的连接类型进行计数,然后根据这个计数来判定聚类还是离散的。这种类似一种描述二进制之间关系的方式,如黑/白两种颜色,他们之间的关系就有三种:黑-黑(BB)、白-白(WW)、黑-白(BW)。如下图:三种情况的概率,就如下所示:(有数学恐惧症的同学请略过)算出来之后,他们的预期值是:算出三种值来之后,就可以进行比较了,比较的结果如下:如果BW比我们所期望的数值要低,表示正空间自相关。如果BW比我们所期望的数值要高,表示负空间自相关。如果BW比我们所期望的数值均等,表示随机。如下图所示:最后,我们来看看分布用我们最属性的Moran'sI和joinCounts两种方法计算出来的全局空间自相关的结果:首先是数据,我们选用2004年美国大选中,小布什的得票率来计算,数据如下图:通过Moran'sI方法技术出来的结果如下:下面逐条解答一下上面的各项内容:数据:data数据集里面的小布什得票数空间权重(空间关系概念化):这里是面数据,用的是共点共边就被认为是近邻,用的是“Queen'sCase”(这点看不懂的,请去看白话空间统计之五:空间关系概念化(下)里面的描述)Moran'sI统计标准偏差:51.731(统计标准偏差:一种量度数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。)p值:2.2e-16,置信度为99%以上,极高置信度区间,说明这份数据效果非常好。alternativehypothesis(备择假设亦称研究假设,统计学的基本概念之一。假设检验中需要证实的有关总体分布的假设,它包含关于总体分布的一切使原假设不成立的命题。):极大Moran'sI统计指数:0.5565174275期望值:-0.0003219575方差:0.0001158676因为Moran'sI的指数是在-1——1之间,越靠近1的,聚集趋势就越明显,所以根据以上数据,我们可以判定,小布什的得票获胜区域(或者失败区域)有明显的聚集趋势,也就是说,如果他在某个区域获胜,那么在该区域旁边的区域也极有可能获胜,反之亦然。下面是通过JoinCount方法进行计算的结果:因为JoinCount只能处理二值化数据,所以第一句就是将值化为二值化,布什获胜的,设置为1,失败的设置为0.结论解读如下:0:0——失败区域与失败区域关联的计数为130,期望值为54,方差是6.7,Z值是29.4661:1——获胜区域与获胜区域关联的计数为1111,期望值为1030,方差是12.6,Z值是22.5961:0——获胜区域与失败区域关联的计数为311,期望值为472,方差是29.47,Z值是-29.645Jtot——不同颜色的计数值计数为311,期望值为472,方差是29.94,Z值为-29.413从上面的数据可以看出,BB和WW都明显出现了计数值远高于期望值,所以数据呈现聚类模式,其中BB的值方差要小于WW值的方差,所以小布什的获胜选区的聚类程度要略大于失败选区的聚类程度。而BW的计数小于期望值,可以认为,不存在离散趋势了。检验统计量表明,BB和WW都是正值,说明我们假设的值比较贴合实际运算结果,是一份比较可信的运算过程。最后Jtot是所谓的“不同颜色”也就是说,离散偏随机的计数,可以看见与BW的值非常贴近,所以这份数据也表明了随机的可能也是比较低的。白话空间统计十七:聚类和异常值分析(AnselinLocalMoran'sI)空间统计虾神daxialu(虾神)·2015-09-1517:41前面我们聊的各种指数,无论是莫兰指数还是P值Z得分,都是整体数据的结论,也就是所谓“全局莫兰指数(GlobeMoran'sI)”,也就说,不管我给你多少数据,最后你就吐出一个来给我!这算神马!当然,从名字上来看,全局数据嘛,有一个给你就不错了。实际上作为我们玩GIS的人,最喜欢的就是出一张花花绿绿的地图,比如这样的:或者是这样的:所以我们更希望的是将我们输入的数据,标示出明显的数值来,比如我输入1000个要素,那么你别就给我1个数据啊,怎么也得吐出1000个数据来吧,甭管什么莫兰指数,P值Z得分啥的,不能给我省了。所以这里就要用到今天我们说的AnselinLocalMoran'sI方法了,而它与GlobeMoran'sI的区别,如下:所以,这种算法比较符合我们做GIS的人的思维,那么这种可视为地理信息强迫症的特效药的AnselinLocalMoran'sI算法,是哪位大爷提出来的呢?下面进入我们的算法科普时间:上面这个脑门像土豆神一样明亮的老帅哥,就是ASU(美国亚利桑那州立大学)的地理与规划学院院长LucAnselin教授,也是AnselinLocalMoran'I算法的提出者,所以也就用了他的大名来标示这种算法。如果做地理分析的,一定听说一个叫做GeoDa的软件,这个软件就是Anselin教授领导的ASU的地理空间分析和计算中心弄出来的神器。后来他的这个中心,就一直被人称为“GeoDaCenter”他在2008年的时候,当选为了美国科学院院士,与中国一样,当选院士被认为是美国学术界最高荣誉之一。好了,起源介绍完了,下面我们来看看这种算法有些啥神奇的地方。首先,他还是会计算各种常规的指数,比如Moran'sI以及P值Z得分啥的,但是他是针对整份数据中,每一个要素都会去记录一个相应的值,算出来就会变成这个样子:用中国每个省的GDP进行计算,算完对每一个省都会对应有一系列数据,前面三个就是每个省的Moran'sI和Z得分以及P值,这个就不解释了,大家有兴趣去看以前的文章,AnselinLocalMoran'sI最强大的地方,就是他能够用自己身的数据,与周边的数据进行比较,生成COType这样一个字段。COType是:聚类/异常值类型的简写(clustering/outlierType),这个东西是啥东东呢,我们来看下面的解释:首先,正常情况下,聚类我们认为是这样的:就是相同的类别会被放到一起。但是我们这个工具不但要计算聚类类型,还要计算的是异常的类型,何谓异常呢?异常自然就是下面这样的情况:当然,还有一种情况,就是随机了,如下:抛开随机不谈,我们谈聚类和异常的话,就会出现4种组合,如下:而因为在地理空间上,不同的要素之间会出现相邻或者包围这种情况,所以就用了如下这种描述:周围一圈都是低值,围绕一个高值,这种情况被表示为HL,反之,周围都是一圈高值,围绕着一个低值,那么就表示为LH。这种方式,能够明确的发现空间数据以及参与计算字段值中的一些规律,比如采用2008年的各省GDP进行计算的结果如下:山东、江苏、浙江出现了明显的高值聚类,也就是说,他们的GDP与空间分布,不但自己的GDP处于高位,且旁边省份的GDP也是在高位。而全国唯一个高值被低值包围的省,就是广东省,HL的意思是他自身的GDP处于高位,但是在空间分布上,它身边的省份都处于低值的情况。从这里可以看出,采用AnselinLocalMoran'sI能够在更细粒度的范围下,对空间关系进行探索,至于如何使用这个工具,我们下次再说。待续未完。白话空间统计十七:聚类和异常值分析(AnselinLocalMoran'sI)(下)空间统计虾神daxialu(虾神)·2015-09-1823:16前文再续,书接上一回。AnselinLocalMoran'sI作为细粒度的空间统计工具神器,在ArcGIS里面自然也是提供了相应的工具的,这个工具就直接叫做“聚类和异常值分析”(ClusterandOutlieAnalysis(AnselinLocalMoransI))。在后面的括号里面保留了以老帅哥Anselin教授命名的算法的名称,不管中英文都有,说明了大家和虾神一样,对于研究算法的大神们都有顶礼膜拜的情节。这一章主要讲讲AnselinLocalMoran’sI算法的原理和工具使用方法。其实一直都忘记了补一章,关于空间数据探索的基础,实际上在讲空间概率标准化的时候就应该写的,可有些时候因为想对照着ArcGIS的空间统计模块来写(关键没有其他的参考书,只能参考这个了,话说Esri这个帮助文档,实在是空间统计学的入门必看经典啊!),结果不小心就把这个内容给漏掉了……真是尽信书不如无书啊!这个空间数据探索的基础,就是的空间权重矩阵。如下所示:好吧……权重矩阵,我们看看看这个空间权重矩阵到底是个啥东东:左边这个东西,叫做无向图,由边那个,就是所谓的距离矩阵了。因为我们以前说过,在空间分析里面,需要进行空间关系的概念化,所以也通常称为空间权重矩阵。当然这个权重矩阵为了简单明了,所以用的直接就是用最短距离作了矩阵里面的元素,比如B和C的距离,直接通过矩阵可以查询到WBC=2。但是实际上情况可能会更复杂,比如我们以前说过,空间关系概念化一共有7种概念,每种概念都能够变化成相应的权重矩阵。比如最简单的,判断是否相邻的空间权重矩阵,可能就只有两个值,如下:通过这个空间权重矩阵,很容易的看出各个面要素之间的关系,比如D要素,与A\E\G三个要素有相邻关系。关于啥是Rook'scase的不记得请去看空间统计之五:空间关系的概念化这篇文章,我这里就不复习了。这个权重矩阵与后面我们要进行的计算,是非常相关的。当然,因为现在的各种工具里面,在计算AnselinLocalMoran'sI的时候,都会依照你给定的空间关系概念化(也就是所谓的距离计算方式),来生成这个权重矩阵,但是如果不预先生成,使用不同的软件去计算的话,都会出现不同的结果。但是如果你用了同样的权重矩阵的话,计算出来的结果就是一样的。如果说,全局莫兰指数是按照所有的数据配合空间权重矩阵计算出来的一个综合的数值,那么局部莫兰指数的计算方法与全局莫兰指数大致是一样,所不同的是没有了权重矩阵和数据值平均数的聚合计算过程。所以在每一个要素上面都会计算出一个属于自己的莫兰指数。如下:当然,做为空间相关性的算法,算完之后P值Z得分肯定是跑不掉的,正因为有了莫兰指数和Z值的组合,才会有HH,LL,HL和LH四种可能。他们的具体在四个象限的分布如下:从上面的分布可以看出,只要Z值得分是正数,就表示了聚类,Z得分是负数,就表示了异常。在Z得分被确定的情况下,才使用莫兰指数来确定不同的性质。再来看看我们昨天计算出来的那张地图:然后在看看看数据:把这个表格通过我们上面列出的象限方式标出来,如下(把Z得分显著性临界值区域以内的名称都隐藏了):对比一下上面的表格,发现青海和西藏也出现在了1.65临界值以外,但是确没有被标识出来,这是为什么呢?来看看他们的其他值,关键看这个值可靠不可靠,所以P值出现了:好吧,既然他们是不可靠的,自然就被pass掉了,所以,最终的图形,应该是这样的:最后,贴出数学公式,有数学恐惧症的同学慎入:
本文标题:空间自相关
链接地址:https://www.777doc.com/doc-2151843 .html