您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 地理探测器-原理与展望-王劲峰
地理学报ACTAGEOGRAPHICASINICA第72卷第1期2017年1月Vol.72,No.1January,2017地理探测器:原理与展望王劲峰1,2,徐成东1(1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101;2.中国科学院大学,北京100049)摘要:空间分异是自然和社会经济过程的空间表现,也是自亚里士多德以来人类认识自然的重要途径。地理探测器是探测空间分异性,以及揭示其背后驱动因子的一种新的统计学方法,此方法无线性假设,具有优雅的形式和明确的物理含义。基本思想是:假设研究区分为若干子区域,如果子区域的方差之和小于区域总方差,则存在空间分异性;如果两变量的空间分布趋于一致,则两者存在统计关联性。地理探测器q统计量,可用以度量空间分异性、探测解释因子、分析变量之间交互关系,已经在自然和社会科学多领域应用。本文阐述地理探测器的原理,并对其特点及应用进行了归纳总结,以利于读者方便灵活地使用地理探测器来认识、挖掘和利用空间分异性。关键词:空间分异性;地理探测器;q统计;类型量DOI:10.11821/dlxb2017010101引言空间统计学于20世纪60年代兴起,其理论基础为空间自相关,突破了经典统计学的独立同分布假设前提[1]。基于空间自相关,一系列方法工具被研制出来,主要包括空间自相关检验Moran'sI[2]、半变异函数[3]、RipleyK[4];热点探测Gi[5]、LISA[6]、SatScan[7];空间插值方法Kriging[3]、贝叶斯最大熵BME[8];空间回归SAR/MAR/CAR[9-11]、GWR[12]、空间贝叶斯层次模型BHM[13]等。这些方法工具大大促进了人们对于具有空间自相关性数据的分析和利用。随着定位及观测技术的发展和普及,无论是更精细或者更大范围的研究,还是空间大数据,空间分层异质性(spatialstratifiedheterogeneity)问题凸显。空间分层异质性,简称空间分异性或区异性,是指层内方差小于层间方差的地理现象,例如地理分区、气候带、土地利用图、地貌图、生物区系、区际经济差异、城乡差异以及主体功能区等等[14-19],是空间数据的另一大特性。“层(strata)”是统计学概念,大体对应地理上的类(classes)或子区域(subregions)。虽然已有上百种分类算法K-means、SOM等可用于分类或分区,但是针对空间分异收稿日期:2016-10-15;修订日期:2011-01-05基金项目:国家自然科学基金项目(41531179,41601419,41421001);科技部科技基础性工作专项(2014FY121100);公益性行业科研专项(GYHY20140616);LREIS自主创新项目(088RA200YA)[Foundation:NationalNaturalScienceFoundationofChina,No.41531179,No.41601419,No.41421001;MinistryofScienceandTechnologyofChina,No.2014FY121100,SpecialScientificResearchFundofPublicWelfareProfessionofChina,No.GYHY20140616;ScienceandTechnologyInnovationProjectofLREIS,No.088RA200YA]作者简介:王劲峰(1965-),男,研究员,中国地理学会会员(S110009913M),主要从事地理信息科学的理论创新和实践。E-mail:wangjf@igsnrr.ac.cn116-134页1期王劲峰等:地理探测器:原理与展望性的统计学方法尚十分有限。目前,主要方法包括空间分异性测度和因子分析的地理探测器q统计[20-21];在不同样本条件下的区域总量估算、空间插值和空间抽样的系列统计量:当有分层样本时的MSN[22-23]、当样本有偏时的Bshade[24-26]、当只有单样本点时的SPA模型[27]、小样本多单元报告以及多边形图层之间的互相转换的Sandwich模型[28]。地理探测器是探测空间分异性,以及揭示其背后驱动力的一组统计学方法。其核心思想是基于这样的假设:如果某个自变量对某个因变量有重要影响,那么自变量和因变量的空间分布应该具有相似性[29-30]。地理分异既可以用分类算法来表达,例如环境遥感分类;也可以根据经验确定,例如胡焕庸线。地理探测器擅长分析类型量,而对于顺序量、比值量或间隔量,只要进行适当的离散化[31],也可以利用地理探测器对其进行统计分析。因此,地理探测器既可以探测数值型数据,也可以探测定性数据,这正是地理探测器的一大优势。地理探测器的另一个独特优势是探测两因子交互作用于因变量。交互作用一般的识别方法是在回归模型中增加两因子的乘积项,检验其统计显著性。然而,两因子交互作用不一定就是相乘关系。地理探测器通过分别计算和比较各单因子q值及两因子叠加后的q值,可以判断两因子是否存在交互作用,以及交互作用的强弱、方向、线性还是非线性等。两因子叠加既包括相乘关系,也包括其他关系,只要有关系,就能检验出来。本文主要阐述了地理探测器的基本原理,并介绍地理探测器软件;通过对比分析地理探测器在自然科学、社会科学、环境科学和人类健康方面的几个典型应用案例,讨论了地理探测器的适用条件和优势,提出了可能遇到问题的对策。2地理探测器原理空间分异性是地理现象的基本特点之一。地理探测器是探测和利用空间分异性的工具。地理探测器包括4个探测器。分异及因子探测:探测Y的空间分异性;以及探测某因子X多大程度上解释了属性Y的空间分异(图1)。用q值度量[29],表达式为:q=1-∑h=1LNhσ2hNσ2=1-SSWSSTSSW=∑h=1LNhσ2h,SST=Nσ2(1)式中:h=1,…,L为变量Y或因子X的分层(Strata),即分类或分区;Nh和N分别为层h和全区的单元数;σ2h和σ2分别是层h和全区的Y值的方差。SSW和SST分别为层内方差之和(WithinSumofSquares)和全区总方差(TotalSumofSquares)。q的值域为[0,1],图1地理探测器原理Fig.1Theprincipleofgeographicaldetector117地理学报72卷值越大说明Y的空间分异性越明显;如果分层是由自变量X生成的,则q值越大表示自变量X对属性Y的解释力越强,反之则越弱。极端情况下,q值为1表明因子X完全控制了Y的空间分布,q值为0则表明因子X与Y没有任何关系,q值表示X解释了100×q%的Y。q值的一个简单变换满足非中心F分布[21]:F=N-LL-1q1-q~F(L-1,N-L;λ)(2)λ=1σ2[∑h=1LYˉ2h-1N(∑h=1LNhYˉh)2](3)式中:λ为非中心参数;Yˉh为层h的均值。根据式(3),可以查表或者使用地理探测器软件[32]来检验q值是否显著。交互作用探测:识别不同风险因子Xs之间的交互作用,即评估因子X1和X2共同作用时是否会增加或减弱对因变量Y的解释力,或这些因子对Y的影响是相互独立的。评估的方法是首先分别计算两种因子X1和X2对Y的q值:q(X1)和q(X2),并且计算它们交互(叠加变量X1和X2两个图层相切所形成的新的多边形分布,图2)时的q值:q(X1∩X2),并对q(X1)、q(X2)与q(X1∩X2)进行比较。两个因子之间的关系可分为以下几类(图3):风险区探测:用于判断两个子区域间的属注:分别计算出q(X1)和q(X1);将X1和X2两个图层叠加得到新图层X1∩X2,计算q(X1∩X2);按照图3判断两因子交互的类型。图2交互作用探测Fig.2Detectionofinteraction图3两个自变量对因变量交互作用的类型Fig.3Typesofinteractionbetweentwocovariates1181期王劲峰等:地理探测器:原理与展望性均值是否有显著的差别,用t统计量来检验:tyˉh=1-yˉh=2=Yˉh=1-Yˉh=2[Var()Yˉh=1nh=1+Var()Yˉh=2nh=2]1/2(4)式中:Yˉh表示子区域h内的属性均值,如发病率或流行率;nh为子区域h内样本数量,Var表示方差。统计量t近似地服从Student'st分布,其中自由度的计算方法为:df=Var()Yˉh=1nz=1+Var()Yˉh=2nh=21nh=1-1[Var()Yˉh=1nh=1]2+1nh=2-1[Var()Yˉh=2nh=2]2(5)零假设H0:Yˉh=1=Yˉh=2,如果在置信水平α下拒绝H0,则认为两个子区域间的属性均值存在着明显的差异。生态探测:用于比较两因子X1和X2对属性Y的空间分布的影响是否有显著的差异,以F统计量来衡量:F=NX1(Nx2-1)SSWX1NX2(Nx1-1)SSWX2SSWX1=∑h=1L1Nhσ2h,SSWX2=∑h=1L2Nhσ2h(6)式中:NX1及NX2分别表示两个因子X1和X2的样本量;SSWX1和SSWX2分别表示由X1和X2形成的分层的层内方差之和;L1和L2分别表示变量X1和X2分层数目。其中零假设H0:SSWX1=SSWX2。如果在α的显著性水平上拒绝H0,这表明两因子X1和X2对属性Y的空间分布的影响存在着显著的差异。3地理探测器软件GeoDetector是根据上述原理,用Excel编制的地理探测器软件,可从以下网址免费下载:。地理探测器使用步骤包括:(1)数据的收集与整理:这些数据包括因变量Y和自变量数据X。自变量应为类型量;如果自变量为数值量,则需要进行离散化处理。离散可以基于专家知识,也可以直接等分或使用分类算法如K-means等。(2)将样本(Y,X)读入地理探测器软件,然后运行软件,结果主要包括4个部分:比较俩区域因变量均值是否有显著差异;自变量X对因变量的解释力;不同自变量对因变量的影响是否有显著的差异,以及这些自变量对因变量影响的交互作用。地理探测器探测两变量Y和X的关系时,对于面数据(多边形数据)和点数据,有不同的处理方式。对于面数据,两变量Y和X的空间粒度经常是不同的。例如,因变量Y为疾病数据,一般以行政单元记录;环境自变量或其代理变量X的空间格局往往是循自然或经济社会因素而形成的,如不同水文流域、地形分区、城乡分区等。因此,为了在空间上匹配这两个变量,首先将Y均匀空间离散化,再将其与X分布叠加,从而提取每个离散点上的因变量和自变量值(Y,X)。格点密度可以根据研究的目标而提前指定。如果格点密度119地理学报72卷大,计算结果的精度会较高,但是计算量也会较大。因此在实际操作时须要考虑精度与效率的平衡。GeoDetector的输入数据如表1所示,其中每条记录都是一个格点,各列分别存储因变量Y和自变量X。对于点数据:如果观测数据是通过随机抽样或系统抽样而得到,并且样本量足够大,可以代表总体,则可以直接利用此数据在地理探测器软件中进行计算。如果样本有偏,不能代表总体,则需要用一些纠偏的方法对数据进一步的处理之后再在地理探测器软件中进行计算。图4示意了地理探测器软件的数据准备、软件界面和输出。4应用案例首先,结合新生儿神经管畸形空间变异的环境因子识别详尽演示GeoDetector的使用步骤;随后,分别介绍了地理探测器在自然科学(美国地表切割因子分析)、社会科学(中国城市化驱动力识别)和环境污染(土壤抗生素空间差异的控制因子分析)等不同领域的典型应用;最后,对地理探测器的应用案例进行分析比较,并归纳总结。4.1新生儿神经管畸形空间变异的环境因子识别[20]GeoDetector对某县1998-2006年的神经管畸形出生缺陷(NTDs)的发生(Y)进行了环境风险因子分析。环境风险因子或其代理变量(X)包括:高程、土壤类型、流域分区以及蔬菜产量和化肥使用量等社会经济变量[20](图5)。图6
本文标题:地理探测器-原理与展望-王劲峰
链接地址:https://www.777doc.com/doc-2103363 .html