您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 地理空间数据不确定性与研究报告进展
个人资料整理仅限学习使用地理空间数据不确定性与研究进展王春,汤国安,赵牡丹,王雷,张婷西北大学城市与资源学系,陕西西安,710069)摘要:在介绍空间数据不确定性概念、研究意义与常用的研究理论与方法的基础上,回顾了地理空间数据不确定性研究的历程,对地理空间数据不确定性研究的现状、所取得的主要成果问题进行了总结。分析了当前空间数据不确定性研究中所存在的基本问题:研究的内容与研究方法缺乏整体性与总览性,研究的对象与应用目标还不够明确。建议在今后的研究中应着重于:细化地理空间数据不确定性的内容;强化地理空间数据应用的不确定性研究;研究方法上注重多种理论和方法综合使用,以建立不确定性数据处理模型为其出发点和基础。关键词:地理空间数据;不确定性;研究进展中图分类号:TP391文献标识码:A文章编号:1000-274X(20040078-08地理空间数据建设是国家空间数据基础设施NSDI)建设的核心内容。目前,世界上各主要发达国家都建立了较为完善的空间数据建设与更新技术体系,在我国各级测绘与基础地理信息中心的努力下,高精度、多尺度的国家基础地理数据库建设已经基本完成,可望在国民经济与国防建设中发挥重要的作用。地理空间数据涉及的范围与种类很广,由于人类测量与表达能力的局限性,描述数据的模型也只能是对客观实体的一种近似,此外GIS的各种空间操作、处理等又会引入新的误差和不确定性,可以说误差的存在是各类观测与分析数据的基本特征。这往往使得空间特征和空间过程很难被准确确定,从而直接关系到对GIS产品的质量控制,影响了空间数据的反演、多尺度和多角度数据分析和应用建模的效果。因此,GIS产品的质量如何,GIS输出成果的精度和可靠性是多少,GIS综合分析、推理所得结论的精确度和可信度是多少,GIS原始录入数据的误差和错误会不会严重干扰GIS对问题所作的结论等等,成为GIS用户关心的重要问题。国际著名GIS专家曾强调指出:“没有以准确数据为基础的GIS分析的结论是不正确的,至少是不健全的”[1];“不考虑质量的GIS能以相当快的速度生产各种垃圾,而这些垃圾看起来似乎精美无比”[2]。因此,在GIS初步形成和产品化时,就提出了地理空间数据的不确定性问题,且被国际上列为地理信息科学界重大基础理论研究课题之一。1误差与不确定性误差通常被定义为观测数据与其真值之间的差异。对于一组数据的误差来说,它们可能是随机误差或系统误差,系统误差在其数值大小和符号上呈现出一定的规律,而随机误差的数值大小或符号呈现着随机性,但它们之间也有其统计规律。此外,在一组数据的误差中,还可能出现少量的异常值,或称之为粗差。误差是地理空间数据的固然属性,因为:①变化和模糊是自然界的两个固有属性,它们直接影响着GIS信息的准确表达;②由于观测条件的限制,利用测量设备进行的任何测量都不可避免地要引入误差;③测量结果等描述数据的模型只能是客观实体的一种近似和抽象。需要说明的是,通常情况下误差的大小个人资料整理仅限学习使用并不能直接衡量地理空间数据质量的优劣,对于只含有随机误差的数据,人们一般用精度的概念来衡量。即:精度高是指小误差出现的概率大,大误差出现的概率小;精度低是指小误差出现的概率小,大误差出现的概率大,数据的精度反映了数据误差的离散程度。对于数据的不确定性,早在20世纪70年代初的电子测量和计量学的文献中就已经出现。当时不确定性的实质其实仍主要指数据的误差,不确定性和误差常被任意选用,较多的还是使用误差这一简洁的概念。随着现代测量技术的迅速发展,以及地理空间数据信息来源的多源化,考虑误差的范围也从数字上扩大到概念上,虽然以数值误差为主,但也要顾及不能用数值来度量的误差。这样,传统的误差理论已远远不能满足需要,数据不确定性的研究逐渐得到重视。时至今日,人们趋向于认为,数据不确定性uncertainty)主要指数据“真实值”不能被肯定的程度[3,4]。从这个意义看,数据不确定性可以看作是一种广义误差,但它比误差更具有包容性与抽象性,既包含随机误差,也包含系统误差;既包含可度量的误差,又包含不可度量的误差。因此,数据的随机性、模糊性、未确定性、灰性等均可视为不确定性的研究内容。从研究的具体形式看,地理空间数据不确定性的研究又可细分为:位置不确定性、属性不确定性、时域不确定性、逻辑一致性、数据完整性、不确定性的传播、不确定性的可视化表示等[5~12]。地理空间数据不确定性研究的核心,就是建立一套不确定性分析和处理的理论体系和方法体系[6]。未来的GIS在提供其产品的同时,应根据地理空间数据不确定性研究的成果,附带提供产品的质量指标,从而有效地指导GIS用户或其他空间数据使用者正确选择空间数据与空间分析模型的类型、正确制定合理的GIS空间分析技术路线、预估分析结果的精度与适用性,真正发挥GIS技术与空间数据的效能。2研究的基础理论地理空间数据误差来源的复杂性以及地理信息很难重复采样,使得地理空间数据不确定性既有空间位置的不确定性和空间属性数据的不确定性,还具有与其空间位置相关的结构性问题,同时尺度也是不确定性研究要考虑的因素。不确定性问题是非线性复杂问题。因此,除了经典误差理论、概率论、数理统计仍是研究该问题的理论基础外,还需要寻找证据理论、模糊数学、空间统计学、熵理论、云理论、信息论、人工智能等非线性科学理论的支持,随机几何学、分形几何学、神经网络、遥感信息模型等基于边缘学科的不确定性分析处理方法也逐渐受到重视[3~12]。2.1基于概率论及数理统计的不确定性研究这方面的理论主要有概率论、证据理论、空间统计学。概率论主要用于处理由于随机误差而产生的不确定性。在概率论中,不确定性被描述成在给定某些观测值的条件下某一假设成真的条件概率。如在经典的测量理论中,点位误差的分布可看作二维正态分布或圆正态分布,一维点的不确定性指标用均方差表示,用点位中误差和误差椭圆代表平面点的不确定性模型。概率论可以使用相当复杂的联合概率研究地理空间数据不确定性问题,但此时它需要大量的概率观测值,并且概率论本身不提供其可靠性的度量指标,很多情况下人们很难找到一个概率值质量的描述指标。证据理论也称Dempster-Shafer理论,是对传统概率论的一个扩展。该理论的一个基本策略是把一个个人资料整理仅限学习使用证据集合分解成一系列不相关的证据集合,在这些证据集合中分别作判断,最后利用Dempster结合规则将这些判断结合起来。在证据理论中,样本为真的概率量测值由满足这一假设的可获得的证据的概率来代替,它是基于可信度和可能函数所确定的一个区间。证据理论是概率论的更一般性表达,证据理论可以利用结合规则和两两比较的方法分析不确定性。其最大弱点在于,不能就矛盾证据或不同假设之间具有的微弱支持问题提出解决办法。空间统计较之非空间统计是一个更一般的理论,它可以被认为是对非空间变量的一个空间扩展,而时-空统计则是更一般的扩展。空间统计学利用有序的模型描述无序事件,根据不确定性和有限信息分析、评价、预测或模拟空间趋势及其相互关系。在地理空间数据不确定的研究中,空间统计学运用空间自协方差结构、变异函数或与其相关的自协变量,或局部变量值的相似程度来描述空间属性的不确定性,改善GIS对随机过程的处理,估计模拟决策分析的不确定性范围,分析空间模型的误差传播规律,为分析连续域的空间相关性提供理论依据和量化工具。2.2基于模糊集合、粗集理论的不确定性研究模糊数学是由Zadeh(1965提出的由计算机处理不精确概率的一种理论。它以模糊集合为基础,用模糊可行区间表示数据非统计不确定度。模糊数学的优点在于其处理不确定性的能力,如土地分类中土壤渐变区域的处理、基于自然语言的空间查询等。它的一个弱点是,没有严格证明的过程,它所处理的对象是可能性而不是概率。因此,模糊数学常用于处理不确定性中的不准确性而非随机性,如两线状地物连接处的不确定性、场模型中确定域与模糊域目标间拓扑空间关系的描述等。粗集理论中,粗集(roughsets由上近似集和下近似集组成,适于处理不精确、不确定和不完全的数据。粗集理论从集合论的观点出发,在给定论域中以知识足够与否作为实体分类的标准,并给出划分类型的精度。粗集理论不排斥不确定性,力求按照实体的原形来研究实体,非常适合用于不确定影像分类、模糊边界划分、属性不确定性及评定属性的绝对不确定性和相对不确定性、简化属性依赖和属性表等。2.3基于云理论、信息熵的不确定性研究云理论是一个分析不确定信息的新理论,包括云模型、不确定性推理和云变换三部分。云在空间由系列云滴组成,具有期望值、熵和超熵3个数字特征。期望值完全是一个定性的概念;熵是定性概念模糊度的度量,其值越大,概念越模糊;超熵反映云滴的离散程度,其值越大,隶属的随机离散度越大。以云理论为基础提出了云方法,它用期望值、熵和超熵这3个数字特征描述整个云团,实现定性和定量的转换,适用于空间关联规则的挖掘、空间数据库的不确定性查询及地理空间数据中模糊性和随机性为一体的属性不确定性问题。熵是信息论中的一个基本概念,是用以度量信息源不确定性的惟一量,非常适合用来对测量结果的不确定度进行评定。利用熵理论评定测量数据的不确定性方法主要有2种:①直接根据样本的信息熵计算测量值的不确定度;②由最大偏方法确定出样本的概率分布,再根据此概率分布计算测量结果的估计及其不确定度。其优点是在小样本容量下能获得可靠的评定结果。个人资料整理仅限学习使用2.4基于多学科融合模型的不确定性研究使用多学科融合模型日益成为分析处理地理空间数据不确定性的有效手段。如:目标模型、域模型是经典的GIS数据处理模型;“ε-带”模型已成为研究线不确定性问题的基础;神经网络模型的建模方法不需要对象的先验知识,不管对象模型是线性的或非线性的均根据测量数据直接建模,避开了空间数据不确定度评定的数学模型构建难题,特别适用于空间数据的不确定度评定问题;遥感信息模型可以直接对图像进行计算,非常适合对场模型地物的不确定性进行计算和分析,但该方法有待进一步的验证和改善。除此之外,基于复制、交叉和变异的遗传算法、基于灰色分析的灰色系统、基于信息无序互动的混沌理论等等,均具有各自独特的优势,有望进一步促进不确定性研究的进展。当然,这些理论和方法不是孤立的,在实际分析处理不确定性时,常常要予以综合应用。3研究现状与进展早在20世纪60~70年代,一些学者采用数理统计学原理对地理空间数据的不确定性展开分析。1960年,Mailing等首先采用统计学分析制图问题;1969年,Frolov建立拓扑匹配误差公式,讨论空间操作运算的精度;1975年,Switzer提出一种估计从矢量到栅格数据转换精度的方法,MacDougall用实例说明了不考虑空间数据误差所带来的严重后果;1978年,MichaelGoodchild给出了检验多边形叠置过程中产生的无意义多边形的统计量运算。到了80年代,除了继续采用统计学原理进行研究外,开始进行影像分类和判读过程中的误差分析。具有代表意义主要有:1982年,Chrisman引入著名的“ε-误差带”,以后被许多学者发展;1983年,Congalto和Mead将Kappa系数引入遥感数据处理,来评判遥感数据的解译结果与验证数据的一致性;1986年,Burrough、Goodchild和Gopal(1989对空间数据误差的重要研究成果进行了系统总结。90年代后,随着GIS技术在国民经济各个方面广泛的应用,国内外对于地理空间数据的不确定性问题非常重视。在国际空间数据处理会议(ISDH、欧洲地理信息系统会议(EGIS、美国地理信息系统年会(AGIS、自然资源数据库空间数据不确定性等国际会议中,都设立了关于空间数据不确定性专题讨论组;美国的Kansas大学、纽约州立大学Buffalo分校、Washington大学、麻省理工学院MIT)、Kent州立大学、澳大利亚Melbourne大学、荷兰的Amsterdam大学等都设立了专门的空间数据不确定性研究机构;同时,我国的武汉大学、香港理工大学、同济大学、中国科学院遥感
本文标题:地理空间数据不确定性与研究报告进展
链接地址:https://www.777doc.com/doc-5548012 .html