您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 基于大数据下GIS的发展(陈俊言)
1基于大数据下的GIS发展姓名:陈俊言班级:1323101学号:201320310118指导老师:郭先春2015年11月28日2一、概述随着人类对客观世界认知的提高与技术水平的不断进步,所获取的描述客观世界的数据呈爆炸式增长,大数据已经成为了Google、亚马逊等大公司的竞争资本,通过大数据的有效利用和深入分析,可以挖掘巨大的商业价值和社会价值。根据维基百科的定义,大数据是由巨大且复杂的数据集组成的集合,且这些数据集因其巨大和复杂而难以用现有的数据库管理工具和传统的数据处理程序来进行处理。近些年我国开展的土地调查、数字城市建设等项目,取得了丰硕的成果,收集了大量的测绘数据和自然、人文数据,在今后大力开展的测绘工作中,还将获得更加丰富的地理信息数据,与此同时,如何有效地存储、管理和利用这些地理信息数据成为需要解决的问题。自20世纪60年代的诞生以来,GIS(地理信息系统)行业飞速发展,广泛应用于资源调查、环境评估、灾害预测、国土管理、城市规划、邮电通讯、交通运输、军事公安、水利电力、公共设施管理、农林牧业、统计、商业金融等几乎所有领域,为人们的生活提供了极大的便利。随着GIS发展的实践,人们发现,GIS拥有海量的非结构化的空间数据,这些数据采集困难,存储不便,处理起来也十分繁琐。如何更加高效地读写和分析GIS的海量数据,这个问题困扰了一代又一代的GIS从业者。大数据概念的诞生及大数据时代的到来,提供了从本质上解决这个问题的希望。旨在处理越来越多的数据特别是非结构化数据的大数据技术,恰好契合了GIS发展了近半个世纪以来所面临的最大的难题。在大数据时代,GIS庞大的数据量不再显得臃肿,反而是一份巨大的资产,能够带来可观的价值,这使得GIS与大数据的结合是GIS发展的必然趋势。二、什么是大数据大数据其实并不是什么新鲜的事物,人们在大数据的概念被提出之前就已经开始在用大数据解决实际的问题了。沃尔玛通过分析大量的数据从而得出将啤酒和尿布放在一起能提高啤酒的销量的结论,这个人们耳熟能详的案例在本质上就是一种典型的大数据的分析思路——虽然那时候人们并不称之为大数据。近年来大数据的概念空前火爆,各个研究机构、百科网站、大型公司都对大数据有不同的认识从而引出了不同的定义。而现在普遍认为大数据具有5V的特征属性,即Volume(数据体量大)、Velocity(数据的更新速度、处理速度快)、Variety(具有多样性)、Veracity(真实性)、Value(具有价值)。随着社交网络的诞生,LBS(基于位置的服务)的出现,世界上的数据达到了前所未有的规模并且还在高速递增,这就是大数据的Volume;而现在的数据不再仅仅是传统的结构化数据,更多的是空间数据、视频数据、网站点击流数据等等这样的不能存储在传统数据库中的非结构化数据,这就是大数据的Variety;随着物联网的发展,如何优秀地处理实时更新地传感器数据是人们面临的新的挑战,同时传统的处理数据的方式必然会随着数据量的增加从而导致数据的写入和查询速度越来越慢,如何提高数据读写的速度,也是人们必将面临的问题,这就是大数据的Velocity;IBM认为,由于数据的噪音、缺失、不一致性、歧义等问题会导致数据的不确定性,因此大数据必然要具有真实性,这就是大数据的Veracity;与此同时,人们必须要认识到,现今的数据不再仅仅是获取信息的媒3介,而是一种资源,是能够获取经济利益和挖掘相关知识的一种有价值的资产,这就是大数据的Value。大数据技术的进步必将对世界产生巨大的推动作用,同时人们的观念也要发生改变。维克托·迈尔-舍恩伯格认为,在大数据时代人们将发生三个巨大的思维变革:①人们对数据的操作不再是针对随机的样本,而是面对全体的数据;②人们不再过多地要求数据的精准性,而是需要数据纷繁复杂,种类多样;③人们不再追求事物的因果关系,转而关注数据之间的相关关系。这种观念上的改变会随着大数据的发展而逐渐作用于各个行业中,对整个人类社会的发展产生巨大的推动作用。三、GIS的定义GIS(GeographicInformationSystem)是地理信息系统的简称。陈述彭认为地理信息系统是以定位数据库为基础,具有多层次数据结构,多功能分析能力的空间型信息系统,李德仁从多级格网理论的角度出发,认为GIS数据存储的形式为不同尺度的空间数据库。综上所述,GIS是以计算机软硬件为基础,结合地理学、测绘学、地图学、计算机科学、运筹学等多门学科的,以获取、存储、管理、展示、分析地理空间数据为主的计算机系统,可以用于区域规划、决策分析等。四、GIS数据的特征从定义可看出,数据是GIS的血液。从通过图件扫描、格式转换、实地测绘等方法的数据获取,到采用各种先进数据库技术对数据进行存储、管理,再到利用计算机图形学、地图学等综合可视化技术对数据进行展示,以及最终以数据为基础的借助于计量地理学、拓扑学、图论等学科的决策分析等,这些过程都是以数据为核心的。随着GIS的发展,其数据呈现出数量大、种类多和结构复杂的特征。4.1数量大GIS的数据量大具有两层含义,第一层含义是指数据占用的字节数多,这主要是针对栅格数据及多媒体数据而言的。比如“天地图”在2011年正式上线的时候,集成了海量的基础地理信息资源数据,总数据量约有30TB,处理后的瓦片数近30亿。资源三号测绘卫星是中国第一颗民用高分辨率光学传输型测绘卫星,截止到2013年6月底,在运行的不到一年半的时间中,总共存档卫星影像37万多景,数据量达到249TB。而GIS空间数据产生的商业价值每年正以15.5%的速度增加,是GIS软件和服务的两倍。GIS数据量大的第二层含义是指数据单位个数多。比如“天地图”各类地名和PO(IPointofInterest,兴趣点)有1100多万条,2011年8月竣工的国家西部1∶50000地形图空白区测图工程和国家1∶50000基础地理信息数据库更新工程两个国家级重大测绘工程,成果有20多万航片和8000多景卫星遥感影像,地名近600万条,描绘了1.4亿个地理要素。另外,其他专业领域比如土壤数据、气象数据在全数据模式下数量也是非常可观的。44.2数据种类多GIS的数据种类多样,从大的方面看,具有矢量数据、栅格数据、属性数据,以及与地理位置相关的音频、视频等多媒体数据等;而从小的角度看,主要是因为数据来源广泛和不同应用的需求而体现为数据格式多样,这里我们主要从数据格式多样来看GIS数据种类多。比如测绘方式产生的dxf数据,经常需要导入到GIS系统中,其他的还有扫描得到的tiff或jpeg图像,具有空间坐标信息的GeoTIFF文件,数字制图中数字化后的ESRIshapefiles数据或MapInfo的TAB数据,格式转换后用于web的png、SVG或GeoJson数据等。资源三号卫星TLC(三线阵相机)标准产品中的1A级产品(预处理级辐射校正影像产品)包括的文件格式就有tiff、rpb、xml、jpeg等四种格式的15个文件。GDAL/OGR是地理空间数据转换的类库,多用来读取地理空间数据,根据GDAL官方网站的资料显示,GDAL/OGR支持的栅格数据多达132种,矢量数据有71种,这其中也包括了PostGIS、Spatialite、ArcSDE这样的数据源。4.3数据结构复杂随着科技的发展,人们获取信息的方式越来越多,获取的数据量也呈爆炸式增长,而这些信息中大概85%是非结构化的。传统的GIS主要有空间数据和属性数据两类数据,最具代表性的是ESRIshapefiles文件,空间数据以二进制文件的方式进行存储,属性数据以二维表的方式进行存储,具有固定字段,另外还有以文本存储的投影信息等。如今在GIS中,非结构化的数据越来越多,如GoogleEarth中用户可以上传基于地理位置的图片,iOS的相册提供了在地图上显示照片和视频信息的功能,像是LBS(LocationBasedService,基于位置的服务)一类的应用,更是需要在地理信息的基础上,集成周边不同类型POI的详细信息、用户实时发布的文本或多媒体信息等,这些信息绝大多数都是非结构化的。在用于人口普查的GIS系统中,基本的人口信息是结构化的,但是如果详尽一些的信息或是存储个性化的信息,比如加入个体从小到大的教育经历、特长及奖项等信息,可能数据就会变为非结构化的了,因为不是每个人都会有大学的教育经历,也不是每个人具有某种特长并得过奖项,这在数据库中表现为每个人需要有不同的数据项来记录这些细化的信息。五、大数据时代下GIS的发展作为一门从计算机科学衍生出来的综合性学科,地理信息系统(GIS)从诞生起就跟计算机科学的发展密切相关。在pc机时代,桌面GIS是主流;在互联网时代,WEBGIS大行其道;在云的概念诞生后,国内外的GIS公司也陆续推出了云GIS。而大数据时代的到来也将极大地促进GIS的发展:物联网的发展和传感器的普遍使用为GIS提供了丰富的数据来源;云计算降低了GIS的海量数据存储和处理的成本;而大数据的相关技术会使GIS数据的存储更加便捷和高效,同时使人们可以从海量的GIS数据中挖掘出相关的知识,并运用这些知识为国家治理、企业决策及个人生活服务。传统的GIS处理的数据分为属性数据和空间数据。属性数据会随着时间的推移而导致其数据量越来越大从而具备结构化大数据的属性,而在大数据概念未被提出来之前,庞大的非结构化的空间数据在本质上就5是某种意义上的大数据。虽然大数据时代下GIS数据依旧是属性数据和空间数据,但是GIS数据的许多问题都需要用新的思路考虑和解决。笔者试着从GIS大数据的采集、GIS大数据的存储与管理和GIS大数据的分析与挖掘三个方面思考大数据时代下GIS数据需要解决的问题。5.1GIS大数据的采集大数据环境下GIS数据采集方式不再局限于全站仪、水准仪、扫描仪、卫星遥感影像等传统设备与方式,而是来源于各种传感器、街景图片、网页贴吧、视频监测数据、历史数据、社会动态等复杂多样的数据源,凸现大数据的多样性特征,这给GIS数据的采集增加了难度。而通常我们认为,高质量的数据通常具有精确性、一致性、完整性、同一性、实效性和真实性这6大特性。精确性是指数据符合规定的精度,不超出规定的误差范围;一致性是指数据之间不存在相互矛盾;完整性指数据格式和数据内容的完整;同一性指数据具有统一的标识;时效性是指数据的值在不同的时间拥有不同的效果;真实性是指数据必须是真实可靠的,不能是伪造的。因此数据的获取者需要从高质量的数据源中提取数据,建立完善的数据精度评价模型,逐步提高数据的精度,以获取更精准的数据。而GIS数据源的种类各异,获取数据的方法也各不相同,从而需要建立多源数据的实体关联模型和识别模型、多源多模态数据的实体自动识别方法、实体识别效果的评估模型等,形成高质量的数据整合方法,将不同来源的GIS数据结合起来用于从多角度、全面地描述事物对象,保证数据的一致性。同时还需要建立完善的正确性条件和约束性规则以确保数据的完整性和同一性。GIS数据源中虽然有着传感器数据这样的实时性数据,也有地图数字化数据这种低实时性的数据。我们需要运用所有能用到的数据来对事物进行分析,故而需要建立数据时效性分析模型,形成完善的时效性评价机制。与此同时,对于数据真实性的监督必不可少,不仅仅要对数据进行溯源管理,还需要成立专门的数据监管部门,确保数据的真实性。5.2GIS大数据的存储与管理存储是分析的基础,管理是挖掘的保障,随着数据量的增加,数据的存储和管理也需要发生从量变到质变的改进。海量的数据虽然可以为分析和挖掘提供丰富的数据来源使分析和挖掘更加准确和全能,但是也对数据的存储和管理提出了新的要求。分布式的存储和管理是处理大数据的一个基本的思路。大数据时代下GIS数据的存储与管理有如下几个问题:①随着数据的规模越来越大,数据库如何存储大规模的结构化数据和非结构化数据:分布式文件系统将数据分散存储在各个节点上,存储资源通过网络连接:分布式数据库可以用并行处理的方式解决传统数据库中数据增加的问题,像NoSQL这样的数据库通过放松对事务ACID语
本文标题:基于大数据下GIS的发展(陈俊言)
链接地址:https://www.777doc.com/doc-2536318 .html