您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 综合/其它 > 并行处理技术和GIS大数据的碰撞
欢迎光临并行处理技术和GIS大数据的碰撞-易智瑞(中国)行业技术部卢萌数据的宇宙处理大数据Esri与大数据展望未来:我们的海量数据梦内容提要GIS-TransformingourWorld数据的宇宙最早是由天文学和基因学创造出了“大数据”这一概念。——《自然》2008年《大数据专刊》大数据的起源一张哈勃望远镜捕捉下来的高清相片,高达数十个G字节早期,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量。早期的大数据大数据海量数据大数据与海量数据Google每天需要处理超过24PB的数据——等于美国国家图书馆书籍总量的上千倍互联网公司的数据洪流Facebook每天更新的相片超过1000万张,每天人们发送的“赞”或者书写的评论超过三十亿次。Twitter每天发布的微博超过4亿条。时间:1880年地点:美国人物:赫尔曼霍尔瑞斯事件:根据织布机的原理,利用卡片穿孔,开发了卡片制表系统。成功地1年时间内完成了人口普查的数据汇总工作。它标志着自动处理数据的开端。穿孔卡片制表机赫尔曼霍尔瑞斯(1860.2.29-1929.11.17)美国统计学家样本模式的局限样本总体全体数据模式大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据是改变市场、组织机构,以及政府与公民关系的方法。我们对大数据的认知GIS-TransformingourWorld处理大数据一个Vs一堆古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们想的并不是培育更大更壮的牛。同样,我们也不需要动辄使用超级计算机,而应试着结合使用更多计算机系统。格蕾丝·莫里·霍珀(GraceMurrayHopper)(1906--1992)更多或者更大Google通过他天才的软件架构设计,把成千上万台普通的PC机做成了一个廉价大型的集群,用以处理他面向“星球”级别的搜索服务。谷歌的廉价PC集群2013年6月,前中情局(CIA)职员爱德华·斯诺顿将两份绝密资料交给英国《卫报》和美国《华盛顿邮报》。2013年6月5日,英国《卫报》先扔出了第一颗舆论炸弹:美国国家安全局有一项代号为“棱镜”的秘密项目,要求电信巨头威瑞森公司每天上交数百万用户的通话记录。……2013年6月23日,斯诺顿抵达莫斯科棱镜门事件名称:UtahDataCenter(犹他数据中心)全称:IntelligenceCommunityComprehensiveNationalCybersecurityInitiativeDataCenter(情报体系综合性国家计算机安全计划数据中心)所属机构:NAS(美国国家安全局)UtahDataCenterhadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。不得不说的hadoopHadoop之父道格卡廷(DougCutting)姓名:道格卡廷(DougCutting)国籍:美国毕业大学:斯坦福大学任职过的公司:ARCHITEXT、苹果、施乐公司帕洛阿尔托研究中心、雅虎。2009年加盟Cloudera公司,任首席架构师。个人成就:开源搜索引擎Nutch的创始人开源的全文检索包Lucene项目的创始人Hadoop创造者兼ApacheHadoop项目创始人ASF(ApacheSoftwareFoundationApache软件基金会)主席2004年Google在OSDI会议上发表《MapReduce:简化大规模集群上的数据处理》论文2005年,Nutch开发人员在Nutch上实现了第一个MapReduce系统2006年,NDFS和MapReduce成为Lucene的一个子项目,被称为Hadoop2008年,Hadoop成为Apache的顶级项目2008年4月,hadoop打破世界记录,成为最快的TB级数据排序系统Hadoop大事记hadoop的天下Demo:HelloWorldHadoop生态系统示意图Zookeeper(coordination)Avro(Serialization)HDFS(HadoopDistributedFileSystem)Hbase(ColumnDB)MapReduce(JobScheduling/ExecutionSystem)Pig(DataFlow)Hive(SQL)SqoopETLToolsBIReportingRDBMSHDFSNameNodeDataNodeDataNodeDataNodeMetadata数据1数据2用户NameNode与DataNodeMap:映射Reduce:约束(简化)MapReduce原理copyHDFSreplicationreducepart0mergeOutputHDFSSplit0MapSplit1MapSplit2MapsortINPUTHDFS假设系统每秒处理4000个文件Hadoop处理原理处理4千万个文件=10000秒约为2.7小时处理4千万个文件处理400万个文件处理400万个文件处理400万个文件……切分成十台机器处理约为17分钟=约为17分钟=约为17分钟=结果合并输出GIS-TransformingourWorldEsri与大数据Volume数据量Velocity多样性Variety速度Value价值4V特性数据量Volume1,128,24268MBX(32bit)Y(32bit)多样性VarietyParcelFabricFeaturedatasetFeatureclassMultipatchRelationshipclassTopologyGeometricnetworkNetworkdatasetTerrainTableViewRastercatalogRasterdatasetSchematicdatasetMosaicdatasetLASdatasetToolboxToolModeltoolsetSpatialETLScriptPythonToolboxAddressLocator缺省属性值属性值取值域分割/合并方针连通性规则关联规则拓扑规则速度Velocity并行处理因子价值Value“今天,地理空间信息被越来越多的企业认为是企业的战略资产。地理空间信息的处理、存储和分析已成为商务智慧的重要组成部分。”---JackDangermond空间信息大数据存储IBMNetezza7.0NetezzaSpatialEsriPackageTeradataWindowsAzureSQLDatabase空间大数据挖掘分析GIStoolsforHadoopEsri大数据解决方案•IBMNetezza6.0/7.0–NetezzaSpatialEsriPackage•Teradata14.0•WindowsAzureSQLDatabaseEsri空间大数据存储DemoArcGIS与HadoopGISToolsforHadoop不仅在GIS与hadoop之间搭建起了一个桥梁,还定义和构建了一整套大空间数据分析的环境。——MarwaMabroukproductmanageratEsriGISToolsforHadoopEsriGeometryAPIforJavaSpatialFrameworkforHadoopGeoprocessingToolsforHadoopGISToolsforHadoop的组成API框架工具GISToolsforHadoop的组成操作系统:任意linux64bitJVM:JDK1.6.0以上Hadoop版本:1.0.0以上(0.23.x)Oozie:3.3.0以上可选工具:eclipse以及hadoop的插件ArcGIS版本:ArcGIS10.1sp1以上GISforHadoop运行环境特别提醒:第一次安装oozie的时候必须要一个非常强劲的网络!!展望未来:我们的海量数据梦几点疑问:速度慢?适用场景系统开销在设计和部署分布式应用的时候,存在三个核心的系统需求,这个三个需求之间存在一定的特殊关系。三个需求如下:C:Consistency一致性A:Availability可用性P:PartitionTolerance分区容错性分布式CAP理论一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。几点疑问:能力弱?范围发展几点疑问:DB还是hadoop结构化数据非结构化(或半结构化)数据DB还是hadoop题外话:12306与淘宝12306淘宝GIS-TransformingourWorld数据为王凡是过去,皆为序曲未来无限……欢迎大家移步体验区进入精彩的GIS世界欢迎光临谢谢!
本文标题:并行处理技术和GIS大数据的碰撞
链接地址:https://www.777doc.com/doc-6222916 .html