您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 使用ArcGIS-hadoop处理大数据
使用ArcGIShadoop处理大数据Esri中国卢萌数据统治的世界Hadoop是拿来干嘛的给hadoop插上空间分析的翅膀我们的大数据之梦内容提要数据统治的世界天然文字印刷电子数字化文明载体的演化Facebook北欧数据中心名称:UtahDataCenter(犹他数据中心)全称:IntelligenceCommunityComprehensiveNationalCybersecurityInitiativeDataCenter(情报体系综合性国家计算机安全计划数据中心)所属机构:NAS(美国国家安全局)UtahDataCenter恐怖分子的账户特点:1、账户上大约有4000USD。2、通常在一家大银行的分行开户。3、往往一次存入大量现金,然后经常小额支出。4、没有租金、还款、保险等正常的生活费用支出。5、每月存取时间无规律……——FBI的数据挖掘结果数据挖掘的实例(一)美国媒体报道,纽约萨克福马县一对夫妻因为妻子用谷歌搜索了“高压锅”,而丈夫在同一时段用谷歌搜索了“背包”,7月31日竟遭遇一个由六人组成的联合反恐部队上门“查水表”。数据挖掘实例(二)几千年前科学以实验为主,描述自然现象过去数百年出现了理论研究分支,利用模型和归纳最近数十年出现了计算分支,对复杂现象进行仿真今天:数据爆炸将理论、实验和计算仿真统一起来由仪器收集、由软件处理、由计算机存储科学家通过数据管理和分析的方式来研究科学。数据密集型科学222.34acGaa我们所理解的大数据4VVolumeValueVolume数据量Variety速度速度产生变化传播处理Velocity多样性密度Value价值Hadoop是拿来干嘛的?前提Hadoop不是万能的!!Hadoop这个名词不是一个缩写,是一个虚构的名字,是卡廷的小公子给一头吃饱了的棕黄色大象取的名字。hadoop的来历取名三大原则:简短易发音易拼写Hadoop是Apache基金会的一个顶级项目,是一个可在商用硬件集群上对超大型数据集进行分布式存储和分析的可扩展的开源框架。hadoop是个啥东西?分布式存储分布式计算目前它都在干嘛?流量统计趋势分析用户推荐系统架构Hadoop生态系统示意图Zookeeper(coordination)Avro(Serialization)HDFS(HadoopDistributedFileSystem)Hbase(ColumnDB)MapReduce(JobScheduling/ExecutionSystem)Pig(DataFlow)Hive(SQL)SqoopETLToolsBIReportingRDBMSHDFSNameNodeDataNodeDataNodeDataNodeMetadata数据1数据2用户Map:映射Reduce:约束(简化)MapReduce原理copyHDFSreplicationreducepart0mergeOutputHDFSSplit0MapSplit1MapSplit2MapsortINPUTHDFS假设系统每秒处理4000个文件Hadoop处理原理处理4千万个文件=10000秒约为2.7小时处理4千万个文件处理400万个文件处理400万个文件处理400万个文件……切分成十台机器处理约为17分钟=约为17分钟=约为17分钟=结果合并输出给hadoop插上空间分析的翅膀大数据技术厂商图谱使用hadoop进行分析的流程HadoopCluster.jar上帝的归上帝凯撒的归凯撒ArcGISHadoop空间分析存储信息展示条件定义数据生产聚集提取过滤空间数据在hadoop中可以表现为多种不同的方式。给Hadoop加入空间分析能力•把空间数据加入到Hadoop中ONTARIO,34.0544,-117.6058RANCHOCUCAMONGA,34.1238,-117.5702REDLANDS,34.0579,-117.1709RIALTO,34.1136,-117.387RUNNINGSPRINGS,34.2097,-117.1135ONTARIOPOINT(34.0544,-117.6058)RANCHOCUCAMONGAPOINT(34.1238,-117.5702)REDLANDSPOINT(34.0579,-117.1709)RIALTOPOINT(34.1136,-117.387)RUNNINGSPRINGSPOINT(34.2097,-117.1135)由指定符号分隔数据由制表符分隔的数据{{‘attr’:{‘name’=‘ONTARIO’},’geometry’:{‘x’:34.05,’y’:-117.60}}{{‘attr’:{‘name’=‘RANCHO…’},’geometry’:{‘x’:34.12,’y’:-117.57}}{{‘attr’:{‘name’=‘REDLANDS’},’geometry’:{‘x’:34.05,’y’:-117.17}}{{‘attr’:{‘name’=‘RIALTO’},’geometry’:{‘x’:34.11,’y’:-117.38}}{{‘attr’:{‘name’=‘RUNNING…’},’geometry’:{‘x’:34.20,’y’:-117.11}}JSON…类似于well-knowntext(WKT)的定义方式Esri’sJSON定义的方式用多个位置来定义多个字段jsonHadoopTools.pytGISToolsforHadoopSpatialFrameworkforHadoopGeoprocessingToolsforHadoopGeometryAPIJavahivespatial-sdk-hive.jarspatial-sdk-json.jaresri-geometry-api.jarsamplestoolsEsrionGitHub整个包中包括了所有的工具和示例,都是开源的。•空间框架中包含了hive的UDF和JSON相关的SDK。Hadoop的一些GP工具,包括了数据上传下载,工作流的调用等。Javageometrylibrary,用于JAVA开发空间分析功能。GISToolsforHadoopJavaGeometryAPIequalsdisjointtouchescrosseswithincontainsoverlaps构建内存索引hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。Hive中所有的数据都存储在HDFS中。Hive虽然Hive提供了很多函数,但是有些还是难以满足我们的需求。因此Hive提供了自定义函数开发•自定义函数包括三种UDF、UADF、UDTF–•UDF(User-Defined-Function)–•UDAF(User-DefinedAggregationFuncation)–•UDTF(User-DefinedTable-GeneratingFunctions)HivespatialfunctionsHivespatialfunctionsSELECTcounties.name,count(*)cntFROMcountiesJOINearthquakesWHEREST_Contains(counties.boundaryshape,ST_Point(earthquakes.longitude,earthquakes.latitude))GROUPBYcounties.nameORDERBYcntdesc;由经纬度构造要素点检查点是否在面内GP工具主要就是在ArcGIS平台中使用的,用于调度hadoop的一系列工具脚本。GeoprocessingtoolsHadoopToolsCopytoHDFSCopyfromHDFSExecuteWorkflowFeaturestoJSONJSONtoFeaturesGIStoolsforhadoop的分析流程HadoopClusterJSONJSONfilterresultFeaturestoJSONCopytoHDFSCopyfromHDFSJSONtoFeatures经典统计与空间统计样本独立性空间相关性超出一定数量级对实时性要求不高分析的数据已经在HDFS中需处理的任务可以分解Hadoop的使用前提车流量分析:自定义高级聚合Demo•DEMO2567325673Count3Min2Max6Count2Min3Max7256Count3Min2Max673Count2Min3Max725673Count5Min2Max71.使用Map/Reduce对点进行分区聚合2.使用Map/Reduce进行全局数据聚合3.在桌面软件中进行空间分析,并且渲染成图自定义聚合分析我们的大数据之梦数据为王凡是过去,皆为序曲2009年10月8日晚,中国福利彩票双色球第2009118期开奖,河南安阳某彩民一举夺得88注头奖,累计获奖奖金高达3.5998亿元。按照规定,这名中国彩票发行22年来最幸运的彩民,仅需要缴纳的税款就高达7200万元!88注一等奖?抓捕时间旅行者项目名称:在互联网上搜索时间旅行者的证据(SearchingtheInternetforEvidenceofTimetravelers)发起人:密西根理工大学天体物理学教授RobertNemiroff研究生TeresaWilson详细地址:://未来无限……介绍算法架构视频演示大虾卢凡是过去,皆为序曲。。。空间分析是我们的老本行大数据是我们的应用创新另外:兼职统计概率分析(可以预测彩票哦)欢迎加入“空间大数据挖掘”群插播广告本次开发者大会的讲座视频文档及ppt文件将于会议结束后两周内邮件提供下载地址
本文标题:使用ArcGIS-hadoop处理大数据
链接地址:https://www.777doc.com/doc-3745318 .html