您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据应用技术介绍(PPT37页)
单击此处编辑母版标题样式大数据应用技术介绍2014年2月单击此处编辑母版标题样式Hadoop生态系统单击此处编辑母版标题样式Hadoop生态系统SubProject描述common分布式文件系统和通用I/O的组件与接口(序列化,JavaRPC和持久化数据结构)Avro支持高效的跨语言RPC和持久数据存储的序列化系统MapReduce分布式数据处理模型和执行环境,运行在大型商用机集群HDFS分布式文件系统,用于大型商用机集群PIGPig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Hive分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)Hbase分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)ZooKeeper分布式、可用性高的协调服务。提供类似分布式锁的基础服务。Sqoop在数据库和HDFS之间高效传输数据的工具Flume分布式、可靠、和高可用的海量日志聚合的系统。ChukwaChukwa是基于Hadoop的大集群监控系统,由yahoo贡献。单击此处编辑母版标题样式Hadoop介绍单击此处编辑母版标题样式HDFS特点存储大文件•百兆以上级别文件•百万级文件由于亿级别文件流式处理数据•一次写多次多模式•支持追加操作廉价的硬件环境•普通pcserver组成集群环境单击此处编辑母版标题样式HDFS缺点低延时读操作•高吞吐量而非低延时•Hbase解决了这个问题大量小数据文件•最好每个文件大于100M多次写•只支持一次写•只支持在文件尾部添加,不支持随机写单击此处编辑母版标题样式HDFS部署结构单击此处编辑母版标题样式HDFS读写过程单击此处编辑母版标题样式MapReduce部署结构JobTracker•管理集群资源和Job调度TaskTracker•管理Task运行单击此处编辑母版标题样式MapReduce计算模型Inputk1,v1Mapk2,v2Reducek3,v3Output单击此处编辑母版标题样式MapReduce扩展接口InputFormatMapperPartitionerReducerOutputFormat单击此处编辑母版标题样式Map单击此处编辑母版标题样式Reduce单击此处编辑母版标题样式MapReduce实例单击此处编辑母版标题样式MapReduce内部结构单击此处编辑母版标题样式Hadoop2.0引入一个新的资源管理系统YARNHDFS单点故障得以解决HDFSFederationHDFS快照通过NFS访问HDFS支持Window系统单击此处编辑母版标题样式Hadoop1VSHadoop2单击此处编辑母版标题样式集群资源管理Hadoop介绍单击此处编辑母版标题样式Yarn运行原理图单击此处编辑母版标题样式Hbase介绍1高可靠性2高效性3面向列4可伸缩5可在廉价PCServer搭建大规模结构化存储集群单击此处编辑母版标题样式Hbase体系结构单击此处编辑母版标题样式HBase系统架构图单击此处编辑母版标题样式HBase部件说明Client:使用HBaseRPC机制与HMaster和HRegionServer进行通信Client与HMaster进行通信进行管理类操作Client与HRegionServer进行数据读写类操作Zookeeper:ZookeeperQuorum存储-ROOT-表地址、HMaster地址HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的健康状况Zookeeper避免HMaster单点问题HMaster:HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的MasterElection机制保证总有一个Master在运行主要负责Table和Region的管理工作:1管理用户对表的增删改查操作2管理HRegionServer的负载均衡,调整Region分布3RegionSplit后,负责新Region的分布4在HRegionServer停机后,负责失效HRegionServer上Region迁移单击此处编辑母版标题样式Table&RegionTable随着记录增多不断变大,会自动分裂成多份Splits,成为Regions一个region由[startkey,endkey)表示不同region会被Master分配给相应的RegionServer进行管理单击此处编辑母版标题样式HregionServer单击此处编辑母版标题样式-ROOT-&.META..META.记录用户表的Region信息,同时,.META.也可以有多region-ROOT-记录.META.表的Region信息,但是,-ROOT-只有一个regionZookeeper中记录了-ROOT-表的location客户端访问数据的流程:Client-Zookeeper--ROOT--.META.-用户数据表多次网络操作,不过client端有cache缓存单击此处编辑母版标题样式HBase数据模型RowKey:Table主键,Table中记录按照RowKey排序Timestamp:每次对数据操作对应的时间戳,也即数据的versionnumberColumnFamily:列簇,一个table在水平方向有一个或者多个列簇,列簇可由任意多个Column组成,列簇支持动态扩展,无须预定义数量及类型,二进制存储,用户需自行进行类型转换单击此处编辑母版标题样式HbaseShell单击此处编辑母版标题样式Hbaseshell单击此处编辑母版标题样式Hbase与RDBMS数据类型:Hbase只有简单的字符串类型。数据操作:Hbase只有很简单的插入、查询、删除、清空操作,没有复杂的表和表之间的关系。存储模式:Hbase是基于列式存储,每个列族由几个文件保存,不同列族的文件是分离的。数据维护:更新操作是替换版本,删除只是逻辑标记可伸缩性:单击此处编辑母版标题样式参考资料单击此处编辑母版标题样式Lucene搜索结构单击此处编辑母版标题样式基于文档的搜索Tika是一个内容抽取的工具集合。支持work,ppt,execl,PDF等单击此处编辑母版标题样式大数据统计Elasticsearch:开源的分布式实时搜索系统,结合Hbase实现海量数据存储和检索,同时提供索引数据统计功能,满足海量数据的实时统计要求。ya主要功能特点•realtime•distributed•highavailability•documentoriented•schemafree•restfulapi索引数据统计•min、max、sum、avg。•stats、filter、missing•rang、datarange、ipv4range•histogram、datehitogram单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式软件兴企报国创造引领未来ThankYou!
本文标题:大数据应用技术介绍(PPT37页)
链接地址:https://www.777doc.com/doc-27152 .html