您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > Hadoop生态系统概述以及版本演化
LOGOHadoop生态系统概述以及版本演化讲师:董西成小象科技让你的数据产生价值2议程1.Hadoop生态系统特点2.Hadoop介绍3.Hadoop生态系统4.Hadoop生态系统版本衍化5.总结小象科技让你的数据产生价值Hadoop生态系统特点源代码开源(免费)社区活跃、参与者众多涉及分布式存储和计算的方方面面已得到企业界验证小象科技让你的数据产生价值4Hadoop1.0与2.01.Hadoop生态系统特点2.Hadoop介绍3.Hadoop生态系统4.Hadoop生态系统版本衍化5.总结小象科技让你的数据产生价值5议程1.Hadoop生态系统特点2.Hadoop介绍3.Hadoop生态系统4.Hadoop生态系统版本衍化5.总结小象科技让你的数据产生价值Hadoop介绍概述分布式存储系统HDFS(HadoopDistributedFileSystem)分布式存储系统提供了高可靠性、高扩展性和高吞吐率的数据存储服务资源管理系统YARN(YetAnotherResourceNegotiator)负责集群资源的统一管理和调度分布式计算框架MapReduce分布式计算框架具有易于编程、高容错性和高扩展性等优点小象科技让你的数据产生价值Hadoop介绍概述HDFS(分布式存储层)YARN(集群资源管理层)MapReduce(分布式计算层)小象科技让你的数据产生价值Hadoop构成HDFS(分布式文件系统)源自于Google的GFS论文发表于2003年10月HDFS是GFS克隆版HDFS特点良好的扩展性高容错性适合PB级以上海量数据的存储小象科技让你的数据产生价值Hadoop构成HDFS(分布式文件系统)基本原理将文件切分成等大的数据块,存储到多台机器上将数据切分、容错、负载均衡等功能透明化可将HDFS看成一个容量巨大、具有高容错性的磁盘应用场景海量数据的可靠性存储数据归档小象科技让你的数据产生价值Hadoop构成HDFS(分布式文件系统)小象科技让你的数据产生价值Hadoop构成YARN(资源管理系统)YARN是什么Hadoop2.0新增系统负责集群的资源管理和调度使得多种计算框架可以运行在一个集群中YARN的特点良好的扩展性、高可用性对多种类型的应用程序进行统一管理和调度自带了多种多用户调度器,适合共享集群环境小象科技让你的数据产生价值Hadoop构成YARN(资源管理系统)小象科技让你的数据产生价值Hadoop构成YARN(资源管理系统)小象科技让你的数据产生价值Hadoop构成YARN(资源管理系统)小象科技让你的数据产生价值Hadoop构成MapReduce(分布式计算框架)源自于Google的MapReduce论文发表于2004年12月HadoopMapReduce是GoogleMapReduce克隆版MapReduce特点良好的扩展性高容错性适合PB级以上海量数据的离线处理小象科技让你的数据产生价值Hadoop构成MapReduce(分布式计算框架)小象科技让你的数据产生价值Hadoop构成MapReduce(分布式计算框架)小象科技让你的数据产生价值Hadoop构成MapReduce(分布式计算框架)小象科技让你的数据产生价值19目录1.Hadoop生态系统特点2.Hadoop介绍3.Hadoop生态系统4.Hadoop生态系统版本衍化5.总结小象科技让你的数据产生价值Hadoop生态系统1.0时代HDFS(分布式存储系统)MapReduce(分布式计算框架)Hive(数据仓库)Pig(工作流引擎)Mahout(数据挖掘库)Oozie(作业流调度系统)Hbase(分布式数据库)Zookeeper(分布式协调服务)Sqoop(数据库TEL工具)Flume(日志收集)Ambari(安装部署工具)小象科技让你的数据产生价值Hadoop生态系统2.0时代HDFS(分布式存储系统)YARN(分布式计算框架)HivePigOozie(作业流调度系统)Hbase(分布式数据库)Zookeeper(分布式协调服务)Sqoop(数据库TEL工具)Flume(日志收集)Ambari(安装部署工具)MapReduce(离线计算)Tez(DAG计算)Hive2Pig2Spark(内存计算)Shark……小象科技让你的数据产生价值Hadoop构成Hive(基于MR的数据仓库)由facebook开源,最初用于解决海量结构化的日志数据统计问题;ETL(Extraction-Transformation-Loading)工具构建在Hadoop之上的数据仓库;数据计算使用MR,数据存储使用HDFSHive定义了一种类SQL查询语言——HQL;类似SQL,但不完全相同通常用于进行离线数据处理(采用MapReduce);可认为是一个HQLMR的语言翻译器。小象科技让你的数据产生价值Hadoop构成Hive(基于MR的数据仓库)日志分析统计网站一个时间段内的pv、uv多维度数据分析大部分互联网公司使用Hive进行日志分析,包括百度、淘宝等其他场景海量结构化数据离线分析低成本进行数据分析(不直接编写MR)小象科技让你的数据产生价值Hadoop构成Hive小象科技让你的数据产生价值Hadoop构成Pig由yahoo!开源,设计动机是提供一种基于MapReduce的ad-hoc数据分析工具构建在Hadoop之上的数据仓库定义了一种数据流语言——PigLatin通常用于进行离线分析小象科技让你的数据产生价值Hadoop实例wordcount问题小象科技让你的数据产生价值WordCountMapReduce程序小象科技让你的数据产生价值WordCountMapReduce程序小象科技让你的数据产生价值WordCountHive语句SELECTword,COUNT(*)FROMdocLATERALVIEWexplode(split(text,''))lTableaswordGROUPBYword;小象科技让你的数据产生价值WordCountPig语句--①加载数据input=load‘/input/data’as(line:chararray);--②将字符串分割成单词words=foreachinputgenerateflatten(TOKENIZE(line))asword;--③对单词进行分组grpd=groupwordsbyword;--④统计每组中单词数量cntd=foreachgrpdgenerategroup,COUNT(words);--⑤打印结果dumpcntd;小象科技让你的数据产生价值Hadoop构成Pig与Hive对比小象科技让你的数据产生价值Hadoop构成Mahout(数据挖掘库)基于Hadoop的机器学习和数据挖掘的分布式计算框架实现了三大类算法推荐(Recommendation)聚类(Clustering)分类(Classification)小象科技让你的数据产生价值RegressionRecommendersClusteringClassificationFreq.PatternMiningVectorSimilarityNon-MRAlgorithmsExamplesSee构成Mahout实现的算法小象科技让你的数据产生价值Mahout介绍聚类算法CanopyClusteringK-MeansFuzzyK-Means模糊K-MeansExpectationMaximizationEM算法MeanShift均值漂移HierarchicalClustering层次聚类DirichletProcessClustering狄里克雷过程聚类LatentDirichletAllocationLDASpectralClustering谱聚类MinhashClusteringTopDownClustering自上而下聚类小象科技让你的数据产生价值Mahout介绍分类算法LogisticRegression逻辑回归Bayesian贝叶斯分类算法SupportVectorMachines支持向量机PerceptronandWinnow感知器算法NeuralNetwork神经网络RandomForests随机森林RestrictedBoltzmannMachines有限波尔兹曼机OnlinePassiveAggressiveBoostingHiddenMarkovModels隐式马尔科夫链小象科技让你的数据产生价值Mahout介绍其他算法•PatternMining–ParallelFPGrowth•Regression–LocallyWeightedLinearRegression•DimensionReduction–SVD–StochasticSVDwithPCA–PCA–IndependentComponentAnalysis–GaussianDiscriminativeAnalysisEvolutionAlgorithms–GeneticAlgorithmsRecommenders–Non-distributedrecommenders(“Taste”)–DistributedItem-BasedCollaborationFiltering–CollaborationFilteringusingaparallelmatrixfactorization–SlopeOne小象科技让你的数据产生价值Hadoop构成HBase(分布式数据库)源自Google的Bigtable论文发表于2006年11月HBase是GoogleBigtable克隆版HBase特点高可靠性高性能面向列良好的扩展性小象科技让你的数据产生价值Hadoop构成HBase数据模型小象科技让你的数据产生价值Hadoop构成HBase数据模型Table:表类似于传统传统数据库中的表ColumnFamily:列簇Table在水平方向有一个或者多个ColumnFamily组成一个ColumnFamily中可以由任意多个Column组成RowKey:行键Table的主键Table中的记录按照RowKey排序Timestamp:时间戳每行数据均对应一个时间戳版本号小象科技让你的数据产生价值Hadoop构成HBase架构小象科技让你的数据产生价值Hadoop构成Zookeeper(分布式协作服务)源自Google的Chubby论文发表于2006年11月Zookeeper是Chubby克隆版纳解决分布式环境下数据管理问题统一命名状态同步集群管理配置同步小象科技让你的数据产生价值Hadoop构成Zookeeper应用HDFSYARNStormHBaseFlumeDubbo(阿里巴巴)Metaq(阿里巴巴)小象科技让你的数据产生价值Hadoop构成Sqoop(数据同步工具)连接Hadoop与传统数据库之间的桥梁支持多种数据库,包括MySQL、DB2等插拔式,用户可根据需要支持新的数据库本质上是一个MapReduce程序充分利用了MR分布式并行的特点充分利用MR容错性小象科技让你的数据产生价值Hadoop构成Sqoop(数据同步工具)小象科技让你的数据产生价值Hadoop构成Flume(日志收集工具)Cloudera开源的日志收集系统Flume特点分布式高可靠性高容错性易于定制与扩展小象科技让你的数据产生价值Hadoop构成Flume(日志收集工具)小象科技让你的数据产生价值Hadoop构成Oozie(作业
本文标题:Hadoop生态系统概述以及版本演化
链接地址:https://www.777doc.com/doc-5161974 .html