您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > cloudera-Hadoop-Spark-storm
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术?2.星环科技与hadoop的关系是什么,都有什么产品,产品有什么特性?3.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性?4.Spark与hadoop的关联是什么?5.Storm与hadoop的关联是什么?hadoop家族创始人:DougCutting整个Hadoop家族由以下几个子项目组成:HadoopCommon:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。HDFS:是Hadoop应用程序中主要的分布式储存系统,HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。MapReduce:是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。Hive:ApacheHive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。hive类似CloudBase,基于hadoop分布式计算平台上的提供datawarehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。Pig:ApachePig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——PigLatin,开发的初衷是易于编程和保证可扩展性。Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。HBase:ApacheHBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是GoogleBigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(GoogleFileSystem)提供的分布式数据存储一样,它是ApacheHadoop在HDFS基础上提供的一个类Bigatable。ZooKeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Avro:Avro是dougcutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。Sqoop:Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。Mahout:ApacheMahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。聚集:收集文件并进行相关文件分组。分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。Cassandra:ApacheCassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structuredupdate、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(columnindexe)。Chukwa:ApacheChukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。Ambari:ApacheAmbari是一个基于web的工具,用于配置、管理和监视ApacheHadoop集群,支持HadoopHDFS,、HadoopMapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。HCatalogApacheHCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:提供一个共享模式和数据类型机制。提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。Chukwa:Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。Transwarp系列产品:创始组织:星环科技1.TranswarpDataHub(TDH):企业级一站式大数据综合平台有六大优势(1)无限水平扩展(2)统一数据处理平台(3)高速数据分析(4)灵活数据处理(5)实时流计算(6)超高性价比2.TranswarpHadoopTranswarpHadoop提供基础的分布式文件系统作为存储引擎,YARN作为资源管理框架,组合了一系列Apache项目,为用户提供了数据的采集、存储、数据同步、批处理、工作流分析以及全文搜索功能,是TDH不可或缺的基石。星环科技改进了ApacheYARN资源管理框架,可以在同一个HDFS数据集上动态创建Inceptor交互式分析集群、Map/Reduce批处理集群以及实时流处理集群,提供多部门间资源配额管理、动态资源调配、资源共享的能力,为企业建立一站式数据平台提供有力支持。3.TranswarpInceptorTranswarpInceptor交互式分析引擎提供高速SQL分析和R语言数据挖掘能力,可帮助企业建立高速可扩展的数据仓库和/或数据集市,结合多种报表工具提供交互式数据分析、即时报表和可视化能力。Inceptor提供完整的ANSISQL支持以及PL/SQL过程语言扩展,可以支持复杂的数据仓库类分析应用,也使得从原有数据库系统迁移到Hadoop更为容易。4.TranswarpHyperbaseTranswarpHyperbase实时数据库是建立在ApacheHBase基础之上,融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL数据库。Hyperbase可以高效地支持企业的在线OLTP应用、高并发OLAP应用、批处理应用、全文搜索或高并发图形数据库检索应用,结合Inceptor高速SQL引擎,是企业创建可扩展在线运营数据库(OperationalDatabase)或者实时分析型数据库(ODS-OperationalDataStore)的最佳选择。5.TranswarpStreamTranswarpStream实时流处理引擎提供了强大的流计算表达能力,支持复杂的应用逻辑,生产系统的消息通过实时消息队列进入计算集群,在集群内以流水线方式被依次处理,完成数据转换、特征提取、策略检查、分析告警等复杂服务计算,最终输出到Hyperbase等存储集群,实时生成告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于实时数据(如传感器数据)的实时告警、风险控制、在线统计和挖掘等业务。Cloudera系列产品:创始组织:Cloudera公司1.ClouderaManager:有四大功能(1)管理(2)监控(3)诊断(4)集成2.ClouderaCDH:英文名称:CDH(Cloudera’sDistribution,includingApacheHadoop)Cloudera公司的发行版,我们将该版本称为CDH(ClouderaDistributionHadoop)。3.ClouderaFlumeFlume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。4.ClouderaImpalaClouderaImpala对你存储在ApacheHadoop在HDFS,HBase的数据提供直接查询互动的SQL。5.ClouderahueHue是cdh专门的一套web管理器,它包括3个部分hueui,hueserver,huedb。hue提供所有的cdh组件的shell界面的接口。Spark创始组织:加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoo文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发,可用来构建大型的、低延迟的数据分析应用程序。Storm创始人:TwitterTwitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循EclipsePublicLicense1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm0.5.2,基本是用Clojure写的。
本文标题:cloudera-Hadoop-Spark-storm
链接地址:https://www.777doc.com/doc-1439254 .html