您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 全球大数据企业与技术全景图(上)infrastructure基础设施
Hadoop分布式计算、大数据分析、云计算:是一个由Apache基金会所开发的分布式系统基础架构(Apache是世界使用排名第一的Web服务器软件)。优点1、Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。2、Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理,Hadoop按位存储和处理数据的能力值得人们信赖。3、Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。4、Hadoop还是可伸缩的,能够处理PB级数据,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。5、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。6、此外,Hadoop成本比较低。依赖于社区服务,任何人都可以使用,与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。7、Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。缺陷新的功能与稳定性目前还需完善,需要厂商和开源社区的大力支持,同时企业内部对于Hadoop的部署和使用经验不足,必须依赖于厂商的相关技术支持。Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。Hadoop典型应用有搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等,但Hadoop的使用范围远小于SQL或Python之类的脚本语言。Hadoop核心Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。HDFSHDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(largedataset)的应用程序。优点1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没意思。2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高。3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。MapReduceMapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce的任务如果计算的数组长度少的话,这样实现是不会有问题的,还是面对海量数据的时候就会有问题。MapReduce会这样做:首先数字是分布存储在不同块中的,以某几个块为一个Map,计算出Map中最大的值,然后将每个Map中的最大值做Reduce操作,Reduce再取最大值给用户。On-Premise(本地部署),IaaS(基础设施及服务)、PaaS(平台即服务)和SaaS(软件即服务)Hadoop领域3大热门初创公司——Cloudera、Hortonworks及MapR一、HadoopOn-PremiseCloudera肯睿Cloudera公司,它是一家专业从事基于ApacheHadoop的数据管理软件销售和服务的公司,它希望充当大数据领域中类似RedHat在Linux世界中的角色。该公司基于ApacheHadoop发行了相应的商业版本ClouderaEnterprise,它还提供Hadoop相关的支持、咨询、培训等服务。Cloudera系列产品介绍1.ClouderaManager:有四大功能(1)管理(2)监控(3)诊断(4)集成2.ClouderaCDH:英文名称:CDH(Cloudera’sDistribution,includingApacheHadoop)Cloudera对hadoop做了相应的改变。Cloudera公司的发行版,我们将该版本称为CDH(ClouderaDistributionHadoop)。CDH(ClouderaDistributionIncludingApacheHadoop)Cloudera的开源ApacheHadoop发行版,CDH在安全性、高可用性有保障,同时可以广泛与软硬件集成。对于想要寻找一个稳定的、经过验证的开源大数据管理解决方案,又不愿被专有供应商锁定的企业来说,CDH是理想的选择。CDH是一个独特的解决方案,企业在使用Hadoop于生产环境中的同时,还能获得来自开源社区的持续创新力。大数据不仅关乎软件,更重要的是要建立平台。这涉及底层的服务器、支撑的网络,还有上面的中间件。英特尔和Cloudera的合作,就是从中间件入手。Cloudera的Hadoop发行版本,是企业中被采用得最广泛的。英特尔正在将其研发IDH与Cloudera的Hadoop发行版本相结合,推出新版本的CDH,并鼓励所有用户转向CDH。CDH优点:融合了此前IDH的所有特性,并且发布一系列的服务和培训,帮助已有的客户转换到新的平台上去;商业模式以软件产品为核心,特色是专业的服务于认证培训;挑战:应对采集数据的来源多样化,采用应对多种数据格式,隐私与数据安全隐患。不能简单的开源,而是着重开放标准。3.ClouderaFlumeFlume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。Flume采用了多Master的方式。为了保证配置数据的一致性,Flume[1]引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知FlumeMaster节点。FlumeMaster间使用gossip协议同步数据。4.ClouderaImpalaClouderaImpala对你存储在ApacheHadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(HiveSQL),ODBC驱动程序和用户界面(HueBeeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。5.ClouderahueHue是cdh专门的一套web管理器,它包括3个部分hueui,hueserver,huedb。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。优点Cloudera也抱上了英特尔的大腿,实现与英特尔在软硬件方面的出色协调性和深度安全性与自主可控性,为客户构建更为高效、易用的大数据解决方案,让各种规模的企业都能更加轻松地从海量数据中发掘更多商业价值。Cloudera在华建立业务机构,业务涵盖直销、专业服务、客户支持、培训以及研发工作等。通过在中国建立其业务机构以提供更高效的软、硬件大数据解决方案和相关支持,Cloudera将用更优质的服务来满足中国企业级用户独特且先进的大数据管理需求。Hadoop快速占据主流市场并成为企业数据中心的核心,这要求企业需要具备灵活的部署模型、高安全性、强大的管理系统以及敏捷的开发工具才能得以实现。在数据挖掘、处理、分析阶段等模型部署方面有独特的优势;在安全性方面,Cloudera公司已经在其软件方案中融入了众多安全措施,并且将其打造成一系列开源技术成果并作为该公司Hadoop发行版的组成部分。Cloudera还亲自推动其它技术方案的普及,包括用于管理哪些用户(或者应用)有权访问保存在Hive以及Impala环境下的数据与元数据的ApacheSentry项目。在自主管理方面,Cloudera提供了ClouderaEnterprise、ClouderaManager以及ClouderaNavigator等管理软件,实现数据的安全性、可扩展性和易管理性。美国家庭能源数据分析公司Opower是Cloudera在北美地区的重要客户之一,Opower通过使用Cloudera大数据平台对这些智能电网海量数据进行全量分析,进而为终端用户提供更好的用电建议,也帮助电力供应商建立更有针对性的价格模型。缺陷对专有代码的依赖性较高,担心“厂商锁定”问题。Hortonworks开发、散布唯一的完全开源ApacheHadoop数据平台并提供支持。HortonworksDataPlatform提供与现有IT资产深度集成的开源平台,并且以此为基础企业可构建并部署基于Hadoop的应用程序。由于自身专家技术团队比较强,对专有代码的依赖度较低。HDP提供企业级Hadoop,HortonworksDataPlatform(HDP)完全在开源的环境下设计、开发和构建,提供企业可用的数据平台,让组织能够采用现代化数据架构。HDP以YARN作为其架构中心,是一系列处理方法(从批量到交互式再到实时)的多个工作负荷数据处理平台,拥有企业数据平台所需的关键能力,广泛的管制、安全和运营。Hortonworks数据平台支持企业Hadoop:整套企业必需的Hadoop功能,用作任何数据平台技术的功用性定义。该整套功能针对以下功能领域:数据管理、数据访问、数据治理和集成、安全性和运算。MapRMapR公司是美国加州的圣何塞市的一个企业管理软件公司,主要专注于可用性和数据安全优化和开发、销售ApacheHadoop的衍生软件,对ApacheHadoop主要贡献有:HBase、Pig(编程语言)、ApacheHive以及ApacheZooKeeper。MapR的ApacheHadoop发行版的要求提供完整的数据保护、无单点故障,这大大的提高了其性能与易用性。MAPR被亚马逊云服务选择为亚马逊弹性云EC2的升级版本。MapR产品MapR号称下一代Hadoop,使Hadoop变为一个速度更快、
本文标题:全球大数据企业与技术全景图(上)infrastructure基础设施
链接地址:https://www.777doc.com/doc-2654139 .html