您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据时代的企业Hadoop解决方案
白皮书EMC的企业Hadoop解决方案Isilon横向扩展NAS和GreenplumHD作者:JulieLockner(高级分析师)和TerriMcClure(高级分析师)2012年2月此ESG白皮书由EMCCorporation授权拟订并由ESG许可发行。©2012EnterpriseStrategyGroup,Inc.保留所有权利。白皮书:EMC的企业Hadoop解决方案:Isilon横向扩展NAS和GreenplumHD2©2012EnterpriseStrategyGroup,Inc.保留所有权利。目录简介........................................................................................................................................................3大数据分析需求的市场发展趋势....................................................................................................................3利用Hadoop进行大数据分析..............................................................................................................4将横向扩展NAS用于大数据分析........................................................................................................5完善产品包:EMC的Isilon和GreenplumHD整合平台...................................................................7更全面的真相........................................................................................................................................9所有商标名称均为其各自公司的资产。本出版物中包含的信息是由EnterpriseStrategyGroup(ESG)认为可靠的来源提供的,但ESG不保证其可靠性。本出版物可能包含ESG的观点,这些观点会随时发生改变。本出版物的版权归EnterpriseStrategyGroup,Inc.所有。未经EnterpriseStrategyGroup,Inc.明确许可,不得对本出版物的整体或部分以硬拷贝方式、电子方式或其他方式进行复制或将其再分发给未经授权的任何个人,否则都将违反美国版权法并将引起民事损害诉讼,乃至刑事诉讼。如有疑问,请与ESG客户关系部门联系,电话:508.482.0188。白皮书:EMC的企业Hadoop解决方案:Isilon横向扩展NAS和GreenplumHD3©2012EnterpriseStrategyGroup,Inc.保留所有权利。简介当组织将工作重点放在充分利用其信息资产中包含的价值时,他们发现收集此类数据是一把双刃剑。事实上,数据正以几乎无法阻挡的速度增长(仅Facebook每天收集的数据就超过了100TB),大多数组织面临着数据管理带来的挑战,他们将管理数据增长、调配存储以及执行快速可靠的“大数据”分析列为其当务之急。ESG将大数据分析定义为:利用专门构建的技术一次分析整个数据集(不受数据结构的限制),从而及时且经济高效地完成从简单到复杂的数据分析任务。在最近针对100多个组织的ESG调查中,ESG发现这些组织在追赶数据增长速度时,都一致认定数据管理和数据存储是在组织中开发优化的数据分析功能时面临的主要挑战和阻碍。大家一致认为,大数据的确能增加其组织知识财富的固有价值,但同时也使其当前的IT基础架构面临极大压力,因此许多组织都迫切寻求在其数据中心开发可扩展基础架构的方法。那么,这些组织到底在寻求什么?由于传统平台严重地限制了支持大数据分析的能力,越来越多的公司在寻求新的解决方案来解决面临的这些挑战,并认定其解决方案必须是一个整合的可扩展平台,可以通过企业级服务支持大数据应用程序。一种基于分布式文件系统(Hadoop和HDFS)的新兴MapReduce平台是各公司最近选择用于解决其大数据分析需求的解决方案之一。这是专门设计用于横向扩展的解决方案,可随着要处理/分析的数据集的增长保持一致的性能水平。大数据分析需求的市场发展趋势根据ESG最近的数据管理调查,超过一半(55%)的受访组织将提高业务灵活性作为其对部署新数据分析解决方案的主要预期好处(参见图1)。1紧随其后的是可以在更短的时间内完成分析。以速度和灵活性需求作为选择过程中的主要考虑因素,各组织正寻求在应对信息暴增时能提供支持并随其共同增长的工具和技术,而基于MapReduce和ApacheHadoop的分析平台似乎将成为该方面的领跑者。事实上,ApacheHadoop已经抢先成为非结构化数据领域大数据分析的首选解决方案,基于Hadoop对大量非结构化和结构化数据的批处理已经为组织的大数据分析实现方式带来了巨大变化。1来源:ESG研究报告,《TheImpactofBigDataonDataAnalytics》(大数据对数据分析的影响),2011年9月。白皮书:EMC的企业Hadoop解决方案:Isilon横向扩展NAS和GreenplumHD4©2012EnterpriseStrategyGroup,Inc.保留所有权利。图1.部署新分析平台的主要预期好处来源:EnterpriseStrategyGroup,2011年。利用Hadoop进行大数据分析为什么有那么多组织在其分析处理中利用Hadoop?首先,Hadoop使组织可以存储和分析大量数据,而不必考虑数据的结构和关系。Hadoop是对关系数据库之类的传统数据分析平台的一种补充。它提高了组织对某些数据源进行交互式SQL分析的能力,这些数据源由于数据对当前平台施加的约束而难以或无法访问或处理。Hadoop结合了MapReduce框架与Hadoop分布式文件系统(HDFS),支持对关系和非关系结构化数据(如基于文本的数据、日志文件、机器生成的数据或Web流量详细信息)同样适用的数据处理和分析任务。与任何新兴技术一样,Hadoop仍有一些固有的问题需要解决。例如:Apache开源Hadoop版本的NameNode存在单点故障问题。NameNode用于管理HDSF中存储的文件元数据,它是HDFS文件系统的核心部分。它存放文件系统中所有文件的目录树,并承担跟踪设备的作用,指示数据在整个群集中所在的位置。客户端应用程序利用NameNode来定位、添加、拷贝、移动或删除文件。NameNode通过提供数据所在服务器的列表来响应这些请求。但是,这种方法存在明显的危险性:如果NameNode发生故障,文件系统就会离线。这是Hadoop开源社区正在想办法解决的一个问题,同时也是为大数据分析平台寻求高可用性组件的许多组织关心的一个问题。Hadoop当前缺乏企业级的数据保护功能。开发人员必须手动设置HDFS的数据复制参数(默认值为3),以确定HDFS为保护数据而应为每个文件生成的拷贝数,而不是利用RAID。依赖开发人员来确定要生成的拷贝数可能会导致对存储的利用严重不足。22%26%26%30%34%34%43%44%55%0%10%20%30%40%50%60%AbilitytoaccommodatenewdatatypesSimplifieddataintegrationReducedinfrastructurecostsAbilitytoleverageexistingresources(i.e.,staff)ReduceddeploymenttimeandcostAbilitytocompleteanalyticsonlargerdatasetsEasiertomanageAbilitytocompleteanalyticsinashorterperiodoftimeImprovedbusinessagility贵组织希望从部署新数据分析解决方案中获得以下哪些好处?(受访者百分比,N=102,可选择多项)提高业务灵活性可以在更短时间内完成分析更容易管理可以完成对更大数据集的分析减少部署时间和成本可以利用现有资源(即人员)降低基础架构成本简化数据集成可以适应新数据类型白皮书:EMC的企业Hadoop解决方案:Isilon横向扩展NAS和GreenplumHD5©2012EnterpriseStrategyGroup,Inc.保留所有权利。Hadoop要求不断增加对熟悉和熟练掌握Hadoop的人员的投入。传统的Hadoop部署可能无法轻松地集成到现有企业应用程序中。数据要通过Hadoop和HDFS协议或通过SQL接口访问,这需要开发编程接口。Hadoop需要投资构建专用的计算群集,这通常会产生孤立存储/计算资源以及存储或CPU资源利用不足问题(具体取决于所需的资源)。在常见的Hadoop参考体系结构中,计算群集利用直连存储(DAS),这种存储不易与其他应用程序共享。在初始部署过程中,组织必须部署Hadoop计算群集以满足高计算要求和/或高存储容量要求。事实上,在常见的DAS存储模式中,组织无法在部署群集之后轻松更改计算与存储的比例。希望将Hadoop用于不同工作负载类型的组织将需要部署多个Hadoop群集来满足其需求。对于希望采用分层存储布局来优化Hadoop群集中所驻留数据的成本的组织,管理员需要手动配置群集和HDFS文件夹来与各层保持一致,而Hadoop开发人员则需要开发程序在各层之间迁移数据。对于需要具有灾难恢复(DR)计划的数据保护策略的组织,开发人员需要与管理员协调,在HDFS层嵌入备份流程。对于DR,开发人员通常会将数据集写入位于同一位置的两个独立Hadoop群集。这可能会为希望对Hadoop群集中的数据采用现有数据保护和DR策略的组织带来挑战。虽然Hadoop部署在许多领域表现出色,但根据上述原则,它可能会给已经超负荷工作的IT团队带来严峻的挑战。将横向扩展NAS用于大数据分析进入横向扩展网络连接存储(NAS)。NAS系统易于安装和部署,成本合理,性能可靠,可以让支持时间保持在最低水平。横向扩展NAS很适合大数据分析环境。ESG通常将大数据定义为使用超出正常处理能力范围和规模的数据集,迫使用户采用非传统方法。从外部网络存储的角度来看,横向扩展NAS就是这种“非传统”方法。它可以超出传统横向扩展系统的限制进行扩展,同时还能随数据集的增长保持性能和可用性—而这是传统存储系统无法做到的。事实上,在使用共享网络存储系统支持大数据分析时,横向扩展体系结构是核心要求。横向扩展NAS具有易于扩大容量和易于管理的特点。最近的ESG研究揭示,86%的中端市场组织和84%的企业组织将NAS用于存储的某一层。2如图2中所示,NAS存储的容量(受访者磁盘存储总容量的45%)超过了存储区域网络(SAN)存储(36%)和直连存储(DAS)(31%)。3SAN系统以磁盘块的形式在网络上传输数据,NAS系统则传输文件数据。SAN系统和NAS系统是联网的,DAS则专用于其连接到的服务器。2来源:ESG研究报告,《Scale-outStorageMarketTrends》(横向扩展存储市场发展趋势),2010年12月。3同上。白皮书:EMC的企业Hadoop解决方案:Isilon横向扩展NAS和GreenplumHD6©2012EnterpriseStrategyGroup,Inc.保留所有权利。
本文标题:大数据时代的企业Hadoop解决方案
链接地址:https://www.777doc.com/doc-4253397 .html