您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > Cloudera大数据解决方案
Cloudera大数据从最先进的Hadoop平台到企业级数据中心Cloudera公司背景创立2008,由几家世界顶级IT企业前雇员创立世界顶级技术支持24x7全球技术支持主动技术支持&预测性技术支持企业核心业务应用数千家企业客户,超过500名付费订阅企业客户超过60%为世界500强客户成功案例全球范围内数百项成功实施案例最大生态系统超过1300个合作伙伴培训全球超过5万人通过培训得到了Cloudera认证开源社区领导者Cloudera是无可争议的Hadoop开源社区领导者和贡献者Cloudera首席架构师为Hadoop之父:DongCuttingCloudera应用成果ClouderaConfidential-InternalUseOnly4行业成功案例Financial&BusinessServicesTelecomTechnologyHealthcareLifeSciencesMediaRetailConsumerEnergyPublicSector应用行业6©2014Cloudera,Inc.Allrightsreserved.客户360度分析•Enhancedcustomerexperience&support•Personalization,targetedofferings,loyaltyprograms•Sentimentanalysis渠道优化•Campaignmanagement•Selectionprocessoptimization供应链优化•Manufacturingprocessefficiency•Supplier/merchantmanagement风险管理•Frauddetection•Intrusiondetection&digitalforensics审计•Regulatorycompliance(retention,privacy)•Usageanalysisandmediation•e-Discovery市场资讯•Competitiveanalysis•Economicfactoranalysis•Customersegmentation数据服务•Dataas-a-product•Dataenrichedwithinsights/inferencesCloudera大数据应用案例种类7Cloudera中国©2014Cloudera,Inc.Allrightsreserved.8•英特尔7.4亿美元投资到Cloudera•英特尔与Cloudera通过开源驱动创新•英特尔使得Hadoop在IA架构上运行达到最优性能•Cloudera与英特尔协作建立广泛的合作伙伴生态系统•Cloudera在中国建立销售及技术服务团队,英特尔大数据团队2014年9月正式加入Intel与Cloudera大数据联盟©2014Cloudera,Inc.Allrightsreserved.9数据量决定数据使用方式©2014Cloudera,Inc.Allrightsreserved.10以前拷贝数据到计算节点现在拷贝计算程序到数据节点Relativesize&complexity数据信息驱动:Multi-structured,internal&externaldataofalltypesComputeComputeCompute流程驱动:•Structureddatamainly•Internaldataonly•“Important”dataonlyComputeComputeComputeDataDataDataData传统数据分析:将数据带至计算平台©2014Cloudera,Inc.Allrightsreserved.11复杂的架构•许多特殊用途的系统•频繁的数据移动•缺乏数据的整体认识高数据遗失率•许多资料数据未能被使用•风险与合规•高存储成本数据存取速度慢•需要前期建模•数据转换速度慢•转换程序常遗失数据高数据分析的成本•现有系统负荷量过大•缺乏灵活性•“商业智能积压”4123服务器数据集市企业级数据仓库文件资料库存储系统搜索系统存档系统ERP、CRM、数据库、机器文件、图片、视频、日志、点击流外部数据源服务器数据集市企业级数据仓库文件资料库存储系统搜索系统存档系统ERP、CRM、数据库、机器文件、图片、视频、日志、点击流外部数据源©2014Cloudera,Inc.Allrightsreserved.多样化的分析平台•将应用程序带至数据•结合多样化的工作于常见的数据(即SQL+搜索)•真正的敏捷性分析41234大数据分析:将计算平台带至数据12主动合规存档•全保真原始数据•不定时间,任何来源•成本最低的存储1保持Staging•所有的分析使用单一数据源•保持变换后的数据的状态•更快更便宜2自动服务BI探索•简单的搜索+BI工具•“Schemaonread”灵活性•降低BI用户请求积压3Hadoop改变游戏方式Hadoop方式传统方式$30,000+perTBExpensive&Unattainable•难以线性扩展•网络成为瓶颈•只能存储结构化数据•难以扩展新的字段和数据类型Expensive,Specialpurpose,“Reliable”ServersExpensiveLicensedSoftwareNetworkDataStorage(SAN,NAS)Compute(RDBMS,EDW)$300-$1,000perTBAffordable&Attainable•无限性能扩展•没有网络瓶颈•方便聚合多种数据来源•灵活的数据访问方式Commodity“Unreliable”ServersHybridOpenSourceSoftwareCompute(CPU)MemoryStorage(Disk)zz14©Cloudera,Inc.Allrightsreserved.ClouderaEnterprise统一平台,全面的大数据解决方案15©Cloudera,Inc.Allrightsreserved.统一平台,全面的大数据解决方案批处理,交互式处理和实时处理.兼具高性能和易用性的统一平台.•端到端交互式分析•海量数据聚合•全面的数据处理框架•广泛的第三方工具兼容集群管理和数据管理批处理数据导入Sqoop,Flume转换MapReduce,Hive,Pig,Spark1数据发现分析数据库Impala搜索Solr建模机器学习SAS,R,Spark,Mahout在线服务操作数据库HBase流处理SparkStreaming无限分布式存储HDFS,HBaseYARN,ClouderaManagerClouderaNavigator16©Cloudera,Inc.Allrightsreserved.ClouderaImpala业内领先的开源SQL数据库SQL兼容性最广泛兼容SQL92/99/2003语法,用户可以使用熟悉的BI工具高并发度为多用户并发查询优化,特别适合BI生产环境高性能海量数据SQL操作秒级响应,并能够线性扩展整合&安全与ClouderaEnterprise各组件高度整合,全面支持各种安全规范,达到企业级标准EnterpriseDataHubSecurityandAdministrationUnlimitedStorageProcessDiscoverModelServe18©Cloudera,Inc.Allrightsreserved.SQL性能比较SingleUser,510Users,11SingleUser,2510Users,12010Users,30210Users,202SingleUser,37SingleUser,775.0x10.6x7.4x27.4x15.4x18.3xIndependentvalidationbyIBMResearchSQL-on-HadoopVLDBpaper:“Impala’sdatabasearchitectureprovidessignificantperformancegains”19©Cloudera,Inc.Allrightsreserved.搜索ClouderaSearch(ApacheSolr)©2014Cloudera,Inc.Allrightsreserved.19易用•交互式的全文检索与切面导航•实时的数据检索•多用户友好灵性•批处理,实时或者按需索引•多类型、多格式支持•原生与Hadoop执行引擎相结合•丰富的API与完善的生态系统100%开源•业界标准的搜索引擎•成熟的代码基础,活跃的社区探索导航关联CDH是唯一一个提供企业级搜索解决方案的商用Hadoop版本20©Cloudera,Inc.Allrightsreserved.ClouderaSearch框架介绍非结构化数据用户搜索界面(Hue)FlumeHDFSRaw,filtered,orannotateddataSolrCloudCluster(s)DatatobeindexedIndexeddataMapReduceBatchIndexingGoLiveupdatesHBaseClusterReplicationEventstobeindexed结构化数据ClouderaManagerSearchqueries21©Cloudera,Inc.Allrightsreserved.机器学习与流处理ApacheSpark©2014Cloudera,Inc.Allrightsreserved.21•开源的数据并行处理框架•快速.充分利用内存,比MapReduce的数据处理快100倍,有效支持迭代式机器学习与分析•开发友好.提供Java,Scala,Python等多语言丰富的API•完整.集成于CDH,可通过Cloudera管理器管理;通过与Databricks公司的协作共同对Spark开发完善•便捷的实时流处理•简单.API有利于快速部署流处理应用程序•容错.实现“Exactly-once”语意•统一.基于Spark平台共享数据与模型22©Cloudera,Inc.Allrightsreserved.第三方应用扩展性数百家和CDH互相认证兼容性的第三方合作伙伴为企业用户更方便整合Hadoop到现有业务系统Access,ingest,transform,andcleansealldataonHadoopwithavisualdevelopmentenvironmentQuicklyconnecttoHadoopforad-hocvisualizationsofyourdatatofindpatternsandoutliersRunleadinganalyticalsystemsnativelyonHadooptogetinsightsfromalldataDeliverR-poweredadvancedpredictiveanalyticstoHadoopforbetterdatamodelingEnterpriseDataHubSecurityandAdministrationUnlimitedStorageProcessDiscoverModelServe23©Cloudera,Inc.Allrightsreserved.ClouderaEnterprise端到端大数据平台管理24©Cloudera,Inc.Allrightsreserved.让Hadoop平台运维管理更容易ClouderaManagerHadoop业内最完善,最全面的零宕机时间管理平台,管理整个大数据平台系统,而不仅是Hadoop集群本身独有特性:•统一配置,管理和监控全部Hadoop模块•在线向导式安装和升级•一键寻求Cloudera支持•强大的第三方扩展支持25©Cloudera,Inc.Allrightsreserved.一个工具搞定全部运维管理Hadoop运维管理的复杂性:+部署和配置监控工作流事件和警告日志搜索故障诊断运维报表集群活动监控DIY方式的运维管理对比Cloudera“在第三
本文标题:Cloudera大数据解决方案
链接地址:https://www.777doc.com/doc-5518576 .html