Serengeti-虚拟化你的大数据应用(VMWare)41

©2009VMwareInc.AllrightsreservedSerengeti-虚拟化你的大数据应用蔺永华Vmware,Inc.Agenda•Today’sbigdatasystem•Whyvirtualizehadoop?•Serengetiintroduction•Commonquestionsaboutvirtualization•Serengetisolution•DeepinsightintoSerengeti•Summary•Q&AToday’sBigDataSystem:ETLUnstructuredData(HDFS)RealTimeStructuredDatabaseBigSQLDataParallelBatchProcessingRealTimeStreamsReal-TimeProcessing(s4,storm)AnalyticsAgenda•Today’sbigdatasystem•Whyvirtualizehadoop?•Serengetiintroduction•Commonquestionsaboutvirtualization•Serengetisolution•DeepinsightintoSerengeti•Summary•Q&AChallengesToUseHadoopinphysicalinfrastructureDeployment•Difficulttodeploy,costseveralpeopleforseveraldaysevenmonths•DifficulttotuneclusterperformanceLowEfficiency•Hadoopclustersaretypicallynot100%utilizedacrossallhardwareresources.•DifficulttoshareresourcessafelybetweendifferentworkloadSinglePointofFailure•SinglepointoffailureforNameNodeandJobtracker•NoHAforHive,HCatalog,etc.WhyVirtualizeHadoop?-GetyourHadoopclusterinminutes1/1000humanefforts,LeastHadoopoperationknowledgeFullyautomatedprocess,10minutestogetaHadoop/HBaseclusterfromscratchServerpreparationOSinstallationAutomatebySerengetionvSpherewithbestpracticeNetworkConfigurationHadoopInstallationandConfigurationManualprocess,costdaysWhyVirtualizeHadoop?-ConsolidatesprawlingclustersClustersshareserverswithstrongisolation•SingleHardwareInfrastructure•UnifiedoperationsOptimize•SharedResources=higherutilization•Elasticresources=fasteron-demandaccessHadoopDevHadoopProdHBaseClusterSprawlingSinglepurposeclustersforvariousbusinessapplicationsleadtoclustersprawl.ClusterConsolidationSimplifyFinanceHadoopVirtualizationPlatformHadoopDevHadoopProdHBase...PortalHadoopPortalHadoop30%CAPEXDown50%+resourcesaresittingidlewhilehighpriorityjobisburningupitscluster.Utilizeallresourcesfrompoolondemand.DynamicelasticscalingonsharedresourcepoolWhyVirtualizeHadoop?–Utilizeallyourresourcestosolvethepriorityproblem3XfastertogetanalyticresultsvSphereHighAvailability(HA)-protectionagainstunplanneddowntimeOverview•ProtectionagainsthostandVMfailures•Automaticfailuredetection(host,guestOS)•Automaticvirtualmachinerestartinminutes,onanyavailablehostincluster•OSandapplication-independent,doesnotrequirecomplexconfigurationchanges(Coordination)ZookeeprManagementServerHighAvailabilityfortheHadoopStack(HadoopDistributedFileSystem)HBase(Key-Valuestore)HDFSMapReduce(JobScheduling/ExecutionSystem)Pig(DataFlow)HiveBIReportingETLToolsRDBMSJobtrackerNamenode(SQL)HiveMetaDBHCatalogHcatalogMDBServerXXHAHAAppOSAppAppOSOSAppOSAppOSAppOSAppOSVMwareESXXVMwareESX•Zerodowntime,zerodatalossfailoverforallvirtualmachinesincaseofhardwarefailures•IntegratedwithVMwareHA/DRS•Nocomplexclusteringorspecializedhardwarerequired•SinglecommonmechanismforallapplicationsandoperatingFTvSphereFaultToleranceprovidescontinuousprotectionOverview•SingleidenticalVMsrunninginlocksteponseparatehostssystemsZerodowntimeforNameNode,JobTrackerandothercomponentsinHadoopclustersAgenda•Today’sbigdatasystem•Whyvirtualizehadoop?•Serengetiintroduction•Commonquestionsaboutvirtualization•Serengetisolution•DeepinsightintoSerengeti•Summary•Q&AEasyandrapiddeploymentandmanagementOpensourceprojectlaunchedinJune2012,0.8isreleasedatApr.andwillrelease0.9atJun.ToolkitthatleveragevirtualizationtosimplifyHadoopdeploymentandoperationsDeployaclusterin10MinutesfullyautomatedCustomizeHadoopandHBaseclusterAutomatedclusteroperationComewitheco-systemcomponentsSupportallpopularHadoopDistributionsSerengetiDemo:10minutestoaHadoopclusterwithSerengetiAgenda•Today’sbigdatasystem•Whyvirtualizehadoop?•Serengetiintroduction•Commonquestionsaboutvirtualization•Serengetisolution•DeepinsightintoSerengeti•Summary•Q&ACommonquestionsaboutvirtualizationLocalDisk•••••Canlocaldiskbeusedinvirtualizationenvironment?FlexibilityandScalabilityHowtoflexiblescheduleresourcesbetweenclustersanddifferentapplicationsasmentionedabove?DatastabilityInvirtualenvironment,howcanwedistributedataacrosshostandrack?DatalocalityHadoopwillschedulecomputetasksnearbythedata,toreducenetworkIOfordataR/W.Canvirtualenvironmentgetthesameresult?PerformanceHowabouttheperformanceinvirtualenvironment?Agenda•Today’sbigdatasystem•Whyvirtualizehadoop?•Serengetiintroduction•Commonquestionsaboutvirtualization•Serengetisolution•DeepinsightintoSerengeti•Summary•Q&ACanIuselocaldiskeasily?OtherVMOtherVMOtherVMOtherVMOtherVMOtherVMOtherVMOtherVMHadoopHadoopHadoopHadoopHadoopHadoopHadoopHadoopHadoopHadoopSerengetiExtendVirtualStorageArchitecturetoIncludeLocalDiskSharedStorage:SANorNAS•Easytoprovision•AutomatedclusterrebalancingHybridStorage•SANforbootimages,otherworkloads•LocaldiskforHadoop&HDFSHostHostHostHostHostHostHowtoflexiblescalein/scaleoutHowtoflexiblescheduleresourcesbetweenclustersanddifferentapplications?-ComputeCurrentHadoop:T1T2VMVMVMVMCombinedStorage/ComputeHadoopinVM-*VMlifecycledeterminedbyDatanode-*LimitedelasticityVMStorageSeparateStorageVMStorageSeparateComputeClusters-*Separatecompute-fromdata-*Removeelasticconstrain-byDatanode-*Elasticcompute-*Raiseutilization-*Separa

Serengeti-虚拟化你的大数据应用(VMWare)41

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

电子商务示范基地

五年级信息技术上册第二单元第二课教学案例

当前房地产市场形势与走向（谢家瑾）

华北地区机械通用零部件产业重要发展基地

交通与环境

德国银行XXXX年发表的世界主要国家与地区购买力与物价

吉林省旅游路线

4525河南省人民医院糖皮质激素类药物临床应用实施细则

全国中小学生学籍信息系统数据质量核查说明(河北)

律师执业常见风险

相关文档

相关搜索