您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 华为FusionInsight-HD-2.3产品介绍
FusionInsight培训材料产品介绍1FusionInsightHD企业版概述1FusionInsightHD特性介绍2FusionInsight成功案例32ApacheHadoop—繁荣、蓬勃生长的开源生态系统Hadoop核心基本组件的开源代码量,接近200万行开源组件代码量(KLoc)ZooKeeper64BookKeeper47HDFS438YARNMapReduce380HBase260Hive273Oozie88Impala102汇总1652HBase组件在快速的发展中,平均每个月一个发布版各组件团队之间、组件内团队成员是松耦合、地理分布式运作,相关特性无有效整合3FusionInsight—开源到企业级的蜕变安全版本配合配置HadoopHBase日志性能调优基线选择补丁选择采纳社区精华,去除开源Bug:•谨慎选择稳定基线版本;•认真评估高版本补丁影响范围评估和回合策略;•采用数万个测试用例,确保企业版本稳定性年份提交解决20112012112012399302华为团队社区问题/补丁贡献2014年根据Hortorworks排名全球第五,亚洲第一4会使用Hadoop会定位周边问题会定位内核级问题(拔尖的个人)定位内核级问题的团队(依赖团队而不是精英个人)能够独立完成支撑关键业务特性的内核级开发能够带领社区,引领社区完成面向未来的内核级特性开发能够创建新的社区顶级项目,并且得到生态系统认可企业版的关键在于工程团队的能力Apache开源社区生态系统组件多,代码量大组件更新块特性无有效整合强大的Hadoop内核团队支持的开发与产品交付能力,电信级运营支撑能力某大银行CIO:“我们把大数据应用视作是生命线,肯定是采用企业版,因为搞开源软件不是我们的主业。在选合作伙伴的时候,我们一定考虑门当户对,因为强有力的合作伙伴才能保证3~5年的供应、合作安全”5FusionInsight解决方案简介Manager/Kerberos/LdapHDFSHBaseHIveSparkRedIsYarnSolrMPPMinerFarmerStormZKMRFusionInsightHDFusionInsightFarmerFusionInsightMinerFusionInsightStreamFusionInsightMPPDB组件子产品解决方案LoaderKafKa推荐系统FusionInsightHD:FusionInsight的Hadoop是指广义的hadoop生态圈,提供商用Hadoop基础平台FusionInsightStream:提供实时流处理平台FusionInsightFarmer:提供数据服务框架,大数据实时应用使能器,支撑企业快速开发基于大数据平台的应用。FusionInsightMiner:提供数据挖掘服务集,基于分布式内存计算的数据分析平台FusionInsightMPPDB:提供相对独立部署的通用MPP数据库,用于性能较高的交互分析场景FusionInsightRecommender:支持挖掘模型在在线系统的打分预测,根据客户特征快速部署企业推荐系统OozieHUEMahoutHigraphELKFlumeMonitorAdapterInstallAdapterUpgradeAdapterAlarmAdapterConfigAdapterAuthAdapterPatchAdapter统一管理RecommenderRecommender应用场景广告推荐理财推荐历史数据管理大数据融合6HIVE/ImpalaHDFS/HBaseM/RSparkPorterMinerDataFarmHadoopStormSolr系统管理Farmer服务治理ManagerHadoopAPIPluginAPIOpenAPI/SDK应用服务层REST/SNMP/SyslogDataInformationKnowledgewisdomYarn/ZookeeperFusionInsight架构概述安全管理MPPDBFusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增强,按照场景选择业界最佳实践FusionInsight的DataFarm层提供支撑端到端数据洞察,构建数据到信息到知识到智慧的数据供应链,其中包括相对独立的数据集成服务Porter,数据挖掘服务Miner和数据服务框架FarmerFusionInsightManager是一个分布式系统管理框架,管理员可以从单一接入点操控分布式集群,包括系统管理(OM/NTP/灾备)、数据安全管理和数据治理7为行业业务负载优化的统一大数据处理平台FusionInsight用100%开源的核心支持混合负载,从批量、交互查询、数据挖掘,到实时流和查询等各种场景开放式存储格式(Rcfile/ORCfile/Parquet),以避免锁定私有文件格式所有的组件都通过Manager提供的插件框架来按需安装开源轻度增强开源深度增强开源孵化特性自研DSLIDE分布式计算框架HDFS/HBaseStormMapReduce/TezPigHiveYARN/ZookeeperSparkFlumeSqoopIntegrationBatchProcessingInteractiveQuerySearchMachineLearningEventStreamProcessImpalaSolrMLLIB分布式存储StreamingCalculation基础设施StandardServerIMCServerStorageServerPluggableAcceleratorNetworkOnlineQuerySparkStreamingCQLPhoenixElkHiGraphCTBaseMPPDB8电信级可靠性-系统可靠性系统可靠性:业务无单点:OMS,HDFS,HBASE,YARN,HIVE,OOZIE,HUE,ZOOKEEPER,BOOKEEPER采用主备,负荷分担方式实现服务无单点故障管理节点HA:OMS节点及所有业务组件中心管理节点实现HA跨DC容灾/备份:HBase集群通过HLOG准实时复制,HDFS/Hive集群通过BackupAdmin异步复制实现跨数据中心灾备第三方备份系统集成:数据可以灵活的备份在外部系统如NAS、磁带库,只是和NBU等备份软件集成111111223313449电信级可靠性-数据可靠性数据可靠性:OS层可靠性加固:RAID/OS写缓存保护实现掉电数据保护Raid策略:OS,OMS,NameNode,ZK及HDFS数据节点采用不同硬盘分区及Raid策略,兼顾性能情况下保证数据可靠性快速故障检测:结合华为存储产品经验,尽快发现故障硬盘,降低MTTR,提高数据可靠性硬盘热插拔:支持在线集群硬盘更换不影响业务,降低MTTR.第三方备份系统集成:数据可以灵活的备份在外部系统如NAS、磁带库,只是和NBU等备份软件集成跨数据中心数据备份:HBase集群通过HLOG准实时复制,HDFS/Hive集群通过BackupAdmin异步复制实现跨数据中心灾备3334657866584710故障•无故障检测机制,MTTR无保障掉电•应用缓存、OS缓存、RAID卡缓存、硬盘缓存中的脏数据可能丢失。•集群重启导致业务数据丢失,系统不能启动坏盘•硬盘故障是常态:1PB数据1200块硬盘,每10天约有1块硬盘损坏(年故障率按3%)•节点退服-换硬盘-启动,单次换盘操作20分钟,同时引发大量无效数据副本重建。掉电保护:对数据写入全路径进行优化,确保系统异常掉电后,业务仍能可靠地启动;有效保护业务组件的基本运行环境、程序文件、配置文件、元数据、事务日志、安全账户信息。故障检测:系统实时监控硬件、OS和业务进程的健康状态,缩短MTTR。系统数据持久度达99.999%:1PB数据(3副本,1200块4TB硬盘,硬盘年故障率3%)双容灾集群的数据持久度更高(7个9)。在线换盘:无需人工操作,热替换故障硬盘,单次换盘操作2分钟;直接使用本地硬盘的业务组件(如HDFS),均支持硬盘热插拔;不直接使用本地硬盘的业务组件(如HBase)通过HDFS支持硬盘热插拔。可靠运维关键技术11MRHBaseHDFSHiveZkOozieKDC业务开发用户运维用户超级管理员3544LDAP防火墙OMSCAS企业外网企业内网1224网络安全通过防火墙将企业内外网络隔离维护平面和业务平面通过子网隔离1Kerberos认证Hadoop服务用户鉴权管理用户鉴权信息存储HA3用户/用户组管理访问FusionInsightHadoopManager用户权限管理和审计Hadoop组件WEBUI服务支持单点登录认证2数据加密Hive,MR和HBase在固化到HDFS中的数据均加密存储细粒度的安全管理,可按照表/按列加密5数据分角色存储Hive和HBase中数据分用户,角色受控存储,用户间数据隔离细粒度的权限管理,可按照表/按列控制访问权限4工作流调度6为指定用户或组授予流程的执行、管理权限为某个流程设置可使用的MR队列资源56可运营的安全体系12易安装:向导式操作,Stepbystep引导完成安装;自动环境准备,内置脚本完成操作系统配置分布式并行安装,10分钟完成集群安装。Step2:配置集群拓扑Step3:配置集群参数自动完成安装配置易运维:向导式安装配置易配置:模板化配置:配置参数整合为模板,配置简单明了关联配置自动同步,避免配置修改引发的多处人工修改13DashBoard:直观监控全局信息•监控对象、显示指标可灵活定制•可作为集群维护操作的统一入口状态管理:全面掌控系统状态•全面管理监控节点状态和服务状态•面向对象的操作,简单直观•集中统一管理集群,方便快捷审计日志:详尽记录操作信息•支持日志文件导出•支持分类过滤、搜索集群节点状态集群服务状态HBaseRS状态服务状态管理节点状态管理易运维:全系统可定制的实时运行监控14平滑在线扩展快速升级向导式界面操作在线扩展,不影响业务支持在线调整集群拓扑各组件灵活扩展向导式界面操作升级过程异常则自动安全回退;支持观察期手工触发安全回退稳定运行后确认提交升级6分钟完成集群升级集群完成观察期易运维:图形化快速升级和平滑扩容向导15Storm易开发DefInput:publicvoidopen(Mapconf,TopologyContextcontext,SpoutOutputCollectorcollector){…}publicvoidnextTuple(){…}publicvoiddeclareOutputFields(OutputFieldsDeclarerdeclarer){…}Deflogic:publicvoidexecute(Tupletuple,BasicOutputCollectorcollector){…}publicvoiddeclareOutputFields(OutputFieldsDeclarerofd){…}DefOutput:publicvoidexecute(Tupletuple,BasicOutputCollectorcollector){…}publicvoiddeclareOutputFields(OutputFieldsDeclarerofd){…}DefTopology:publicstaticvoidmain(String[]args)throwsException{…}DefInput:CreateInputStreamkafkareader…Deflogic:Insertintofilterstrselect*fromkafkareaderwherename=“HUAWEI”;DefOutput:CreateOutputStreamkafkawriter…DefTopology:Submitapplicationtest;Storm原生APIHBaseCQL:CQLSDKS
本文标题:华为FusionInsight-HD-2.3产品介绍
链接地址:https://www.777doc.com/doc-4912721 .html