您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 企业级大数据分析平台架构专题
企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区企业级大数据平台实践第2课企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,丌得在课程以外范围散播,违者将可能被追究法律和经济责仸。课程详情访问炼数成金培训网站专业数据分析社区炼数成金逆向收费式网络课程Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低成本传播高价值知识,构架中国第一的网上知识流转阵地。关于逆向收费式网络的详情,请看我们的培训网站专业数据分析社区课程介绍课程内容–本课程从平台管理、数据访问、数据可视化、数据安全等企业级数据平台视角全面审视大数据平台–以商用大数据产品BigInsights为基础深入剖析商用大数据平台的企业级特性和应用实践课程提纲–第1课企业级大数据平台需求概览;BigInsights发展叱与功能介绍–第2课企业级大数据分析平台架构专题:什么样的需求决定什么样的平台架构;BigInsights集群搭建–第3课如何构建安全的企业级大数据平台–第4课数据探索数据可视化专题:BigSheet–第5课成熟稳定的数据访问接口:BigSQL–第6课分布式机器学习算法库和运算框架:BigR–第7课解析自然语义的文本分析组件:TextAnalytics–第8课企业级大数据平台数据治理专题–第9课企业级大数据平台的平台管理:多租户与扩展文件系统–第10课企业级大数据平台设计实例:可解析自然语义的企业级舆情分析系统注意事项企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区第二课企业级大数据平台架构提纲企业级大数据平台架构决策要点–硬件的选择–功能组件的选择–其他要点BigInsights集群安装练习–第二课作业说明–BigInsights安装练习企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区大数据:企业关注的焦点和数据来源企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区业务+数据决定大数据平台架构类型历叱数据查询系统–存储海量历叱数据(PB级)–提供标准SQL访问接口增强型数据仓库平台–海量非结构化数据的存储和处理–与现有数据仓库系统的融合–高阶数据分析服务和应用综合大数据分析平台–多元数据处理平台–高级数据建模分析–精准营销推荐系统企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区企业大数据平台架构设计目标涉及物理节点的角色划分和服务组件的分配(下页继续)架构设计目标–高可用:防止单点故障的发生–安全性:公开节点、内部私有节点和私有网络–高性能:根据负载类型做最大的资源优化开放域管理域计算域区域划分:开放域/管理域/计算域企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区平台负载类型决定硬件配置混合负载海量数据存储数据中心优先保证数据节点的存储空间–12Gb/svs.6Gb/sSAS盘–JBOD&RAID–每个数据节点84TB(含6TBHDD)–每个机柜(rack)高达1.6PB的存储空间优化CPU和内存配比–IntelE5-2600v3CPU,最高36Core–DDR42133MHz,最高1.5TB–每个机柜CPU高达720核,内存30TB高可用选项–热插拔硬盘及冗余供电模块–散热模块设计–硬件监控和管理企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区平台架构的组网选择数据网络–集群节点乊间构成的私有网络–可包含边缘节点服务器管理网络–所有节点的管理入口(例如:ssh,VNC,监控等)–可直接接入外部管理网络或通过边缘节点接入–与外部管理平台集成边缘节点–平台与外部网络连接的边缘节点–负责网络路由、数据交换、服务连接入口等企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区企业大数据平台构组件分布示例管理节点的设计至关重要!直接影响高可用、安全性和性能等。非HA环境HA环境Managementnode1AmbariPostgreSQLKnoxZookeeperHiveSparkSparkHistoryServerGPFSMasterBigInsightsHomeBigSheetsBigRTextAnalyticsManagementnode2ResourceManagerHBaseMasterZookeeperOozieSecondaryNameNodeAmbarimonitoringserviceManagementnode1AmbariPostgreSQLSparkSparkHistoryServerGPFSMasterManagementnode2ResourceManagerNameNode(standby)JournalNodeZookeeperOozieAmbarimonitoringserviceManagementnode3ResourceManager(standby)NameNodeJobhistoryserverJournalNodeZookeeperAppTimelineServerKafkaOozie(Standby)Managementnode3NameNodeJobhistoryserverZookeeperAppTimelineServerKafkaManagementnode4BigSQLHeadnodeBigSQLSchedulerHiveServer(MySQL)MySQLmetastoreHive/OoziemetastoreWebHCatServerDataServerManagerGPFSNodeManagementnode4BigSQLHeadnodeBigSQLSchedulerHBaseMaster(standby)HiveServerMySQLServerHivemetastoreWebHCatServerDataServerManagerManagementnode5BigSQLHeadnode(Standby)BigSQLScheduler(Standby)HBaseMasterHiveServer(Standby)HiveMetastore(Standby)JournalNodeZookeeperManagementnode6KnoxBigInsightsHomeBigSheetsBigRTextAnalyticsGPFSNode推荐的管理节点个数企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区关于模式你能想到什么?一切皆有模式!企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区传统数据平台的架构数据源数据导出缓冲区昂贵的存储昂贵的数据库集群•大数据场景下继续降低成本的解决方案•需支持半结构化、非结构化的数据处理•需要支持敏捷的分析应用缓冲数据表临时表数据仓库ETL分析仓库ODS消息分发业务流程昂贵的ODS系统企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区模式1:HadoopETL平台数据源导出数据仓库ETL昂贵的数据库分析仓库Hadoop存储和运算区数据文件ETL缓存表Load文件数据摄入缓冲区•NFS数据冗余•Hive分区表或者外部表•SQL,Pig,Java或MR任务•数据ETL的难题:•错误的数据格式•出错任务的重启•数据更新的场景•关键字段加入HDFS文件路径(例如:business/data/year/month/date)•常见格式:•SequenceFile,JSON,Avro•压缩格式•导出为数据库Load数据格式•Sqoop导入结构化数据•Flume导入行记录的文件数据企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区模式2:面向分析的Hadoop架构数据源导出数据仓库ETL昂贵的数据库分析仓库Hadoop存储和运算区数据文件ETL缓存表Load文件数据摄入缓冲区数据分析•批量数据处理–SQL,PIG,AQL,Python,SPSS,BigSheets…•信息抽取•文本分析•概要统计•汇总分析•数据建模•数据交互–SQL,R,PythonBigSheets…•数据探索•可视化•在线数据查询(SQL)企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区模式3:Hadoop数据仓库平台数据源导出数据仓库ETL昂贵的数据库分析仓库Hadoop存储和运算区数据文件ETL缓存表Load文件数据摄入缓冲区数据分析数据仓库•随需报表•随需查询•优化的数据模型设计•优化的存储设计•Parquet–高效列存储格式•ORC–Hive14乊后引入的支持ACID操作的数据格式•优化的数据访问-BigSQL企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区模式4:HadoopODS平台数据源导出数据仓库ETL昂贵的数据库分析仓库Hadoop存储和运算区数据文件ETL缓存表Load文件数据摄入缓冲区数据分析数据仓库•针对终端应用的优化:高扩展特性、key-value数据存储,适合处理详单数据、客户数据等•HBASE•快速数据导入•快速批处理•极速查询•均衡设计•为终端应用保证高可靠连接ODS业务流程企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区企业级大数据平台示例–IT操作风险预测系统LogAnalysis-SCALA/SCAPILogProcessingAnalyticRuntimeSolrIndexerHADOOPGPFSHadoopAdaptorAnalyticsToolsLogLoaderIndexUpdaterBigSQLBigSheetAnalyticModules(AQL)BigSQLBigSheetsSolrSearchPredictiveModelingForAnomalyDetectionModelsandRulesIterativeModelBuildingExtractorsCollectorStagingSQOOPorFLUMEHTTPLogsz/OSSyslogDB2zOSSub-syslogs日志数据NetcoolAlerts告警数据FileSystemMonitoringWASlogsOracle(Alerte.log)IMSSub-syslogsLinuxSyslogsFederationQuerywithBigSQL(Option)Oracle历史报表实时结果和检索企业级大数据平台实践第一版讲师廖安舟DATAGURU专业数据分析社区BigInsigts集群搭建练习第二课最低作业要求(二选一):–下载BigInsights虚机并在自己的环境中运行–注册IBM云平台BlueMix账号,尝试上面的BigInsights服务(可选)根据安装指导安装BigInsights–环境最低要求:只要1台虚拟机即可安装!•VMWARE4
本文标题:企业级大数据分析平台架构专题
链接地址:https://www.777doc.com/doc-4285852 .html