您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 述职报告 > 大数据运维管理平台说明书
碧茂大数据运维管理平台说明书版本控制作者日期版本备注任大勇2020年3月5日V1.0初始创建任大勇2020年3月18日V1.1修订任大勇2020年4月21日V1.4修订目录简介.......................................................................................................................................................3功能详细介绍....................................................................................................................................3配置管理..............................................................................................................................................6集群监控............................................................................................................................................11告警系统............................................................................................................................................17巡检.....................................................................................................................................................20知识库................................................................................................................................................24简介碧茂运维管理平台是针对大数据分布式集群系统设计的自动化运维管理平台,核心功能包括集群资产管理,监控系统,告警系统,系统巡检和运维知识库系统等。详细如下:一、资产管理提供可视化界面实现对主机和集群资源的统一配置和管理,对各项监控管理任务进行调度配置、监控和管理。方便运维人员能随时掌握系统全貌,集群服务角色分布情况,硬件资源分配情况,能根据管理需求进行定制化定时任务调度。二、监控系统1、主机的健康性能的监控2、集群服务的端口、健康性能指标的监控3、集群参数的监控,并自动给出调优建议4、集群日志的监控预警,自动化收集汇总集群进程和应用日志,并对错误日志进行预警三、告警系统1、选择任意监控的指标和阈值,进行邮件告警四、系统巡检(特色功能)对系统和集群进行健康和性能检查,自动化生成巡检报告。分为基础巡检和深度巡检。基础巡检指的是根据需求可以灵活选择需要巡检的服务、指标、参数,自动化生成巡检报告。深度巡检指的是对不同服务的结构对象进行深入分析诊断。五、知识库系统(特色功能)一套高质量的集群管理运维相关的知识管理系统,包括运维工具箱、最佳实践和解决方案。知识库系统中的方案可以一键执行来实现复杂运维流程的自动化处理,包括:⚫日常集群操作需求,包括服务启停、参数修改、备份恢复、集群扩容迁移、安全配置和升级⚫自动化故障处理功能详细介绍登录界面用户首先需要获取license,激活产品后才能正常使用,提示如下:点击激活,会自动生成机器码,请联系厂商获取激活码激活后,会提示到期日,产品可以正常进行登录了首页首页是向导页,以路线图的方式引导你进行集群配置和集群监控配置管理全局配置用于配置全局参数和服务,包括数据保留配置、告警服务、告警配置和数据库配置等修改全局参数数据库配置用于配置关系型数据库,支持Mysql和PostgreSQL等,通常是CM、Hive、Hue、Oozie等元数据库,方便管理和查询。支持添加和删除数据库配置主机配置用于添加、修改和删除管理的主机信息查看主机配置添加配置服务配置用于添加修改或删除需要监控的集群类型、集群,包括服务、角色、主机、端口等目前支持的集群包括:CDH、HDP、ApacheHadoop、华为FusionInsight和星环目前支持的服务包括:HDFS、YARN、HBase、Hive、Zookeeper、Impala等查看监控服务配置可以通过选择“集群名”或“服务名”来过滤查询查看主机角色分布添加监控配置集群类型服务调度配置用于配置和监控集群监控所需的定时调度服务,包括指标采集服务、监控服务、分析服务和其他需要定时调度的服务查看调度配置添加调度配置查看调度日志集群监控此模块用于监控在“配置管理”模块中所添加的主机和服务主机监控监控主机的健康状态和各项关键指标,包括CPU、内存、网络、IO、进程等主机监控概览所有集群主机的关键指标的展现,便于快速及时发现主机健康问题和资源问单台主机监控页面用于展现单台主机所有监控指标,便于深入了解主机的配置情况和分析重要监控指标以下是部分截图:服务监控监控集群服务的健康状态和性能指标。目前覆盖了HDFS、YARN、HBASE、HIVE等核心服务组件。服务监控主页概览整个集群的所有服务状态、集群基本信息和各个组件的关键指标信息。另外,也提供了对集群的基本操作,包括服务启停等点击“操作”,可以对整个集群或服务进行启停操作服务监控详情页用于展现单个服务所有监控指标,便于深入了解服务的配置情况和分析重要监控指标。此外,也可以对特定主机的角色进行操作。以HDFS为例,以下是部分截图:点击“操作”,对特定主机的角色进行启停参数监控监控集群服务的运行所配置的参数情况,用于及时掌握集群配置情况,参数分为:文件目录参数、主机端口参数、运行环境参数和性能参数4大类。每个参数都会有相应中文解释和调优建议,用户可以参考建议来优化集群。以HDFS为例,以下是部分截图:日志监控监控集群服务的进程日志和应用日志进程日志监控可以根据集群、服务、角色、日志级别和主机来选择要查看的日志类型,已经下载完整日志用于深入分析。应用日志监控选择集群和日志级别,查看YARN应用日志告警系统此模块用于在监控过程中针对集群不合理的指标值(全局参数控制)进行预警告警配置查看告警阈值点击参数,可调整告警阈值告警服务启停点击“启动”后,告警服务会启动并及时发送告警邮件每隔15分钟(全局参数控制)会重新检查并发送告警邮件,页面中可以看到告警信息页面告警页面提示出现告警点击右上角邮件图标,查看告警详情邮件告警巡检此模块实现了集群自动化巡检和生成巡检报告,包括基础巡检和深度巡检两大块。⚫基础巡检基础巡检范围主要涉及集群架构配置、主机运行情况、集群运行情况和参数配置。每个巡检模块用户可以加入主观分析结果,即自定义填写分析结论和调优建议。⚫深度巡检深度巡检用于深度分析集群潜在的性能和配置问题。便于从规划和架构上对集群进行优化。详细包括:HDFS•文件目录信息•HDFS管理报告•HDFS快照信息•FSCK文件系统健康检查YARN•基本信息•集群指标•调度队列•应用信息•应用统计信息•集群节点信息HBASE•表快照信息•表和Region关系•HBCK健康检查HIVE•Hive表、字段统计分析•数据存储格式分析•表分区存储分布分析基础巡检用户可自定义选择需要巡检的内容,包括集群、服务、指标和参数等点击“基础巡检”依次检查每项指标,直到提示“巡检完成”点击“查看巡检报告”以下为部分截图:主机情况点击“编辑”,可添加主观分析结论和建议以下为导出为PDF的巡检报告样例:20200305mycluster集群巡检报告.pdf深度巡检深度巡检开始前,需要提前创建巡检方案(参考“知识库”=“解决方案”部分)选择集群后,点击“深度巡检”,会打开已经创建好的巡检方案,如下:点击“执行方案”,可选择“全部执行”或“断点执行”,执行完成截图:知识库知识库系统旨在提供一套灵活配置的自动化智能运维系统。包含了运维工具箱、最佳实践和解决方案三大块。运维工具箱日常运维中用到的运维工具命令集合,目前支持Linux操作、关系型数据库操作、Hadoop集群运维管理、开发和分析操作。工程师可以根据需求自定义添加和删除,包含4大类工具:◼服务专用shell特定服务的专用shell工具,比如hbaseshell,hiveshell等◼Linux命令Linux终端可执行的任何命令,比如linux服务启停、文件系统操作和管理等◼内嵌工具运维平台内嵌好常用工具,比如hbasecompact操作、hdfs快照操作等◼数据库操作对“全局配置”-》“数据库配置”中添加的关系型数据库进行操作,比如创建删除表、授权操作等运维工具箱界面:通过选择“服务名”和“执行方式”来实现过滤查询添加工具创建过程的注意事项:◼通常用户自定义,不要选择“内嵌工具”◼名称必须唯一◼执行命令写入“命令“格,比如hdfsdfs-mkdir◼涉及到参数写入“参数”格,并且前面加上$,比如$HDFS_PATH◼执行方式为“数据库操作”时,才需要选择数据库配置最佳实践最佳实践指的是处理特定运维问题的最佳流程和方法,比如搭建集群、处理故障、备份恢复、安全配置、迁移升级、扩容等最佳实践界面:通过选择“类别”、“标签”和“项目组”来实现过滤查询添加实践注意事项:◼实践名称:必须唯一◼实践类别:通常是服务名◼项目组:决定了最佳实践是全部对外公开还是在项目组内部分享◼标签:可以任意添加多个实践主页面浏览实践编辑实践界面中的“+”和“-”图标用于向下添加类别和步骤新步骤会随机生成步骤名、内容和操作点击编辑图标可以修改类别和步骤名称点击图标编辑内容正文内容包含描述和执行代码2部分:描述部分用markdown格式编写,内容示例:执行代码部分,可选择在“运维工具箱”创建好的工具也可以点击“自定义操作”来修改用户、参数和说明解决方案解决方案指的是基于最佳实践来创建的针对特定项目环境而生成的可一键执行的方案。创建方案在“最佳实践”页面中,在指定实践的“操作”栏中点击“创建方案”创建解决方案注意事项:◼方案名称:必须唯一◼标签:可以任意多个◼变量赋值:实践中的参数填充具体集群环境的参数值点击“提交”,在“解决方案”页面可以看到创建好的方案,如图:点击方案名称,可以查看方案内容,所有参数都已填充:点击“操作”栏的“执行”,可以一键执行方案两种执行方式:全部执行:从头到尾执行方案断点执行:用于执行出错,中间步骤失败后,从断点执行后面的步骤点击“全部执行”,成功后则提示如图:解决方案主页,点击“操作”栏的“日志”,可以查看过往执行情况。
本文标题:大数据运维管理平台说明书
链接地址:https://www.777doc.com/doc-5714997 .html