您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 可视化智能IT运维系统
咨询交流可视化智能IT运维系统介绍•现状与痛点&IT运维管理诉求一•对未来IT运维的期待二•智能化IT运维平台介绍三•智能化IT运维平台带来的改变四提纲现状与痛点&IT运维管理诉求一一现状与痛点&IT监控运维管理诉求云环境监控系统虚拟化监控系统基础设施监控系统服务器监控系统网络监控系统!日志分析系统!应用性能管理系统!!!风险根源问题IT运维人员告警风暴从一个真实的故事开始:一天,轮到小李值班,突然几个系统同时发出告警(告警风暴),小李哪里见过这阵仗,顿时感觉手脚无措,能想到的就是马上给师傅打电话求助。小李按照师傅的建议从服务器开始慢慢排查,从系统告警到问题解决,已经过去了几个小时…期间,由于用户没法访问系统服务,信息中心接到很多投诉电话。最终的结果是,由于出现被投诉等不良事件,IT运维部被内部通报批评,小李也被扣罚当月奖金…这也只是运维工作中一个小小的缩影。一客户场景之NIT运维部门?天花板主机数据库中间件动力环境存储网络设备…..IT资源管理功能使用是否方便系统访问是否缓慢系统故障响应和排除是否及时…..用户体验管理用户访问响应时间用户满意指数系统吞吐量系统错误率用户来源地系统需求执行时长网络传输时长数据库SQL执行时长…用户体验指标业务部门一•IT设备规模大且分散、管理困难•缺少可视化管理&自动化管理手段•IT环境异构、业务系统繁多•无法快速适应复杂环境设备的监管•人员能力层次不齐,服务范围广•缺少规范的、自动的流程化管理密室之内痛密室之外痛•业务负载逐年增加,无法确定功能完整可用性•业务形态更加多种多样,部署环境愈加复杂•为了适应发展的需求,业务调整日趋频繁•云技术的成熟,一定程度上减少了企业自建运维团队的需求•技术的快速演进,对运维团队提出了更高的要求基础设施网络存储服务器虚拟化数据库中间件业务应用现状与痛点:IT监控运维密室的内与外对未来IT运维的期待二二应用场景运维主管资源总览容量规划运行统计IT基础设施运维工程师故障处理根源分析设备监管运行报告告警通知流程优化业绩考核决策分析流量分析业务系统数据中心应用系统运维工程师性能监测健康检查自动巡检用户体验预测分析瓶颈定位二对智能化IT监控运维的期待(岗位)IT设施自动巡检运维知识库故障快照/自动处理故障预测/主动预警故障精准定位应用性能监控预警应用潜在风险预测应用可用性巡检工作量统计持续优化的支撑数据配置/资产管理业务可用性SLA遵守情况流程运转情况战略决策支撑数据部门运转分析支撑数据业务优化支撑数据应用体验分析运维主管IT运维工程师应用运维工程师二对智能化IT监控运维的期待(管理)离散人工信息被动传统管理方式自动知识一体化主动信息展现信息处理信息提取信息采集智能管理方式ESV更好地进行业务保障业务的稳定性、可靠性要求越来越高,业务系统对IT支撑的依赖性越来越强。切实地提高服务质量IT架构的复杂度不断加深;IT运维部门工作职责越来越重真正地降低系统风险IT运维人员不足难以应对繁重的运维要求;IT事故将直接影响业务,责任重大二对智能化IT监控运维的期待(效果)度量中心流程中心监控中心操作中心配置管理资产管理可视协作智能自动运维可视化展示运维大数据分析服务流程管理运维即时协同远程桌面协助运维知识库资源集中监控网络/应用拓扑应用性能监控应用体验分析运维门户业务系统自动巡检应用自动交付部署基础设施自动体检智能化IT运维平台介绍三三智能化IT监控运维平台技术架构统一访问门户Portal配置管理配置管理变更管理配置模型维护配置统计分析IT资产管理系统资产规划资产申请资产配置变更出入库与分发维保管理变更管理配置更新配置审计资产统计分析资产模型维护资源分配资产盘点库存管理报废管理运维管理工单管理排班管理事件管理变更管理配置管理发布管理问题管理知识库管理基础设施监控模块供配电多功能电量仪ATSUPS发电机组蓄电池PDU第三方监控系统制冷环境冷机冷塔温湿度CO2精密空调新风排风微环境漏水安全防护视频监控门禁入侵报警消防系统消防报警气体消防消防喷淋统一用户管理统一配置管理统一权限管理统一菜单管理IT基础设施监控模块操作系统监控网络设备监控数据库监控应用中间件监控存储设备监控网络拓扑展现应用拓扑展现告警通知框架采集策略框架统计分析报表应用性能监控模块.Net应用预测分析用户体验监控代码级监控JAVA应用应用性能分析PHP应用机器数据分析大屏展示系统三维仿真安全合规业务分析自动化巡检平台业务巡检基础设施巡检自动盲检巡检定义巡检调度巡检告警巡检报告基础设施巡检容量状况巡检性能状况巡检信息安全巡检容量管理能耗管理计算规划分析推荐及模拟PUEWUE能耗可视化节能策略一智能化IT监控运维平台逻辑功能三应用系统自动化测试自动化测试,从目标系统真实操作环境中创建测试用例,有效降低开发和测试成本。•可视化用例录制,轻松录制创建测试用例。•参数化测试数据,保证测试覆盖度。•零编码断言配置,配置选项方式设置断言。•无污染事务提交,自动清理测试过程垃圾数据。•自动化测试任务,自动化执行定制测试任务。•图形化测试报告,按需发布测试报告。低效地手动构造测试数据繁重的环境搭建工作难于管理庞大的配置文件高昂的日常维护成本凌乱的测试任务和报告通过自动化测试手段来有效提高开发效率和降低测试成本接口测试边界测试单元测试回归测试冒烟测试覆盖率测试集成测试恢复测试安全测试压力测试性能测试部署测试系统测试确认测试准则配置评审A/B测试确认测试三网络拓扑及流量追踪数据中心资源网络拓扑手动设置拓扑自动发现及故障预警网络设备监控流量分析监管设备RequestSyslogTrapResponse基于SNMP(MIB)协议的网络设备监控基于ICMP(ping)、CDP、LLDP以及SNMP协议的网络自动发现三IT软硬件资源监控Hypervisor虚拟化网络CSSPluginPlatformSNMPHypervisorAdaptor基础设施监控•PDU•UPS•ATS•空调•Windows•Linux•Solaris•AIX•NetAPP•EMC•防火墙•负载均衡•路由器•交换机•XenServer•Vmware•KVM•XEN•RHEV•PowerVM•数据库(DB2、MySQL、Oracle、SqlServer)•应用服务器(Tomcat、WebSphere、Weblogic、JBoss)•消息中间件(ActiveMQ)•行业应用•第三方应用采集周期:1min采集周期:2min采集周期:3min应用中间件JMX/JDBCRest/WebservicePluginPlatformCSS新资源SNMP/Modbus存储SNMP/SMI-S动力环境服务器SNMPPluginPlatformCSS插件开发支持新类型资源监控从动环基础设施—IT基础设施硬件—数据库中间件—自定义脚本,快速满足不同客户实际的IT监控需求IT运维工程师三移动设备的安全管控0102030408070605基本信息获取应用上传管理设备指标检查在线情况监控多维智能分析便捷升级更新合规使用限制使用情况统计移动设备全面维护提高运维工作效率移动应用高效管控降低运维工作难度三业务应用性能监控一站解决应用性能管理问题全面监控核心业务,实现自动化的业务系统异常监控、风险检测,以及应用性能优化。三应用系统健康体检业务流程巡检巡检脚本录制巡检脚本导入业务检查点设置交互数据管理巡检流程编排业务流程执行系统遍历巡检遍历规则配置遍历检查项设置移动应用巡检安装启动监测兼容性适配巡检脚本录制跨设备巡检执行标准遍历执行深度遍历执行业务可用性体检业务状态分析业务可用性僵尸门户监测客户端性能分析敏感词监测坏死链检查应用安全分析系统日志分析主机访问量分析业务跳出率分析HTTP请求分析区域用户量分析业务办理量分析系统状态报告三安全合规检查业务应用系统操作系统中间件数据库预处理建立关联模型实时采集处理日志数据分析平台即席查询统计报表数据挖掘实时告警仪表板索引存储PB级日志数据管理能力实时采集处理实时采集处理基于业务系统的多层次机器数据,实现完善的安全合规审计保障操作系统-日志定期安全审计自动化威胁检查网络攻击分析三告警分析页面告警邮件告警短信告警微信告警声音告警三应用故障根源分析应用发生故障告警用户会话并发连接数可用性线程池性能HTTP设置告警策略实际故障点故障分析模型故障分析算法分析结果故障定位通知短信邮件页面告警根据请求自动拓扑应用故障快速定位三应用访问预测分析业务价值:变被动解决风险告警为主动发现预防,提前规避问题及风险。!应用性能未来负载变化趋势预测潜在风险及问题分析定位资源配置策略预测分析历史|实时|未来计算存储网络三可视化分析&展现智能化IT运维平台带来的改变四四从分散粗放到统一精细操作系统网络流量流量分析虚拟化监控硬件监控存储监控……ZabbixNagiosCactiPRTGvCenter自身管理端……一体化集中平台Hypervisor虚拟化网络SNMPSDK中间件JMX/CLI存储SNMP/SMI-S服务器SNMPAgent数据库JDBC新资源协议统一展现统一策略统一告警统一操作不同类型资源不同单一管理工具四业务聚合指标实现故障根源追踪应用响应时间突然增大网卡主机磁盘交换机端口G/0/2NIC1/opt/dataApp-host进程java业务weblogicserverwebserverAppwebear2中间件数据库负载设备Appwebear1形成业务拓扑发现业务异常追踪故障根源四被动告警到主动式巡检业务可用性自动巡检保障、追溯故障影响范围业务巡检网卡主机磁盘交换机端口进程serverApp中间件数据库负载设备App发现问题自动巡检快速修复告警通知智能故障分析业务拓扑钻取解决告警硬件巡检四重复运维工作自动化运维工作枯燥、重复、不及时提取脚本发送邮件.sh清理磁盘.sh重启服务.sh关闭服务.sh数据备份.sh…….任务自动巡检计划报表计划维护计划备份…….触发器自动化四传统监控转向智能分析•操作系统磁盘使用率过高•服务器磁盘损坏•数据库表空间使用率过高•交换机端口流量异常•虚拟化资源池容量不足•HDFS磁盘使用率不足•…….IT监控应用性能监控•请求响应时间过长•SQL执行时间过长•代码执行效率低下•系统软件配置失当•…….硬件故障率分析Top服务器硬盘故障分析Top服务器电源故障分析Top存储控制器故障分析Top存储硬盘故障分析虚拟化资源池分析Top剩余量存储分析Top停机时长vm分析Top磁盘消耗vm分析Top磁盘日均增长vm分析Top磁盘读写效率vm分析Top内存使用vm分析服务器性能分析TopCPU使用率机器分析Top内存使用率机器分析Top磁盘使用率机器分析Top性能故障告警分析Top磁盘读写速率分析数据库性能分析Top表空间剩余量分析TopSQL性能分析Top缓存命中率分析Top日志日均增长分析Top磁盘读写速率分析网络流量分析Top会话流量排行分析Top源IP流量排行分析Top源端口流量排行分析Top目标IP流量排行分析Top目标端口流量排行分析Top协议流量排行分析四提升运维能力积累针对不同资源(服务器性能、硬件健康、日志状态、日志关键字、进程性能、数据库性能等)的告警处理,通过知识库可以实现运维方案的知识积累,方便知识的传递与故障的快速解决。告警事件告警时间原因分析处理方案处理结果告警资源处理人附件信息告警类别知识关键字提升故障处理效率知识共享知识积累知识转化四总结预防•查找潜在风险,提供预防策略预测•构建模型,预测未来趋势分析•分析历史数据辅助根源问题分析统计•整合历史监控数据,辅助IT系统综合管理监控•监控当前IT系统整体运行状态支撑运维智能化升级以大数据分析能力支撑的智能化IT监控运维平台机器数据分析传统ITSM、APM、NPM、SOC、CloudManagement效率提升构建智能化运维体系智能化一体化感谢领导的聆听和指导!构建高效、智能的IT运维主动防御体系,变被动为主动,防患未然。
本文标题:可视化智能IT运维系统
链接地址:https://www.777doc.com/doc-3205391 .html