您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 面向连接的智能运维体系:阿里大数据运维实践
面向连接的智能运维体系—阿里大数据运维实践大纲Bigdataops产品运维历程智能运维理念Tesla产品体系运维价值重塑01.02.03.04.OTSHadoop0204产品运维历程01Before2012人工&脚本工具整合,业务增长2016智能运维体系建设HbaseGalaxyTTHistoreMaxComputeAnalyticDBJstormSLS032014自动化平台2013501/51:1产品运维历程困境求变新生2014产品运维历程智能运维理念•是否有可以借鉴?•何种智能理念?•产品发展方向和终态?智能运维理念末端连接分析展现1.末端:直接操作系统,应用程序,硬件,网络的产品。2.分析:实现运维人员思考问题,分析需求,排查故障的产品,3.连接:实现分析与末端产品驱动与反馈的连系产品。4.展现:将智能平台的状态以多种可视化的方式表达出来。AECT-FlowIDPSTDSChangeLineT-cloneStarAgentCMDBICSchangefreeAlimonitorACL智能运维理念T-Flow工作流•SimpleFlow•MultiFlowTesla产品体系T-Flow关键末端产品-系统层指令序列调度的服务SimpleFlowTesla产品体系T-FlowABCparam1Tesla产品体系T-FlowSimpleFlowTemplate/home/admin/update-t_%_____param2param3自动忽略自动重试异常报警自动忽略超时时间/home/admin/update-t_%_____自动重试异常报警[cluster01@1.1.1.4]$[cluster01@1.1.1.5]$[cluster01@1.1.1.2]$[cluster01@1.1.1.3]$[cluster01@1.1.1.4]$[cluster01@1.1.1.5]$[cluster01@1.1.1.3]$[clustre01@1.1.1.7]$/home/admin/tools(-p–t3)-data)module1yumxxxmodule1)/home/admin/tools(-precheckyumxxxmodule1)yumxxxmodule1)yumxxx/home/admin/tools(-postcheck)-restart)/home/admin/tools(-p1–t4)Failed/home/admin/tools(-p1–t6)/home/admin/tools(-p1–t6)Tesla产品体系T-FlowSimpleFlowInstance1234SimpleFlowInstanceTesla产品介绍T-FlowMultiFlowInstance=Tesla产品体系T-Flow案例1.GalaxyUpgradePool2.UpgradeRegionServer3.FlightingUpdatesimpleflowsimpleflowmultiflowTesla产品体系T-FlowTesla产品体系T-FlowTesla产品体系T-FlowTesla产品体系T-Flow30000+实例运行Tesla产品体系T-FlowTesla产品体系ICSintelligentConnectionServiceICS关键连接服务层-解决事件与末端产品的连接监控事件日志分析流程事件AECT-flowNocTesla产品体系ICS外部系统监控系统1监控系统2日志分析1其他第三方触发器监控系统1配置,数据监控系统2配置,数据日志分析1配置,数据其他第三方配置,数据事件处理插件注册抑制通知事件调度冲突检查K-V依赖执行器T-flow执行器接口AEC执行器接口SSH执行器接口消息订阅服务末端系统T-flowAECPSSHTclone其他末端服务intelligentConnectionService系统架构Tesla产品体系ICSintelligentConnectionService案例盘古分布式文件系统一副本高危事件Tesla产品体系ICSintelligentConnectionServiceTesla产品体系ICSintelligentConnectionServiceTesla产品体系ICSintelligentConnectionServiceTesla产品体系ICSintelligentConnectionServiceTesla产品体系ICSintelligentConnectionService••••容量检查,调参/缩扩容硬件异常,维修下线分布式文件系统副本高危加速修补核心应用服务Hang紧急轮换Tesla产品体系TDSTroubleshootDecisionService关键末端分析型产品-提供通用线上故障智能分析及处理方案Checkpoint配置执行类型:CheckAPI,CheckScript分析结果:example:A,B,C边条件配置上游节点:Checkpoint下游节点:Checkpoint/ICS上游结果表达式:{case=A,case=C,case=A&B}排查点1排查点2排查点3排查点4排查点5日志分析监控报警故障工单ICSTesla产品体系TDSTroubleshootDecisionServiceTDS排查点6排查点7排查点8Tesla产品体系AEC&Crond关键末端产品-应用环境实时维护rpm,文件,目录••••低部署成本,简单通用灰度发布,低消高效规则多样,文件模板多级绑定,灵活组合Tesla产品体系AEC&Crond关键末端产品-集中管理线上服务器定时调度任务••••Crond管理散乱执行结果丢失异常通知机制积累日常任务效果数据Data运维价值重塑自动化智能化运维价值重塑2017T-FlowICSTDS提供工作流引擎&智能连接服务&智能故障排查服务,面向公有云及中小运规模提供开源版本,共建运维自动化生态代码开源
本文标题:面向连接的智能运维体系:阿里大数据运维实践
链接地址:https://www.777doc.com/doc-30552 .html