您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 百度AIOps实践――哈晶晶
百度AIOps实践哈晶晶百度智能云目录Ø百度AIOps业务场景Ø百度AIOps技术架构Ø故障管理AIOps实践Ø故障预防实践Ø故障发现实践Ø故障自愈实践百度运维的挑战•种类繁多,规模庞大,架构复杂•业务迭代速度快•服务稳定性要求高质量效率成本在保障服务质量的前提下,减少成本,提高运维效率智能运维场景概览•百度智能运维场景•2014年,百度首提智能运维理念•故障管理/变更管理/容量管理/服务咨询Source:GartnerReportITOperationsAnalyticsMustBePlacedWithinanAIOpsContext.WillCappelli(ResearchVP)|26August2016•数据挖掘,提升自动化•降低人的投入变更管理:资产和服务管理故障管理:备份管理故障管理:重大故障(outage)服务架构性能优化故障管理:一般故障(disruption)变更管理:网络管理故障管理:机器维修变更管理:程序客服&咨询变更管理:数据故障管理:监控管理复杂高频简单低频容量管理•智能辅助决策•增强人的能力•规范化,流程化•规范人的行为•智能决策和执行•代替人的能力•数据挖掘,提升自动化•降低人的投入目录Ø百度AIOps业务场景Ø百度AIOps技术架构Ø故障管理AIOps实践Ø故障预防实践Ø故障发现实践Ø故障自愈实践智能运维工程思想运维知识库(OKB)运维操作抽象层(OPAL)运维机器人(Guardian)书同文:统一运维“语言”车同轨:统一运维“方法”行同伦:统一运维“模式”应用、服务、机房、集群、镜像、机器...统一接口PAAS1NoahPAAS2PAAS3PAAS4...适配不同平台的“驱动”......SOP/RunbookasCode1.分场景定义运维模式;思路一致2.Code,NotDoc;行为一致3.个性化模型、配置、参数、数据4.提倡“复用”百度AIOps技术栈智能运维平台智能解决方案策略异常检测根因诊断止损决策容量预测故障管理场景服务咨询场景容量管理场景故障诊断&决策故障自愈故障发现&感知FAQChatbot自动压测容量规划自动扩缩容变更管理场景程序上线配置分发命令执行运维策略算法平台工程计算框架执行框架工具链状态管理数据采集任务调度数据传输数据计算运维大数据平台运维工程研发框架数据ETLSchema查询&计算关联分析TSDBESMETA(BNS)权限系统运维数据仓库运维知识库运维大脑报警&通告平台策略实验平台运维知识库product元数据状态数据事件数据appserviceinstancehostIDCpersonnetwork统一数据模型数据源数据生产过程分类映射服务管理模型和规范存储:MetaDB,TSDB,EventDB关联挖掘查询和视图清洗消歧反馈干预throughputlatencycpumemio...anomalyrootcausechangeremediation...raw数据权限和配额质量控制bandwidtherrordiskrtt...核心数据中间数据择优计算管理类平台监控类平台操作类平台运维工程研发框架Sensor•多事件源支持•推拉等方式访问事件源•事件可聚合后再处理Decision-Maker•规则匹配•决策树•基于状态的决策Executor•多任务并发执行•通过状态机、工作流两种模式执行运维操作长流程•支持长流程断点续起运维对象异常检测告警触发操作执行预案匹配预案流程控制执行感知决策感知接口操作接口运维对象事件触发决策输入量计算操作执行序列模型执行感知决策感知接口操作接口报警回调机器人自动编排机器人运维大脑异常检测基于概率的恒定阈值检测环比基准值检测同比基准值检测指标自动排查多维度分析故障诊断MEMORYNETWORK目录Ø百度AIOps业务场景Ø百度AIOps技术架构Ø故障管理AIOps实践Ø故障预防实践Ø故障发现实践Ø故障自愈实践百度AIOps故障管理解决方案概览发生发现止损恢复分析改进规范隐患硬件设备基础平台应用软件外部依赖人故障发现无需配置报警规则,自动选择算法和调整参数故障诊断业务指标异常多维度分析;指标自动排查故障自愈报警触发自动决策和止损操作自动执行故障报告case自动生成收录到知识库故障排查服务分析体检报告故障演练典型故障盲测演练故障预防变更分级发布检查;业务和资源指标趋势预测目录Ø百度AIOps业务场景Ø百度AIOps技术架构Ø故障管理AIOps实践Ø故障预防实践Ø故障发现实践Ø故障自愈实践故障预防实践——智能Checker自动拦截异常变更Stage-0沙盒环境Stage-11%IDC-1Stage-299%IDC-1Stage-31%restIDCsStage-499%restIDCsCheckingCheckingCheckingDev控制变更过程Checking分级发布控制变更风险,确保风险逐级减少,尽可能减少损失•指标覆盖率不会很高•阈值设置困难导致的漏报&误报•程序可覆盖数十万个指标•机器学习训练阈值,无需人工配置•发现异常自动干预变更可用性指标、系统相关指标、业务逻辑指标人工检查的问题智能Checker故障预防实践——智能Checker自动拦截异常变更衡量上线前后指标变化与过往上线比较与同模块未上线实例比较正常不同不同相同相同故障CurrentreleaseControlPreviousrelease目录Ø百度AIOps业务场景Ø百度AIOps技术架构Ø故障管理AIOps实践Ø故障预防实践Ø故障发现实践Ø故障自愈实践故障发现实践——智能异常检测减少漏报&误报•监控阈值配置&后期维护成本不可完成•不同的监控项需要应用不同的算法•忙时&闲时、工作日&休息日阈值设置不同•后期随着业务发展需要不断完善阈值配置•监控指标爆发式增长,配置成本极高监控规模爆发式增长故障发现实践——基于概率的恒定阈值检测场景1:基于概率的恒定阈值检测(波动性异常检测)对一定窗口累积量监控抖动频繁缓慢增长故障发现实践——环比基准值检测某个大促活动时的指标检测数据对比方法场景2:环比基准值检测(突升突降检测)突变的含义是发生了均值漂移故障发现实践——同比基准值检测场景3:同步基准值检测(历史趋势类异常检测)计算当前值在历史数据分布(正态分布)下的发生概率,小于一定概率即异常故障发现实践——算法自动选择与参数智能配置场景•曲线数量多•不同的曲线需要用不同的算法•参数配置成本高•工作日和休假日不同•白天和晚上不同•参数需要定期维护解决方案•学习数据历史波动特征•异常检测算法自动选择•算法参数自动确定•算法参数无监督学习模型待检测数据不检测同比基准值检测波动范围周期性样本数环比基准值检测恒定阈值检测少多小大有无目录Ø百度AIOps业务场景Ø百度AIOps技术架构Ø故障管理AIOps实践Ø故障预防实践Ø故障发现实践Ø故障自愈实践故障自愈实践——故障自愈•什么是故障自愈?•通过自动化、智能化处理故障节省人力投入,通过设定的处理流程提高故障处理可靠性,同时降低故障时间,为业务可用性保驾护航•人工处理故障的问题•响应可能不够迅速•夜间报警,运维人员正在休息•运维人员在特殊地点,隧道中、飞机上等•决策可能不够精确•新入职运维人员经验欠缺•没有收集足够的故障信息•操作可能出现失误•止损命令输入错误故障自愈实践——单机房故障自愈2015年6月某公司云服务香港IDC节点电力故障崩溃12小时2016年5月某公司杭州电信接入故障,服务中断小时级别2016年11月某公司某机房运营商误操作网络异常2017年1月某业务天津机房故障,服务数小时无法提供服务2017年6月北京某处机房掉电,多家互联网公司受影响……业界单机房故障事件单机房容灾能力建设解决方案和效果•覆盖90%核心产品线•止损效率:2min-5min•较人工止损效率提升60%以上案例:•2017/06/17北京某处机房掉电,受影响业务线昀短2min内完成止损盲测智能故障自愈机器人010203040人工止损自动止损故障自愈实践——单机房容灾能力建设:隔离&冗余服务存在单点服务A服务B服务C机房1服务A服务B机房2单点服务C在机房1故障服务整体故障XX.baidu.com服务跨机房混联服务A服务B服务C机房1服务A服务B机房2机房1/机房2故障无法通过切流量止损,服务整体故障XX.baidu.com服务C服务不满足N+1冗余服务A服务B服务C机房1服务A服务B机房2机房1故障,机房2和机房3不足以承担机房1的流量,单机房故障引发多机房故障XX.baidu.com服务C服务A服务B服务C机房3故障自愈实践——单机房故障自愈框架异常事件外网监控容量数据时序指标运维知识库系统监控业务监控执行决策感知异常检测算法流量调度算法策略框架内网监控业务线应用外网止损决策器DNS流量调度内网止损决策器弹性伸缩【降级】负载均衡流量调度执行框架状态管理工具链运维开发框架主备切换止损操作编排算法运维元数据搜索业务广告业务百度贴吧百度地图钱包...AIOps智能运维欢迎关注运维机器人解决方案企业版基础版旗舰版•基础监控能力•资产管理与变更•应用变更与命令执行•多层级的服务管理模型•多维度进行业务监控•自定义业务仪表盘•分级发布与回滚•运维操作和审计•异常检测算法•服务故障自愈和诊断方案•业务定制化大屏•企业集成服务•专家运维咨询服务访问进一步了解
本文标题:百度AIOps实践――哈晶晶
链接地址:https://www.777doc.com/doc-4504078 .html