您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 以数据为驱动的 AIOps 平台
以数据为中心的AIOps平台1海量多维数据收集3用数据体现价值2用人工智能点亮数据议题不是没有数据,而是数据太多不是不想分析,而是无从下手当前运维和业务团队面临的困境可视化机器学习算法分析计算大数据数据源事件日志监控工单拓扑•全量,海量,多样性,复杂性IT数据•集中统一管理,历史数据存储,实时数据存储•数据建模,模式识别,趋势识别,故障隔离•智能化选择,异常检测,异常定位,根因分析•算法自我修改演进,新算法创建•多维度,个性化,角色化,场景化展示•数据清洗,去重,过滤,关联,生成新数据AIOps的技术栈监控对象采集数据IT系统客户端数据库虚拟化中间件SaaS传统架构业务层应用软件层基础设施层业务系统云架构硬件设备PaaSIaaS交易业务流程浏览器移动APP应用/微服务应用代码数据库服务中间件服务网络流量包日志虚拟化网络主机机房环境•交易量•交易金额•交易成功率•页面加载时间•浏览器类型•用户IP•页面加载错误率•CDN质量•应用响应时间•应用吞吐量•应用错误率•单个服务响应时间•单个服务吞吐量•单个服务错误率•交易错误率•交易处理时间•……•APP页面响应时间•APP崩溃率•APP网络请求时间•APPH5页面性能•JVM内存利用率•服务器时延•SQL语句执行时间•连接池数量•缓冲区命中率•告警•……•虚拟机数量•主机数量•CPU利用率•内存利用率•丢包率•平均建链时间•网络流量•磁盘可用容量•电源•处理器•配置项•……业务逻辑IT资产库CMDB全栈IT数据的采集范围StatsD、WebService、JSON等·URL、Host、Port、HTTP、RTSP、RTMP等Java、.Net、PHP、Python、Ruby、Node.js、Andriod、iOS等Rsyslog、NXlog、Kafka、SDK、RestfulAPI等SFLOW、NETFLOW、IPFIX、SPAN、RSPAN、ERSPAN等SNMP、IPMI、WMI、SMI-S、JMX、RedFish、JDBC、SSH、Telnet等全栈IT数据的采集方式IT数据1海量多维数据收集3用数据体现价值用人工智能点亮数据议题基础资源数据流量数据资产工单数据应用数据浏览器用户体验数据APP用户体验数据日志数据交易数据任意IT数据AIOps平台IT运维管理最佳实践人工智能与机器学习大规模事务处理与分析海量IT数据实时接入业务服务情报深度关联分析场景化视图多KPI组合告警IT数据建模整合现有资源,打造数据驱动的AIOps的智能平台AIOps平台必备的技术特点•基础软硬件,应用,客户端,业务•指标,事件,日志,拓扑•全量、海量、多样的IT数据•数据集中存储,加工•秒级实时海量数据查询•历史数据持久存储•将运维行业经验与知识积累,转化成开箱即用的运维数据模型•系统异常的精准检测•指标和事件关联分析•故障根因快速定位JDBC,SNMPTRAP,WebService,……IntelligenceInsight可扩展性-与已有ITOM工具的对接实时数据管理Streamingdatamanagement历史数据管理Historicaldatamanagement文本数据管理Documenttextingestion日志数据管理Logdataingestion流量数据管理Wiredataingestion•通过NLP(自然语言处理)技术,对人类可读文档进行解析•从网络上直接捕获的数据包,兼容多种网络协议•任何软硬件设备生成的日志数据,并为访问分析建立索引•对实时数据进行标准化和索引化,以时间尺度实时展示数据•吸纳海量多样化历史数据,并进行索引和持久存储•直接捕获和使用数值型数据,例如时间序列数据指标数据管理Metricdataingestion海量IT数据处理平台的能力AIOps平台基础数据层机器学习算法层RMDB事件指标日志工单作业监控MQNoSQLTSDBHDFSMPPDBARIMA卡尔曼时序数据分解Holt-Winters奇异谱变换(SST)DiDDBSCANPearson关联分析J-MeasureTwo-sampletestAprioriFP-Growth分类聚类决策树逻辑回归DNNCNNLSTM/RNNNLPAIOps算法层指标分布预测指标聚类KPI联动分析KPI事件关联日志事件序列提取日志事件模板提取技术能力层数据源异常标记单指标异常检测多指标异常检测关联分析故障拓扑图故障树根因分析调用链告警压缩单故障止损灰度版本止损配置优化成本分析容量规划资源调度发现问题定位问题解决问题其他应用层自适应异常检测多维异常问题定位故障根因分析异常预测人工智能算法与分析平台用数据体现价值1海量多维数据收集2用人工智能点亮数据议题多KPI关联分析多维度异常定位故障树挖掘调用链分析KPI异常检测多KPI聚类日志异常检测故障发现根因分析用户画像智能报表影响性分析KPI趋势预测容量预测故障预测瓶颈预测数据预测决策支持AIOps的核心价值平均响应时间JVMGC应用系统错误数数据库平均响应时间网络延时应用健康指数CPU利用率%内存利用率%数据库服务健康指数JDBCLOG指标及阈值接口/协议依赖关系/拓扑数据模型DataModule应用系统B服务A应用系统A中间件A数据库A操作系统A操作系统B虚拟机A虚拟机B中间件C数据库D操作系统C操作系统D虚拟机C虚拟机D服务B物理主机B物理主机A通过数据模型进行IT数据梳理SNMPSFLOWinstrumentJSAPMModule开箱即用模型扩展自定义模型l新增指标及阈值l新增接口/协议l修改依赖关系/拓扑l自定义指标及阈值l自定义接口/协议l自定义依赖关系/拓扑数据模型DataModule将运维实践转换成开箱即用的数据模型应用服务器关系型数据库存储操作系统Web服务器虚拟化应用性能管理用户体验管理深度挖掘利用数据模型深度挖掘多个KPI对于服务质量的影响Ø通过预置的数据模型,将多个来自不同维度的KPI、指标和事件在一个看板上进行相关性比较分析,并可灵活的根据当前业务服务根因分析的需要,在看板上增加新的泳道引入新的KPI、指标和事件。业务服务多维仪表盘面向不同场景的多维指标组合告警面向不同人员的场景可视化驾驶舱要监控的服务是什么?有什么问题需要解决?服务由哪些组件组成?如何评价这个服务(KPI是什么)?明确每个KPI的数据来源展现平台价值通过平台进行数据分析挖掘绘制场景化视图创建故障深度挖掘关联关系创建服务的KPI和数据源OneAPMI2l挑选日常工作中一个有价值的运维难题l分析挖掘l与专家一同进行问题分解l将分解后的信息导入平台l建立数据模型和视图自上而下的方法解决自下而上的问题THANKYOUAIOps.com|OneAPM.com
本文标题:以数据为驱动的 AIOps 平台
链接地址:https://www.777doc.com/doc-5236909 .html