您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > TCATAGS 46-2022 民航信息系统可靠性监控管理规范
ICS35.020L07T/CATAGS中国航空运输协会团体标准T/CATAGS46—2022民用航空信息系统可靠性监控管理规范Managementspecificationforreliabilitymonitoringofcivilaviationinformationsystem2022-02-25发布2022-02-25实施中国航空运输协会发布T/CATAGS46—2022I目次前言..................................................................................II1范围.................................................................................12规范性引用文件.......................................................................13术语和定义...........................................................................14缩略语...............................................................................25应用服务监控系统基本架构.............................................................26监控点及监控能力.....................................................................37监控系统性能要求.....................................................................68监控系统功能要求.....................................................................69信息采集和存储要求...................................................................710监控系统管理权限....................................................................8附录A(资料性)伪请求粒度说明表......................................................9附录B(资料性)中国航信航班管理系统可靠性监控分析...................................10T/CATAGS46—2022II前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国航空运输协会提出并归口。本文件起草单位:中国民航信息网络股份有限公司、中国民航大学。本文件主要起草人:刘晓辉、高思华、周子站、惠康华、陈福荣、李婷。T/CATAGS46—20221民用航空信息系统可靠性监控管理规范1范围本文件规定了民航信息系统应用服务监控系统的基本架构、监控点及监控能力、性能要求、功能要求、信息采集和存储要求以及管理权限要求等。本文件用于民航信息系统可靠性运行的监控管理。2规范性引用文件本文件没有规范性引用文件。3术语和定义下列术语和定义适用于本文件。3.1可靠性reliability预期行为和结果保持一致的特性。[来源:GB/T25069-2010,2.1.19]3.2信息系统可靠性informationsystemreliability信息系统在规定的条件下和规定的时间内完成规定功能的能力。[来源:MH/T0063-2017,3.2]3.3应用服务applicationservice用户接口或万维网客户端与数据库及其之间逻辑层的服务。3.4伪请求pseudorequest可靠性应用服务监控系统上预先编写的代码,故障发生时自动触发,定位问题。3.5可用性availability根据授权实体的要求可访问和利用的特性。[来源:GB/T25647-2010,4.2]T/CATAGS46—20222数据完整性dataintegrity数据没有遭受以未授权方式所做的更改或破坏的特性。[来源:GB/T25069-2010,2.1.36]3.6通讯交互类数据communicationinteractiveclassdata监控系统与应用服务间进行信息交互的数据,包括监控系统向应用服务发送的请求数据和应用服务返回的结果数据。3.7状态获取类数据stateacquisitionclassdata监控系统从应用服务获取的运行状态和日志数据。4缩略语下列缩略语适用于本文件。AMP:应用监控平台(ApplicationMonitoringPlatform)HTTP:超文本传输协议(HypertextTransferProtocol)MQ:消息队列(MessageQueues)CPU:中央处理器(CentralProcessingUnit)MEM:内存(Memory)Telnet:远程终端协议(TelecommunicationNetwork)Ping:因特网包探器(PacketInternetGroper)SDK:软件开发工具包(SoftwareDevelopmentKit)TPS:每秒事务处理量(TransactionPerSecond)ART:平均响应时间(Averageresponsetime)APP:应用(Application)5应用服务监控系统基本架构应用服务监控系统是民航信息系统可靠性监控管理的核心环节,每个分支结构、数据中心分别有一个或若干个监控平台,每个监控平台主要包括被监控的应用服务、监控系统服务器、控制台和其他监控工具,多个监控平台之间能够灵活级联扩展,上下级节点之间能够即时通讯。应用服务监控系统基本架构示例见图1。在上述架构下,监控系统与应用服务间交互数据的类型包括:——通讯交互类数据;——状态获取类数据。监控系统与应用服务交互数据的示例见图2。T/CATAGS46—20223总部监控中心……总部应用总部应用总部监控中心总部维护人员值班人员区域监控中心……应用应用区域监控中心分支机构维护人员区域监控中心……应用应用区域监控中心分支机构维护人员节点监控中心……应用应用节点监控中心分支机构、当地维护人员节点监控中心应用前端……应用前端节点监控中心分支机构、当地维护人员其他监控工具其他监控工具其他监控工具其他监控工具节点监控中心应用前端……应用前端节点监控中心分支机构、当地维护人员图1应用服务监控系统基本架构示例图监控系统通讯交互类数据状态获取类数据应用服务报文日志数据库数据中间件消息队列业务数据图2监控系统与应用服务交互数据示例图6监控点及监控能力6.1系统监控6.1.1监控能力将监控能力分为状态监控、可用性监控、故障追踪、运维管理和业务监控五部分。其中状态监控、可用性监控为基础监控范畴,故障追踪、运维管理、业务监控为进阶监控范畴。监控能力的每部分又包含监控类型及监控点,监控点中带“*”的为基础监控点,仅在状态监控与可用性监控中设置基础监控点,属于民航信息系统可靠性监控最基本的应用监控能力,重要度高,必须具备。故障追踪、运维管理、业务监控部分是对应用监控能力的完善与补充,属于高监控能力要求。监控能力、监控类型以及监控点相关描述见表1,示例见附录B。表1监控点描述监控范畴监控能力监控类型监控点监控点描述推荐分值总分值基础监控范畴状态监控网络监控*Ping7X24h探测服务器网络连通性。20210http发起http请求检测站点状态。10*Telnet监控端口状态。20并发监控监控网络并发数。10T/CATAGS46—20224表1(续)监控范畴监控能力监控类型监控点监控点描述推荐分值总分值基础监控范畴状态监控中间件监控消息队列状态实时监控消息队列通道状态10消息队列深度实时监控消息队列深度10业务中间件监控管理中间件。10服务器监控*文件系统发现磁盘空间等异常。20*MEM的利用率内存用度监控。20*CPU的使用率CPU用度监控。20IO延迟IO延迟监控。20数据库监控*表空间监控数据库表空间用度,超过预警阈值后报警。20*数据库连接监控数据库连接状态20数据库实例监控数据库实例状态20数据库job监控数据库job状态10数据库备份监控数据库备份状态10表记录数监控数据库中某个表的记录数,如果与计划的数目不符则报警。10Redis实时监控Redis各项参数及运行状况。10慢sql查询返回时间超过预设时间的查询10数据库锁分析用于管理对共享资源的并发访问10可用性监控进程监控*进程状态能够发现进程僵死、丢失的异常。20130*进程数量能否发现进程丢失、重复启动等异常。20进程占用MEM当进程占用过多内存时报警。10进程占用CPU当进程占用过多CPU时报警。10功能监控*性能1、实时查看性能(TPS、ART)曲线;2、发生性能异常(如TPS、ART超过阈值)报警;3、监控性能趋势(渐变、陡变)。20指令模拟指令/服务轮询的方式监控后台服务状态。10文件监控*日志关键字通过监控关键字发现日志中的报错等信息。20文件大小监控文件大小、增长速度等,可发现日志突增等异常情况。10运维执行结果检测运维文件是否按时生成,判断运维作业是否执行成功。10进阶监控范畴故障追踪故障分析全局追踪1、全局流量“交通图”,迅速定位“堵点”;2、全局交易ID关联全局事务;3、全局报错信息及日志分析。0-200-20运维管理自动化运维应急预案报警自动触发应急预案执行脚本。0-100-20自定义脚本报警关联用户自定义的脚本。0-10业务监控业务数据分析业务状态业务系统I/O数据,可用于业务状态分析、故障定位等。0-100-20监控视图0-10T/CATAGS46—20225注:被监控系统具备表1中某项监控点,推荐系统获取对应的分数。6.1.2监控能力分级根据监控系统是否能够实现监控系统基本状态、监控服务可用性、故障追踪、运维管理以及业务监控等,划分监控能力级别。从一级到五级监控能力逐级递增。根据表1对监控能力进行分级,监控能力级别见表2。表2监控能力级别能力级别状态监控可用性监控故障追踪运维管理业务监控监控点添加规则评价规则一级√----至少包括状态监控的基础监控点。添加的监控点分值总和。二级√√---上一级监控点至少再添加可用性监控的基础监控点。添加的监控点分值总和。三级√√√--上一级监控点再添加故障追踪监控点。添加的监控点分值总和。四级√√√√-上一级监控点再添加运维管理监控点。添加的监控点分值总和。五级√√√√√上一级监控点再添加业务监控监控点。添加的监控点分值总和。注:“√”表示在相应能力级别下必备的监控;“-”表示在相应能力级别下不需要的监控。6.2移动APP监控6.2.1监控能力移动应用的监控维度主要包括可用性监控、稳定性监控、安全性监控、服务体验监控、业务监控五部分。其中产品可用性监控、稳定性监控、安全性监控为基础监控范畴,服务体验监控、业务监控为进阶监控范畴。移动APP的质量监控点见表3。表3移动APP的监控点监控范畴监控能力监控类型监控点监控点描述推荐分值总分值基础监控范畴可用性监控产品服务性能崩溃率监控选定时间段内应用崩溃次数/启动次数。2060错误率监控选定时间段内应用出现错误次数/总请求次数。20响应时间监控选定时间段内应用总响应时间/请求次数(仅计算成功响应的请求)。20稳定性监控产品服务稳定性卡顿率监控选定时间段内应用出现卡顿次数/总操作数。2040耗电量监控应用在移动设备中的耗电情况。10交互耗时监
本文标题:TCATAGS 46-2022 民航信息系统可靠性监控管理规范
链接地址:https://www.777doc.com/doc-11144262 .html