您好,欢迎访问三七文档
运维故障应急预案V1.0深圳市XX科技有限公司修订记录版本编号版本日期修订人说明1.02014-5-13CC初稿1.11.21机房失火,断电,断网1.1紧急预案1)全国各区域陆续反馈访问网站出现无法访问。2)运维人员通过监控状态,无法远程登录服务器,ping不通服务器。并紧急联系机房人员,询问初步情况,则可判断是否出现机房失火,断电,断网。3)技术部给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为系统升级,而导致网站不能访问。4)再次紧急联系机房供应商,询问故障的发生原因,故障的严重性,是否后续能正常恢复服务。5)如故障严重,先能否挽救服务器,以存储服务器为优先。若存储服务器受损,则想办法恢复数据;若无法恢复数据,则修改通告内容,告知业务部门要重新导入全部数据。6)视故障影响范围,统计出未受影响的服务器。7)如果是机房失火,断电,断网导致机房不可用,则尽快联系新的机房,开始重新搭建服务。8)评估网站恢复的时间点,修改通告内容。1.2风险预防杭州和深圳均实施数据跨机房备份。2.区域性网络故障问题1.1紧急预案1)全国某个区域短时间内有多个客户反映无法访问网站,其他区域访问正常。2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。3)如机房服务正常,运维人员测试出现故障区域的网络连接与dns解析是否正常。4)如果网络连接或者dns解析不正常,则可认为出现了区域性网络故障问题。5)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外受影响的区域客户,描述因为客户所在区域网站故障,而导致网站不能访问。6)尽快联系当地运营商,询问网络故障的情况及恢复时间。1.2风险预防网站CDN镜像。3.域名失效故障1.1紧急预案1)全国各区域陆续反馈访问网站出现无法访问。2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。3)如服务器服务正常,再通过DNS检测工具并发现域名IP指向异常,则认为出现了域名失效故障。4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为域名运营商DNS解析故障,导致网站不能访问。5)登录并查看域名供应商平台设置解析配置,若是域名供应商配置有问题,则修正该配置;若是DNS解析平台故障,则寻找另外的DNS解析平台,重新配置DNS解析。6)告知业务部门,临时处理解决方法。发出修改hosts的bat脚本给各区域销售和客服团队,并告知允许脚本前要先退出QQ管家。7)跟进全国域名解析的进展。8)全国域名恢复后,撤出通告,并通知内部人员。1.2风险预防1)DNS加固安全锁。2)每个月更换域名供应商和DNS解析平台的密码。4.机房网络设备,服务器故障1.1紧急预案1)全国各区域陆续反馈访问网站出现无法访问。2)运维人员通过监控状态,远程登录服务器查看机房服务器服务状态,判断是否存在服务异常。3)如无法正常登录服务器,ping服务器不通,并紧急联系机房人员,并询问初步情况,则判断是否出现机房网络设备,服务器故障。4)给业务部门、市场部门以及相关领导发出网站异常的通告,通告分为两部分。一部分是对公司内的通告,包括事故的影响、恢复的时间;一部分是对公司外,描述因为网站升级改造,导致网站不能访问。5)逐个设备,服务器登录检查,找出有故障的设备,服务器。再次联系机房人员,检查相应的设备,看是否能正常恢复运作。6)收到机房人员的反馈后,若设备,服务器还可用,则与机房供应商共同执行修复措施;若设备,服务器完全损坏,则让机房供应商协助购买新设备,服务器或者借用现有设备,服务器。7)配置新设备,服务器搭建运营环境。1.2风险预防1)HA热备,消除重点设备的单点问题。2)确保配置文件均有备份。
本文标题:运维故障应急预案
链接地址:https://www.777doc.com/doc-6399301 .html