运维操作规范十大原则

运维安全：远离故障的十大原则故障是运维人员永远的痛。相信每一个运维人员的KPI中都有一项：可用性。可用性高就是不出故障，各个公司对可用性和故障评级的标准都不相同，但是避免故障的方法却是殊途同归。我们怎么避免故障，沃趣科技简单列举了以下几条，与大家共勉！1、变更要有回滚，在同样的环境测试过2、对破坏性的操作谨慎小心3、设置好命令提示4、备份并验证备份有效性5、对生产环境存有敬畏之心6、交接和休假最容易出故障，变更请谨慎7、搭建报警，及时获得出错信息。搭建性能监控，了解历史，获得趋势，预测未来8、自动切换需谨慎9、仔细一点，偏执一点，检查，检查，再检查10、简单即是美。第1条，变更要有回滚，在同样的环境测试过。也是运维最繁琐，最苦逼的地方，所有的变更都必须有回滚的办法，在同样的环境下测试过。没有做过的东西，总是会在你意想不到的地方给你一次痛击，在阿里巴巴的这么多年运维经验告诉我们，所有没有做过的变更，出错的概率最大。所以我们需要给变更以回滚的可能，在各个步骤可能出错的情况下，考虑回滚到最初状态。优秀的运维人员对不考虑回滚的的操作都是敬而远之的。从某种意义上来说，运维是一门经验的学科，是一门试错的学科。第2条，对破坏性的操作谨慎小心。破坏性的操作有哪些列？对数据库来说有：DROPTable，Dropdatabase，truncatetable，deletealldata；这些操作做完了以后几乎无法考虑怎么把数据都回滚回去了。就算回滚，代价也是非常大的。你执行这样的语句非常简单，但是回滚恢复数据缺非常困难。Linux的命令rm可以-r(recursive)递归的删除某一个目录，-f(force)强制删除，但是你有没有删错过文件。我们遇到过一个文件名中末尾有空格的情况，而有的同事rm-r习惯性的会在文件名后面加＊，这样就成了rm-raa*，所有当前目录的数据都被删除掉了！经过这次故障以后我们给rm做了别名：aliasrm='rm-i'这样在删除数据时，rm命令会提示你，是否确认删除该文件。同样的cp和mv也可以有同样的选项：aliascp='cp-i'aliasmv='mv-i'第3条，设置好命令提示。让你时刻知道你在操作哪个数据库，让你知道你在哪个目录下。MySQL字符客户端允许你设置提示符，默认的提示符就是一个光秃秃的mysql，为了让你清楚的知道你当前是以哪个用户名，哪个IP（可能是localhost，127.0.0.1或者具体的物理IP），你当前操作的是哪个schema，以及当前的时间，你可以设置数据库的提示符为：prompt=”\\u@\\h:\\d\\r:\\m:\\s“。它可以直接写在my.cnf的[mysql]下，这样你每次连上MySQL就默认显示如下：root@127.0.0.1:woqutech08:24:36具体prompt可以设置哪些提示，你可以参考中的列表而linux命令提示符也允许你设置的。有两个地方可以设置。第一个：PS1。这个是每次shell提示你输入命令的信息，默认为：$或者#，只会提示你是超级用户还是普通用户。有经验的运维者会设置exportPS1='\n\e[1;37m[\e[m\e[1;31m\u\e[m\e[1;31m@\e[m\e[1;31m\h\e[m\e[4m`pwd`\e[m\e[1;37m]\e[m\e[1;36m\e[m\n\$'这样你就可以知道你当前的目录，登录的用户名和主机信息了，示例提示符如下：[root@woqu-lsv-01/home/mysql]#你可以查看获得具体的PS1设置颜色，设置各个提示内容的介绍。第二个提示符就是PROMPT_COMMAND。这个是设置你连到具体的数据库以后标签页标题上显示的内容，Windows用户可能会用securtCRT，Mac用户可能会用iTerm2，开多个标签页的话，如果每个标签页的标题上内容一样，我们切来切去就有可能在错误的标签页上做操作，设置了这个以后，这个问题概率就会小很多。比如我们的机器上设置为PROMPT_COMMAND='echo-ne\033]0;${USER}@${HOSTNAME%%.*}:${PWD}\007'对应的标签页如下图关于提示符的设置，更多请参考：修改mysql/oracle/bash/vimrc/cmd提示符格式与颜色第4条，备份并验证备份有效性。是人总会出错，是机器总可能会有突然崩溃的那一天。怎么办－我们需要准备备份。备份的学问很大。按照不同的纬度可以分为：冷备份和热备份；实时备份和非实时备份；物理备份和逻辑备份。互联网企业为了提供7*24小时不间断的服务，数据库就需要有实时热备份。在主库出现问题的情况下能够由备库提供服务。备库时候有效，数据是否一致，主库出现问题的时候怎么切换都需要运维人员认真考虑。是不是有了这些就够了列？不行，应用程序也是人写的，曾经出现过程序一不小心delete语句没有带任何条件，导致一个表中所有的数据都被删除的惨状。所以你除了实时的备份，还需要有非实时的备份，在你的数据出现逻辑错误之后能够从备份数据中恢复出来。现在很多人在研究MySQL模仿oracle的flashback功能，利用binlog来恢复数据。但是这样的话，binlog_format必须设置为row并且对于DDL操作也无法回滚。它是为快速解决部分数据被错误删除的解决方案，但是无法代替非实时备份的作用。非实时备份有可以分为在线延时备份和离线备份。在线延时备份是搭建数据库的一定时间延迟的热备份，比如MySQL就可以搭建一个延迟一天的slave，一直保持着备库与主库的延迟在一天。可以利用pt-slave-delay工具来实现这个功能。另外，离线备份是目前大家用的比较多的，可以利用mysqldump进行逻辑备份或者xtrabackup进行物理备份。为了空间的原因和快速恢复考虑，你还可以利用xtrabackup进行增量的物理备份。备份有了，是否就可以高枕无忧了？还是不行。你需要验证备份的有效性。没有一个备份能够保证它备份出来的数据能够100%恢复出正确的数据，特别是物理备份的概率相对来说，更低，xtrabackup备份一个月总有那么几次来大姨妈，不能给你很好的服务。所以，备份并不只是备份，它还包括备份的验证，它如果不能恢复出正确的数据，就只是浪费空间而已。备份的验证最简单的就是找一个空闲的库，来恢复出来，mysql启动以后检查部分数据。如果不需要这么严谨，对于xtrabackup来说，你至少得验证它–apply-log能够恢复上去吧？同样，备库的数据一致性也需要经常检查一下，mysql的replication并不保证100%的数据一致性，你可以去翻翻mysqlstatement复制的bug列表，有些数据在主备不同的环境上分别执行，数据就会不一样。可以考虑用percona的工具pt-table-checksum来检查主备不一致，用pt-table-sync来同步主备数据。第5条，对生产环境存有敬畏之心。这应该是运维者进入行业首先需要具备的素质。但是我们还是需要把它拿出来强调一下。有机会的话，你可以梳理一下：你的生产环境上有哪些账户，这些账户是否都确实需要登录到机器上来？这些账户即包括linux用户还包括数据库账户。你的root用户是否开放给了某些用户，这些用户安全吗？你的用户密码是否经常修改，是否加密不让具体的操作人员直接看到，密码强度时候足够，密码重试次数达到一定次数是否黑名单；你的生产环境和线下环境是否隔离，数据库是否和外网隔离？是否一些工作明明能够在开发库和测试库做，却被放到生产环境上去了。是否有专门的人负责线上应用的发布，从而避免开发人员直接接触生产环境这些都是你避免出现csdn密码泄漏，在业界的名声一落千丈的法宝。第6条，交接和休假最容易出故障，变更请谨慎。这个是经验之谈。我们在总结故障的情况时，发现在公司部门有变化时，工作交接(不管是休假，工作职责变化还是离职)，故障的出现频率会比正常情况下多50%以上。有人说，这是因为机器或者应用是有感情的，舍不得离开的运维者。我们不谈感情，简单的理性分析一下。公司或者部门难免会做一些调整，变化是世界上唯一不变的事情。而运维人员是一线做事情的人，部门调整或者领导的更换可能导致工作的着重点不同，做事的方式和评测的标准变了，适应过程中难免会出现一些考虑不周到的地方，出故障也是情理之中了。而工作交接，对运维人来说，其实是一个非常费时费力的事情，你需要把所有平常做的工作都梳理清楚，甚至包括你的一些经意不经意的操作习惯，这样的话，下一个人才可能接手的下来。比如：你可能认为备库正常情况下没有访问，于是让某些并不重要的任务(一个月一次抽取部分数据到线下测试？)直接连备机IP进行操作。下一个人接手，认为备机就是备机，操作起来不会有任何问题，结果下一次任务抽取就是一个故障出来了。再举一个我们遇到了事例吧：同事A出国休假了，休假期间估计联系不上，他留了文档，并告诫说某几个库和表是比较核心和容易出问题的，没有特殊情况最好等他回来再做变更。正好，休假期间，开发人员找到同事B，要求他重置一个字段的某一位（bit），并打包票说这个bit没有用，同事B拒绝，并背上了不配合的骂名。同事A回来吓了一身冷汗，原来这个字段已经被另外一个离职的开发使用了。所以，运维部门和运维人员对变化需要尽量放平心态；接手别人的工作要一而再，再而三的确认变更方案。请教人并不见得就是能力不行的表现；休假前最好各种可以做好的事情，最好能够准备一份文档，指明在什么情况下怎么做和联系哪些人。在别人放假的时候接手工作，“能拖则拖”，实在需要执行：必须不厌其烦的跟原运维者确认各个操作细节。第7条，搭建报警，及时获得出错信息。搭建性能监控，了解历史，获得趋势，预测未来。运维的最高境界不是故障来了，泰山崩于前而不惊，苍老师勾引你而抗日；而是没有故障，让故障消失在萌芽之中。请给那些默默无闻，每天想着我们的系统还存在哪些隐患，怎么解决，怎么及早发现的运维人员鼓掌。他们是最可爱的人。而他们赖以生存的工具就是报警和监控。Oracle发展了这么多年，awr和相关的性能参数都相对比较全；MySQL现在也已经迎头赶上，配套的工具越来越多。报警可以让你及时知道系统出现了什么异常。比如slaveio报警，在数据库replication异常的时候就会提醒你：IO线程出现了问题，可能是网络问题，主数据库问题等，slavesql报警会提醒你replication的SQL线程出现了问题，可能是主备不一致，slave被停掉了，存储过程在备机有异常或者其他问题。这样你收到报警就可以及时跟进，而不至于主备长时间不一致，主库坏掉了想要切换到备库的时候却不能切换。性能监控可以让你了解系统的历史性能信息。分析故障发生时的各种现象，确认故障的真正原因；了解变化趋势，发现故障的苗头，及早优化和调整。比如你如果使用了PCI-E的Flash卡，你可以监控logical_written_bytes，logical_read_bytes，physical_written_bytes，physical_read_bytes以便获得flash卡的每秒的逻辑读写和物理读写字节数。对于MySQL你可以监控Com_delete+Com_delete_multi,Com_insert+Com_insert_select，Com_update+Com_update_multi，Com_select来获得每秒的MySQLDML删除，插入，更新和查询的次数。报警和性能监控其实不不完全独立的，很多性能的监控项也可以报警出来。比如linux的io

运维操作规范十大原则

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

化学化工学院知名校友

2新版FIDIC系列合同条

支付结算法律制度

咸宁三合机电“三合一”产品样本

公众参与在规划决策中的有效实现方式_E_Participation在英国的实践

鄞州XX滑动轴瓦厂质量管理手册(DOC41)(1)

校园危机的识别与干预

油茶良种基地与茶油深加工项目可行性研究报告编写

第二章人力资源规划

如何建立企业培训体系

相关文档

相关搜索