您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 能源与动力工程 > 江苏省电力公司信息中心培训
江苏省电力公司信息中心AIX管理实践及案例主要内容一、日常维护常用操作–错误日志检查–数据备份–监控文件系统使用情况–监控系统资源使用–监控HA状态主要内容(续)二、常见案例处理及分析–根目录或/tmp目录空间满–误删除根目录下文件–系统无法启动–HA问题主要内容(续)三、数据收集–故障大致过程,主要时间点–控制面板信息–操作系统相关数据–dump数据–HA相关数据一、日常维护常用操作1、错误日志检查–检查硬件报错errpt-dH–检查软件报错errpt-dS–显示详细报错errpt-a–显示某类错误详细信息errpt-ajXXXXXX2、数据备份操作系统备份–smittymksysb其他数据备份–tarcvf/dev/rmt0/directory–backup/restore命令裸设备备份–dd命令ddif=/dev/lv00of=/dev/rmt0bs=10243、监控文件系统使用情况一般说来,除少数空间占用稳定的文件系统(如/usr)以外,应保证文件系统的使用率在80%以下使用命令df来检查文件系统的占用如果发现某文件系统增长迅速,则需要检查是哪个文件的增长导致文件系统占用。几个容易增长的文件或目录:–/var/adm/ras:系统dump自动copy的目录,并且存放系统的很多日志–/etc/security/failedlogin:系统存放失败登录信息的文件–/tmp/hacmp.out.*:HA的日志文件–/smit.log,/smit.script:root用户的smit信息日志/usr/sbin/skulker可以用来自动清理一些系统日志4、监控系统资源使用topas命令ps命令–ps-ef–psauxvmstat命令svmon命令–svmon-G–svmon-P5、监控HA状态启停HA–smittyclstart–smittyclstop(graceful,takeover,forced)查看HA相关子系统状态–lssrc-gcluster查看HA服务地址情况–netstat-in–ping查看共享存储情况–lsvg-oclstat命令–需要在启动HA的时候选中StartupClusterInformationDaemon?True–/usr/es/sbin/cluster/clstat可以查看地址情况,HA是否稳定,资源分布等主要文件–/tmp/hacmp.out–应用起停脚本–/usr/es/adm/cluster.log二、常见案例处理及分析1、根目录或/tmp空间满–根目录(/)和/tmp目录是AIX操作系统中两个非常重要的目录。如果这两个目录的空间100%被占用,往往会导致无法登录系统,应用程序工作异常等现象。–一般说来,应保证根目录和/tmp目录的占用率在80%以下如果/或/tmp目录已经占用100%并导致无法登录,可以进行如下尝试–寻找是否有已存在的登录会话,如果有,且为root用户,则使用下面命令扩充/或/tmp文件系统:chfs-asize=+32M/或chfs-asize=+32M/tmp–如果该会话不具有root权限,则尝试su到root用户,如果失败,尝试用以下命令:suroot-c“chfs-asize=+32M/”或suroot-c“chfs-asize=+32M/tmp”注意:该命令需要输入root用户的口令。如果已不存在有效会话,可以尝试是否可以用root用户ftp登录主机–如果可以ftp登录,尝试在ftp会话中删除部分/(或/tmp)目录下的无用文件以释放部分空间–注意:如果要释放/目录的空间,需要删除直接保存在/下或者/etc,/sbin等系统目录下的文件,所以一定要确认文件的确无用才能进行删除。如无法确定,则不应采用此方法。如前面尝试都无效,则必须强制关闭系统(关闭电源)。并使用操作系统光盘引导,加载rootvg后对/或/tmp文件系统进行清理或扩充。2、误删根目录下文件如因误操作在根目录下执行了rm*操作,将会删除根目录下的所有文件及链接。导致无法登录系统,但大部分情况下,业务仍能正常运行。这种情况下的恢复操作和文件系统满的恢复过程类似因根目录下并无关键系统文件,所以rm*操作对AIX的影响仅限与删除了一些链接文件及smit.log,smit.script等log文件。对于恢复系统来说,只需要重建被删除的以下连接就可以了:/bin-/usr/bin/lib-/usr/lib/u-/home/unix-/usr/lib/boot/unix_mp如还有可用的telnet会话,且具有root权限,可以使用如下命令重建链接:ln-s/usr/bin/binln-s/usr/lib/libln-s/home/uln-s/usr/lib/boot/unix_mp/unix如该会话无root权限,仍然可以尝试使用su-c命令:suroot-c“ln-s/usr/bin/bin”suroot-c“ln-s/usr/lib/lib”suroot-c“ln-s/home/u”suroot-c“ln-s/usr/lib/boot/unix_mp/unix”如无可用telnet会话,则也必须强制关闭系统后使用操作系统光盘引导并挂接rootvg后按前面所述命令对链接进行重建。3、系统无法启动系统无法启动的问题可能性非常多,这里粗略的将其分为两大类:–启动过程停止在AIX启动前–启动过程停止在AIX启动后下面针对这两种情况进行简要的讨论:(注意,小型机启动过程相对比较耗时,根据不同型号从15-40分钟不等,所以请等待足够长时间或通过面板显示来确认是否遇到启动故障)启动过程停止在AIX启动前如果在启动过程中,显示器从未出现显示,或者是未出现”Softwareisstarting”字样。控制面板上未出现“AIXisstarting”字样。则故障发生在AIX启动之前。此时应观察以下信息:–机器电源是否接触良好–控制面板上圆形电源指示灯状态:慢闪(2秒一次):机器已上电,但未启动快闪(1秒一次):机器正在启动稳定:机器已启动或正在运行–控制面板上是否有代码或信息显示,如有,请精确记录。在AIX启动前的系统启动故障大多数情况下可能由以下原因导致:–电源问题–启动介质缺失或无法读取–其他硬件问题进一步的分析请联系IBM工程师启动过程停止在AIX启动后如果在启动过程中,屏幕上或控制面板上有显示过”AIXisStarting”或”SoftwareisStarting”字样,则该启动过程已经进入AIX引导过程,机器的硬件基本自检已通过。此时应观察以下信息:–屏幕显示情况–控制面板上是否有代码或信息显示,如有,请精确记录。可能的原因:–文件系统损坏–系统引导需要人工干预–操作系统损坏可以进行的尝试:–重新启动机器–如系统rootvg有镜像,尝试在SMS菜单中选择从第二个硬盘启动–尝试断开不必要的外设后重启进一步的分析请联系IBM工程师4、HA问题目前江苏电力的大部分业务系统都采用双机热备(HA)环境。因此对HA中常出现的问题及如何配合IBM工程师进行解决进行简单介绍:–启动问题–切换问题–停止问题启动问题–启动HA时,应先启动其中一个节点并用命令”tail-f/tmp/hacmp.out”监控无更多输出时,再启动另一节点的HA–启动前,应确认共享VG当前不在任何一个节点上varyon当前节点IP为bootIP,且可相互ping通应用起停脚本在两台机器上都具有可执行权限如果对系统进行过一些更改后HA无法正常启动,应首先尝试对HA进行同步–smittyhacmp—ExtendedConfiguration—ExtendedVerificationandSynchronization注意:对共享VG,FS,LV,服务IP等的更改,需要通过HACMP管理菜单进行,并且在修改后必须进行重新同步切换问题–HA切换中发生的问题非常复杂,这里不仔细讨论,如发生这类问题,如已经影响业务,应立刻和IBM工程师联系。如暂时不影响业务,也需要安排时间对错误进行分析,并建议对系统进行切换测试。停止问题–HA有三个停止选项graceful:正常停止HA服务,释放该节点的资源,不发生切换动作takeover:正常停止HA服务,释放该节点的资源,并触发切换动作。其他节点将根据定义接管相应资源forced:强制停止HA服务,不引发任何释放资源的动作,也不接管。采用该选项后,必须进行人工干预,检查系统状态。停止HA出现问题后,可进行如下尝试(应在IBM工程师指导下进行)–手工停止业务–使用forced方式停止HA–手工varyoff共享VG,如有其他共享资源,手工关闭他们–重新启动机器三、数据收集在系统出现问题后,IBM工程师经常需要现场人员收集若干信息以便进行故障分析。–故障大致过程,主要时间点–控制面板信息–操作系统相关数据–dump数据–HA相关数据故障大致过程,主要时间点–包括故障发生前的主要动作,故障发生时间,故障现象,故障发生后已采取的动作等。控制面板信息–故障发生时,如小型机控制面板上有信息显示,应精确记录下来。–通常为2行,第一行为4位或8位代码,第二行为类似U0.1-P1-V1字样的一串字符操作系统相关数据–如机器仍可访问,或是机器已经重启并进入操作系统,请使用以下命令收集操作系统相关数据:snap-r;snap-gbc然后将/tmp/ibmsupt/snap.pax.Z文件ftp出来并发送给IBM工程师。(如果使用windows自带的ftp命令行,请在传输前输入bin以启用binary模式)dump数据–如果系统发生dump,并且机器已经重启并进入操作系统,按如下步骤收集数据:使用sysdumpdev-L命令检查最近一次dump生成日期是否和故障发生的时间大致吻合使用命令snap-r;snap-ac收集系统信息及dump数据将/tmp/ibmsupt/snap.pax.Z文件传送给IBM工程师分析HA相关数据–/tmp/hacmp.out.*–/usr/es/adm/cluster.log–snap-r;snap-ecQ&AThanks!
本文标题:江苏省电力公司信息中心培训
链接地址:https://www.777doc.com/doc-4352776 .html