您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > IBM-小型机日常管理和故障处理
1IBM小型机日常管理与故障处理2内容提要系统健康检查HMC的使用ASMI的使用常用操作故障的处理IBM服务热线3系统健康检查4系统健康检查巡检用户:xunjian(普通权限)。至/tmp/xunjian/目录下执行common_check.sh脚本。查看输出的日志:morepxxx20160920.log,进行系统的状态查看。5系统健康检查检查文件系统–查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。#df-k(查看AIX的基本文件系统)Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd424576145295%259922%//dev/hd26144002806896%2296715%/usr/dev/hd9var8192454045%64932%/var/dev/hd31679361579686%891%/tmp/dev/hd116384533268%140235%/home6系统健康检查查看卷组信息–lsvg-lvg_name–有没有stale状态的逻辑卷。–用syncvg命令修复。#smittysyncvgLVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot122closed/syncdN/Ahd6paging48962open/syncdN/Apaging00paging32642open/syncdN/Ahd8jfslog122open/syncdN/Ahd4jfs122open/stale/hd2jfs32642open/syncd/usrhd9varjfs5102open/syncd/varhd3jfs482open/syncd/tmphd1jfs122open/syncd/home7系统健康检查网络检查–netstat-i查看网卡状态–Ierrs/Ipkts和Oerrs/Opkts是否1%–pinghost_name/IPAddress–查看是否通和是否有丢包。–路由表–#netstat-rn–查看路由表是否正确,ping各路由器是否通。–核对主机名–#hostname8系统健康检查#ifconfig-aen0:flags=4e080863UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,PSEGinet172.40.10.31netmask0xffff0000broadcast172.40.255.255lo0:flags=e08084bUP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BITinet127.0.0.1netmask0xff000000broadcast127.255.255.255inet6::1/09系统健康检查#lsattr–Elinet0authm65536AuthenticationMethodsTruehostnameqtsmsHostNameTruegatewayGatewayTrueroutenet,,0,172.40.10.1RouteTruebootup_optionnoSerialOpticalNetworkInterfaceTruerout6FDDINetworkInterfaceTrueroute属性是否有相应的路由信息。格式为:net,,0,172.16.23.81如果没有缺省路由,执行命令:#chdev–linet0–aroute=0,172.16.23.81其中172.16.23.81为网关如果缺省路由不正确,则先删除路由,再增加缺省路由:#chdev–linet0–adelroute=net,,0,133.16.23.81#chdev–linet0–aroute=0,172.16.23.8110系统健康检查系统故障记录(errorlog)–errdemon进程在系统启动时自动运行–记录包括硬件、软件及其他操作信息–故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析–errpt命令的使用(普通用户权限也可使用)11系统健康检查#errpt|more列出简短出错信息ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED10720131000PHmem2Memoryfailure9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日时分年)T(类型):P永久;T临时;U未知(永久性的错误应引起重视)C(分类):H硬件;S软件;O用户;U未知#errpt-dH列出所有硬件出错信息#errpt-dS列出所有软件出错信息#errpt-ajERROR_ID列出详细出错信息12系统健康检查#errpt-aj0502f666---ERROR_ID用大小写均可LABEL:SCSI_ERR1ID:0502F666Date/Time:Jun1922:29:51SequenceNumber:95MachineID:123456789012NodeID:host1Class:HType:PERMResourceName:scsi0ResourceClass:adapterResourceType:hscsiLocation:00-08VPD:---VirtalProductDataDeviceDriverLevel.........00DiagnosticLevel............00DisplayableMessage.........SCSIECLevel....................C25928FRUNumber..................30F8834Manufacturer................IBM97FPartNumber.................59F4566SerialNumber...............00002849ROSLevelandID............24Read/WriteRegisterPtr.....012013系统健康检查DescriptionADAPTERERRORProbableCausesADAPTERHARDWARECABLECABLETERMINATORDEVICEFailureCausesADAPTERCABLELOOSEORDEFECTIVERecommendedActionsPERFORMPROBLEMDETERMINATIONPROCEDURESCHECKCABLEANDITSCONNECTIONSDetailDataSENSEDATA00000000000000000000000000000000000000000000000014HMC的使用15HardwareManagementConsole–进行P系列小型机的硬件管理、维护,以及逻辑分区的划分等–必须配置HMC对其进行管理–如果需要划分逻辑分区,则必须配置HMC–HMC通过TCP/IP与需要管理的主机进行连接HMC使用16HMC使用–操作界面17HMC使用–操作界面18HMC使用–操作界面19HMC使用–操作界面20HMC使用–操作界面21HMC使用–操作界面22HMC使用–操作界面点击关闭事件23HMC使用–操作界面点击机器前面板黄灯24ASMI的使用25ASMI的使用AdvancedSystemManagementInterface–硬件故障信息–硬件设备信息–硬件状态信息–CUoD可以在任何时候访问(机器在PowerOff状态,或者Operating状态)26ASMI的使用–连接方式HMCGUI–使用硬件管理终端访问网页模式–使用PC或笔记本,用网线连接到负责HMC和FSP通信的交换机、或者HUB上–通过浏览器,输入FSP的IP地址即可访问ASMI串口模式–使用串口线链接到串口,可访问字符界面ASMI27ASMI的使用–连接方式28ASMI的使用–访问界面(Web)29ASMI的使用–访问界面(Web)30常用操作31常用操作---HACMP的操作HACMP的操作–启动:smittyclstart–停止:smittyclstop–启动/停止过程可以查看/tmp/hacmp.out文件:#tail–f/tmp/hacmp.out检查Cluster是否运行正常–Cluster进程是否运行:#lssrc–gcluster,至少两个进程,且为active。–IP地址是否获取:#netstat–i,看bootIP是否变为serviceip。–VG是否varyon:#lsvg–o–文件系统是否mount:#mount–应用进程是否启动:#ps–ef|grepapp_name32常用操作---HACMP的操作HACMP相关日志–/usr/adm/cluster.log;以事件为单位的纪录–/tmp/hacmp.out;详细记录–/usr/sbin/cluster/history/cluster.mmdd;历史纪录33常用操作---HACMP的操作使用clstat-o命令查看hacmp的状态34常用操作---HACMP的资源切换smittyhacmp-SystemManagement(C-SPOC)-ResourceGroupandApplications-MoveResourceGroupstoAnotherNode35常用操作---HACMP的资源切换36AdministrationGuideConceptsandFacilitiesGuideHACMPTroubleshootingGuidePlanningandInstallationGuide以上文档可以在随机所带的光盘上找到常用操作---HACMP参考文档37故障处理38故障处理---故障的定义弄清楚系统发生了什么问题–系统现在能做什么?不能做什么?–故障什么时候发生的?–有没有做平时不同的操作?–故障有没有规律?定时还是不定时?发生的频率有多高?–是一台机器出现故障还是多台机器故障?故障现象是否相同?–最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置(如HACMP配置)等。39故障处理---故障信息的收集收集故障信息对于判断、诊断故障原因,修复系统非常重要。系统故障记录(errorlog)–errdemon进程在系统启动时自动运行–记录包括硬件、软件及其他操作信息–故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析–errpt命令的使用(普通用户权限也可使用)40故障处理---故障信息的收集HMCServicefocalpoint–记录了连接在此台HMC上的所有P系列主机的硬件报错信息。–选择“Servicefocalpoint“,选择“ManageServiceableEvents“。–可以根据主机、机柜序列号进行查询#mail系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root41故障处理---故障信息的收集其他用于收集系统信息的命令–lsdev-C系统设备信息#lsdev-Ccdiskhdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrivehdisk1Available00-06-00-1,04.5GB
本文标题:IBM-小型机日常管理和故障处理
链接地址:https://www.777doc.com/doc-3093476 .html