您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > SUN设备日常维护手册
SUN设备日常维护手册版本1.0北京华胜天成科技股份有限公司2002.05.10Hotline:800-810-0584Date:2002-05-102SUN设备日常维护手册一.维护目的1.检查设备软硬件工作状态,及时发现出现的各种问题,消除故障,使设备恢复正常工作状态。2.预防各种可能出现的问题,分析系统信息或日志,调整软硬件配置、优化系统,使设备保持最佳的运营状态。3.保存原始数据和系统记录,以便于查询、恢复和分析。日常维护内容应针对不同机型、应用、软件做不同要求的检查,下面维护检查内容是所有机器在维护过程中都应检查的内容。二.系统启动和终止1.检查机房环境。SUN设备对环境温度、湿度要求较高,为了保证机器的稳定性和性能,因此在决定开机之前必须看一下机房的温度表和湿度表,确保环境是机器允许的范围内;据统计,温度每升高10℃计算机的可靠性就下降25%。2.检查UPS系统。非正常掉电对SUN服务器的损害是非常大。为避免这种情况,请为系统中基本都配置了UPS系统。在启动机器之前应对UPS系统进行一次常规检查。3.严守加电规则。设备的加电启动过程是有顺序的,要求必须按照操作手册的规定来操作。否则,很有可能造成对系统的损坏。使用UNIX操作系统的计算机其开关机过程不同于一般的个人PC机。开机过程1)先启动外部设备的电源如外置式硬盘磁带机CD-ROM驱动器等。2)启动主机电源。关机过程1)进入系统根用户帐号root。2)确认没有运行不可中断的任务后执行下列命令中的任一个均可。shutdown使系统在60秒后进入0运行级即ok状态延时可用参数-g调整init0使系统立即进入0运行级即ok状态init5使系统立即进入0运行级并自动关闭主机电源注意应避免使用halt命令它不是关机的好方法三.外围检查范围1.显示器:显示正常、没有模糊、色彩不正、调节失效等不正常现象。2.键盘:操作各键反应灵敏,没有按下不弹起或没有反应等现象。3.鼠标:操作灵活、推动鼠标光标反应灵敏。4.软驱:用命令对磁盘读、写操作正常,写操作后的磁盘在其它设备上可正常读出。5.光驱:用命令对光盘做读、弹出等操作。6.磁带机:用命令对磁带做读、写、各种倒带操作,确保所有操作工作正常。7.主机面板灯:查看电源、硬件、硬盘、运行等状态灯显示是否正常。8.其它显示灯:电源模块等状态灯。9.电源线:电源线插头与插座插接可靠,没有松动;电源线摆放位置合适,不会被误碰掉。Hotline:800-810-0584Date:2002-05-10310.网线连接:网线连接可靠,摆放规整。11.温度、湿度:检查温、湿度数、确保温、湿度在设备要求的范围内。温度应保持在20~23℃,湿度应保持在50~55%12.灰尘:检查设备表面灰尘,定期保持清洁;可利用机器停机时间,及时对机器内部做灰尘清洁。13.漏电保护:确保机器具有可靠接地保护,防止静电放电,造成损坏硬件。14.机器噪音:检查机器是否有异常声音,持续时间。四.系统性能检查和优化1.监视Sun系统的性能RuleandTuning——CPU——Memory——Network——Disk2.影响系统性能的因素低性能可能来源于下面几个层次之一:——应用程序——网络——核心层——系统配置3.搜集信息内容——问自己下面简单的12个小问题:Q1:系统用来作什么?(对系统性能的要求有多高)——系统用来作什么?它上面的基本应用是什么?是文件服务器?数据库服务器?终端用户的CAD工作站?Internet服务器?还是伺服控制系统?Q2:谁是用户?用户在哪?——有多少用户?——他们怎样使用系统?他们可能是一教室的学生,在家上网浏览Internet的人,数据录入人员,开发工程师,实时数据流入,批处理任务——最终用户是否直接相连?通过什么设备相连?Q3:谁反应系统存在性能问题?什么速度比较慢?(性能问题是客观存在的还是主观想法)——最终用户抱怨——客观测试Hotline:800-810-0584Date:2002-05-104Q4:系统的配置如何?(系统配置是否已经足够高)——CPU,内存、网络、硬盘——Solaris的版本——安装了哪些相关patch?Q5:使用了什么应用软件?(性能问题有没有可能是由于软件引起的,其它用户对这些软件的反应如何)——NFSserver:NFSV2orNFSV3——Webserver:SWS,NetscapeorApache——DatabaseserverOracle,InformixorSybasedatabasetablesrunningonrawdiskorinfilesystemtables?Q6:系统中比较忙的进程在做什么?(性能问题是否由于某些或某个进程引起)——哪个进程忙——谁启动的该进程——他们占用了多少CPU——他们占用了多少内存——他们运行了多长时间Q7:CPU的利用率有多少?——CPU的整体忙闲程度如何?——用户进程和系统进程占用CPU的比例怎样?Q8:磁盘的利用率有多少?什么使磁盘忙?——如果整个磁盘系统idle,跳过此问题——磁盘有多忙?——哪个磁盘的负载最重?——单个进程的数据并不反应进程在使用哪块硬盘Q9:网络配置的是什么名字服务?——很多性能问题都是由于名字服务配置不合适所致Q10:网络活动状态如何?——每个网口上包的传输率——NFSclient和server的操作频率——TCP连接,吞吐量,重传率Q11:物理内存够不够?——如果没有内存扫描(scanrate),说明内存足够——如果内存扫描率很高,并且swap所在磁盘忙,说明需要更多内存。Hotline:800-810-0584Date:2002-05-105Q12:最近对系统做了那些修改?——总是了解自己对系统所做的修改很重要添加了更多的用户某些事件会导致较高的用户行为升级应用程序或安装新的版本网络上增加了其它机器硬件配置改变或升级4.监视Sun系统的性能监视系统资源检查Solaris日志和文件,看是否能发现问题利用系统资源监视脚本发现系统瓶颈1)监视系统资源CPU--vmstat,mpstatMemory--vmstatDisk--iostatNetworks--netstatprocess--psOthercommand--sar,nfsstat,swap,prtconf,prtdiag,pkginfo,showrev(patchadd)——用mpstat监视CPUmpstat以表格形式报告每一个CPU的统计数据example%mpstat5CPUminfmjfxcalintrithrcswicswmigrsmtxsrwsysclusrsyswtidl00001043207000735530411010716720420062384058CPUminfmjfxcalintrithrcswicswmigrsmtxsrwsysclusrsyswtidl00001054516610118417051100010897311143079509041——用mpstat监视CPU(cont.)主要输出参数说明:CPU:CPU编号,举例系统中有2个CPUsmtx:锁没有在第一次请求时获得usr:用户进程占用CPU的比例sys:系统进程占用CPU的比例wt:CPU等待的时间的比例id:CPU空闲的比例Hotline:800-810-0584Date:2002-05-106——用vmstat查看CPU和内存状态vmstat报告虚拟内存,磁盘,陷阱和CPU活动的统计数字example%vmstat5procsmemorypagediskfaultscpurbwswapfreeremfpipofrdesrs0s1s2s3insycsussyid0001145641201411913020400481121304148211110132549600500000230018319213412079101101325564002500000180013123111643462101101245412003700000220016617911813367——用vmstat查看CPU和内存状态(cont.)主要输出参数说明r:运行队列中进程个数(已经准备好数据等待运行的进程)。数值大表示CPU忙。swap:当前可用的交换区空间,单位Kbytes。sr:页扫描的次数。数值大表示物理内存不够。us:用户进程占用CPU的比例sy:系统进程占用CPU的比例id:CPU空闲的比例——用iostat查看I/O资源iostat反复报告终端,磁盘,磁带机的I/O活动和CPU的利用率.使用iostat查看各控制器和磁盘的负载.如果磁盘负载不均衡,考虑移走一部分消耗I/O多的行为(例如,虚拟内存)到另外的磁盘或控制器上,或增加一些磁盘、控制器等。——用iostat查看I/O资源(cont.)example%iostat–ctx5extendeddevicestatisticsttycpudevicer/sw/skr/skw/swaitactvsvc_t%w%btintoutussywtidsd00.00.00.00.00.00.00.0000201816013sd30.07.70.0325.30.00.116.005sd60.00.00.00.00.00.00.000st40.00.00.00.00.00.00.000extendeddevicestatisticsttycpudevicer/sw/skr/skw/swaitactvsvc_t%w%btintoutussywtidsd00.01.30.049.30.00.140.803020191900sd33.79.7199.9344.60.00.216.4011Hotline:800-810-0584Date:2002-05-107sd60.00.00.00.00.00.00.000st40.00.00.00.00.00.00.000——用iostat查看I/O资源(cont.)主要输出参数说明:device:系统中的设备,sd为硬盘,st为磁带机,后面的编号是SCSIIDsvc_t:平均服务时间,单位ms。数值大表示数据存储分散,需要整理磁盘。%b:硬盘忙的的时间比例wait:硬盘等待的时间(等待SCSI等接口总线空闲)——网络资源netstat根据选项不同,以各种格式显示与网络有关的各种数据结构。用netstat-i显示网络接口的统计信息.如果输入输出错误比较多,可能是由于网络拥塞或网口问题引起的.网络资源(cont.)example%netstat-i5inputhme0outputinput(Total)outputpacketserrspacketserrscollspacketserrspacketserrscolls179014400359027801215017500431034100156016300312026400主要输出参数说明:packets:通过的包的数量errs:错误的包的数量colls:网络碰撞的数量——进程资源系统中最多允许30000个进程运行。Zombiedefunct进程不会造成性能问题ps显示活动进程的信息%/usr/bin/ps-eopid,pcpu,args|sort+1n按消耗CPU由多到少排列各进程Hotline:800-810-0584Date:2002-05-108%/usr/bin/ps-eopid,vsz,args|sort+1n按消耗内存由多到少排列各进程%/usr/ucb/ps-aux|more由大到小排列,显示各进程消耗CPU和内存的情况Example:%/usr/ucb/ps-aux|headUSERPID%CPU%MEMSZRSSTTSSTARTTIMECOMMANDadrianc3331.08.283725120consol
本文标题:SUN设备日常维护手册
链接地址:https://www.777doc.com/doc-3426942 .html