您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > Domino服务器故障分析以及处理方法
Domino服务器故障分析以及处理方法蒋军燕Lotus技术工程师2议议议议议议程程程程程程●三种故障类型:宕机、挂起、性能●故障数据收集方法●基本故障诊断方法●数据库损坏32010/12/9宕宕宕宕宕宕机机机机机机((((((Crash))))))●一个定义明确的事件:服务器在程序或操作系统级别碰到了一个致命性的异常错误。必须重新启动。●主控台日志或操作系统会记录错误信息(比如:PANIC,FATAL,AccessViolation)●如果配置了自动收集诊断信息,NSD日志会自动创建。●可能的原因:▬访问冲突▬堆栈溢出或覆盖▬内存损坏▬无效的句柄或指针▬内存不足42010/12/9挂挂挂挂挂挂起起起起起起((((((Hang))))))●服务器(或特定任务)仍在运行,但是对于用户没有任何响应●主控台上没有错误信息●程序不能完全退出●NSD没有自动创建●可能的原因:▬死循环▬死锁▬集中使用不能并行操作的、被信号灯(semaphore)保护的资源●Server挂起▬任何客户端都无法连接Domino服务器●HTTP挂起▬NotesClient可以连接Domino服务器▬浏览器无法连接Domino服务器挂挂挂挂挂挂起起起起起起((((((Hang))))))562010/12/9性性性性性性能能能能能能((((((Performance))))))●服务器仍在运行,但是用户反映操作很慢●主控台上没有错误信息●严重的性能问题看起来像是挂起●过一段时间服务器可能会恢复正常●NSD没有自动创建●可能的原因:▬CPU,I/O使用过于集中,网络延迟▬集中使用不能并行操作的、被信号灯保护的资源,例如:▬文档修改过多导致视图索引更新慢▬代理很长时间没有执行完毕7议议议议议议程程程程程程●三种故障类型:宕机、挂起、性能●故障数据收集方法●基本故障诊断方法●数据库损坏收集数据步骤举例–Unix平台上Domino服务器挂起●在在在在在在服服服服服服务务务务务务器器器器器器上上上上上上设设设设设设置置置置置置以以以以以以下下下下下下调调调调调调试试试试试试参参参参参参数数数数数数:CONSOLE_LOG_ENABLED=1DEBUG_THREADID=1DEBUG_CAPTURE_TIMEOUT=1DEBUG_SHOW_TIMEOUT=1方法一:在notes.ini中直接添加,最后一行保持空行,需要重新启动服务器方法二:在主控台上执行以下命令,无需重启domino服务器setconfigCONSOLE_LOG_ENABLED=1setconfigDEBUG_THREADID=1setconfigDEBUG_CAPTURE_TIMEOUT=1setconfigDEBUG_SHOW_TIMEOUT=18收集数据步骤举例–Unix平台上Domino服务器挂起(续)●发发发发发发生生生生生生问问问问问问题题题题题题时时时时时时▬在Domino主控台执行如下命令:shservershtaskdebugshtasktimeshusershstat▬手工收集nsd日志:1)打开一个命令窗口,用notes用户登录2)进入dominodata目录,例如cd/local/notesdata3)在domino程序目录下执行nsd,例如opt/lotus/bin/nsd4)当nsd运行结束,会回到命令行状态5)如果时间允许,5分钟后再次运行nsd9收集数据步骤举例–Unix平台上Domino服务器挂起(续)●退退退退退退出出出出出出Domino服服服服服服务务务务务务器器器器器器::::::▬在Domino主控台输入‘q’或者‘quit’命令▬如果不能正常退出,需要通过OS命令窗口上进入domino数据目录,然后执行‘/opt/lotus/bin/nsd-kill’这个命令(在domino程序目录下)来杀掉所有Domino进程●需需需需需需要要要要要要收收收收收收集集集集集集的的的的的的数数数数数数据据据据据据::::::▬Nsdlog::::::文件名:nsd_plaftform_ServerName_date@time.log,date/time应是nsd运行的时间▬Consolelog::::::文件名:console_name_yyyy_mm_dd@hh_mm_ss.log,thedate/time应是服务器最后一次启动的时间▬Semdebugtxt:文件名:SEMDEBUG_name_yyyy_mm_dd@hh_mm_ss.TXT,thedate/time应是服务器最后一次启动的时间在在在在在在Domino的的的的的的数数数数数数据据据据据据目目目目目目录录录录录录下下下下下下的的的的的的IBM_TECHNICAL_SUPPORT子子子子子子目目目目目目录录录录录录下下下下下下●发送以上三个文件给LotusSupport工程师1011●memory.dump▬“showmemorydump”命令▬程序文档●htthr.log(每个物理线程的http请求日志)▬HttpEnableThreadDebug=1默默默默默默认认认认认认都都都都都都在在在在在在Domino的的的的的的数数数数数数据据据据据据目目目目目目录录录录录录下下下下下下的的的的的的IBM_TECHNICAL_SUPPORT子子子子子子目目目目目目录录录录录录下下下下下下其他经常用到的数据12●Domino服务器宕机的数据收集步骤(非HTTP)▬=1897668A03001●DominoHTTP服务器宕机的数据收集步骤▬=1897668A03002●Windows平台上DominoHTTP挂起的数据收集步骤▬=1847668A03000●Unix平台上DominoHTTP挂起的数据收集步骤▬=1807668A03000●Windows平台上Domino挂起的数据收集步骤(非HTTP)▬=1847668A03001●Unix平台上Domino挂起的数据收集步骤(非HTTP)▬=1807668A03001●如何设置服务器自动收集memorydump文件▬=1897668A10000如何收集数据132010/12/9Domino在在在在在在出出出出出出现现现现现现故故故故故故障障障障障障后后后后后后清清清清清清除除除除除除故故故故故故障障障障障障并并并并并并重重重重重重新新新新新新启启启启启启动动动动动动的的的的的的一一一一一一种种种种种种能能能能能能力力力力力力–终止Domino的每一个进程并释放所有相关资源–使用故障诊断工具NSD来记录故障现场信息–重新启动Domino,并向域中的个人或者群组发送失败通知服务器自动恢复14议议议议议议程程程程程程●三种故障类型:宕机、挂起、性能●故障数据收集方法●基本故障诊断方法●数据库损坏152010/12/9诊诊诊诊诊诊断断断断断断Domino宕宕宕宕宕宕机机机机机机●如如如如如如果果果果果果服服服服服服务务务务务务能能能能能能正正正正正正常常常常常常重重重重重重启启启启启启▬收集NSD,consolelog等文件▬检查NSD确定引起宕机的任务和调用堆栈关键字:Fatal/Panic▬检查宕机是否是一个已知的问题诊诊诊诊诊诊断断断断断断Domino宕宕宕宕宕宕机机机机机机------案案案案案案例例例例例例分分分分分分析析析析析析●nsd文件名:●nsd_W32I_OAServer_2010_11_22@11_07_51.log●服务器版本:HostName:Host1UserName:AdministratorDate:WedNov2211:07:512010WindowsDir:C:\WINDOWSArguments:D:\ProgramFiles\Lotus\Domino\nsd.exe-dumpandkill-termstatus5-crashpid3932-crashtid668NSDVersion:7.0.2.2461(Release7.0.2)OSVersion:WindowsServer20035.2(Build3790),PlatID=2,ServicePack2(4Processors)Buildtime:WedSep2705:03:452006Latestfilemod:ThuSep1415:57:242006NotesVersion:Release7.0.216诊诊诊诊诊诊断断断断断断Domino宕宕宕宕宕宕机机机机机机------案案案案案案例例例例例例分分分分分分析析析析析析((((((续续续续续续))))))●MM/OSfield@@------NotesMemoryAnalyzer(memcheck)-MM/OSStructureInformation(Time11:08:18)------@@StartTime=2010-11-2205:02:10CrashTime=2010-11-2211:06:51ConsoleLogEnabled=1ConsolePosition=722ConsolePosition=722SharedDPoolSize=4194304FaultRecovery=0x00010012CleanupScriptTimeout=600CrashLimits=3crashesin5minutesStaticHang=[nhttp:0f5c:0018]/[nhttp:0f5c:029c](0xf5c/0x18/0x29c)ConfigFileSem=(SEM:#0:0x010d)n=0,wcnt=-1,Users=-1,Owner=[:0000]FDSem=(RWSEM:#52:0x410f)rdcnt=-1,refcnt=0Writer=[:0000],n=52,wcnt=-1,Users=0,Owner=[:0000]17诊诊诊诊诊诊断断断断断断Domino宕宕宕宕宕宕机机机机机机-案案案案案案例例例例例例分分分分分分析析析析析析((((((续续续续续续))))))###############################################################FATALTHREAD31/65[nhttp:0f5c:029c]###FP=0x0d18fea0,PC=0x62c90636,SP=0x0d18fe7c###stkbase=0d1a0000,totalstksize=262144,usedstksize=65924###EAX=0x00000000,EBX=0x0d18fefc,ECX=0x42dc7000,EDX=0x42dc7000###ESI=0x0d18febc,EDI=0x00000000,CS=0x0000001b,SS=0x00000023###DS=0x00000023,ES=0x00000023,FS=0x0000003b,GS=0x00000000Flags=0x00010297Exceptioncode:c0000005(ACCESS
本文标题:Domino服务器故障分析以及处理方法
链接地址:https://www.777doc.com/doc-5037599 .html