您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > torque使用指南
Tip1:Bydefault,jobsubmissionisallowedonlyontheTORQUEserverhost(hostonwhichpbs_serverisrunning).EnablementofjobsubmissionfromotherhostsisdocumentedinConfiguringJobSubmitHosts.Masternode:node3Submitajob:Qsub查询作业状态:qstat/qstat–f查询节点状态:pbsnodes–a第一步:安装Yuminstalltorque*安装之后的路径:/var/torque第二步:配置配置控制节点:1.执行/usr/share/doc/torque-2.5.7/torque.setup,将本节点配置为管理节点。命令:./torque.setupusername(指定一个非root用户名)qmgr-c'ps'//查看配置信息2.具体指定计算节点在目录TORQUE_HOME/server_priv/nodes建立文件nodes,具体指定集群中的计算节点。简单示例如下:#Nodes001and003-005areclusternodes#node001np=2cluster01rackNumber22##node002willbereplacedsoonnode002:tswaitingToBeReplaced#node002willbereplacedsoon#node003np=4cluster01rackNumber24node004cluster01rackNumber25node005np=2cluster01rackNumber26RAM16GBnode006node007np=2node008:tsnp=4配置计算节点:在计算节点的TORQUE_HOME/mom_priv/config文件中修改$pbsserverheadnode#note:hostnamerunningpbs_server$logevent255#bitmapofwhicheventstologPbsserver为你的集群中的管理节点的hostname.3.重启节点计算节点:pbs_mom控制节点:qterm-tquickpbs_server注意事项:1.在torque中在执行mpi程序时。执行运行作业的不同节点的用户之间必须要配置为ssh服务相互间访问不用密码。安装中出现的错误:Mpirun中找不到共享文件库时:错误6:errorwhileloadingsharedlibraries:xxx.so.0:cannotopensharedobjectfile:Nosuchfileordirectory原因:程序执行时,系统不知道xxx.so放在哪个目录下解决:/etc/ld.so.conf中加入xxx.so所在的目录若libesmf.so在/usr/local/esmf/lib下则在/etc/ld.so.conf的下一行加入/usr/local/esmf/lib最后运行/sbin/ldconfig–v配置好后重启时,执行qterm-tquick:报错:[root@node2mom_priv]#qterm-tquickCannotconnecttodefaultserverhost'localhost'-checkpbs_serverdaemon.qterm:couldnotconnecttoserver''(111)Connectionrefused启动pbs_server时报错:[root@node2server_priv]#pbs_serverPBS_Server:LOG_ERROR::Nosuchfileordirectory(2)inget_svr_attr,Unabletoreadserverdatabasepbs_server:failedtogetserverattributes上述两个错误都是出现在在计算节点企图启动管理daemon导致的哦。
本文标题:torque使用指南
链接地址:https://www.777doc.com/doc-4577694 .html