您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 曙光高性能集群系统使用及管理-201408
曙光高性能集群管理及使用解决方案中心2014年8月集群系统的登录方式程序编译与作业提交使用Gridview和ClusPortal提交和管理作业集群系统的管理与维护目录Windows用户可以用SSHSecureShellClient,Xshell,PuTTY,SecureCRT等SSH客户端软件登录。推荐使用SSHSecureShellClientLinux用户可直接在命令行终端中执行ssh命令登录命令行终端登录$sshusername@登录节点IP地址Windows用户可使用SSHSecureShellClient,Xftp,WinScp等软件实现文件的上传下载推荐使用SSHSecureShellClientLinux用户可直接在命令行终端中执行scp命令登录文件上传下载$scp文件名username@登录节点IP地址:文件路径远程图形界面登录推荐使用VNC方式。第一次使用VNC登录前,需要先以命令行终端方式登录到集群登录节点,执行vncserver命令,会提示用户输入VNC登录密码,输入后会得到一个VNC会话,一般是“主机名:VNC会话号”格式,如“node32:4”。Windows用户推荐使用RealVNC软件,登录时输入集群登录节点IP地址加VNC会话号即可:Linux用户可直接在命令行终端中执行vncviewer命令图形界面登录(远程桌面)$vncviewer[登录节点IP地址]:[sessionnumber]GridviewWeb登录普通用户可通过Web方式登入曙光GridView集群管理系统,进行查看、监控、和使用等操作。在浏览器中输入以下URL即可出现登录界面:http://*.*.*.*:6080/gridview_portalneeded程序编译与作业提交使用Gridview和ClusPortal提交和管理作业集群系统的管理与维护集群系统的登录方式目录串行程序的运行方法一:方法二:$cd/home/your_account/your_workdir$./your_code$cd$HOME$vim.bashrcexportPATH=/home/your_account/your_workdir:$PATH$your_code并行程序的编译运行(openmpi)OpenMPI提供了C/C++,Fortran等语言的MPI编译器,如下表:MPI编译器是对底层编译器的一层包装,通过-show参数可以查看实际使用的编译器:语言类型MPI编译器CmpiccC++mpicxxFortran77mpif77Fortran90mpif90$mpicc-showicc-I/public/software/mpi/openmpi-16-intel/include-pthread-L/public/software/mpi/openmpi-16-intel/lib-lmpi-ldl-lm-lnuma-Wl,--export-dynamic-lrt-lnsl-lutil并行程序的编译运行(openmpi)编译程序:$source/public/software/profile.d/openmpi-intel-env.sh$mpicc-ohellohello.c$mpif90-ohellohello.f90$mpirun-npN-hostfilefilenameprogramnode1slots=8node2slots=8运行程序:OpenMPI使用自带的OpenRTE进程管理器,启动命令为mpirun/mpiexec/orterun,基本格式如下:其中-npN:表示运行N个进程-hostfile:指定计算节点,文件格式如:创建脚本并提交作业在PBS系统中,可以使用qsub命令提交作业运行程序的命令及PBS环境变量设置组成PBS作业脚本,格式如下:•注释以“#”开头•PBS指令以“#PBS”开头•SHELL命令•运行程序的命令及PBS简单脚本提交示例:$qsubxxx.pbs#PBS-Ntest#PBS-lnodes=1:ppn=1#PBS-lwalltime=12:00:00#PBS-qbatchcd$PBS_O_WORKDIRmpirun./test.exe$vimtest.pbs$qsubtest.pbsPBS作业提交步骤准备:编写描述改作业的脚本,包括作业名,需要的资源等。提交:使用qsub命令将该作业提交给PBS服务器排队:服务器将该任务排入适当的队列调度:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度。执行:当条件满足时,作业被发给相应的执行服务器执行。程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户。查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。用户发现作业提交错误时,可以使用qdel删除正在运行的作业。查看结果:使用文本编辑软件vi或者系统命令cat,less等查看输出及错误信息显示。PBS的基本命令qmgr-c'ps'此命令可以查看作业调度系统的配置信息;qstat–q该命令可以查看系统中存在的队列,qstat还有其他参数比较常用:-B:列出PBS服务器的相关信息-Q:列出队列的一些限制信息-an:列出队列中的所有作业及其分配的节点-r:列出正在运行的作业-fjobid:列出指定作业的详细信息-Qfqueue:列出指定队列的所有信息pestat该命令可以查看节点的状态信息,其中excl:所有CPU资源已被占用;busy:CPU已接近满负荷运行;free:全部或部分CPU空闲;offl:管理员手动指定离线状态;PBS的基本命令qdel作业号此命令可以删除队列中的作业,普通用户只能删除自己的作业;pbsnodes此命令也可以查看节点的状态,该命令常用以下参数:-a:列出所有结点及其属性,属性包括“state”和“properties”-l:以行的方式列出被标记的结点的状态,如-lfree,-loffline-o:将指定结点的状态标记为“offline”(管理员)-c:清除结点列表中的“offline”状态设置,使结点可用(管理员)-r:重设“offline”或“down”的节点的状态,如果可用,设为free(管理员)qorder作业号1作业号2qmove队列名作业号qalter-l所需资源作业号qhold作业号qrls作业号qsub-N作业名-l所需资源-q队列名PBS作业脚本PBS资源的申请#PBS-lmem=200mb#PBS-lwalltime=01:00:00#PBS-lnodes=1:ppn=4#PBS-lnodes=4:ppn=2#PBS-lnodes=node01+node02+node03#PBS-lnodes=server:ib+3:bigmem:ib#PBS-lnodes=2:blue:ppn=2+red:ppn=3+b1014#PBS-lnodes=4:ppn=4,mem=200mb#PBS-lother=matlab$catTORQUEHOME/server_priv/nodesnode01np=4serverdualcoreibnode02np=8bigmemmatlabib……PBS常用环境变量变量名说明登陆SHELL继承来的变量$HOME,$LANG,$PATH,$MAIL,$SHELL等$PBS_O_HOSTqsub提交的节点名称$PBS_O_QUEUEqsub提交的作业的最初队列名称$PBS_O_WORKDIRqsub提交的作业的绝对路径$PBS_JOBID作业被PBS系统指定的作业号$PBS_JOBNAME用户指定的作业名,可以在作业提交的时候用qsub–N作业名指定,或者在PBS脚本中加入#PBS–N作业名。$PBS_NODEFILEPBS系统指定的作业运行的节点名。该变量在并行机和机群中使用。当在PBS脚本中用#PBS–lnodes=2:ppn=2指定程序运行的节点数时,可以使用$PBS_NODEFILE在脚本中引用PBS系统指定的作业运行的节点名。比如:#PBS–lnodes=2:ppn=2mpirun–np4–machinefile$PBS_NODEFILE程序名$PBS_QUEUEPBS脚本在执行时的队列名串行脚本示例#PBS-Nserial#PBS-lnodes=1:ppn=1#PBS-joe#PBS-lwalltime=60:00:00#PBS-qserialechoThisjobsis$PBS_JOBID@$PBS_QUEUEcd${PBS_O_WORKDIR}echobegintimeis`date`sleep100hostnameechoendtimeis`date`#PBS-lnodes=1:ppn=1表示申请1个节点上的1颗CPU。#PBS-qserial表示提交到集群上的serial队列。并行脚本示例(openmpiforcpi)#PBS-Nopenmpi#PBS-lnodes=1:ppn=8#PBS-joe#PBS-lwalltime=2:00:00cd$PBS_O_WORKDIRLOGFILE=openmpi.logNP=`cat$PBS_NODEFILE|wc-l`echomyjobidis$PBS_JOBID|tee$LOGFILEechorunnodesisfollowing:|tee-a$LOGFILEcat$PBS_NODEFILE|tee-a$LOGFILEechobegintimeis`date`|tee-a$LOGFILEmpirun-np$NP-hostfile$PBS_NODEFILE--mcaorte_rsh_agentssh--mcabtlself,openib,sm./cpi2&1|tee-a$LOGFILEechoendtimeis`date`|tee-a$LOGFILE使用Gridview和ClusPortal提交和管理作业集群系统的管理与维护集群系统的登录方式程序编译与作业提交目录使用Gridview和Clusportal作业提交应用模板作业管理策略管理用户记账队列管理用户管理节点管理调度器管理普通用户可通过Web方式登入曙光GridView集群管理系统,进行查看、监控、和使用等操作。在浏览器中输入以下URL即可出现登录界面:http://*.*.*.*:6080/gridview_portalneeded使用Gridview和Clusportal使用Gridview和Clusportal普通用户可以做什么?普通用户可以做什么?普通用户可以做什么?普通用户可以做什么?使用Clusportal提交作业完善的参数多个集群Portal监控管理统计报表……调度策略Clusportal集群应用门户优势Gridview的一个子模块:平台无关的单一系统映像。减小了用户的软件安装以及跨平台使用的学习成本,实现了对高性能计算的完美封装,降低高性能计算的使用门槛。高容错性保障。实现了对用户输入、系统命令、文件权限、作业文件、计算资源等多方面的检查与确认功能,更加安全的用户作业提交方式,减小误操作几率;基于web方式的提交。提交方式的限制,可降低用户操作难度,减少用户操作带来的系统不稳定因素,同时提高高性能和计算内部网络的安全性。与综合管理系统的无缝集成,可实现可视化交互式作业提交,且支持用户定制开发集成Clusnap接口,集成Clusquota接口,实现作业自动故障迁移,实现计算资源可视化。SerialandOpenMPClusportalSerialandOpenMPClusportalSerial是GridviewClusportal最基本的portal,可以支持串行程序和openmp程序的作业提交运行,并支持vnc的图形作业,支持clusnap的自动checkpoint功能,支持和Clu
本文标题:曙光高性能集群系统使用及管理-201408
链接地址:https://www.777doc.com/doc-2340214 .html