您好,欢迎访问三七文档
LSF(loadsharingFacility)是由platform公司开发的公布资源管理工具。它用来调度,监视,分析联网计算机的负载,可以对cluster机群的资源统一调度和监控。一.LSF使用方法1.设置环境变量:用户使用LSF前,应设置相应的环境变量:Csh用户,登陆系统后执行source/export/lsf/cshrc.lsfBash用户,登陆系统后执行./export/lsf/conf/profile.lsf用户也可写入.cshrc或.bashrc,则登录后就能设置相应的环境变量。2.提交作业LSF使用bsub提交作业。Bsub命令常见用法如下:Bsub–nz–qQUEUENAME–iinputfile–ooutputfileCOMMAND其中z代表了提交作业需要的cpu数,-q指定作业提交到的队列。如果不采-q选项,系统把作业提交到默认作业队列。Inputfile代表程序需要读入的文件名(例如namelist等),outputfile代表一个文件,作业提交后标准输出的信息将会保存到这个文件中。COMMOND是用户要运行的程序。(1)对于串行程序COMMOND可以直接使用用户的程序名例如,对一个运行时间12小时内完成的串行作业mytest,提交方式为:Bsub–n1–qQS_Norm–omytest.out./test(2)对于并行作业COMMAND为“-ampich_gmmpirun.lsf程序名”因为并行作业必须用到MyriNET库,所以提交的时候必须使用-ampich_gmmpirun.lsf例如,对于一个12个小时内完成,使用16个CPU的并行作业mytest,提交方式为:bsub–n16–qQN_Norm–omytest.out–ampich_gmmpirun.lsf./mytest.目前,系统规定每个用户最多只能使用16个CPU。3.使用脚本提交作业Bsub命令可以使用输入脚本多次提交具有相同参数的作业,格式为:#BSUB–nZ#BSUB–qQUEUENAME#BSUB–oOUTPUTFILECOMMAND该脚本的参数与命令行“bsub–nZ–qQUEUENAME–ooutputfileCOMMAND”参数相同。提交时为bsub脚本名。例如要提交一个12小时内完成,需要16个CPU的并行作业mytest,可以编写脚本bsub.scriptfile#BSUB–n16#BSUB–qQN_Norm#BSUB–omytest.out-ampich_gmmpirun.lsf./mytest作业提交方法为:bsubbsub.scriptfile二.LSF队列状况LSF分了如下几个作业组:1、长时间并行作业组(LSF管理)该队列用于运行长时间并行作业,作业不限执行时间。作业规模限制为:最多使用16个CPU。2、串行作业组(LSF管理)(1)QS_Norm队列该队列用于串行短时间作业,最长作业执行时间为12小时。(2)QS_Long该队列专用于长时间串行作业,作业不限执行时间。3、短时间并行作业组(LSF)管理(1)QN_Norm队列该队列用于运行短时间并行作业,最长作业执行时间为12小时。(2)QN_Debug队列该队列用于调试或试算,最长作业执行时间为5分钟。请用户根据自己的需求,选择适当的作业进行作业提交。附:队列命名规则新的队列命名遵循一定的潜规则,下面详细解释队列名中各字母的含义:QL_Norm:Q代表queues;L代表long,表示该队列运行长时间并行作业;QN_Norm:Q代表queues;N代表normal,表示该队列运行短时间。并行作业:QS_Norm:Q代表queues;S代表serial,表示该队列运行短时间串行作业;QS_Long:Q代表queues;S代表serial,表示该队列运行串行作业;Long表示长时间运行;三.查看作业状态和删除作业等几个常用的指令:Bjobs检查提交作业状态BjobsBjobs–wBjobs–r显示正在运行的作业Bjobs–a显示正在运行的和最近完成的作业Bjobs–p显示等待运行的作业和等待原因Bjobs–s显示正在挂起的作业和挂起的原因Bjobs–l显示该作业的所有信息Bhist显示最近完成作业或正在运行作业的历史情况BhistjobidBkill删除不需要的作业BkilljobidBkill–rjobidBpeek当作业正在运行时显示它的标准输出,监视作业运行BpeekjobidBqueues显示队列信息BqueuesBqueues–lqueuenameLsload显示各节点负载信息LsloadLsloadhostnameLshosts处理各节点静态资源信息LshostsLshostshostaname
本文标题:LSF简单使用手册
链接地址:https://www.777doc.com/doc-7094656 .html