您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > LSF作业调度系统和超
LSF作业调度系统和超算队列介绍中国科学技术大学·超级计算中心张运动2019/3/14常见问题在线查询系统作业调度系统的作用•计算任务按照提交先后顺序进入队列排队•监控节点状态,分配节点给作业使用,并完成计算•制定限制规则,保障长期使用的合理性、公平性等•记帐功能作业调度系统的使用步骤•1.准备输入文件:•通过sftp等方式将已准备好的计算任务文件上传到超算系统上,或可直接在超算系统上使用vim等编写输入文件。注意Windows系统上传文件时请使用二进制文件格式或在上传之后使用dos2unix命令对文件进行格式转换。•2.提交计算任务:•使用bsub命令将作业提交到LSF作业调度系统上。若提交成功,系统会显示提示信息,已提交的任务将分配得到一个作业号,并进入队列排队。•利用bjobs命令可查看已提交的作业。若提交不成功,请根据系统提示执行后续操作。作业调度系统的使用步骤•3.调整队列中的作业参数:•尚在队列中排队的作业可以调整提交参数,已经开始运行的作业无法再调整提交参数,使用命令为bmod。比如,更改作业所在队列、计算所需进程数、输出结果文件名、调整用户自己排队中作业的前后顺序等。•4.调度资源与分配运行:•LSF作业调度系统会实时的监测各个计算节点的空闲情况及状态,判断是否满足队列中排队作业的计算使用需求。若满足需求,则会为作业分配计算节点进行计算。作业调度系统的使用步骤•5.作业开始计算:•LSF监测并收集正在执行的作业状态信息及输出信息,并将输出结果信息生成在作业提交时的文件目录下或作业提交时指定的文件中。•6.作业查询与终止:•可通过查看作业默认或指定的输出文件或使用bpeek命令进行输出状态查询。若程序计算异常,可使用bkill命令终止删除作业。•7.获取计算结果:•可使用more、cat等Linux系统命令在系统上直接查看结果文件。或将文件通过sftp等方式下载到个人电脑上进行后期处理分析。作业调度系统的使用步骤•以上,4、5步骤将由LSF作业调度系统自动完成,无需用户参与。•及时观察作业提交、运行后的执行情况,异常作业请及时杀掉。•严格禁止跳过作业调度系统提交作业,否则受罚。•简单三步走:准备输入文件、提交计算、处理计算结果前期准备:了解系统配置按节点配置不同设置不同队列,根据需要选择使用配置参数越高计算越快•node1-node300:•节点配置:24核2.5GHzCPU、64GB内存、56GbpsIB网络•使用队列:testv3、smallib、mediumib、独占队列、ahedu、qsce,适合小规模并行作业•node301-node450:•节点配置:28核2.4GHzCPU、128GB内存、100GbpsOPA网络•使用队列:smallopa、longopa、largeopa,适合大规模并行作业前期准备:了解系统配置按节点配置不同设置不同队列,根据需要选择使用•node451-node490:•节点配置:4核3.5GHzCPU、32GB内存、100GbpsIB网络•使用队列:e3v5,适合CPU高主频小作业•node491-node494:•节点配置:144核2.2GHzCPU、1TB内存、100GbpsOPA网络•使用队列:fat144,适合大内存需求作业•K801-k804:•节点配置:28核2.4GHzCPU、2块k80GPU、128GB内存、100GbpsOPA网络•使用队列:k80,GPU需求作业前期准备:了解系统配置按节点配置不同设置不同队列,根据需要选择使用•node500:•节点配置:36核2.3GHzCPU、8块V100GPU、256GB内存、100GbpsIB网络•使用队列:v100,GPU需求作业,深度学习等•dgx1:•节点配置:80核2.0GHzCPU、8块V100GPU、512GB内存、100GbpsIB网络•使用队列:dgx1,GPU需求作业,深度学习等•knl1-knl8:•节点配置:64核1.3GHzCPU、96GB内存、100GbpsOPA网络•使用队列:knl,适合低主频多核作业,空闲较多LSF常用命令介绍•bsub:提交作业•bhosts:显示指定节点状态,默认显示全部节点状态•bjobs:显示用户作业信息•bkill:杀掉指定的作业•bmod:更改已提交作业的参数•bpeek:显示处于运行时作业的标准输出和标准错误输出信息•bqueues:显示作业队列信息•lsload:显示节点当前负载查看节点信息bhosts•STATUS:节点状态•ok节点可用,可接受新的作业•closed:结点已满、被预留、被关闭•unavail、unreach:节点故障,请联系管理员处理•RSV:被预留的节点核数查看节点负载lsload•ut:最近一分钟CPU使用率•status:•ok,节点可用状态•luckup,排他型作业,作业提交时使用了-x参数占用•unavail、-ok,节点异常状态,请联系管理员处理•r15s、r1m、r15m:15秒、1分钟、15分钟CPU使用率的负载平均值,若大于节点核心数较多则异常。队列设置bqueues–l队列名,查看详细配置参数•免费队列:testv3、testv4,仅供测试作业是否可正常计算,正常计算的程序需提交到其他队列开始正式计算。•付费排队队列:smallib、mediumib、smallopa、longopa、largeopa、e3v5、fat144、k80、knl、v100、dgx1,队列按实际使用机时进行统计收费,作业排队期间不计费。•独占队列:bsanders、chenjiej、chunzhao、ckduan、fhuang、fucf、fuyao、helx、hscai、jnac、kmh、lixx等,各课题组使用自己的,每半年重新申请一次,不超过总节点数的1/3。•安徽省网用户队列:ahedu,仅限安徽省教育与科研网学校师生使用。年度免费机时有限。•中科院超算网格用户队列:qsce,网格用户使用免费,网格系统上也可免费使用其他分中心节点:队列参数介绍bqueues•QUEUE_NAME:队列名•STATUS:状态•Open:队列开放,可以接受提交新作业•Closed:队列关闭,不接受提交新作业•Active:队列已激活,队列中作业可以分配运行•Inact:队列未激活,队列中作业不会被分配运行队列参数介绍bqueues•MAX:本队列最大可用作业数(CPU核数)•JL/U:单个用户同时可以使用的CPU核数限制•JL/P、JL/H:-为没有做限制•NJOBS:队列中已有的作业总数•PEND:队列中排队的作业总数•RUN:队列中运行中的作业总数•SUSP:队列中被挂起的作业总数队列详细参数bqueues–l队列限制参数bqueues-l•默认队列:Thisisthedefaultqueue,提交作业时若不指定-qqueuename选项,则作业会自动被分配到此队列。•运行时间限制:RUNLIMIT,从开始运行到结束运行的最大时间段。自然时间,与作业核数无关。•作业核数限制:TASKLIMIT,单个作业的核数限制,第一参数为最小值,第二参数为默认值,第三参数为最大值。提交作业时-n选项。•用户限制:USERS,可以使用该队列的用户组•节点限制:HOSTS,该队列使用的节点组•资源原则:RES_REQ,默认为按节点核数分配队列作业个数限制•仅供参考,会根据实际使用情况随时调整。若遇到限制,在排队作业的排队原因说明中可以看到。提交作业命令bsub•bsub,详细命令参数可用命令manbsub查看。•作业提交首先要确认预计算的程序有可执行权限:$ls-lhello.sh-rwxr--r--1hmlinic2411月515:52hello.sh以上举例列出的红色文件属性为用户权限,蓝色为组权限,黑色为其他用户权限,其中r为可以查看文件内容的读的权限,w为可以编辑文件内容的写的权限,x为可以对文件进行执行操作的可执行权限。使用chmod命令修改权限提交作业命令bsub•作业提交举例:bsub-qmediumib-n48–mnode33-o%J.log-e%J.errmpijob./example_job系统会提示:Jobs818500issubmittedtoqueuemediumib.•说明:•将用户帐号当前目录下的可执行文件example_job并行程序,申请使用48个CPU核,提交到mediumib队列并指定到node33节点进行排队计算。•作业提交成功后,系统提示分配到作业号818500。由于指定了-o%J.log-e%J.err参数,在作业运行完成后,将在提交作业的目录下生成818500.log和818500.err文件。提交作业命令bsub•-q指定作业提交的队列名。•-n指定作业提交申请的CPU核数•-m指定作业运行的节点,不建议使用。•-o指定作业的标准输出文件。-o参数后若指定为%J.log,则输出文件为提交作业之后的作业号日志文件。•-e指定作业的标准错误输出文件。•-J指定提交作业的作业名。•-i指定提交作业的输入文件•mpijobmpi程序调用命令,后跟用户自己的执行程序或脚本•example_job为用户可执行程序,其后可加自己单独的参数。其他提交方式方法•一次一个作业bsub–qsmallib–n24–o%J.log–e%J.errg16123.com•一次多个作业•一次提交同时算多个作业$catg16-sub.shcd621&&OMP_NUM_THREADS=8g161.com&cd622&&OMP_NUM_THREADS=8g162.com&cd623&&OMP_NUM_THREADS=8g163.com&$bsub–qsmallib–n24–o%J.log–e%J.err./g16-sub.sh其他提交方式方法•一次提交顺序算多个作业$catg16-sub.shg161.comg162.comg163.com$bsub–qsmallib–n24–o%J.log–e%J.err./g16-sub.sh其他提交方式方法•LSF脚本设置参数提交$catg16-sub.sh#!/bin/sh#BSUB-qsmallib#BSUB-o%J.log#BSUB-e%J.err#BSUB–n24g16123.com$bsubg16-sub.sh•PBS作业调度系统$catg16-sub.pbs#!/bin/sh#PBS-ojob.log#PBS-ejob.err#PBS-qsmallib#PBS-lnodes=1:ppn=24cd$PBS_O_WORKDIRg16123.com$qsubg16-sub.pbs需要传递给bsub命令运行,不可直接运行或bsub./***方式作业常见状态bjobs•作业状态:•PEND作业在排队中•RUN作业在运行中,bjobs–lJOBID查看详细信息•UNKNOW作业处于未知状态,一般为节点故障,请联系管理员处理•PSUSP、USUSP、SSUSP:作业被挂起•可使用命令bjobs–lJOBID查看作业详细信息,例如排队原因等。bjobs–UFJOBID的显示效果比较好。自定义作业状态查询输出•用户可自己定义需要输出的各项信息,节省屏幕输出,方便查看自己需要的定制化信息。•id等为输出项,各输出项可参考manbjobs中-o参数的项目自己替换定义。•:之后的-2、-、8等内容为定义输出对齐的格式,可自定义数字。•可将export的这一行内容写入~/.bashrc文件中,以便每次登录后均保持自定义设置有效。常见作业排队原因•查询作业排队原因的命令:bjobs-pJOBID•Userhasreachedtheper-userjobslotlimitofthequeue•作业所在队列有对用户使用CPU核数的限制,已经运行中的作业使用CPU核数已达到或接近上限限制,无法分配当前排队中的作业。当用户运行中的作业结束掉,
本文标题:LSF作业调度系统和超
链接地址:https://www.777doc.com/doc-7408842 .html