您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 101计算平台培训教程v3
生物高性能计算平台用户培训集群操作2013-10-17杨涛Index241235实例展示计算平台简介集群计算技术和管理并行文件系统作业调度集群高性能计算(High-PerformanceComputing)与理论研究、实验科学相并列,已经成为现代科学的三大支柱集群(Cluster):非单一系统镜像的松耦合体系系统由若干节点构成所有节点通过高速网络互联作业通过消息传递通信方式分布到各个计算节点上三大件:•计算•存储•通信集群的发展计算机硬件的发展(CPU、MEM、主板)计算机网络的发展(互联技术)计算机体系结构的发展(NUMA)并行计算的发展(MPI)价格便宜并且易于构建易于扩展和升级集群指标性能理论峰值速度和实际速度、效率FLOPsLinpack加速比、效率存储容量、吞吐率和IOPS等平均作业吞吐量,平均作业等待时间可靠性可扩展性体系结构、软件、算法生物计算平台(1)“清华大学蛋白质设施实验技术中心”生物计算平台清华大学校级公共服务平台受实验室与设备处和生命学院领导建设目标大型基础设施共享共用和科学服务中心将搭建专用的高性能计算机集群,以承载和支撑大规模生物和医学计算为中心任务,充分利用其大数据处理和并行计算能力,并进一步为大数据地高效处理和分析提供创新机制通过信息资源整合和共享、统一管理和维护,不仅能有效节省购置成本和运营开支,还可以大幅度提升提高信息资源的使用效率,以更好的满足生命科学和交叉科学不断提出的新要求和挑战生物计算平台(2)清华生命学院高性能计算平台共有120个计算节点(双路8核Intel XeonE5-2650),1920个处理器核系统的理论浮点峰值计算性能达到30.72TFlops计算网络采用InfiniBandQDR通信网络,理论带宽40Gb;管理网络采用千兆以太网目前存储约200TB,第一期规划存储总容量1PB另外,系统还配置2个Nvidia TeslaM2090的GPU节点和1个512GB大内存节点功能模型其他用户教师用户学生用户生物新馆网络人环楼网络生物技术楼网络清华大学网络系统管理门户管理资费管理作业调度平台管理员平台值班员计算+存储集群测试集群机群综述项目详情IBM-A(80节点)IBM-B(40节点)理论整体计算能力80*16*2.0*8=20.48Tflops40*16*2.0*8=10.24Tflops整体存储空间150T55T管理网络千兆以太网千兆以太网计算网络IifiniBand/40Gb/sIifiniBand/40Gb/s节点名机器型号CPU内存硬盘显卡存储节点x4IBMx3630M4IntelE5-244064GB30.3TB胖节点x2IBMx3750M4IntelE5-4620512GB5.3TBGpu节点x3IBMdx360M4IntelE5-265064GB300GBNVIDIA管理节点x2IBMdx360M4IntelE5-260932GB300GB登录节点x2IBMdx360M4IntelE5-260932GB600GB计算节点x120IBMdx360M4IntelE5-265064GB600GB节点类管理节点(ManagementNode/HeadNode/HN)机群中的一个结点,负责管理整个高性能计算机群登录节点(LoginNode/LN)机群中的一个或者多个结点,用于提供用户登录服务,受控于管理结点存储节点(InputOutput/IO)机群中的一个或者多个结点,用于提供文件存储和共享服务,受控于管理结点计算节点(ComputeNode/CN)机群中的一个或者多个节点,专用于处理计算问题,受控于管理节点节点示意图存储类计算平台的存储分为两种:本地硬盘•本地硬盘严禁普通用户使用,仅供计算节点操作系统使用并行文件系统GPFS•用户在帐号所对应$HOME(该$HOME所在的位置为高速并行文件系统)下进行操作•用户登录时,会自动被引导到自己帐号的$HOME下面。鉴于存储空间有限和数据安全的考虑,请用户务必做到及时下载计算结果文件并清理空间网络类公共网络(PublicNetwork/EnterpriseNetwork)指用户所在单位或部门的局域网,也可以是Internet,机群可以通过登录节点或者控制台连接到外网私有网络(PrivateNetwork)也称为管理网络,用于传输管理、控制信息的网络,它连接机群中所有的节点,通常由百兆或者千兆以太网组成计算网络(ComputeNetwork/ApplicationNetwork)用于计算结点间传输大量的计算数据信息的网络,它连接所有的计算结点,通常由Infiniband、Myrinet这样的高速网络组成拓扑结构-A集群IO存储节点node55-node80node01-node28node29-node54GPU节点和胖节点IB40Gbps4*IB40GbpsA机房拓扑图拓扑结构-B集群IO存储节点IB40Gbps12*IB40GbpsB机房拓扑图node17-node32node01-node16GPU节点和胖节点node33-node40命名规则Frames默认命名ManagementServerAmgt…UserLoginALogin01…I/ONodeAionode01I/ONodeBionode02…IMM1-IMM80imm01-imm80…Computernode01-node80…GpuComputergpunode01-gpunode02…SMPComputerbnode01…IP规划物理机器IP机器名备注Managementserver172.0.0.254mgt集群内部网络192.168.70.254immmgtIMM管理网络172.0.40.254IB计算网络UserLogin172.0.0.login01集群内部网络192.168.12.3immlogin01IMM管理网络172.0.40.IB计算网络PubilcIP用户提供外部访问地址I/ONodeA-I/ONodeB172.0.0.*ionode01-ionode02集群内部网络172.0.40.*ib数据网络(计算网络)192.168.70.*Immio01-immio02IMM管理网络...Computer172.0.0.*Node01-node80集群内部网络172.0.40.*IB计算网络192.168.70.*Imm01-imm80IMM管理网络IBM-A集群基本配置信息Inspurgroup集群角色主机名备注管理节点mgtIP:166.111.30.165登录节点login01IP:166.111.30.164胖节点bnode01GPU节点gpunode01gpunode02计算节点node01~node80GPFS服务IO节点ionode01ionode02共享目录:/Share作业调度lsfIBM-B集群基本配置信息Inspurgroup集群角色主机名备注管理节点mgt登录IP:10.10.0.41(面向管理员)登录节点login01登录IP:10.10.0.40(面向用户)胖节点bnode01N/AGPU节点gpunode01N/A计算节点node01~node40N/AGPFS服务IO节点ionode01ionode02共享目录:/Share作业调度lsfIBM-A集群软件信息软件总览操作系统CentOSrelease5.8(Final)(内核2.6.18-308)编译器/数学库IntelC++/Fortran编译器/IntelMKL数学核心库/GNU编译器等应用软件Emaneman2xmippchimeraspiderrelionnamd等MPI实现openmpi/intelmpi等作业调度LSF(Plantform)集群管理ParamonxcatIBM-B集群基本配置信息软件总览操作系统RedHatEnterpriseLinuxServerrelease6.3(Santiago)(内核2.6.32-279)编译器/数学库IntelC++/Fortran编译器/IntelMKL数学核心库/GNU编译器等应用软件chimeraspiderrelionnamd等MPI实现openmpi/mpich2等作业调度LSF(Plantform)集群管理Paramonxcat集群登录——命令行Windows用户可以用SSHSecureShellClient,PuTTY,SecureCRT等SSH客户端软件登录。推荐使用SSHSecureShellClient,它集成了SFTP文件上传下载功能Linux客户端可以直接在命令行终端中执行ssh命令进行登录:$sshusername@登录节点IP地址集群登录——远程桌面远程图形界面登录推荐采用VNC方式。第一次使用VNC登录前,需要先以命令行终端方式登录到集群登录节点,执行vncserver命令,会提示用户输入VNC登录密码,输入后会得到一个VNC会话,一般是“主机名:VNC会话号”格式,如“node32:4”。Windows用户推荐使用RealVNC软件进行VNC远程图形界面登录,登录时输入集群登录节点IP地址加VNC会话号即可:Linux用户可以直接在命令行终端中执行vncviewer命令进行登录,如:$vncviewer[登录节点IP地址]:[sessionnumber]集群个性化设置个性化配置文件Bash.bash_profile.bashrcCsh.cshrc关键环境变量:PATH可执行程序搜索路径LD_LIBRARY_PATH动态链接库搜索路径环境变量的设置会影响到编译时是否使用了正确的编译环境,是否能生成正确的可执行文件用户作业作业通过作业调度系统进行作业提交、管理、监控、删除等操作基本步骤1.模型准备用户准备模型数据文件和作业脚本文件2.模型上传通过工具将模型数据文件和脚本文件上传至集群用户工作目录3.作业提交预处理(如dos2unix)后,用作业提交命令提交脚本文件进行计算4.作业监控通过客户端等工具、采用作业管理命令监控作业的执行情况5.结果下载计算完成后,通过工具从工作目录下载结果文件注意事项(1)非管理员用户只能查看、终止、删除自己提交的作业切记勿要在登录节点上直接运行任务,登陆节点只能提交查看作业、简单的vi编辑、查看、管理自己的数据以及程序,如有违规操作管理员保留终止作业的权利不论任务有多紧急,请务必先检测提交程序的正确性以及资源占用的合理适度在提交作业时一定要根据自己的使用的机器数估算内存检查确认作业脚本是否正确,一定要严格按照规范格式书写不规范的作业脚本可导致作业提交失败,甚至造成作业杀不掉,计算节点死机等作业提交后,应注意定时查看自己的作业状态,必要时需要终止自己的进程或删除作业,如果无法删除时请联系管理员协助注意事项(2)应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月重要数据建议打包压缩存放建议在脚本中使用绝对路径,以保证任务可以正常运行由于公用目录的承载压力较大,相对而言会容易出现硬盘故障,因此,该目录只存放计算中的临时文件及公用软件等,请及时将结果或其他重要文件备份回自己的家目录或个人电脑中公用目录中存放的临时文件,请及时清除,管理员会定期清理长时间无访问文件,如因未及时备份而被误删,管理员不承担任何责任严禁在目录中存放无关文件,请节约磁盘空间维护人员及联系方式姓名职务邮箱电话杨涛主管ytao@biomed.tsinghua.edu.cn13331158505王亚坤组员wangyakun@biomed.tsinghua.edu.cn13426351515张小琼技术支持zhangxq@paratera.com18610888242甄亚楠技术支持liuxl@paratera.com15201271319QQ群:biomed-c
本文标题:101计算平台培训教程v3
链接地址:https://www.777doc.com/doc-955582 .html