您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > Abaqus小型并行计算集群平台的构建方法
Abaqus小型并行计算集群平台的构建方法阚圣哲,陈国兴(南京工业大学岩土工程研究所,江苏南京210009)摘要:介绍了一个基于EM64T硬件构架、双路IntelXeon处理器、Linux操作系统和64位Abaqus软件的32CPU并行计算集群平台的构建方法。以岩土工程动力分析模型为例,测试了集群各构件对集群整体性能的影响。关键词:并行计算;集群构建;动力分析0引言0.1当代并行计算系统的构架目前常用的并行计算机是对称多处理机(smp)和集群系统(cluster)。常见的搭载单颗多核处理器的桌面个人计算机就属于smp;cluster是一种通过局域网络将多台计算机连接起来协同工作的并行计算系统,可以用普通个人电脑(PC)、工作站(workstation)或者smp来组建cluster。smp与cluster最大的区别在于:smp中内存地址具有单地址空间,各处理器可以平等地调用共享内存、I/O设备和操作系统等各种资源;cluster中内存实际分布在各个节点上,处理器读取本地节点的内存时数据通过总线传输,延时低,处理器读取其它节点的内存时数据通过局域网络传输,延时高。smp支持的最大处理器数一般不超过10个[1],因此smp只能作为小型的并行计算系统。cluster利用局域网络进行处理器间通信的方法虽然能提高并联的处理器数,但也因局域网络的带宽和延时限制了集群的性能,目前集群技术适合搭建100颗处理器以下级别的并行计算系统[1]。目前smp结构的服务器一般是搭载多核处理器的双路或四路服务器,但真正的八路或十六路服务器产品非常少见。一些smp结构的小型机可以并联更多的处理器,但是其价格昂贵,后期维护复杂。cluster可以使用商业化大生产的多路服务器来构建。双路或四路服务器是很好的选择,该类服务器价格低廉、性能优异,用来构建cluster可以获得很好的性能/价格比。所以在科学计算领域,cluster非常流行,在TOP500中很大一部分并行计算系统都是cluster。此外还有一些阵列处理机、向量处理机,可能不兼容常用的x86程序,所以应用上具有局限性。目前提出的GPU加速技术,需要开发新的程序来使用该技术,用在运行商业程序的集群上也不适用。1基于Abaqus软件的数值模拟并行计算集群平台的建立1.1集群系统的结构集群中的每台计算机设备都称为集群的节点(node),有时各节点在功能上具有分工,那么各节点可以依照功能划分为管理节点、计算节点、I/O节点等;有时一个节点也可能实现多个功能,例如小型集群可以将I/O、存储、管理等功能都放在一个节点上,这个节点就可以称为主节点。与smp相比,集群更具有可扩放性:增加集群中处理器数量只需要增加集群的节点。本文中构建的集群采用机架式设备组建,按功能分为四类节点:计算节点、管理节点、存储节点和网络节点。其具体的硬件配置见表1。其拓扑结构图见图1。图1显示了该集群系统及其主要附属设备。除集群各类节点外,电源系统、监视系统和冷却系统也是维持集群正常工作的重要附属设备。表1并行计算数值模拟集群平台的节点硬件参数计算节点4台DELLPE1950或DELLPE2950双路四核机架式服务器处理器每台搭载2颗3GHzIntelXeonProE5450或X5365处理器内存每台8GBDDRⅡ667MHz全缓冲ECC效验内存硬盘每台2块SAS15000转146GB硬盘组建RIAD0网卡每台双1Gb以太网卡,支持链路聚合与巨型帧管理节点1台DELLPERCISION670双路双核工作站处理器2颗IntelXeon3.2G处理器内存4GBDDRⅡ400MHzECC效验内存显卡NVIDIAQuadroFX1400专业显卡存储节点1台QNAPTS-809U-RP网络附加存储器处理器IntelCore2Duo2.8GHz处理器闪存/内存128MFLASH/2GDDRⅡ硬盘8块SATAⅡ1TB企业级硬盘,组建RIAD5网卡双1Gb以太网卡,支持链路聚合与巨型帧网络节点1台DELLPowerConnect2724千兆以太网络交换机交换能力最大48Gbps交换速度链路聚合功能6个组的链路聚合,每组最多4个端口巨型帧功能支持标准的9k巨型帧1.2计算节点的选择在构建基于Abaqus软件并行计算数值模拟集群平台时,硬件选择方面如何兼顾显式计算和隐式计算是首先网络节点电源系统:PDU和UPS管理节点计算节点监控系统:KVM和显示器、键盘、鼠标图1集群系统的结构图需要考虑的问题。显式算法和隐式算法在并行计算性能特性方面有很大的差异。显式算法的并行性能好,但是,如果模型网格划分很细致,则计算的时步需要取值很小;隐式计算的并行性能稍差,CPU间通信多,但模型所取的计算时步和网格尺寸都可以大一些,时间步长甚至是同类问题显式算法模型的1000倍。表2总结了隐式算法和显式算法的特点,以及对计算机硬件的要求。表2隐式算法与显式算法的特性比较[2]隐式算法显式算法典型的软件ABAQUS/Standard、ANSYSABAQUS/Explicit、LS-DYNA求解的问题静力、模态、屈曲等接触、碰撞、冲击等算法特点内存占用多、磁盘I/O大、进程通信量大相对而言,内存、I/O和通信量要少一些硬件要求内存容量大、访存带宽高、磁盘I/O速度快、通信延迟低相对而言,系统硬件配置可低一些算法扩展性8-16CPU64-128CPU虽然隐式算法的并行计算扩展性差,但是可以使用高主频的处理器来加速计算。本集群使计算节点采用高性能计算节点,但是配置了较少的节点数,在CPU主频和CPU个数两个性能参数上取得平衡,从而兼顾隐式算法和显示算法。中央处理器(CPU)是决定计算机性能的核心部件。计算机根据CPU支持的指令集的差异分为:复杂指令系统计算机(CISC)和精简指令系统计算机(RISC)。常用的IntelXeon和AMDOption处理器隶属于CISC/IA-32(也称为x86-64或EMT64)构架。CISC的发展历史悠久,可运行于CISC上的程序非常丰富,该构架下的处理器研发工作也非常迅速。IntelItanium处理器隶属于CISC/IA-64构架,但不兼容32位程序,存在应用局限性。同时IntelItanium处理器主频低,其abaqus计算性能反而不如高频的x86-64处理器。IBMPower处理器隶属于RISC构架。虽然RISC在计算效率上高于CISC,但其相应程序的开发要慢于CISC。由于CISC/IA-64和RISC非通用性,计算速度相同的处理器产品中x86-64的价格最低廉。在TOP500中采用x86-64处理器的集群所占比例很大。综合考虑计算机软件的通用性、设备价格、设备性能和解决设备故障的难易性,IntelXeon或AMDOption处理器是很好的选择。这两类处理器都属于64位处理器,也兼容32位程序。判断x86-64处理器性能的主要指标是处理器核心类型、主频、总线带宽(或类似的技术)、缓存容量。但是在某一地铁隧道地震效应数值计算中(使用Abaqus/Standard求解器),IntelXeonX5365处理器的计算速度要高于IntelXeonE5450处理器。在其它一些使用Abaqus/Standard求解器的测试中,IntelXeon5400系列处理器的计算速度要高于IntelXeon5500系列处理器。所以上述主要指标只是处理器性能的参考,为Abaqus集群选择处理器需要做贴近实际运用的测试。1.3存储节点对计算速度的影响Abaqus软件在计算中将产生临时文件和结果文件,这些文件需要存储在磁盘空间上。一个集群系统的磁盘空间可能是局部存储类型的,这类空间只允许某一个节点访问;也可能是全局存储类型的,这类空间允许所有节点访问。每个节点上装载的硬盘是局部存储,但是可以通过网络文件系统(NFS)服务通过局域网络上实现磁盘共享,共享的磁盘空间就是全局存储空间。在《AbaqusVersion6.7PDFDocumentation》中称临时文件和结果文件可以存储在任意类型的空间上。实际中一般使用局部空间存储临时文件,使用全局空间存储结果文件。这主要基于:1.临时文件读写频繁,存储在读写速度快的局部存储上可以提高计算速度。2.结果文件体积巨大,需要大容量存储器。构建全局存储空间的代价要小于构建局部存储空间的代价,同时全局存储空间易于统一管理。使用全局空间存储结果文件是经济、易管理的。在Abaqus集群使用中,一般是某节点通过NFS服务端程序为所有节点提供共享存储空间。提供共享存储空间有3个方法:1.某管理节点或计算节点共享本地磁盘。但是服务器的硬盘槽位数量有限,更换硬盘操作繁琐;2.通过光纤网络将FC-SAN挂载到某管理节点或计算节点上,然后由管理节点或计算节点操作FC-SAN来提供NFS服务。但是此时FC-SAN上的数据传输将通过光纤网络和集群内部局域网两个网络,传输过程复杂、存在传输延时;3.采用网络附加存储器(NAS)提供NFS服务。NAS即专门为提供文件服务而优化系统的服务器,文件读写性能高。其可以直接连接到集群内部局域网上。同时更换硬盘、数据备份、文件管理也非常方便。从共享文件管理性、存储容量可扩充性、数据传输速度方面综合考虑,可以使用NAS为Abaqus集群系统提供NFS服务。NAS的处理器、内存都是其性能指标。NAS的另外一个性能指标是其网络性能,如果是以太网络接口,其网络带宽、是否支持巨型帧、是否支持链路聚合都对NAS性能产生影响。在集群使用中可能同时有多个节点要求读写NAS上存储的数据,NAS的工作负荷大,其性能将影响到集群系统整体的计算速度。在对QNAPTS-439ProTurboNAS和另一款NAS产品做对比测试后发现:NAS的性能对集群系统计算性能影响巨大。另一款NAS产品支持1Gb以太网络,但整体性能参数较低:不支持链路聚合,最大支持7.5K巨型帧。测试算例使用某一地铁隧道地震效应模型(使用Abaqus/Standard求解器),同时NAS设备开启了所有能够提高网速的功能。测试数据见图2。本对比测试分3组:A组-高负荷下使用NAS的Abaqus计算;B组-低负荷下使用NAS的Abaqus计算;C组-不使用NAS的Abaqus计算。A组-高负荷下使用NAS的Abaqus计算:同时进行7个Abaqus计算任务,每个计算使用4CPU,7个计算任务都使用NAS设备来存储共享文件。B组-低负荷下使用NAS的Abaqus计算:只进行1个Abaqus计算任务,使用4CPU,该计算任务使用NAS设备来存储共享文件。C组-不使用NAS的Abaqus计算:只进行1个Abaqus计算任务,使用4CPU,该计算任务不使用NFS服务,将文件直接存储在本地磁盘上。此种情况是最优情况,但调用多个节点并行计算时必需使用NFS服务,即在集群构架下最优情况不适用于大型的并行计算。图2磁盘性能对计算速度的影响本对比测试中B组TS-439较C组性能计算速度下降10.4%;A组TS-439较B组TS-439性能下降20.6%。B组TS-439与C组的性能比较证明使用TS-439NAS带来的性能影响可以接受;A、B组TS-439性能比较证明TS-439NAS在高负荷下的性能表现可以接受。但是另一款NAS产品带来的性能下降是无法接受的:低负荷下造成计算3098860632245993211122045010000200003000040000500006000070000QNAPTS-439NAS另一款NAS只使用本地磁盘WALLCLOCKTIME(s)A组B组C组速度下降31.3%,高负荷下造成计算速度下降63.6%!实际上QNAPTS-439ProTurboNAS并不是一款高端产品,QNAP和BUFFALO的高端产品性能将更好,可以作为集群的存储设备。1.4网络对计算速度的影响通信性能对集群整体的性能具有决定性的影响,某些情况下集群网络的性能是整个集群系统性能的瓶颈。采用何种网络互连技术连接节点以及如何优化网络提高网络性能是构建集群平台的重要工作内容。目前,集群系统
本文标题:Abaqus小型并行计算集群平台的构建方法
链接地址:https://www.777doc.com/doc-7858798 .html