您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > M-Pro-LAMMPS测试报告-v0
-1-曙光高性能服务器最佳实践LAMMPS软件测试报告曙光信息产业(北京)有限公司2016年8月8日-2-法律条款1.对本文档的任何使用均被视为完全理解并接受本文档列举的所有法律条款。2.本文档的所有权利归作者所有,作者保留所有权利。3.若本文档的保密级别为“公开发布”,允许学术使用,未经作者书面授权,禁止商业使用。若本文档的保密级别为“内部资料”,仅授权曙光信息产业(北京)有限公司的在职员工使用。若本文档的保密级别为“核心资料”,未经作者书面授权,禁止任何形式的使用。4.对本文档的使用形式包括但不限于存储、出版、复制、传播、展示、引用、编辑。使用过程中不得对本文档作任何增减编辑,引用时需注明出处。商业使用是指在商业活动中或有商业目的活动中的使用。学术使用是指以技术交流或学术研究为目的的使用。5.实施任何侵权行为的法人或自然人都必须向作者支付赔偿金,赔偿金计算方法为:赔偿金=涉案人次×涉案时长(天)×涉案文档份数×受众人次×基数×1元人民币,涉案人次、涉案时长、涉案文档份数、受众人次小于1时,按1计算。若保密级别为“公开发布”,基数为100;若保密级别为“内部资料”,基数为1000;若保密级别为“核心资料”,基数为10000.6.对举报侵权行为、提供有价值证据的自然人或法人,作者承诺奖励案件实际赔偿金的50%.7.作者不保证文档内容的正确性。对文档的使用后果,作者不承担任何责任。8.涉及本文档的法律纠纷由作者所在地法院裁决。9.本文档所列举法律条款的最终解释权归作者所有。目录曙光高性能服务器最佳实践..............................................................................................-1--3-1.LAMMPS简介............................................................................................................-4-2.编译策略......................................................................................................................-4-3.测试环境......................................................................................................................-5-4.LAMMPS性能测试....................................................................................................-6-5.测试结论......................................................................................................................-7-6.附录..............................................................................................................................-8--4-本测试在曙光高性能服务器M-ProTC4600S(E3-1200v5)刀片平台,TC4600E-LP(E5-2600v3)液冷刀片平台,进行了对LAMMPS的编译、安装和测试,以及性能分析,以其提高LAMMPS并行计算能力。1.LAMMPS简介LAMMPS是大规模经典分子动力学软件包,是Large-scaleAtomic/MolecularMassivelyParallelSimulator的缩略词。LAMMPS研究对象可达百万级的原子分子体系,包括气态、液态、固态和各种系宗体系,并提供多种势函数。源码采用高可用C++语言编写,且LAMMPS有良好的并行扩展性,支持MPI、MPI/OpenMP,支持GPU,MIC等加速器。2.编译策略针对IntelCPU计算平台,我们建议采用IntelC/C++/Fortran编译器,数学库采用IntelMKL,LAMMPS并行计算是基于MPI标准,本次测试采用了IntelMPI编译器编译了LAMMPS可执行程序,进行性能对比。本次测试所使用的LAMMPS软件包为具有GPU加速功能的最新发布版本LAMMPS.14May16。编译lammps:依次执行下列命令,可生成可执行文件lmp_intelmpicdsrc/MAKEmakeyes-allmakeno-user-h5mdmakeno-user-smdmakeno-user-vtkmakeno-gpumakeno-user-cudamakeno-KOKKOSmakeno-user-ATCmakeno-user-AWPMDmakeno-VORONOImakeno-KIMmakeno-POEMSmakeno-user-QUIPcd../lib/reax/make-fMakefile.gfortran-5-cd../meammake-fMakefile.gfortrancd../linalgmake-fMakefile.gfortrancd../colvarsmake-fMakefile.g++cd../qmmmmake-fMakefile.gfortrancd../poemsmake-fMakefile.icccd../atcmake-fMakefile.mpic++cd../awpmdmake-fMakefile.mpicccd../../srcmakeintelmpi运行lammps:moduleloadapps/lammps/14May16mpirun-np96-machinefilenodelistlmp_intelmpiin.relax&96core.log&3.测试环境硬件平台M-Pro:采用曙光M-ProE3-1200v5系列刀片服务器,每刀箱配置8个刀片,16个单路节点,采用Mellanox公司最新Multi-Host高效互联网络技术,软硬件配置如下:Intel(R)Xeon(R)CPUE3-1240v5@3.50GHz,64GBDDR42133MHz16GB*4,1TBSATA2.5’’,Multi-HostEDR(100Gb/s),RedHatEnterpriseLinuxServerrelease7.2硅立方:采用曙光TC4600E-LPE5-2680v3系列刀片服务器,每刀箱配置8个刀片,8个双路节点,采用FDR(56Gb/s)高速互联网络技术,软硬件配置如下:Intel(R)Xeon(R)CPUE5-2680v3@2.50GHz,128GBDDR42133MHz16GB*8,P200并行存储,FDR(56Gb/s),RedHatEnterpriseLinuxServerrelease6.6软件环境:编译器:Intelcomposer_xe_2015.2.164,IntelMKL11.3-6-MPI:intelmpi-5.0.2.044IB驱动:MLNX_OFED_LINUX-3.3-1.0.4.0FFTW3:双精度FFTW-3.3.4应用软件:LAMMPS.14May16测试算例:TiAlEAM.Alloy-TiAlAlloy1745600atoms算例描述:γ-TiAl金属间化合物面缺陷能的分子动力学研究,包含1745600TiAl原子,15000时间步。4.LAMMPS性能测试图4-a、算例TiAlEAM.Alloy加速比测试结果从测试结果看,E3-1240v5处理器4核心到120核心计算资源对174万原子分子动力学计算加速比达到25.71倍,采用E5-2680v3处理器要超过192核心才能达到相同计算效果;其次,从1个到30个E3-1240v5计算节点扩展并行计算可以看出,M-Pro刀片平台相比E5-2680v3双路刀片平台,具有更高的并行效率,也说明了E3-1240v5处理器表现出较好的CPU利用率;在相同CPU计算核心情况下,如图96(120)核心,M-Pro刀片平台计算性能是TC4600E双路刀片平台的1.87(1.68)倍,要大于E3-1240v5和E5-2680v3处理器间主频之差(1.4),这部分性能差异可解释来自计算网络的不同导致,即M-Pro采用Multi-HostEDR100Gb/s高速互联技术,每2个刀片4个单路节点共用100Gb/s网络,而TC4600E平-7-台采用FDR56Gb/s高速互联技术,每1个刀片2颗CPU使用56Gb/s网络。从架构上,M-Pro平台上CPU通过PCI与网络控制器直接互联,避免了网络访问不均衡的现象,而后者双路节点CPU间通过QPI连接,两颗CPU则不可避免对网络访问的不均衡,导致两个平台出现对网络利用率的差异,也就是说M-Pro采用了高效的网络互联技术,使其在网络访存密集软件应用上脱颖而出。图4-b、性价比测试对比(性价比=Speedup/Cost*10)从图4-b性价比对比结果图可以看出,在相同计算核心下,M-Pro刀片平台具有明显性价比优势;而无论在相同理论计算峰值下,还是在相同实际计算性能下,M-Pro性价比都远高于TC4600E平台。5.测试结论本次测试针对不同硬件平台对LAMMPS进行了MPI编译器的性能对比,选择了IntelMPI作为编译工具,测试了相同计算算例在不同处理器平台上的性能对比,可以得出结论,一是,LAMMPS在M-Pro平台上并行扩展性较有优势;二是,LAMMPS在M-Pro平台上网络利用率较高;三是,LAMMPS在M-Pro平台上性价比较高。-8-6.附录测试数据:M-Pro:节点数核心数Multi-Host(100Gb/s)运行时间/sec加速比1411884.131.03124263.982.786242154.115.5112481092.4310.882496571.0120.8130120462.0725.71硅立方FDR:节点数核心数FDR(56Gb/s)运行时间/sec加速比1126076.171.951243252.383.652481719.016.914961069.8911.115120779.0712.256128657.4218.078192563.9321.07
本文标题:M-Pro-LAMMPS测试报告-v0
链接地址:https://www.777doc.com/doc-2886440 .html