您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > ANSYS-&-Fluent性能基准测试简介
HPC前沿┃HPCFrontier52精益研发┃2008┃夏季刊ANSYS&Fluent性能基准测试算题是ANSYS公司发布的,用来评测和比较ANSYS和Fluent算例在不同软硬件平台上(CPU、内存、I/O、互联、MPI和文件系统等)的性能。不同于通用的linpack硬件基准测试,ANSYS&Fluent性能基准测试对CAE应用来说,具有更实际的意义,也是广大CAE用户在采购硬件时所关心的。为了让众多的安世亚太用户了解ANSYS&Fluent性能基准测试及目前主流的计算机硬件在CAE求解中的性能及特点,文章简要介绍了ANSYS公司于2008年2月发布的ANSYS11.0sp1及Fluent6.3.26求解器的性能基准测试算例及其测试方法;并对ANSYS公司已经发布的部分测试结果作一些分析。用户也可以根据我们提供的测试方法亲自动手在自己的平台上进行测试,并和网络上发布的结果进行对比。ANSYS11.0SP1基准测试算例简介ANSYS11.0SP1基准测试集分为两部分:bm集用来在SMP系统上测试ANSYS,有8个算例(如表1);bmd集既可以在SMP机器、也可以在DMP系统上测试DANSYS,有7个算例(如表2)。测试方法●准备ANSYS11.0SP1相应测试平台的软件安装包及license,设置PATH环境变量。●测试算例下载地址:。ANSYS&Fluent性能基准测试简介文/林磊作业图示自由度分析类型求解器性能说明bm-185万静力sparse中等规模作业,在64位大于16GB内存系统应该以in-core方式运行。bm-276万谐波blockLanczos测试表明CPu和I/O性能平衡的重要性及大内存的好处。加速比受限于因子分解(factorization)时间,但仍有很好的扩展性。bm-320万非线性sparse测试CPu和I/O的性能。表明在大内存系统能有效使用系统缓存。bm-49万电磁sparse典型的小作业,表明应该以in-core的方式运行以提高性能。bm-5NA热jcg另一个小作业,应该在任何系统都有很好的效率。衡量迭代求解器性能。很好地测试内存带宽性能。bm-6NA25万静力sparseCPu和I/O性能测试。应该在64位大于4GB内存系统以in-core的方式运行。sparse求解器速率本质上代表了DGEMM矩阵乘的性能。bm-7NA75万静力sparse测试很好地表明I/O性能和大内存的价值。In-core需要16GB的内存。bm-8NA5百万静力pcg很好地测试pcg迭代求解器和内存带宽。表1HPCFrontier┃HPC前沿53精益研发┃2008┃夏季刊作业图示模型自由度分析类型求解器性能说明bmd-1万向节40万静力dsparse中等大小作业,应该以in-core方式运行。bmd-2油箱结构100万静力jcg由于使用jcg求解器,有较好的并行性。bmd-3传动轮盘200万静力pcg使用Solid92实体单元,Workbench的典型分析问题。良好的并行性能。使用MSAVE,ON。bmd-4悬架300万静力dsparse测试表明I/O与CPu性能一样重要,以及大内存求解的优势。内存受限时,dsparse求解性能会下降。bmd-5块体/孔580万静力pcg迭代求解器求解大作业有良好的并行性。使用MSAVE,ON。bmd-6机翼100万静力结构lanpcg利用pcg求解器组合矩阵来最大化加速比。bmd-7机翼500万静力结构pcg使用solid45实体单元,不使用MSAVE,ON。测试内存带宽性能,由于稀疏矩阵/向量内核,预期mfloprate会比较低。●解压SP1_BENCH110.tar.gz文件。●bmd测试集放在解压后文件夹bench_bmd中;bm测试集放在文件夹bench_bm中。●编辑COMPUTER.dat文件。例如:COMPANY------------HPMACHINEMODEL-----DL580PROCESSORTYPE,SPEED-IntelZEON3.4GhzOPERATINGSYSTEM--RH4.0SYSTEMMEMORY(GB)---64DISKMODEL----------diskNUMBEROFPROCESSORS--8USEMPICH------------no●编辑MACHINES.dat文件。例如:NumberofMachines-------1MAXNP---------------8INCREMENT------------2#INCREMENTLIST-------2METHOD------RoundRobinCONFIG-------------DMPMACHINEMAXCORES-node18#MACHINEMAXCORES-MACH24INCREMENT设为-2,表示用1,2,4,8所有2的指数次方个核来运行算例,直到系统提供的最大核数。METHOD设为RoundRobin(轮询调度算法,在多盒系统该算法有优势)。详细benchmark参数等说明请查阅测试算例中说明文件——ANSYS_Benchmarks_Guide.doc。●运行脚本bench.sh(LINUX或Unix)或者bench.bat(Windows)。●测试结果写在SUMMARY_bmd.txt或者SUMMARY_bm.txt中。Summary-bmd.txt例子,如表3所示。NP列出使用的核数,CPU和WALL分别列出使用的CPU时间和墙上时间。表2表3HPC前沿┃HPCFrontier54精益研发┃2008┃夏季刊ANSYS网站发布的测试结果ANSYS公司在上发布了在以下四款处理器上的测试结果。使用RH4.0操作系统。●IntelXeon5472(12MB,3.0GHz,1600MHz,4Core,45nm)●IntelXeon5365(8MB,3.0GHz,1333MHz,4Core,65nm)●IntelXeon5355(8MB,2.66GHz,1333MHz,4Core,65nm)●IntelXeon5160(4MB,3.0GHz,1333MHz,2Core,65nm)针对前三款处理器分别测试了1、2、4和8核的计算效率,IntelXeon5160测试了1,2和4核的计算效率。表4给出了以IntelXeon5160上4核计算速度为单位,其他三款处理器4核和8核相对求解速度。从表4所示数据来看,最新的IntelXeon5472的性能是最优的,主要得益于其1600MHz的前端总线、45nm技术和12M的大缓存。IntelXeon5472(或主频更高的5482)的单核性能或许是目前市面上性能最高的X86芯片,但ANSYSbmd算例8核加速比最高不到4,可能是其FSB的构架制约了加速比的提升。期望Intel新的QPI技术带来更大的加速比。同时我们还期待AMDBarcelona和IBMPower6的测试结果。另外ANSYS算例对高性能计算系统的内存和I/O要求很高,尤其是大算例,除表4名字单元数模型&求解器描述eddy_417k417k3d,ke,seg涡耗散反应流turbo_500k500k3d,spallart-allmaras,coupimp单级涡轮机流aircraft_2m1.8m3d,rke,coup-imp航天器机翼外流sedan_4m3.6m3d,ke,seg,hybrid轿车外气动学truck_14m14m3d,des,seg卡车车身外流truck_poly_14m13.6m3d,des,seg卡车车身外流truck_111m111m3d,des,seg卡车车身外流表5了配置高性能的CPU以外,还需要综合考虑硬盘I/O的性能和内存大小和带宽等因素。Fluent6.3.26基准测试算例简介Fluent6.3.26最新测试算例包含7个算例,5张DVD,其中最大算例truck_111m占了3张,大约12G,推荐在总内存64GB以上的系统上测试该算例;truck_poly_14m占1张;其他5个算例合起来占1张(如表5)。测试方法●准备Fluent6.3.26相应测试平台的软件安装包及license,设置PATH环境变量。●准备测试算例。●解压5张DVD中的测试算例,拷贝到fluent安装目录Flu-ent.Inc下。●创建工作目录,测试命令:fluentbench.pleddy_417k-t8-t4-t2-t1-mpi=intel运行算例eddy_417k测试,分别使用8,4,2和1个核,使typecorebmd-1bmd-2bmd-3bmd-4bmd-5bmd-6bmd-754724core1.111.281.141.031.111.261.1854728core1.591.451.410.831.481.371.2853654core1.031.091.010.920.991.011.0053658core1.351.051.210.891.271.041.0153554core0.941.050.940.900.920.990.9653558core1.271.121.150.841.191.021.0051604core1.001.001.001.001.001.001.00HPCFrontier┃HPC前沿55精益研发┃2008┃夏季刊用intelMPI。●Window系统还可以使用launcher来运行测试,把Benchmark选项勾上。●测试输出.out和.trn文件,其中Totalwalltime值是算例求解消耗的墙上时间。Fluent网站发布的测试结果表6是网站发布的测试结果。其中Plat-form列给出硬件名称,以及所使用的处理器类型、主频、操作系统和互联方式;Core列给出测试使用的核数;Rating的含义是24小时能够求解算例的次数。HPBL460(INTEL64_4CORE,3200,RHEL5,IB)和MEL-LANOX_COLFAXCX1254(OPTERON_4CORE,2000,RHEL5.1,CONNECTX_IB)的32核eddy-417k算例性能相差将近一倍,其他几个算例却比较接近,后者sedan_4m算例反而要快,Opteron4核的处理器主频虽然只有2.0GHz,比Intel4核的Xeon54823.2GHz要慢不少,在小算例求解要慢,但是算例的规模变大后,Opteron的扩展性却非常好,估计主要跟AMD的超传输技术有关。INTELWHITEBOX(INTEL64_HARPERTOWN_4CORE,3000,RHEL4)和MELLANOX_COLFAXCX1254(OPTERON_4CORE,2000,RHEL5.1,GIGE)图1图2的8核性能比较也有类似的结论。MELLANOX_COLFAXCX1254(OPTERON_4CORE,2000,RHEL5.1,CONNECTX_IB)和MELLANOX_COLFAXCX1254(OPTERON_4CORE,2000,RHEL5.1,GIGE)16核以上效率相差主要原因是IB互联比以太网互联优的缘故,eddy-417k的56核性能相差将近一倍,大算例差距要小一些。可见高速互联的重要性。SUNX6250(INTEL64_2CORE,3330,SLES10,IB)和HPBL460(INTEL64_2CORE,3000,RHEL4,IB_VOLTAIRE)的16核性能差不多。后者比前者还好一些。SUNX6250使用的是X526045nm,主频为3.33GHz的芯片,而HPBL460使用的是65nm,主频为3.0GHz的5160芯片。两种芯片都是双核的,可见双核45nm的性能提升并不多,而Intel四核45nm的5472比四核65nm的5365性能提升不少(根据ANSYS11.0SP1b
本文标题:ANSYS-&-Fluent性能基准测试简介
链接地址:https://www.777doc.com/doc-4730132 .html