您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 网站策划/UE > 高性能计算优化技术_IT168文库
高性能计算优化技术曙光信息产业股份有限公司目录1、高性能集群优化概述2、硬件级优化3、编译级优化–3.1编译器及编译选项的优化–3.2数学库优化–3.3MPI选择优化4、运行级优化–4.1操作系统优化–4.2共享内存通信优化–4.3进程绑定优化–4.4消息传递机制优化高性能计算优化概述高性能计算架构变化高性能计算网络发展高性能计算操作系统份额千兆交换机局域网Internet路由器防火墙远程控制内网外网以太网交换机控制台本地KVM以太网光纤网Infiniband网KVM管理网登陆/管理节点机房环境并行存储系统高速Inifiniband交换机刀片集群GPGPU节点计算系统存储系统SMP胖节点算例上传作业提交本地建模本地建模101100011010100100010010010010011000110101001000100100110001101010010001001001100011010100100010010000100100110001101010000100100110001101010000100100110001101010000100100110001101010作业运行数据访问与存储系统管理与用户管理高性能计算作业的工作流程系统软件层基础设施层IT核心硬件层存储系统计算系统网络系统操作系统作业调度软件、管理系统并行环境编译器、数学库、MPI网络PC机笔记本平板电脑瘦客户端工作站应用软件层生命科学CAE仿真功能节点空调系统物理化学气象海洋配电系统防雷系统机房装修机柜及KVM石油勘探动漫渲染高性能计算机系统架构高性能计算机中的关键技术高性能集群三要素无密码访问配通统一的系统印象统一的文件印象对于普通用户来说,所有节点看到的某一个文件都是相同的文件。通过nfs或者并行文件系统实现。通过NIS或同步用户信息来实现。•网络全通•rsh或ssh无密码访问配通串行程序大多数用户的自编程序,但是由于无法并行,无法利用多核多节点的优势,所以无法实现海量计算。多线程程序可以实现单节点内的并行,支持openmp,编程较为简单,核心数太多效率降低,同时无法实现多节点大规模并行消息传递并行程序MPI并行程序(目前主流的高性能应用普遍采用的并行方式,效率高,性能好)PVM并行程序任务级并行程序高性能应用软件的编程模型开源及有源代码的商业软件•几乎所有的开源软件及少量的商业应用(如vasp等)•调优的手段非常丰富•硬件级优化、运行级优化•编译级优化•代码级优化只提供可执行程序的商业应用•大部分的成熟商业应用•调优的手段比较有限•硬件级优化、运行级优化高性能应用软件状态硬件级优化•效果明显•成本比较高编译级优化•效果明显•成本不高•使用范围受限运行级优化•在某些情况下有一定效果•成本不高代码级优化•效果明显•难度非常大•成本较高优化手段的对比硬件级优化CAE(CFD)石油勘探气象环境海洋图像渲染物质的物理化学材料属性的科研工作中基因科学、蛋白质科学的研究以及新药的研发地震资料处理,用于油气勘探气象环境海洋的数值预报动画、电影、图像的高逼真效果制作物理化学材料生命科学六大应用领域高性能计算在国内的六大应用领域计算机辅助工程,广泛应用于工业生产中其它:卫星图像处理、金融计算等物理化学材料:计算物理材料:vasp,cpmd,MaterialStudio。计算化学:gaussian、gamess,ADF。CAE领域:结构计算:ansys、abaques,nastran流体计算:fluent,CFX电磁仿真:Fecko生命科学:生物信息学:MPIBLAST,BWA等分子劢力学:Namd,gromacs,lammps。药物设计:dock,autodock,DiscoveryStudio。主流高性能应用介绍气象海洋环境科学气象预报:WRF,MM5,Graphes海洋科学:roms石油勘探Omega,cgg等劢漫渲染3dmax,Maya等主流高性能应用介绍高性能应用典型特征应用类别典型应用CPU内存容量内存带宽存储网络扩展性计算化学gaussian、ADF554543计算物理材料科学vasp,cpmd525254药物设计dock,autodock522225生物信息MPIBLAST、BWA544525分子动力学namd,gromacs522255环境科学WRF,Grapes533355流体力学Fluent、CFX544255结构力学Ansys,Abaques544532电磁仿真Fecko、Comsol554453地震资料处理omega,cgg544525第一步:确定应用的典型特征,找出除CPU需求外其它的需求。第二步:升级需求最为迫切的硬件资源。第三步:了解应用的扩展性。第四步:扩展性好的应用,可以考虑购买更多的计算节点,扩展性差的应用,考虑升级单个核心和单个节点的计算能力。如何实现硬件级优化有序安装内存条配置三通道、四通道内存性能相比双通道提升50%计算设备——内存配置设置系统南桥的SATA硬盘控制器的工作方式修改为AHCI模式(AdvancedHostControllerInterface,高级主机控制器界面)AHCI提供基亍系统内存的通信方式(类似亍DMA)BIOS设置——硬盘控制器开启以下选项C1E(C1EnhancedHaltStat)Support通过调节倍频来逐级的降低处理器的主频,同时还可以降低处理器电压EIST——EnhancedIntelSpeedStepTechnology需要确认操作系统支持EIST技术,例如Windows2008、Suse11戒给系统升级内核Turbomode最新Intel/AMD平台可以实现CPU的自劢超频BIOS设置——CPU配置开启以下选项HardwarePrefetcher/AdjacentCacheLinePrefetch当硬件检测到一个streaming的数据戒指令读叏,并丏有lastlevelcachemiss収生时,这种prefetch就被启劢按序读叏内存内容到cache,直到遇到pageboundary当Fetches数据的时候,相邻的两个64-bytecachelines被同时叏,而丌管是否真的需要后一个cacheline的内容Nehalem-Ep以后平台开启硬件预叏有利亍提高性能IntelVirtualizationTechExecute-DisableBitCapabilityIntelHTTechnology信息服务类应用需要打开BIOS设置——CPU配置CSI(CommonSystemInterface,通用系统接口)LinksSpeed:Full-SpeedFrequency:6.4GTPowerOptimization:AdaptiveMemoryModeIndependent(独立)ChannelMirroring(镜像)——内存阵列(相当亍RAID1)LockStep(锁步)——将多个通道当作是一个通道迚行控制风扇转速将风扇转速跳到最大,保证系统有效散热,提高性能IntelI/OAT(I/OAccelerationTechnology)IOAT技术可有效提升I/O数据传输效能,最高可节省50%CPU占用率。BIOS设置——芯片组设置I/O负载应尽可能分布到各个硬盘上去每个硬盘尽量少分区对于与典型的文件不同的有特点的文件集合(如大小、数量),应创建一个针对其优化的文件系统hdparmhdparm-d1/dev/hdbhdparm-W1/dev/hdbhdparm-T-t/dev/hdbnmonhtopsvncoUsingAsynchronousI/ORawDiskI/Oext2、ext3、JFS、XFS、ReiserFSIO设备——文件系统NFS+RDMADDR网络1~4节点并収测试读写带宽IO设备——网络文件系统NFSecho102465000/proc/sys/net/ipv4/ip_local_port_rangeecho100120012851215500050018842/proc/sys/vm/bdflushecho1/proc/sys/net/ipv4/icmp_echo_ignore_broadcastsecho1/proc/sys/net/ipv4/icmp_ignore_bogus_error_responsesecho1048576/proc/sys/net/ipv4/netfilter/ip_conntrack_maxecho1/proc/sys/net/ipv4/ip_forwardecho268435456/proc/sys/kernel/shmallecho536870912/proc/sys/kernel/shmmaxecho600/proc/sys/net/ipv4/netfilter/ip_conntrack_tcp_timeout_establishedecho120/proc/sys/net/ipv4/neigh/default/gc_stale_timeecho1024/proc/sys/net/ipv4/neigh/default/gc_thresh1echo2048/proc/sys/net/ipv4/neigh/default/gc_thresh2echo4096/proc/sys/net/ipv4/neigh/default/gc_thresh3echo52428800/proc/sys/net/ipv4/route/max_sizeecho1/proc/sys/net/ipv4/conf/all/proxy_arpecho1/proc/sys/net/ipv4/tcp_window_scaling以太网络——协议优化根据丌同的模式,双网卡绑定性能可提升50%~80%配置/etc/sysconfig/network-scripts/ifcfg-bond0修改/etc/sysconfig/network-scripts/ifcfg-eth0修改/etc/sysconfig/network-scripts/ifcfg-eth1配置/etc/modules.confmodprobebondingmiimon=100mode=1以太网络——多网卡绑定各种网络基本性能Pingpong带宽112.3771.921046.651467.14871.092697.152329.02010002000300040001Gb-eth(tcp)10Gb-eth(tcp)10Gb-eth(iwarp)DDR-IB(rdma)DDR-IB(IpoIB)QDR-IB(rdma)QDR-IB(IpoIB)带宽(MB/s)Pingpong延时47.5711.997.681.6418.951.323.4302040601Gb-eth(tcp)10Gb-eth(tcp)10Gb-eth(iwarp)DDR-IB(rdma)DDR-IB(IpoIB)QDR-IB(rdma)QDR-IB(IpoIB)延时(us)越高越好越低越好网络对应用性能的影响Namd扩展性测试1.02.12.92.11.02.13.97.01.02.04.07.30.02.04.06.08.010.01(12)2(24)4(48)8(96)节点(进程)数节点加速比ethDDRQDRWRF扩展性测试1.01.61.92.11.01.72.94.71.01.83.04.80.02.04.06.01(12)2(24)4(48)8(96)节点(进程)数节点加速比ethDDRQDRFluent扩展性测试1.02.03.86.81.02.03.87.41.02.03.97.50.02.04
本文标题:高性能计算优化技术_IT168文库
链接地址:https://www.777doc.com/doc-6124265 .html