您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 02-第02章-当代并行机系统-并行计算的基础-并行计算(共15章)
国家高性能计算中心(合肥)12013/7/24Wednesday第二章当代并行机系统2.12.1共享存储多处理机系统共享存储多处理机系统2.1.12.1.1对称多处理机对称多处理机SMPSMP结构特性结构特性2.22.2分布存储多计算机系统分布存储多计算机系统2.2.12.2.1大规模并行机大规模并行机MPPMPP结构特性结构特性2.32.3机群系统机群系统2.3.12.3.1大规模并行处理系统大规模并行处理系统MPPMPP机群机群SP2SP22.3.22.3.2工作站机群工作站机群COWCOW国家高性能计算中心(合肥)22013/7/24Wednesday对称多处理机SMP(1)SMP:SMP:采用商用微处理器,通常有片上和片外采用商用微处理器,通常有片上和片外CacheCache,,基于总线连基于总线连接,集中式共享存储,接,集中式共享存储,UMAUMA结构结构例子:例子:SGIPowerChallenge,DECAlphaSGIPowerChallenge,DECAlphaServer,Dawning1Server,Dawning1P/CSMSMI/O总线或交叉开关P/CP/C…国家高性能计算中心(合肥)32013/7/24Wednesday对称多处理机SMP(2)优点优点对称性对称性单地址空间,易编程性,动态负载平衡,无需显示数据分配单地址空间,易编程性,动态负载平衡,无需显示数据分配高速缓存及其一致性,数据局部性,硬件维持一致性高速缓存及其一致性,数据局部性,硬件维持一致性低通信延迟,低通信延迟,Load/StoreLoad/Store完成完成问题问题欠可靠,欠可靠,BUS,OS,SMBUS,OS,SM通信延迟(相对于通信延迟(相对于CPUCPU),),竞争加剧竞争加剧慢速增加的带宽(慢速增加的带宽(MBdouble/3MBdouble/3年年,,IOBIOB更慢)更慢)不可扩放性不可扩放性------〉〉CCCC--NUMANUMA国家高性能计算中心(合肥)42013/7/24Wednesday大规模并行机MPP成百上千个处理器组成的大规模计算机系统,规模是变化的。成百上千个处理器组成的大规模计算机系统,规模是变化的。NORMANORMA结构,高带宽低延迟定制互连。结构,高带宽低延迟定制互连。可扩放性:可扩放性:MemMem,I/O,,I/O,平衡设计平衡设计系统成本:商用处理器,相对稳定的结构,系统成本:商用处理器,相对稳定的结构,SMP,SMP,分布分布通用性和可用性:不同的应用,通用性和可用性:不同的应用,PVM,MPI,PVM,MPI,交互,批处理,互连对交互,批处理,互连对用户透明,单一系统映象,故障用户透明,单一系统映象,故障通信要求通信要求存储器和存储器和I/OI/O能力能力例子:例子:IntelOptionRedIntelOptionRedIBMSP2Dawning1000IBMSP2Dawning1000P/CLMNIC定制网络P/CLMNICMBMB…国家高性能计算中心(合肥)52013/7/24Wednesday典型MPP系统特性比较MPP模型Intel/SandiaASCIOptionRedIBMSP2SGI/CrayOrigin2000一个大型样机的配置9072个处理器,1.8Tflop/s(NSL)400个处理器,100Gflop/s(MHPCC)128个处理器,51Gflop/s(NCSA)问世日期1996年12月1994年9月1996年10月处理器类型200MHz,200Mflop/sPentiumPro67MHz,267Mflop/sPOWER2200MHz,400Mflop/sMIPSR10000节点体系结构和数据存储器2个处理器,32到256MB主存,共享磁盘1个处理器,64MB到2GB本地主存,1GB到14.5GB本地磁盘2个处理器,64MB到256MB分布共享主存和共享磁盘互连网络和主存模型分离两维网孔,NORMA多级网络,NORMA胖超立方体网络,CC-NUMA节点操作系统轻量级内核(LWK)完全AIX(IBMUNIX)微内核CellularIRIX自然编程机制基于PUMAPortals的MPIMPI和PVMPowerC,PowerFortran其他编程模型Nx,PVM,HPFHPF,LindaMPI,PVM国家高性能计算中心(合肥)62013/7/24WednesdayMPP所用的高性能CPU特性比较属性PentiumProPowerPC602Alpha21164AUltraSPARCIIMIPSR10000工艺BiCMOSCMOSCMOSCMOSCMOS晶体管数5.5M/15.5M7M9.6M5.4M6.8M时钟频率150MHz133MHz417MHz200MHz200MHz电压2.9V3.3V2.2V2.5V3.3V功率20W30W20W28W30W字长32位64位64位64位64位I/O高速缓存8KB/8KB32KB/32KB8KB/8KB16KB/16KB32KB/32KB2级高速缓存256KB(多芯片模块)1~128MB(片外)96KB(片上)16MB(片外)16MB(片外)执行单元5个单元6个单元4个单元9个单元5个单元超标量3路(Way)4路4路4路4路流水线深度14级4~8级7~9级9级5~7级SPECint92366225500350300SPECfp92283300750550600SPECint958.0922511N/A7.4SPECfp956.7030017N/A15其它特性CISC/RISC混合短流水线长L1高速缓存最高时钟频率最大片上2级高速缓存多媒体和图形指令MP机群总线可支持4个CPU国家高性能计算中心(合肥)72013/7/24Wednesday机群型大规模并行机SP2设计策略:设计策略:机群体系结构机群体系结构标准环境标准环境标准编程模型标准编程模型系统可用性系统可用性精选的单一系统映像精选的单一系统映像系统结构:系统结构:高性能开关高性能开关HPSHPS多级多级ΩΩ网络网络宽节点、窄节点和窄节点宽节点、窄节点和窄节点22NICDE节点1NICDE节点S以太网PMCCMCCPPPN高性能Omega,网络开关I/O总线I/O总线…国家高性能计算中心(合肥)82013/7/24Wednesday工作站机群COW分布式存储,分布式存储,MIMDMIMD,,工作站工作站++商用互连网络,每个节点是一个完整的计商用互连网络,每个节点是一个完整的计算机,有自己的磁盘和操作系统,而算机,有自己的磁盘和操作系统,而MPPMPP中只有微内核中只有微内核优点:优点:投资风险小投资风险小系统结构灵活系统结构灵活性能性能//价格比高价格比高能充分利用分散的计算资源能充分利用分散的计算资源可扩放性好可扩放性好问题问题通信性能通信性能并行编程环境并行编程环境例子:例子:BerkeleyNOWBerkeleyNOW,,AlphaFarm,FXCOWAlphaFarm,FXCOWP/CMMIOMIOMP/CNICNICDDLAN国家高性能计算中心(合肥)92013/7/24Wednesday典型的机群系统典型的机群系统特点一览表名称系统特点Princeton:SHRIMPPC商用组件,通过专用网络接口达到共享虚拟存储,支持有效通信Karsruhe:Parastation用于分布并行处理的有效通信网络和软件开发Rice:TreadMarks软件实现分布共享存储的工作站机群Wisconsin:WindTunnel在经由商用网络互连的工作站机群上实现分布共享存储Chica、Maryl、Penns:NSCP国家可扩放机群计划:在通过因特网互连的3个本地机群系统上进行元计算Argonne:Globus在由ATM连接的北美17个站点的WAN上开发元计算平台和软件Syracuse:WWVM使用因特网和HPCC技术,在世界范围的虚拟机上进行高性能计算HKU:PearlCluster研究机群在分布式多媒体和金融数字库方面的应用Virgina:Legion在国家虚拟计算机设施上开发元计算软件国家高性能计算中心(合肥)102013/7/24WednesdaySMP\MPP\机群比较系统特征SMPMPP机群节点数量(N)O(10)O(100)-O(1000)O(100)节点复杂度中粒度或细粒度细粒度或中粒度中粒度或粗粒度节点间通信共享存储器消息传递或共享变量(有DSM时)消息传递节点操作系统1N(微内核)和1个主机OS(单一)N(希望为同构)支持单一系统映像永远部分希望地址空间单一多或单一(有DSM时)多个作业调度单一运行队列主机上单一运行队列协作多队列网络协议非标准非标准标准或非标准可用性通常较低低到中高可用或容错性能/价格比一般一般高互连网络总线/交叉开关定制商用
本文标题:02-第02章-当代并行机系统-并行计算的基础-并行计算(共15章)
链接地址:https://www.777doc.com/doc-6844583 .html