您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 国家高性能计算环境的设计与实现
国家高性能计算环境的设计与实现*李伟李伟李伟李伟1111))))徐志伟徐志伟徐志伟徐志伟1111))))唐志敏唐志敏唐志敏唐志敏1111))))谢向辉谢向辉谢向辉谢向辉2222))))肖侬肖侬肖侬肖侬3333))))1)中国科学院计算技术研究所,北京,1000802)江南计算所3)国防科技大学,长沙,410001摘摘摘摘要要要要本文介绍国家高性能计算环境(NHPCE)的设计与实现。NHPCE的设计目标是在计算资源广域分布且动态变化的元计算环境下实现高性能计算。NHPCE以我国现有的高性能计算资源为基础,设计并实现了一个高性能计算的支持平台。NHPCE由国产超级计算机构成,通过网格系统软件GridWare实现了广域高性能计算资源的优化配置和共享使用。NHPCE在网格系统软件的基础上开发了科学计算型应用系统和生产型应用系统。目前NHPCE建立了测试结点,成功安装并运行了GridWare软件系统。关键词关键词关键词关键词国家高性能计算环境,元计算,网格DesignandImplementationofNationalHighPerformanceComputingEnvironmentLIWeiLIWeiLIWeiLIWei1)1)1)1)XUZhiweiXUZhiweiXUZhiweiXUZhiwei2)2)2)2)TANGZhiminTANGZhiminTANGZhiminTANGZhimin3)3)3)3)XIEXianghuiXIEXianghuiXIEXianghuiXIEXianghui4)4)4)4)XIAONongXIAONongXIAONongXIAONong5)5)5)5)1)InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing,1000802)JiangNanInstituteofComputingTechnology3)NationalUniversityofDefenseTechnology,Changsha,410001AbstractAbstractAbstractAbstractThisarticleintroducesthedesignandimplementofNationalHighPerformanceComputingEnvironment(NHPCE).ThegoalsofNHPCEaretoimplementthehighperformancecomputingunderthemetasysteminwhichthecomputingresourcesaredynamicalandwidespread.NHPCEisbasedonthecomputingresourcesthatarebeingusedandconstructsasupportingsystemforhighperformancecomputing.Comprisedbyanumberofnationalsupercomputers,NHPCEusessystemsoftware-GridWaretointegratethemintoonewholesystem,obtainingthebetterconfigurationandbettersharingofdistributedcomputingresources.BasedonGridWare,wealsodeveloptheapplicationsbothforscientificcomputingandforproduction.NowNHPCEhasbuiltupsomesupercomputingnodefortesting.GridWareissuccessfullyinstalledandisrunningwell.KeywordsKeywordsKeywordsKeywordsNationalHighPerformanceComputingEnvironment,NHPCE,Metacomputing,GridWare,Grid*本文受国家863计划的资助。李伟李伟李伟李伟,1973年生,硕士,助研,研究方向为机群操作系统和网格操作系统。徐志伟徐志伟徐志伟徐志伟,1956年生,博士,教授,研究方向为网格计算技术、机群操作系统、嵌入式操作系统、高性能服务器体系结构和安全操作系统。唐志敏唐志敏唐志敏唐志敏,1966年生,教授,研究方向为高性能计算机体系结构、网络并行处理、高速数字信号处理和高速电路设计。谢向辉谢向辉谢向辉谢向辉,高级工程师,研究方向为高性能计算机体系结构、网络并行处理和网格计算技术。肖侬肖侬肖侬肖侬,1969年生,博士,研究方向为网络并行计算、广域并行与分布式元计算技术。1引言随着高性能应用需求的迅猛发展,单台高性能计算机已经不能胜任一些超大规模应用问题的解决。这就需要将地理上分布、系统异构的多种计算资源通过高速网络连接起来,共同解决大型应用问题,即广域高性能的元计算技术(Metacomputing)[1]。元计算技术对于解决大规模应用具有非常重要的意义。典型的例子包括:美国的I-WAY[2]实验,连接了北美17个不同地点的超级计算机资源,完成了包括科学模拟[3,4],项目协同[5,6]及科学仪器[7]等应用。最近,美国的MetaNEOS项目利用1000台(总共2510个处理器)分布在不同地点的计算机共同完成了nug30[8]问题[9]。元计算系统(Metasystem)具有分布式系统和并行系统的特征,但是又同二者有着非常重要的区别。与分布式系统类似,位于多个管理域下的超级计算机通过不可靠的网络进行连接,并且需要对广域分布的动态资源进行集成。但是元计算系统对高性能的要求使其编程模型及接口与分布式系统有极大的差别。同时,元计算系统作为并行系统还需要进行超级计算机之间的通信调度以满足应用对性能的要求。然而,由于元计算系统的异构性以及动态性使得现有的并行计算技术的应用受到很大的限制。为此美国从90年代初开始进行国家计算网格(Grid,简称网格)[10]的预研。作为元计算系统的实现,计算网格是国家级高性能计算和信息服务的战略性基础设施,在全国范围内提供各种一体化的高性能计算环境及信息服务。目前美国正在兴建的计算网格包括:NationalTechnologyGrid,NASAInformationPowerGrid,ASCIDistributedResourceManagement(DRM)Testbed等。元计算系统的上述特点在网格系统设计和网格系统工具开发等方面向系统的分布性和并行性提出了新的要求。“国家高性能计算环境(NationalHighPerformanceComputingEnvironment,简称NHPCE)”项目的目标就是针对上述问题实现一个完备、实用的元计算系统。NHPCE的初期目标是在全国范围内建立由多个高性能计算机结点组成的计算网格系统,开发网格系统软件GridWare和若干重大行业应用。网格系统软件GridWare主要包括网格用户管理,网格资源信息管理,网格作业管理,网格安全系统等(图1)。网格应用包括生物计算,气象预报,石油油藏模拟,科学数据库等具有重大生产意义的系统。NHPCE的长期目标是提高计算网格系统的性能、可扩展性及可用性。本文第二部分介绍了元计算技术,第三部分介绍了NHPCE的体系结构,第四部分介绍了NHPCE的网格系统软件GridWare,第五部分介绍了NHPCE目前的测试结点情况,第六部分给出结论并讨论NHPCE项目的进展和未来的计划。2元计算技术我们可以将元计算系统定义为通过高速网络连接,由地域分布的动态计算资源构成的网络虚拟超级计算机系统[11]。元计算系统在其概念的提出后经历了几个发展阶段[1],目前对元计算系统的研究主要集中在指国家范围内的广域虚拟超级计算机系统。元计算技术产生的背景是计算应用对计算机资源和计算能力不断增长的需求。当单台计算机系统不能满足应用的需求时,就需要使用其它计算机系统的资源。一方面,由于超级计算机系统非常昂贵,不可能增加新的超级计算机作为这个应用的专用系统;另一方面,即使可以使用其它超级计算机的资源,由于应用系统不具备通用性,因此不可能直接利用这些计算资源。元计算系统的出现为解决上述的问题提供了新的途径。2.1面向元计算系统的应用美国1996年进行的I-WAY[2]实验表明,基于元计算系统的应用主要可以分为四类:图1NHPCE系统结构!桌面超级计算。这些与远程超级计算机和数据库相耦合的应用具有高端图形处理能力。这种耦合使用户在获得超级计算能力的同时,与计算资源、应用开发人员以及其他用户保持远程距离。!精密仪器。这些应用将用户和远程超级计算机系统上的望远镜、显微镜以及卫星接收装置相连以获得准实时的数据处理。!协同环境。第三方应用将多个虚拟环境组织在一起,不同地点的用户可以和其他用户和超级计算机模拟系统进行交互。!分布式超级计算。这些应用将多个超级计算机组织在一起,解决一些单机难以处理的问题,或者将问题分解到多台计算机上并行处理。2.2元计算系统特征I-WAY[2]及其他的元计算实验系统表明,元计算系统一般具有以下的特征:!扩展性。初期的规模较小,随着超级计算机系统的不断加入,规模随之扩大。!系统多层次的异构性。不同类型的超级计算机在体系结构、操作系统及应用软件等多个层次上具有不同的结构。!结构的不可预测性。元计算系统由于其地域分布和系统的复杂使其整体结构经常发生变化;元计算系统的应用必须能够适应这种不可预测的结构。!动态和不可预测的系统行为。在元计算系统中,由于资源的共享造成系统行为和系统性能经常变化。!多级管理域。构成元计算系统的超级计算机资源通常属于不同的机构或组织。对于元计算系统来说,最根本的问题是实时获得系统的结构和状态信息,通过这些信息对网格应用进行配置,并能实时获得计算资源的状态信息。3NHPCE的体系结构我国自主研制生产的曙光、神威及银河等超级计算机已经广泛应用在国防、生物、气象及石油等重要领域。由于高性能计算资源的昂贵性和分散性,如何提高其使用率以及最大程度的共享这些计算资源成为一个需要解决的现实问题。同时,由于应用规模的不断增长,很多大型的应用问题已经不能由单台超级计算机完成,而必须由多台超级计算机协同解决。NHPCE项目的目标是解决上述的问题,实现一个基于共享高性能计算资源的、用于解决图2GridWare的两层结构超大规模应用的高性能计算网格系统。本文主要介绍NHPCE的总体设计及其实现,包括(a)NHPCE底层支持结构和(b)NHPCE系统软件以及(c)NHPCE应用系统模式。3.1NHPCE底层支持结构广域分布的超级计算机及互联网络(Internet或专用网)组成了NHPCE的底层支持结构。分布在不同地域的曙光、银河及神威等异构超级计算机构成NHPCE的计算结点,计算结点之间通过Internet或专用高速网连通。计算结点可提供千亿次以上的浮点运算能力以及海量级数据存储能力,并配置有各种高效的软件,为NHPCE系统提供了有力的支持。3.2NHPCE系统软件目前的超级计算机可以提供网络环境下的管理工具和开发工具,这些系统工具为计算网格的开发和使用提供了一定的基础。但是由于NHPCE中计算结点系统之间的异构性以及计算资源的广域分布,这些工具在NHPCE中难以利用。NHPCE需要提供相应的软件系统来消除异构结点系统之间的差异,实现对整个网格计算资源的统一管理。NHPCE系统软件GridWare的目标是实现以下的功能:!全网格统一的资源信息管理。GridWare对网格资源进行统一管理,包括资源信息的组织,资源信息的查询,网格资源的分配等。!全网格统一的用户管理。GridWare实现用户对NHPCE的单一登录,用户信息的查询和修改,用户记账等。!全网格统一的作业管理。GridWare向网格用户提供统一的批作业系统,包括批作业的提交、查询、撤销,批作业的自动调度等。!全网格统一
本文标题:国家高性能计算环境的设计与实现
链接地址:https://www.777doc.com/doc-913244 .html