您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 高性能计算仿真云平台建设
InstituteofSoftware,ChineseAcademyofSciences高性能计算云平台建设姚继锋中国科学院软件研究所中科嘉速(北京)并行软件有限公司2012年6月29日广州InstituteofSoftware,ChineseAcademyofSciences提要高性能计算中心建设的必要性高性能计算中心建设与运维建设运维运营从高性能计算到云计算InstituteofSoftware,ChineseAcademyofSciences科研创新的三驾马车物理化学生物医药汽车新型能源海洋工程金融新型材料理论分析飞机计算模拟科研创新观察实验船舶InstituteofSoftware,ChineseAcademyofSciences高性能计算能力是学校科研能力的主要标志之一计算仿真是科研的三大途径之一物理、生物、天文、力学、新材料等众多学科发展高度依赖于高性能计算;几乎所有学科都可以利用计算及仿真技术计算能力至关重要,很多领域科研水平的高低取决于计算能力强弱宇宙学研究(南京大学)湍流研究(北京大学)材料机理研究(中国科大)……InstituteofSoftware,ChineseAcademyofSciences高性能/高端计算系统理应集中建设聚合建设,提供大规模先进计算资源集约化建设,有限计算资源高效利用InstituteofSoftware,ChineseAcademyofSciences为什么需要高性能计算中心专业的技术和服务团队,高效稳定的运维用户不愿也很难进行有效的运维专业技术人员的稀缺是资源中心,更是跨领域的研究创新中心计算模拟需要多领域的融合计算中心是最佳的舞台和平台趋势:集中的计算能力、数据及其处理能力计算中心将是信息分析和处理中心学校/地区竞争力和科研力的象征计算中心时代~1990InstituteofSoftware,ChineseAcademyofSciences计算中心的发展网络中心时代1990~2010PC时代1990~2010云计算时代2010~网络服务数据服务计算服务InstituteofSoftware,ChineseAcademyofSciences计算中心的发展天下大势,分久必合,合久必分InstituteofSoftware,ChineseAcademyofSciences国外主要计算中心的发展1985美国圣地亚哥超算中心1986美国国家超级计算应用中心1989韩国超算中心2001日本东京工业大学GSIC2004巴塞罗那超算中心InstituteofSoftware,ChineseAcademyofSciences国内主要超级计算中心北京,上海,天津,深圳,济南,长沙,广州……InstituteofSoftware,ChineseAcademyofSciences国内计算中心建设单位的缺憾国外成功经验表明建设单位应该是应用单位国家实验室、大学应用专家主导国内情况政府主导计算机专家主导高校应当成为我国大规模高性能计算中心建设单位湖南大学,中山大学InstituteofSoftware,ChineseAcademyofSciences归口和定位谁是婆婆?谁是金主?职责和功能计算中心、网络中心、信息中心还是其他?建设和运维资金来源?核心问题:是否利于成果产出?是否能持续发展?InstituteofSoftware,ChineseAcademyofSciences提要高性能计算中心建设的必要性高性能计算中心建设与运维建设运维运营从高性能计算到云计算InstituteofSoftware,ChineseAcademyofSciences超算中心系统环境架构•安全,稳定,高速•易用,实用,功能强大内外部互联网络环境运维管理平台高用•齐全,安全,稳定,可持续计算中心基础设施高性能计算应应用•用户导向,丰富,高效超超级计算机系统统•先进,稳定,可靠,高效运维角度应用角度投资角度售后角度InstituteofSoftware,ChineseAcademyofSciences主机系统考量可靠性、稳定性可管理性兼容性性能及可扩展性可用性价格免费维护期技术支持能力应用支持能力InstituteofSoftware,ChineseAcademyofSciences一次到位,当前投资方式的不足时间用户体验一步到位分步到位时间运营开销一步到位分步到位InstituteofSoftware,ChineseAcademyofSciences高性能计算应用软件配置出发点面向用户需求面向系统架构:兼容性和性能面向建设特点:买对的,买贵的两类应用软件有源软件商业软件软件同样是计算中心的资源优势InstituteofSoftware,ChineseAcademyofSciences管理运维和应用平台建设管理员资源管理系统实时监控系统作业管理系统用户管理系统巡检管理系统…………管理者系统数据统计和分析系统用户数据统计和分析系统使用者作业管理系统数据管理系统可视化系统专业应用平台InstituteofSoftware,ChineseAcademyofSciences人员配备系统技术支持应用技术支持研究开发InstituteofSoftware,ChineseAcademyofSciences核心技术能力系统技术硬件系统电源冷却等支撑技术操作系统并行文件系统存储系统……应用支持技术应用移植应用运行和调度应用咨询应用研究……并行计算技术应用分析和测评并行应用开发并行应用优化新体系架构技术可视化技术研究能力InstituteofSoftware,ChineseAcademyofSciences提要高性能计算中心建设的必要性高性能计算中心建设与运维建设运维运营从高性能计算到云计算技术InstituteofSoftware,ChineseAcademyofSciences系统运维管理体系运维管理制度全方位的外围保障人员管理专业、稳定、敬业的维护队伍高效运行的超级计算机系统深入扎实的系统技术严格分级、及时有效故障处理科学有效的主机运行指标严密的安全管理复杂系统环境的深入研究InstituteofSoftware,ChineseAcademyofSciences管理示例:应急预案《主机房消防应急预案》《气体喷淋系统启动撤离及处置应急预案》《超级计算机系统紧急关机操作方法》《主机房断电应急预案》《机房空调故障应急预案》《重大灾难应急处理预案》……I级操作:关闭主机系统外围设备II级操作:关闭非重要用户计算节点III级操作:关闭所有用户计算节点(D组)IV级操作:关闭SAN存储设备和LSF服务器V级操作:关闭磁盘阵列和所有存储节点InstituteofSoftware,ChineseAcademyofSciences管理示例:断电关机流程与物业联系供电现状检查主机系统是否正常采取开门、布置应急风扇降温措施并观察温度和供电是是节点温度超50度30分钟未恢复供电否否否X=1第X级关机操作命令组合X=X+1按《主机系统紧急关机操作方法》直接拉闸关闭所涉范围所有设备电闸X5UPS低于5分钟否主机系统是否失电否UPS低于20分钟或节点平均温度超50度否是是是善后处理否双路断电操作确认是InstituteofSoftware,ChineseAcademyofSciences技术示例:稳定性考量单点(单节点、单部件)故障发生率互联设备故障发生率系统内部供电部件故障发生率硬件故障致节点更换总次数运行自陷致节点重启总次数运行出错致作业迁移总次数……InstituteofSoftware,ChineseAcademyofSciences运维管理系统保障InstituteofSoftware,ChineseAcademyofSciences高效运维要素InstituteofSoftware,ChineseAcademyofSciences提要高性能计算中心建设的必要性高性能计算中心建设与运维建设运维运营从高性能计算到云计算InstituteofSoftware,ChineseAcademyofSciences国际超级计算中心运营日常运营费用及来源(美元/每年)超级计算中心美国圣地亚哥超级计算中心建成时间1985人员规模400设备更新费用来源联邦机构6000万其中2000万来自NSF;其余主要来自联邦机构、州政府的各个研究项目美国国家超级计算应用中心1986500联邦机构超过2000万美元主要来自NSF,部分来自于州政府(700万)、大学及其他联邦机构芬兰科学计算中心1970140中央政府机构5000万其中65%来自教育部,20%来自合作项目,15%来自其他方面瑞士国家超级计算中心199140联邦机构900万其中850万来自联邦机构;仅有50万来自第三方韩国KISTI超级计算中心1988—中央政府机构3000万其中1000万来自韩国政府直接拨款;1000万来自与政府部门、高校的研究项目;另外1000万来自其他项目InstituteofSoftware,ChineseAcademyofSciences持续投入:最大的挑战定期建设经费常规运营经费除去基建经费,每年运营约占建设经费的1/8~1/5(其中电力和冷却约占1/3)应有常规有效的投资机制InstituteofSoftware,ChineseAcademyofSciencesInstituteofSoftware,ChineseAcademyofSciences提要高性能计算中心建设的必要性高性能计算中心建设与运维建设运维运营从高性能计算到云计算用户网络化InstituteofSoftware,ChineseAcademyofSciences云计算的理解应用程序操作系统应用程序操作系统应用程序操作系统应用程序应用程序操作操作系统系统应用服务应用服务应用服务应用服务应用服务硬件虚拟化软件服务化InstituteofSoftware,ChineseAcademyofSciences高性能计算中心是天然的云计算中心昂贵软硬件资源集中部署用户远程共享使用租赁资源而不是采购/建设资源但是计算虚拟化技术技术不适于高性能计算InstituteofSoftware,ChineseAcademyofSciences高性能计算云平台的核心是软件云计算的核心是平台软件当前缺乏好的平台面向各类用户需求的定制开发,厂商现有产品只能满足部分需求整合高性能计算云平台和其他云服务平台帐号数据协同……InstituteofSoftware,ChineseAcademyofSciences小结高性能计算对科研发展至关重要高校应该成为大型高性能计算中心的主要力量好的计算中心不仅仅需关注机房和硬件,还包括软件、运维、用户服务和运营机制高性能计算中心是天然的云计算中心,但需特别关注云平台软件建设InstituteofSoftware,ChineseAcademyofSciences有限计算创造无限可能JIFENG.YAO@GMAIL.COM
本文标题:高性能计算仿真云平台建设
链接地址:https://www.777doc.com/doc-3372964 .html