您好,欢迎访问三七文档
©2016,AmazonWebServices,Inc.oritsAffiliates.Allrightsreserved.深入浅出AWS高性能计算及最佳实践肖凌解决方案架构师2016年5月26日从基础架构上认识高性能计算–HPC与HTCHPC:集群计算(HighPerformanceComputing)•以紧耦合集群的方式运行,对集群计算能力通常以集群CPU核数作为性能指标。•对计算节点之间的通信延迟要求极低,以提高信息交互效率。HTC:网格计算(HighThroughputComputing)•通常需要大量的计算节点相对独立的完成计算任务。•计算节点之间的交互比较少,对网络通信的依赖度不高。从基础架构上认识高性能计算轻量数据存储重度数据存储流体力学天气预测材料仿真汽车碰撞仿真风险建模分子建模上下文搜索物流建模动画建模微电子验证图像处理地理信息系统地震勘探数据处理基因数据计算天体物理深度学习紧耦合集群(HPC)分布式网格计算(HTC)计算资源的实际需求传统的IT部署方式–利用率与IT成本的矛盾服务器部署资源未被利用的IT资源时间购买服务器购买服务器购买服务器利用峰值工作量部署IT资源导致集群利用效率低计算资源的实际需求提高IT资源的利用率…...时间提高IT资源利用率也会增加成本???项目推迟项目推迟更长的队列等待时间与项目周期。IT运维团队和集群用户•集群用户–快快快!•计算时间由计算任务决定,不易预估时间•IT运维团队寻求高效的集群利用率HPC队列:•HPC队列作业堆积•计算完成时间难以预估•集群的利用率不理想,用户抱怨!?HPC队列–想说爱你不容易高性能计算用户的需求与痛点•不可控的计算时间?•计算资源固定并且难以扩展?•数据中心成本高昂?•数据安全?•怎样方便实现全球团队协作?亚马逊云服务(AWS)与高性能计算更低的计算成本按需付费弹性与强大的计算资源丰富的计算实例类型遍布全球的基础架构易于实现全球协作安全众多的国际安全标准与工具海量与可扩展的计算资源海量的计算资源更快的计算时间数分钟部署计算资源AWS上HPC的常见部署与解决方案视频转码与编码金融建模与仿真计算化学科研机构与政府研究项目物理建模与仿真基因处理AWS计算实例EC2详解宿主机抽象层(Hypervisor)Guest1Guest2Guestn通用类型:M1,M3,M4,T2计算优化型:C1,CC2,C3,C4内存优化型:M2,CR1,R3存储密集型:HS1,D2I/O优化型:HI1,I2GPU:CG1,G2Micro:T1,T2HPC与计算优化的EC2IntelXeonE5-26xxv2andv3CPUs•C3,C4,M4,R3,I2实例类型•2.9GHz主频,Turbo3.6GHz•Intel®AdvancedVectorExtensions(Intel®AVX):•最新的M4机型:•40vCPUs(20物理内核)•专属万兆(10Gbps)网络•即将要发布的X1机型:•100vCPUs(50物理内核)•2TBRAMCUDA&OpenCLOpenGL4.3DirectX9/10/11CUDA5.5OpenCL1.1NVIDIAFrameBufferCapture(NVFBC)NVIDIAIFRRenderingNVIDIAEncoderGPU实例预留实例预留实例可以显著降低工作负载的计算成本并且可以提供容量预留,使您能够在需要的时候游刃有余地启动之前预留的多个实例。按需实例免费套餐旨在为您提供实际动手使用AWS云服务的机会。AWS免费套餐服务/产品包括自AWS注册之日起12个月内可供免费使用的服务,以及在AWS免费套餐的12个月期限到期后不自动过期的其他服务/产品。竞价实例由于竞价型实例相对于按需定价有一定的折扣,因此您不仅可以大大降低应用程序的运行成本,在预算不变的情况下提升应用程序的计算容量和吞吐量,还能启用新型云计算应用程序。专用实例当企业策略或行业准则要求您的EC2实例在主机硬件级与属于其他客户的实例物理隔离时,这些实例是工作负载的理想之选。专用实例让您能充分利用AWS云的优势,比如按需弹性预配置、仅为实际使用量付费,以保证您的AmazonEC2计算实例能在以硬件级别隔离的环境下运行。灵活的EC2计费模型构建最经济的计算成本免费套餐免费套餐旨在为您提供实际动手使用AWS云服务的机会。AWS免费套餐服务/产品包括自AWS注册之日起12个月内可供免费使用的服务,以及在AWS免费套餐的12个月期限到期后不自动过期的其他服务/产品。50%竞价75%竞价根据市场价格付费竞价实例–节约您的计算成本25%竞价计算网络AWS万兆(10Gps)专属网络•所有的.8xlarge机型均支持•全双工放置组(PlacementGroup)•网络带宽保证(NoNetworkOversubscription)增强型网络•C3,C4,M4,R3,I2机型•超过1百万的网络PPS(PacketPerSecond),实例之间延时稳定增强型网络SinglerootI/Ovirtualization最高的网络PPS最恒定的网络时延变化实例操作系统需要使能InstanceVirtualizationlayerVFdriverDevicePassThrough:EnhancedNetworkingAWS存储服务对象存储–S3,S3-IA归档存储-Glacier块存储-实例存储与EBS分布式文件存储系统-EFSS3-SimpleStorageService高扩展,零运维的对象存储最大支持5TB存储对象上百亿客户存储对象每秒钟上百万存储请求11个9持久度极低的存储成本天然的大数据与HPC的数据注入与备份的存储服务:基因数据上传,扩区域对象数据共享日志存储:应用日志分析S3按量付费1PB裸设备存储量800TB可用存储量600TB操作系统分配的存储量400TB应用可用存储传统企业存储方案S3S3–存储桶与对象对象版本控制基于桶的访问控制权限AES-256bit加密分布式存储支持大并发操作支持对大对象进行分段上传(multi-partupload)与多个服务(SQS,SNS等)集成自动化接口归档存储Glacier低成本归档服务99.999999999%11个9的持久度3-5hours数据访问时间$0.01perGB/月$120perTB/年EC2实例存储每一个EC2都自带免费实例存储与宿主机直连读写效率高达365,000r/s与315,000w/s基于SSD或者磁介质非持久化存储–实例停止后(stop)数据丢失EBS块存储高性能持久化块设备1GBto16TBinsize以块设备的形式mount在EC2上磁介质或者是SSDAWS云端的共享文件系统–简单实现HPC文件共享全托管的EC2文件系统提供标准的文件访问接口-NFSv4PB级别数据存储高可靠与数据高持久化简单弹性自动扩展123成本低廉的海量存储BaylorCHARGEproject:•对14,000个参与者进行基因计算•每个月有24TB的新增基因测序数据•1PB原始数据•21,000个CPU计算核心•在10天内完整初期计算开始在AWS上的HPC部署与使用开发测试与评估生产环境核心生产环境All-inAWSHPC典型架构按需配置使用集群相同时间根据计算需求与工作部署相应规模的集群与计算资源。自动弹性伸缩计算资源(AutoScaling)调度作业队列的深度自动的与计算资源匹配CloudWatch自动弹性伸缩组WindowsHPCJobManagerAWSCloudFormation•利用软件模板来管理您的计算资源•部署完全一致的计算资源•Templatescanbestoredinasou•代码管理系统•使用软件方式跟踪架构变化•用软件方式更新计算资源•根据需求选择资源与参数输入根据工作流一键部署计算资源与集群计算资源模板化基础架构代码化灵活的编程接口把数据中心的计算能力延升到云端利用AWS解决突发计算压力AmazonVPCUsersBastionCoreHeadComputeComputeComputeComputeComputeComputeComputeComputeClusterWorkstationsHeadHPCUsersCoreClusterOn-PremiseHPCHPCHPC如何快速构建HPC集群•利用AltairPBS等流行部署工具•第三方云端的部署工具•MITStarCluster•CycleComputingCycleServer•基于AWSAPI的部署工具•Cloudformation,AutoScaling•cfncluster(github.com/awslabs/cfncluster)StarCluster简介针对AWS计算资源(EC2)开发的HPC集群管理开源项目。项目可以自动部署EC2竞价实例。•OpenMPI•NFS'd/homedirectory•OracleGridEngine•Scipy/Numpy/Ipython•Compilersforinstallingyourowncustomsoftware•UbuntuLinuxOSwithapt-getforinstallingadditionalOSsoftwarecfnCluster简介•利用Cloudformation自动化管理所有的计算资源•一键启动、管理和关闭集群•结合IAM进行EC2角色自动化管理•AutoScaling根据计算任务伸缩集群大小•利用DynamoDB对进群状态进行管理•根据CloudWatch进行集群状态监控AWS针对AWS计算资源(EC2)HPC集群管理的开源项目。AWSCloudTrail–记录和监管所有的API和Console调用日志存放在高可靠的S3并可归档到Glacier监管用户和应用程序的活动与操作记录构建于安全体系上的架构AmazonRedshiftEMREC2数据分析AmazonGlacierS3数据存储Import/ExportDirectConnect数据收集AmazonKinesisMachineLearningDynamoDB当HPC遇上大数据–HighPerformanceDataAnalysisAWSPublicDataSetsaws.amazon.com/datasetsfreeforeveryone在AWS构建HPC的实践分享Established:September1948HeadOffice:Aoyama,Tokyo,JapanNumberofEmployees:23,467(nonconsolidatedbasis)198,561(consolidatedbasis)FY14UnitSales(Thousands):Motorcycle:17,021Automobiles:4,323PowerProducts:6,036NewMotorcycleProductsASIMOPowerProductsHondaJetUNI-CUBMC-βAutomobileHondaSmartHomeSystem(HSHS)Dreamsarethesourceofourcourageandenergytomeeteverychallengewithoutfearoffailure.FCX(asofMarch31,2014)(April2013toMarch2014)过去:各个区域分别部署HPC资源北美南美欧洲中国大洋洲HPC资源散落在各个中心日本摩托车电力产品基础研究飞机工程汽车其他统一管理所有的计算资源提高计算效率欧洲日本北美大洋洲中国南美Honda数据中心资源进行统一管理整体优化全球化协调计算资源响应公司内部各种需求阶段性试用集群并行临时性集群试用需要大量计算核心高内存在AWS上部署CAE(FPMD)仿真ClustermanagerDataSSHSpotorOndemandComputingnodes
本文标题:2016-Virtual-Summit-Track-5-深入浅出AWS高性能计算及最佳实践-Xiao
链接地址:https://www.777doc.com/doc-4964369 .html