您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第五讲多核技术、虚拟化技术
第四讲多核技术与虚拟化技术多核技术MultiplecoresdelivermoreperformanceperwattC1C1C4C4C2C2C3C3SmallSmallcorecoreBigcoreBigcoreCacheCacheCacheCache11223344112211111122334411223344PowerPowerPerformancePerformancePower=Power=¼¼Performance=1/2Performance=1/2ManycoreismoreManycoreismorepowerefficientpowerefficientPower~areaPower~areaSinglethreadSinglethreadperformance~area**.5performance~area**.5Montecito11~1.5~1.5~1.7~1.7~2.9~2.94P/4STPC-CRelativePerformanceItanium2Itanium2-6MItanium2-9MMontecitoEnterprisePerformanceMontecitoCoreCoreCoreCoreCacheCacheCacheCache•Excellentprogressonfirstsilicon–RunningmultipleOS’sindualcoreandmulti-threading–FirstdemoatIDFshoweddualcoreandmulti-threading–FirstsampledeliveriestoOEMsbySept•HandfulofsamplesinSept•VolumesamplesbegininlateQ4•MontecitoproductiontargetsQ4’05–(3)busspeedssupported–400,533,667•Performanceandnewtechnologies–~1.5-2XhigherperformancethanMadison9M–MultiplenewCPUandplatformtechnologies•DualCore•Multi-threading•Foxton(dynamicperformanceboost)•Silvervale(virtualization)•Pellston(reliability)•DemandBasedSwitching(powerconsumption)MontvaleSummary•2H’06follow-ontoMontecito–New:65nmprocesstechnology–New:Targeting2.8GHz–Dual-coreprocessor,multi-threading,foxton–24MBL3cache–CompatiblewithMadison-9M,Montecitoplatforms–Extendsplatformlifeprovidingperformanceboostandinvestmentprotection400MHz5-Load,533,667MHz3-Load,800MHz2-LoadSystemBusCoreL3CacheCoreL3CacheArbiterSystemBusCoreL3CacheCoreL3CacheCoreL3CacheCoreL3CacheArbiterArbiterMontvalePerformanceandPower\PerformanceboostoverMontecito:Upto~35%onSPECint,upto~20%onSPECfp,upto~20-25%onTPCC1\WithinMontecito&Madisonpower/thermalenvelopePlatformsupport\CompatibleSKUs:400MHz5-loadbus,533MHzand667MHz3-loadbus\800MHz(2-load)supportunderinvestigation1~20%projectedonOEMcustom4Ssystem,upto~25%onlargescale64SsystemContinuedenhancementofItaniumContinuedenhancementofItanium®®processorfamilyprocessorfamilyextendsplatformlifeandprovidesperformanceleadershipextendsplatformlifeandprovidesperformanceleadership协处理器技术多核架构从通用的对等设计迁移到“主核心+协处理器”的非对等设计IBM的Cell\为索尼PS3游戏机定制\拥有9个硬件核心的多核处理器\1个核心主处理器拥有完整的功能是PowerPC970的精简版本主要职能就是负责任务的分配实际的浮点运算由协处理器来完成\8个协处理器专门用于浮点运算所需的运算规则非常简单,只要CPU运行频率足够高,Cell就能够获得惊人的浮点效能考虑以协处理器为中心优化设计?Cell性能Cell起步频率即达到4GHz\256Gigaflops浮点运算能力,接近超级计算机的水准每个SPE协处理器拥有4路并行的整数/浮点单元,每个运算周期又可执行4次32位浮点运算一个时钟周期可执行两个运算操作每个Cell拥有8枚SPE协处理器,工作频率假设在4GHz,此时Cell所具有的浮点效能就是2×4×8×4GHz=256Gigaflops\英特尔的4路Montecito安腾(双内核)系统也仅获得45Gigaflops的浮点性能256DD1(第一代):2.34(亿)DD2(第二代):2.5(亿)IBMCell9.05800万PowerPC970运算能力(GFlops)集成的晶体管数(个)处理器名称Cell的新颖设计思想Cell的高效能很大程度上来自于其新颖的设计思想:\主处理器与协处理器各司其职\内核设计精简高效,以实现高频运作\运算单元则采用128位并行结构分布式中:系统架构、调度等能否借鉴该思想?高度适应性的Cell及所构成的Cell计算网络Cell可以对处理内核的数量进行任意裁减\嵌入式设备:只有单个核心,工作在较低的频率,较低的能耗\便携电脑和桌面PC:可使用与PS3游戏机一样的标准Cell,或者对核心进行适当裁减\工作站/服务器系统:可以将两枚Cell处理器直接集成在一起以获得更高的效能\大型计算机:可配置成包含四枚独立Cell处理器的“MCM模块(Multi-chipmodule)”,具有每秒万亿次浮点的运算能力\分布式计算系统:利用Cell的超高速度FlexIO芯片连接总线,将不同计算设备联成一体,实现运算能力与内存资源的分享智能空间、普适计算用它的结构思想如何?Cell处理器的整体架构FrontEndInstructionFetchDecodeDispatchCacheExecutionCoreFX1FX2IntegerExcutionUnitFPUFPUFloatPointUnitLSULoad-StoreUnitVectorUnitVPUIssueLogicandRCBCommitCommitUnitRe-OrderStorageLogicControlLogicExecutionLogicPPE处理单元以IBM的Power4处理器为基础可支持同步多线程技术该处理单元内置了32KB一级缓存和512KB二级缓存规格与同出一脉的PowerPC970处理器类似SPE协处理器运算处理单元:4个32位浮点运算单元,4个32位整数运算单元寄存器:128bit×128bit局部缓存:256KB流水线长度:18级输入总线:128bit宽度的总线3条输出总线:128bit宽度的总线1条SPE使用对用户不透明用户程序或数据不得大于256KB:代码+数据+栈总大小不能超过256K.\SPE使用显式控制的片内局部存储器LS(LocalStore)代替cache来简化设计用户程序可直接对256KB局部缓存访问,象局部存储器LS是非一致性的,象分布式存储程序员或编译器可以在SPE进行计算的同时,显式地安排LS和主存之间数据的移动或使用\代码超出LS大小,使用overlay技术(sdk支持)定态置换局部缓存和共享存储内容\数据超出大小,可定制的软件cache(sdk支持)来实现对数据的访问或预取\除了sdk支持,上面的问题还可以手工用DMA来解决,关于DMA操作sdk也提供了封装。\据说9月份IBM的编译器会直接支持内存使用超过256K的限制两次编译:SPE加速程序编译+PPE通用程序编译,然后连接生成可执行代码;HybridProgramming需要用户或编译器优化使用,使得性能可以发挥到及至硬件电路简单,可以做到高速,低功耗第三方软件必须移植PPE/SPE单元的内部联结内部有一条768bit位宽的“EIB单元互连总线环(ElementInterconnectBUSRing,EIBRing)”\是一个强大的内部总线控制逻辑—Cell内所有的功能单元都通过EIB总线环连接在一起,包括PPE、八个SPE、XDR内存控制器以及外部总线接口\采用的是全双工的128bit连接总线若Cell工作在4GHz频率\各个功能单元便都拥有4GHz×128bit/Hz×2(全双工)÷8Byte/bit=128GBps带宽CELL运行模式与常规的双核处理器不同,Cell内的九个核心具有相当强的独立性\PPE处理单元的任务是运行操作系统\应用程序相关的线程运算完全由SPE协处理器运行\多个应用程序的线程被平均分布到各个SPE中,整套系统负载均衡网络上的相互协作\可以接受并执行相关来自Cell计算网络中其他设备的计算请求,结果再通过网络传输给任务发起者\网络上的任务可以被均匀分散到所有的Cell处理器上,达到昀佳的昀短完成时间Cell的功耗分析工作频率为4GHz时\每个SPE协处理器的工作电压高于1.1V,功耗只有4瓦\所有SPE协处理器的功耗总和昀高也不过4瓦×8=32瓦\PPE处理单元的核心部分,功耗水平也会控制在很低的水平\Cell运算部分的功耗水平会在40瓦左右,即便加上缓存单元整体功耗也可控制在较好的水平上若频率降到3GHz,工作电压只需要0.9V,功耗只有2瓦将频率降低到2GHz,每个SPE的功耗仅有1瓦2006年,IBM将采用更先进的65纳米技术来制造Cell,将具有更加出色的功耗水平XDR内存控制器与FlexIO前端总线整合XDR内存控制器以及采用FlexIO前端总线是Cell的两大技术亮点系统拥有25.6GBps的内存带宽\Cell与3.2GHz的XDR模组搭配\16bit×4通道×3.2Gbps÷8Byte/bit=25.6GBps的内存带宽跨平台的内存管理\组建由多个Cell设备组成的计算网络\所有的Cell处理器的内存资源在逻辑上可形成一个有机整体,无需任何修改即可直接协作FlexIO前端总线采用6组8位全双工配置,有效带宽76.8GBps\提供给I/O芯片:上下行各12.8GBps\提供给PS3的图形处理器或其他Cell处理器:上下行各25.6GBpscell发展前瞻可作为替代X86的下一代计算平台X86也许要十几年后X86处理器才可能达到Cell今天所具有的运算性能Cell要在短时间内取代X86绝非易事\昀大的问题在于Cell的软件平台尚未成熟尤其是分布式计算架构需要软件的针对性优化\在昀关键的操作系统方面,IBM选择了开源的Linux在过去数年间,IBM花费大量的资金和人力推动Linux系统的开发,并将自己在UNIX领域的研究成果无偿贡献出来2005年,和Mercury计算机系统公司合作,制
本文标题:第五讲多核技术、虚拟化技术
链接地址:https://www.777doc.com/doc-29825 .html