您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 第二代英特尔_+酷睿_+微架构:+新的处理器创新成果
ARCS001第二代英特尔®酷睿™微架构:处理器的创新成果OpherKahn,SeniorPrincipalEngineer代码为SandyBridge的第二代英特尔®酷睿™微架构3第二代英特尔®酷睿™微架构综述集成的内存控制器双通道DDR3高带宽最后一级高速缓存(LLC)新一代核芯显卡和媒体处理能力新一代英特尔®睿频加速技术英特尔®超线程技术4核/8线程2核/4线程单芯片上完全融合CPU,核芯显卡,内存控制器,PCIExpress*内置DisplayPort性能本质的飞跃英特尔®高级矢量扩展指令集(Intel®AVX)高带宽/低延迟模块化内核/显卡互连支持独立显卡:1x16或2x8双通道DDR3x16PCIe连接内置控制器的PECI接口笔记本电脑DP端口核芯显卡(图形核心)内核LLC内核LLC内核LLC内核LLC系统代理显示DMIPCIExpress*集成的内存控制器PCH高能效出众的性能4议程•处理器核心的创新•系统代理,环架构和其他创新•功耗管理的创新5第二代英特尔®酷睿™微架构中的创新该微架构的代码为SandyBridge双通道DDR3x16PCIe连接内置控制器的PECI接口笔记本电脑DP端口核芯显卡(图形核心)CoreLLCCoreLLCCoreLLCCoreLLC系统代理显示DMIPCIExpressIMC2011PCHDMI第2代英特尔®酷睿™微架构6SandyBridge处理器内核中的创新•概述•微架构的主要增强部分•架构上的提升•总结代码为SandyBridge的第二代英特尔®酷睿™微架构7SandyBridge处理器内核概述•建立于成功的Nehalem微架构之上的处理器内核–会聚一体的基本构件适用于笔记本,台式机和服务器•微架构增强了“清凉”(低功耗)的设计–这些特性是更利于核心的均衡性能/功耗的设计:性能和功耗增加的关系是线性的•增加了“相当酷(凉)”的微架构创新设计–在提高性能的同时减少功耗•为重要的新型应用拓展了架构–浮点和运算量英特尔®高级矢量扩展指令集(Intel®AVX)–针对特定计算密集型的应用,性能的提升是激增式的–安全AES(高级加密标准)计算能力和运算量的提升大整数RSA的加速–OS/VMM(操作系统/虚拟机管理器)和服务器相关的特性状态保存/恢复的优化代码为SandyBridge的第二代英特尔®酷睿™微架构8处理器内核微架构流程图ALU,SIMUL,DIV,FPMULALU,SIALU,FPADDALU,Branch,FPShuffleLoadLoadStoreAddressStoreAddressStoreData6个执行端口32kL1InstructionCacheSchedulerPort0Port1Port5Port2Port3Port432kL1DataCache48bytes/cycleAllocate/Rename/RetireZeroingIdiomsLoadBuffersStoreBuffersReorderBuffers二级(L2)数据高速缓存(MLC)填充缓冲区PredecodeInstructionQueueDecoders1.5kuOPcacheDecodersDecodersDecodersBranchPred按序乱序前端(IA指令微操作)按序分配,重新命名,指令引退乱序“微操作”调度数据高速缓存单元9前端微架构在处理器内核的指令译码•32KB的8-路组相联指令高速缓存•4个译码器,多达每个时钟周期4条指令(4指令/周期)•微融合(Micro-Fusion)–把多条指令事件打包为一条“微操作”•宏融合(Macro-Fusion)–把多对指令融合为一条复杂的“微操作”•译码流水线支持每个时钟周期16个字节32k一级(L1)指令高速缓存预译码指令队列DecodersDecodersDecoders译码器分支预测单元10译码微操作高速缓存~1.5K条微操作新的设计:译码微操作高速缓存增加了一个译码微操作高速缓存•一个用于微操作的0级(L0)指令高速缓存,代替了指令字节–对于大多数应用高达~80%的命中率•更高的指令带宽和更低的延迟–译码高速缓存可以在每个时钟周期递送32字节更多时钟周期可以保持每个周期4条指令(4指令/周期)–能够‘缝合’控制流程间的分支分支预测单元32k一级(L1)指令高速缓存预译码指令队列DecodersDecodersDecoders译码器11新的分支预测单元重新打造的全新分支预测器•为多数目标提供两倍的预测能力•为历史操作提供更加有效的存储•为数相关的操作保有更长的历史记录译码微操作高速缓存~1.5K条微操作分支预测单元32k一级(L1)指令高速缓存预译码指令队列DecodersDecodersDecoders译码器12在前端中的“相当酷(凉)”的特性•译码微操作高速缓存让正常的前端休眠–译码一次而不是多次•本质上大幅度减少分支-预测的失误率–Thecorrectpathisalsothemostefficientpath“相当酷(凉)”的特性减少功耗同时提高性能功耗是可互换的……提供给核心内其他的单元,或者芯片上的其他单元译码微操作高速缓存~1.5K条微操作分支预测单元32kL1指令高速缓存预译码指令队列DecodersDecodersDecoders译码器ZzzzSandyBridge前端微架构代码为SandyBridge的第二代英特尔®酷睿™微架构13SchedulerPort0Port1Port5Port2Port3Port4Allocate/Rename/RetireZeroingIdiomsLoadBuffersStoreBuffersReorderBuffers按序乱序按序分配,重新命名,指令引退乱序“微操作”调度“乱序”群集乱序执行架构面临的挑战:增加指令级的并行性同时保持执行所需的功耗•从前端接收微操作•当它们就绪时,就把它们发送到执行单元•按照程序顺序引退它们•目的:通过找到更多指令级的并行性来提高性能–增加机器的深度和宽度意味着更大的缓冲区更多数据的存储,大多数据的移动,更多功耗14SandyBridge乱序(OOO)群集•方法:物理寄存器文件(PRF)代替集中式的指令引退寄存器文件–每项数据单独的拷贝–在计算后不做数据转移•允许有效增加缓冲区的大小–数据流窗口增大~33%调度器分配/重新命名/指令引退零位调整加载缓冲区存储缓冲区重新排序缓冲区按序乱序NehalemSandyBridge加载缓冲区4864存储缓冲区3236RS-SchedulerEntries3654PRF整数N/A160PRF浮点N/A144重排序缓冲区(ROB)项数128168浮点/整数矢量物理寄存器文件(PRF)整数物理寄存器文件(PRF)PRF是比线性性能/功耗更好的“清凉”特性促进英特尔®高级矢量指令集(Intel®AVX)的关键技术代码为SandyBridge的第二代英特尔®酷睿™微架构15执行群集•3个执行端口•最大计算能力为每个时钟周期8个浮点运算–端口0:压缩的单精度乘法–端口1:压缩的单精度加法调度器端口0端口1端口5ALUALUALUJMPFPShufFPBoolVIADDVIMULVIShuffleDIVVIShuffleFPADDBlendBlendFPMUL执行单元架构面临的挑战是:以“清凉”的方式(更低功耗)…让浮点计算量翻倍*FLOPS=每秒浮点运算数,浮点运算数/秒16以“清凉”的方式倍增浮点运算量•英特尔®高级矢量扩展指令集(Intel®AVX)•扩展SSE浮点指令集到256bit的操作数–IntelAVX扩展所有16XMM寄存器到256bit•新的无损源语法–VADDPSymm1,ymm2,ymm3•新的运算增强为矢量化–广播式–掩码的加载和存储YMM0XMM0128bits256bits(AVX)17•以“清凉”的方式倍增浮点运算量•扩展SSE浮点指令集到256bit操作数–IntelAVX扩展所有16XMM寄存器到256bit•新的无损源语法–VADDPSymm1,ymm2,ymm3•新的运算增强——矢量化–广播式–掩码加载和存储英特尔®高级矢量扩展指令集(Intel®AVX)YMM0XMM0128bits256bits(AVX)英特尔®高级矢量扩展指令集是面向低功耗的架构矢量对于许多应用而言都是自然的数据类型更宽的矢量和无损源语用更少的指令详细描述了更多的工作扩展现有的设计是经济和高能效的18执行群集剖析调度器查看矩阵:•3个“端口”对应执行单元的3个栈•通用整数–SIMD(矢量)整数–SIMD浮点•面临的挑战是以其他栈不可见的方式倍增其中一栈的运算量端口0端口1端口5ALUALUALUJMPFPShufFPBoolVIADDVIMULVIShuffleDIVVIShuffleFPADDBlendBlendFPMULGPRSIMDINTSIMDFP19执行群集解决方案:•重新使用现有的数据路径达到双重使用的目的•SIMD整数和旧版的SIMD浮点使用传统的栈类型•Intel®AVX利用2组128-bit执行栈端口0端口1端口5ALUALUALUJMPFPShufFPBoolVIADDVIMULVIShuffleDIVVIShuffleFPADDBlendBlendFPMUL浮点加法浮点乘法浮点混合FPShuffle浮点布尔运算浮点混合20端口0端口1端口5ALUALUALUJMPFPShufFPBoolVIADDVIMULVIShuffleDIVVIShuffleFPADDBlendBlendFPMUL浮点加法浮点乘法浮点混合FPShuffle浮点布尔运算浮点混合执行群集解决方案:•重新使用现有的数据路径达到双重使用的目的•SIMD整数和旧版的SIMD浮点使用传统的栈类型•Intel®AVX利用2组128-bit执行栈IntelAVX的低功耗实现每个时钟周期:256-bit乘法+256-bit加法+256-bit加载在更高能效下倍增浮点运算量21存储器群集•存储单元在每个时钟周期内可以服务2条服务请求–每个时钟周期:16字节加载和16字节存储存储器控制32kx8-路一级(L1)数据高速缓存32字节/时钟周期加载存储地址存储数据256KB二级(L2)数据高速缓存(MLC)存储群集架构面临的挑战是:为Intel®AVX维持过去SSE水平的字节/浮点比率……同时要以“清凉”的低能耗方式执行填充缓冲区存储缓冲区22SandyBridge中的存储群集•解决方案:双重使用现有连接–使加载/存储管线对称•每个时钟周期,存储单元服务3条数据存取–2条多达16字节的读请求和1条多达16字节的存储请求–内部时序器处理排队的请求存储器控制32kx8-路一级(L1)数据高速缓存48字节/时钟周期加载加载存储地址存储地址存储数据256KB二级(L2)数据高速缓存(MLC)填充缓冲区存储缓冲区代码为SandyBridge的第二代英特尔®酷睿™微架构23第二个加载端口最高性能的特性之一要求保持英特尔®高级矢量扩展指令集(Intel®AVX)功耗/性能的线性设计就是它所谓的“清凉”设计——低能耗设计代码为SandyBridge的第二代英特尔®酷睿™微架构SandyBridge中的存储群集存储器控制32kx8-路一级(L1)数据高速缓存48字节/时钟周期加载加载存储地址存储地址存储数据256KB二级(L2)数据高速缓存(MLC)填充缓冲区存储缓冲区•解决方案:双重使用现有连接–使加载/存储管线对称•每个时钟周期,存储单元服务3条数据存取–2条多达16字节的读请求和1条多达16字节的存储请求–内部时序器处理排队的请求24各类创新综合到SandyBridge微架构中32k一级(L1)指令高速缓存调度器存储器控制端口0端口1端口5端口2端口3端口432k一级(L1)数据高速缓存48字节/时钟周期分配/重新命名/指令引退零位调整加载缓冲区存储缓冲区重新排序缓冲区加载加载存储地址存储地址存储数据二级(L2)数据高速缓存(
本文标题:第二代英特尔_+酷睿_+微架构:+新的处理器创新成果
链接地址:https://www.777doc.com/doc-473979 .html