您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > Intel代表性的处理器构架简介
Intel比较有代表性的处理器构架简介一、P5与P6架构奔腾采用P5架构,这被证明是伟大的创举。在英特尔的发展历史中,第一代奔腾绝对是具有里程碑意义的产品,这一品牌甚至沿用至今,已经有十几年的历史了。尽管第一代奔腾60的综合表现很一般,甚至不比486DX66强多少,但是当主频优势体现出来之后,此时所表现出来的威力令人震惊。奔腾75、奔腾100以及奔腾133,经典的产品一度称雄业界。在奔腾时代,虽然英特尔在处理器微架构方面一直保持着领先,但是英特尔并未停止前进的步伐,于是在发布奔腾的下一代产品奔腾II时,英特尔采用了专利保护的P6架构。P6架构与奔腾的P5架构最大的不同在于,以前集成在主板上的二级缓存被移植到了处理器内,从而大大地加快了数据读取和命中率,提高了性能。二、NetBurst架构Netburst微架构是P6微架构的后继者,第一个使用这架构的是Willamette核心,于2000年推出。Willamette是第一代奔腾IV处理器所用的核心,而全部的奔腾IV处理器都是使用Netburst微架构。2001年推出的Foster(至强处理器)也是使用本架构,同时基于奔腾IV的赛扬、赛扬D,以及双核心的奔腾D、奔腾ExtremeEdition都是使用本架构。立足于性能而设计的英特尔NetBurst微架构将频率提升超过了40%,虽然IPC值较低,但由于频率的增加弥补了不足(性能=频率×IPC),并且为最终用户提供了更高的整体性能。和P6微架构一样,英特尔NetBurst微架构凭借无序推测执行,尽管分支预测算法相当精确,但也不可能100%正确。为了使由于分支误预测而引起的损失降到最低并使IPC均值最大化,采用扩展深度流水线技术的IntelNetBurst微架构极大地减小了分支预测错误的数量,并提供了从这些错误恢复的快速方法。为了能使误预测引起的损失最小,英特尔NetBurst微架构实现了高级动态执行引擎和一个执行跟踪缓存。不过值得一提的是,英特尔NetBurst微架构中使用了超流水线技术,这使得流水线的深度相比P6微处理器体系结构的提高了一倍,不过在后来的实际应用中表明提高流水线长度之后会令执行效率大幅度降低,能够弥补这个问题的办法只能是再次提高主频和增加二级缓存容量。不过由于当时处理器工艺制成的限制,导致处理器的主频的可提升空间越来越小,与此同时巨大的缓存容量也是一个负担,这不仅提高了成本,也令发热量骤升。这一点使得英特尔必须要及时地对处理器微架做出新的,根本性地调整。※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※2006年的Core微架构取代NetBurst微架构,让Intel的Tick-Tock微架构发展战略站到了人们的面前。Tick-Tock就是时钟的“嘀嗒”的意思,一个嘀嗒代表着一秒,而在Intel的处理器发展战略上,每一个嘀嗒代表着2年一次的工艺制程进步。每个Tick-Tock中的“Tick”,代表着工艺的提升、晶体管变小,并在此基础上增强原有的微架构,而“Tock”,则表示在维持相同工艺的前提下,进行微架构的革新,这样在制程工艺和核心架构的两条提升道路上,总是交替进行,避免了同时革新可能带来的失败风险,降低研发的周期,并最终提升产品的竞争力。※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※三、Core微架构由于NetBurst架构已经无法满足未来处理器发展的需要,所以英特尔于2006年推出了具有革新意义的Core微架构。1.流水线效率大幅度提升主频至上的处理器研发思路显然已经被淘汰。Core微架构的处理器将超流水线缩短到14级,这将大幅度提升整体效率。此外Core微架构采用了四组指令编译器,就是指能够在单一频率周期内编译四个x86指令。这四组指令编译器由三组简单编译器(SimpleDecoder)与一组复杂编译器(ComplexDecoder)组成。四组指令编译器中,仅有复杂编译器可处理最多由四个微指令所组成的复杂x86指令。如果不幸碰到非常复杂的指令,复杂编译器就必须呼叫微码循序器(MicrocodeSequencer),以便取得微指令序列。为了配合超宽的编译单元,Core微架构的指令读取单元在一个频率周期内,从第一阶指令快取中,抓取六个x86指令至指令编译缓冲区(InstructionQueue),判定是否有符合宏指令融合的配对,然后再将最多五个x86指令,交派给四组指令编译器。四组指令编译器在每个频率周期中,发给保留站(ReservationStation)四个编译后的微指令,保留站再将存放的微指令交派(dispatch)给五个执行单元。因为x86指令集的指令长度、格式与定址模式都相当混乱,导致x86指令解码器的设计是非常困难的。但是如今的局面已经有所改变,一方面是高主频对于四组精简结构有着很大的依赖性,另一方面是其它辅助性技术也能很大程度上弥补解决定址模式混乱的难题。毫无疑问,英特尔的这一创举将是在处理器核心架构设计上具有里程碑意义的。2.全新的整数与浮点单元从P6到NetBurst架构,整数与浮点单元的变化还是相当明显,不过Core微架构的变化也同样不小,只是部分关键技术又改回P6架构时代的设计。Core具备了3个64bit的整数执行单元,每一个都可以单独完成的64位整数运算操作。能够独立完成64bit整数运算对英特尔x86处理器来说还是头一回,这也让Core得以走在了竞争对手的前列。此外,64bit的整数单元使用彼此独立的数据端口,因此Core能够在一个周期内同时完成3组64bit的整数运算。极强的整数运算单元使得Core在包括游戏、服务器项目、移动等方面都能够发挥广泛而强大的作用。在以往的NetBurst架构中,浮点单元的性能很一般,Core构架针对这个问题进行了不小的改进。Core构架拥有2个浮点执行单元同时处理向量和标量的浮点运算,其中一个浮点单元执行负责加减等简单的处理,而另一个浮点单元则执行负责乘除等运算。尽管不能说Core构架令浮点性能有很大幅度的提升,但是其改进效果还是显而易见的。3.数据预读机制与缓存结构Core微架构的预读取机制还有更多新特性。数据预取单元经常需要在缓存中进行标签查找。为了避免标签查找可能带来的高延迟,数据预取单元使用存储接口进行标签查找。存储操作在大多数情况下并不是影响系统性能的关键,因为在数据开始写入时,处理器即可以马上开始进行下面的工作,而不必等待写入操作完成。缓存/内存子系统会负责数据的整个写入到缓存、复制到主内存的过程。此外,Core架构使用了SmartMemoryAccess算法,这将帮助处理器在前端总线与内存传输之间实现更高的效率。Core架构的缓存系统也令人印象深刻。双核心Core架构的二级缓存容量高达4MB,且两个核心共享,访问延迟仅12到14个时钟周期。每个核心还拥有32KB的一级指令缓存和一级数据缓存,访问延迟仅仅3个时钟周期。从NetBurst架构开始引入的追踪式缓存(TraceCache)在Core架构中消失了。NetBurst架构中的追踪式缓存的作用与常见的指令缓存相类似,是用来存放解码前的指令的,对NetBurst架构的长流水线结构非常有用,而Core架构回归相对较短的流水线之后,追踪式缓存也随之消失。四:Nehalem微架构经历Core微架构的辉煌之后,英特尔再接再厉,于2008年末推出了新的Nehalem微架构,它基本是建立在Core微架构的骨架上,外加增添了SMT、3层Cache、TLB和分支预测的等级化、IMC、QPI和支持DDR3等技术,比起从Pentium4的NetBurst架构到Core微架构的较大变化来说,从Core微架构到Nehalem微架构的基本核心部分的变化则要小一些。1.QPI总线技术Nehalem架构使用的QPI总线是基于数据包传输(packet-based)、高带宽、低延迟的点到点互连技术(pointtopointinterconnect),速度达到6.4GT/s(每秒可以传输6.4G次数据)。每一条连接(link)是20bit位宽的接口,使用高速的差分信号(differentialsignaling)和专用的时钟通道(dedicatedclocklane),这些时钟通道具有失效备援(failover)。QPI数据包是80bit的长度,发送需要用4个周期。尽管数据包是80bit,但只有64bit是用于数据,其它的数据位则是用于流量控制、CRC和其它一些目的。这样,每条连接就一次传输16bit(2Byte)的数据,其余的位宽则是用于CRC。由于QPI总线可以双向传输,那么一条QPI总线连接理论最大值就可以达到25.6GB/s(2×2B×6.4GT/s)的数据传送。单向则是12.8GB/s。(更详细资料参考“快速通道互联QPI”词条)2.IMC整合内存控制器Nehalem架构的IMC(integratedmemorycontroller,整合内存控制器),可以支持3通道的DDR3内存,运行在1.33GT/s(DDR3-1333),这样总共的峰值带宽就可以达到32GB/s。不过还并不支持FB-DIMM,要NehalemEX(Beckton)才有可能会支持FB-DIMM(FullyBuffered-DIMM,全缓冲内存模组)。每通道的内存都能够独立操作,控制器需要乱序执行来降低(掩盖)延迟。(更详细资料参见整合内存控制器词条)3.SMT同步多线程(SimultaneousMulti-Threading,SMT)技术又重新回归到了Nehalem架构,这最早出现在130纳米的奔腾IV上。对于打开了SMT的处理器来说,将会遭受到更多的命中失败,并需要使用更多的带宽。所以Nehalem比奔腾IV是更适合使用SMT的。Nehalem的同步多线程(SimultaneousMulti-Threading,SMT)是2-way的,每核心可以同时执行2个线程。对于执行引擎来说,在多线程任务的情况下,就可以掩盖单个线程的延迟。SMT功能的好处是只需要消耗很小的核心面积代价,就可以在多任务的情况下提供显著的性能提升,比起完全再添加一个物理核心来说要划算得多。这个和以前P4的HT技术是一样的,但比较起来,Nehalem的优势是有更大的缓存和更大的内存带宽,这样就更能够有效的发挥。按照英特尔的说法,Nehalem的SMT可以在增加很少能耗的情况下,让性能提升20-30%。4.全新设计的缓存体系Nehalem的每个核心有一个私有的通用型L2,是8路联合的256KB,访问速度相当快。Nehalem的L2相对于其L1D来说,既不是包含式(inclusive)也不是独占式(exclusive),可以在两个核心的私有缓存(L1D和L2)之间传递数据,尽管不能够达到全速。与Core微架构相比,Nehalem新增加了一层L3缓存,这是为了多个核心共享数据的需要(Nehalem-EX具有8个核心),也因此这个L3的容量很大。从架构上看,目前Nehalem架构的处理器所配备的16路联合、8MB的L3对于前两级来说,是完全包含式的,并且由4个核心共享。作为IT行业巨头,Intel一直在为推动计算机行业的发展做出不懈努力,可以说Intel和Microsoft的发展方向便是IT行业的发展方向。五、Sandybridge微架构2009年(TICK时间),Intel处理器制程迈入32nm时代,2010年的TOCK时间,Intel推出代号为SandyBridge的处理器,该处理器采用32nm制程。SandyBridge是Nehalem架构的革新,也是其工艺升级版,从45nm进化到32nm。SandyBridge将有八核心版本,二级缓存仍为512KB,但三级缓存将扩容至16MB。而SandyBridge最主要特点则是加入了gameinstrutionAVX(AdvancedVectorsExtensions)技术,也就是之前的VSSE。intel宣称使用AVX技术进行矩阵计算的时候将比SSE技术快90%。其重要性堪比1999
本文标题:Intel代表性的处理器构架简介
链接地址:https://www.777doc.com/doc-2877368 .html