您好,欢迎访问三七文档
计算机体系结构习题ComputerArchitecture2第三章习题3.12有一指令流水线如下所示(1)求连续输入10条指令,该流水线的实际吞吐率和效率;(2)该流水线的“瓶颈”在哪一段?请采取两种不同的措施消除此“瓶颈”。对于你所给出的两种新的流水线,连续输入10条指令时,其实际吞吐率和效率各是多少?入1234出50ns50ns100ns200nsComputerArchitecture3第三章习题解:(1)2200(ns)2009200)10050(50t)1n(tTmaxm1iipipeline)(ns2201TnTP1pipeline45.45%1154400TPmtTPEm1iiComputerArchitecture4第三章习题(2)瓶颈在3、4段。变成八级流水线(细分)123_13_24_14_4入出50ns50ns50ns50ns50ns50ns850(ns)509850t1)(ntTmaxm1iipipeline)(ns851TnTP1pipeline58.82%17108400TPmtiTPEm1iComputerArchitecture5第三章习题重复设置部件123-13-24-14-24-34-4123_13_24_14_24_34_411112222333344445555666677778899101089108910850ns时间段)(ns851TnTP1pipeline58.82%1710885010400EComputerArchitecture6第三章习题3.13有一个流水线由4段组成,其中每当流经第3段时,总要在该段循环一次,然后才能流到第4段。如果每段经过一次所需要的时间都是,问:(1)当在流水线的输入端连续地每时间输入任务时,该流水线会发生什么情况?(2)此流水线的最大吞吐率为多少?如果每输入一个任务,连续处理10个任务时的实际吞吐率和效率是多少?(3)当每段时间不变时,如何提高该流水线的吞吐率?仍连续处理10个任务时,其吞吐率提高多少?ttt2ComputerArchitecture7第三章习题解:(1)会发生流水线阻塞情况。第1个任务S1S2S3S3S4第2个任务S1S2stallS3S3S4第3个任务S1stallS2stallS3S3S4第4个任务S1stallS2stallS3S3S4ComputerArchitecture8第三章习题(2)段时间12341111122222333334444455555666667777788888999991010101010t23maxpipelinepipeline1TP2T2310nTpT23550ETP54.35%492ttttComputerArchitecture9第三章习题(3)重复设置部件123_13_24ΔtΔtΔtΔtΔt段时间1123_13_24111122222333334444455555666667777788888999991010101010t14tt751410TnTPpipeline吞吐率提高倍数==1。64tt231075ComputerArchitecture10第三章习题3.15动态多功能流水线由6个功能段组成,如下图:其中,S1、S4、S5、S6组成乘法流水线,S1、S2、S3、S6组成加法流水线,各个功能段时间均为50ns,假设该流水线的输出结果可以直接返回输入端,而且设置有足够的缓冲寄存器,若以最快的方式用该流水计算:(1)画出时空图;(2)计算实际的吞吐率、加速比和效率。S1S2S3S4S5乘法加法S651iiiizyxComputerArchitecture11第三章习题解:机器一共要做10次乘法,4次加法。ComputerArchitecture12第三章习题3.16在MIPS流水线上运行如下代码序列:LOOP:LWR1,0(R2)DADDIUR1,R1,#1SWR1,0(R2)DADDIUR2,R2,#4DSUBR4,R3,R2BNEZR4,LOOP其中:R3的初值是R2+396。假设:在整个代码序列的运行过程中,所有的存储器访问都是命中的,并且在一个时钟周期中对同一个寄存器的读操作和写操作可以通过寄存器文件“定向”。问:ComputerArchitecture13第三章习题(1)在没有任何其它定向(或旁路)硬件的支持下,请画出该指令序列执行的流水线时空图。假设采用排空流水线的策略处理分支指令,且所有的存储器访问都命中Cache,那么执行上述循环需要多少个时钟周期?(2)假设该流水线有正常的定向路径,请画出该指令序列执行的流水线时空图。假设采用预测分支失败的策略处理分支指令,且所有的存储器访问都命中Cache,那么执行上述循环需要多少个时钟周期?(3)假设该流水线有正常的定向路径和一个单周期延迟分支,请对该循环中的指令进行调度,你可以重新组织指令的顺序,也可以修改指令的操作数,但是注意不能增加指令的条数。请画出该指令序列执行的流水线时空图,并计算执行上述循环所需要的时钟周期数。ComputerArchitecture14第三章习题解:寄存器读写可以定向,无其他旁路硬件支持。排空流水线。指令12345678910111213141516171819202122LWIFIDEXMWBDADDIUIFSSIDEXMWBSWIFSSIDEXMWBDADDIUIFIDEXMWBDSUBIFSSIDEXMWBBNEZIFSSIDEXMWBLWIFSSIFIDEXMWB第i次迭代(i=0..98)开始周期:1+(i×17)总的时钟周期数:(98×17)+18=1684ComputerArchitecture15第三章习题有正常定向路径,预测分支失败:指令12345678910111131415LWIFIDEXMWBDADDIUIFIDSEXMWBSWIFSIDEXMWBDADDIUIFIDEXMWBDSUBIFIDEXMWBBNEZIFIDEXMWBLWIFmissmissIFIDEXMWB第i次迭代(i=0..98)开始周期:1+(i×10)总的时钟周期数:(98×10)+11=991ComputerArchitecture16第三章习题有正常定向路径。单周期延迟分支。LOOP:LWR1,0(R2)DADDIUR2,R2,#4DADDIUR1,R1,#1DSUBR4,R3,R2BNEZR4,LOOPSWR1,-4(R2)第i次迭代(i=0..98)开始周期:1+(i×6)总的时钟周期数:(98×6)+10=598ComputerArchitecture17第三章习题3.17假设各种分支指令数占所有指令数的百分比如下:条件分支20%(其中的60%是分支成功的)跳转和调用5%现有一条段数为4的流水线,无条件分支在第二个时钟周期结束时就被解析出来,而条件分支要到第三个时钟周期结束时才能够被解析出来。第一个流水段是完全独立于指令类型的,即所有类型的指令都必须经过第一个流水段的处理。请问在没有任何控制相关的情况下,该流水线相对于存在上述控制相关情况下的加速比是多少?ComputerArchitecture18第三章习题解:没有控制相关时流水线的平均CPI=1存在控制相关时:由于无条件分支在第二个时钟周期结束时就被解析出来,而条件分支要到第3个时钟周期结束时才能被解析出来。所以:(1)若使用排空流水线的策略,则对于条件分支,有两个额外的stall,对无条件分支,有一个额外的stall:CPI=1+20%*2+5%*1=1.45加速比S=CPI/1=1.45ComputerArchitecture19第三章习题(2)若使用预测分支成功策略,则对于不成功的条件分支,有两个额外的stall,对无条件分支和成功的条件分支,有一个额外的stall1:CPI=1+20%*(60%*1+40%*2)+5%*1=1.33加速比S=CPI/1=1.33(3)若使用预测分支失败策略,则对于成功的条件分支,有两个额外的stall;对无条件分支,有一个额外的stall;对不成功的条件分支,其目标地址已经由PC值给出,不必等待,所以无延迟:CPI=1+20%*(60%*2+40%*0)+5%*1=1.29加速比S=CPI/1=1.29ComputerArchitecture20第三章习题3.18在CRAY-1机器上,按照链接方式执行下述4条向量指令(括号中给出了相应功能部件的执行时间),如果向量寄存器和功能部件之间的数据传送需要1拍,试求此链接流水线的通过时间是多少拍?如果向量长度为64,则需多少拍才能得到全部结果?V0←存储器(从存储器中取数:7拍)V2←V0+V1(向量加:3拍)V3←V2A3(按(A3)左移:4拍)V5←V3∧V4(向量逻辑乘:2拍)ComputerArchitecture21第三章习题解:通过时间就是每条向量指令的第一个操作数执行完毕需要的时间,也就是各功能流水线由空到满的时间,具体过程如下图所示。要得到全部结果,在流水线充满之后,向量中后继操作数继续以流水方式执行,直到整组向量执行完毕。存储器访存向量加左移向量逻辑乘V0V1V2V3V4V5A3(拍)=+)=-+(拍)=++)+(++)+(++)+(+=(通过总共通过866323164TT)(2313112114117TComputerArchitecture3.19某向量处理机有16个向量寄存器,其中V0~V5中分别放有向量A、B、C、D、E、F,向量长度均为8,向量各元素均为浮点数;处理部件采用两条单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍。采用类似于CARY-1的链接技术,先计算(A+B)*C,在流水线不停流的情况下,接着计算(D+E)*F。(1)求此链接流水线的通过时间?(设寄存器入、出各需1拍)(2)假如每拍时间为50ns,完成这些计算并把结果存进相应寄存器,此处理部件的实际吞吐率为多少MFLOPS?22第三章习题ComputerArchitecture第三章习题23解:(1)假设A+B的中间结果放在V6中,(A+B)×C地最后结果放在V7中,D+E地中间结果放在V8中,(D+E)×F的最后结果放在V9中。具体实现参考下图:V0AV1BV3DV4EV5FV6V7V2CV9V8向量加向量乘通过时间应该为((A+B)×C)通过的时间:T通过=(1+2+1)+(1+3+1)=9(拍)ComputerArchitecture第三章习题24(2)在做完(A+B)×C之后,作(C+D)×E就不需要通过时间了。V6←A+BV7←V6×CV8←D+EV9←V8×FS26.67MFLOPT32TP1200(ns)5024818TTns(拍))-+(通过
本文标题:88计算机体系结构
链接地址:https://www.777doc.com/doc-3148566 .html