您好,欢迎访问三七文档
一、名词解释(6题,每题5分)1、ISA:指令集体系结构,是在最底层把硬件结构抽象出来供软件编程控制的,指令集解决了最基本的软件兼容性问题。2、MicroArchitecture:微体系结构,是一款节能的新型微架构,设计的出发点是提供卓然出众的性能和能效,提高每瓦特性能,也就是所谓的能效比。3、资源冲突:当功能部件资源不够用时,容易产生冲突。4、数据冲突:当指令指令重叠执行时,需要前面指令的执行结果。5、控制冲突:由分支指令或者能够改变PC值得指令所产生的冲突。6、Amdahl定律:加快某部件执行速度所获得的系统性能加速比,受限于该部件的执行时间占总执行时间的百分比。7、加速比:反映了改进后的机器速度比改进前快了多少倍。8、非冯·诺依曼计算机:冯·诺依曼计算机采用哈佛结构的计算机,将数据和指令分开存取,取数据和指令可以同时存取,有利于流水线工作,脱离了冯·诺依曼结构原有模式的计算机。9、静态和动态流水线:按照同一时间段内各段之间的连接方式对多功能流水线进一步分类,静态既是只能按照同一种功能的连接方式工作;动态既是各段可以按照不同的连接方式连接,同时执行多种功能。10、锁存技术:检测发现数据冲突,并使流水线停顿,直至冲突消失11、寄存器更名技术:对于寄存器操作数进行换名技术。12、定向技术:解决raw冲突,尽可能的将结果数据从其产生的地方直接传送到所有需要该结果的功能部件。13、ROB技术(re-order-buffer):是为前瞻执行而设置的,它在指令操作完成后到指令被确认这段时间,为指令保存数据。14、分支历史表:也被称为分支预测缓冲器,用于记录分支指令最近一次或几次的执行情况。15、超标量机:在每个时钟周期流出的指令条数不固定,以代码具体情况而定,不过有上限的处理机。16、向量机:流水线处理机设置有向量数据表示和相关的向量指令的处理机。17、时间局部性和空间局部性:时间局部性:在一个存储项被访问时,则该存储项可能很快再次被访问空间局部性:在一个存储项被访问时,则该存储项及相邻项很可能很快一起被访问18、数组合并技术、内外循环交换技术、循环融合技术数组合并技术:通过提高空间局部性来减少失效次数,将相互独立的数组合并成为一个复合数组,使得一个Cache块中能包含全部所需的元素。内外循环交换技术:也是通过提高空间局部性来减少失效次数,在含有嵌套循环,程序没有按照数据在存储器中存储的顺序进行访问,重新排列访问顺序使得在一个Cache块被替换之前,能最大限度得利用块中的数据。循环融合技术:通过改进时间局部性来减少失效次数,程序含有几部分独立的程序段,它们用相同的循环访问同样的数组,对相同的数据做不同的运算,通过将它们融合为单一的循环,能使读入Cache的数据在被替换出去之前,得到反复的使用。19、平均访存时间(AMAT):评测存储系统性能的指标,平均访存时间=命中时间+失效率X失效开销20、强制失效、容量失效、冲突失效:强制失效(冷启动失效/首次访问失效):当第一次访问一个块时,该块不在Cache中,须从下一级存储器中调入Cache容量失效:如果程序执行时所需的块不能全部调入Cache中,则当某些块被替换后,若又重新被访问,就会发生失效冲突失效(碰撞失效/干扰失效):在组相联或直接映像Cache中,若太多的块映像到同一组(块)中,则会出现该组中某个块被别的块替换,然后又被重新访问的情况。21、全相联、直接映像、组相联全相联:指主存中的任一块可以被放置到Cache中的任意一个位置直接映像:指主存中的每一块只能被放置到Cache中唯一的一个位置组相联:指主存中的每一块可以被放置到Cache中固定的一个组中的任何一个位置22、非阻塞CACHE技术:可以把CPU性能提高很多的技术,因为在这种Cache下即使失效时仍然允许CPU进行其他的命中访问。23、TLB(传输后备缓冲器):一个内存管理单元用于改进虚拟地址到物理地址转换速度的缓存23、平均CPI:每条指令的平均时钟周期24、SIMD:单指令流多数据流水线的计算机系统结构25、乱序发射:CPU允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术二、简答题(4题,每题8分)1、对相关性的处理通常有两种方式有两种方式:静态方式和动态;说明这两种方式,并分别举出2种实现方式。静态流水线当执行某一规定功能的指令全部流出后,才允许改变部件间连接的流水线。动态流水线没有这种时间上的限制,可以在任何时候根据需要改变其连接。2、tomasulo采取了什么方法避免名相关和数据相关。通过寄存器换名来消除WAR冲突和WAW冲突3、给出一段有相关性的指令,分析相关性、请重新设计指令顺序(编译器方式),消除相关性1、addR3,R1,R22、addR4,R3,R23、addR4,R1,R54、计算机系统结构、计算机组成和计算机实现的概念与关系。计算机系统结构:就是程序设计者所看到的计算机的基本属性,即概念性结构与功能特性。计算机组成:计算机系统结构的逻辑实现。即根据计算机系统结构所制订的功能,从逻辑上完成计算机的设计。这里包括各部件的逻辑实现,部件之间的互相连接以及物理机器级中的数据流和控制流的组成以及逻辑设计等。计算机实现:计算机组成的物理实现。包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。5、论述RISC与的CISC技术;讨论RISC从哪些方面提高了指令的执行效率,并举例说明。1.RISC的特点:1)精简指令系统及其结构,仅保留使用频率高的指令。2)不设(或尽量少用)微程序控制器,由硬连逻辑直接译码。3)使用大量的通用寄存器。4)由于精简指令系统一般是由频率高的简单指令组成。易于实现优化编译和流水线技术类型指令条数I指令平均周期数CPI周期时间TCISC12-1533ns-5nsRISC1.3-1.41.1-1.410ns-2ns综合3个因素,RISC的运算速度要比CISC快约3倍。其中的关键是CPI的下降。6、简要画出DLX多周期(经典5段流水)流水线的数据通路图;说明load和store在每个周期的表现。•load指令访存有效地址:Regs[rs]+immediate从存储器取来的数据放入寄存器rt•store指令访存有效地址:Regs[rs]+immediate要存入存储器的数据放在寄存器rt中7、流水线冲突有哪三种?请简述每种流水线冲突。结构冲突•指多条指令进入流水线后,在同一时间争用同一功能部件,从而发生冲突数据冲突•指由于流水线中各指令重叠执行,使得原来对操作数的访问顺序发生变化,从而引起的一种数据冲突控制冲突流水线遇到分支指令(转移指令)和其他会改变PC值的指令所引起的冲突。8、如果某计算机系统有3个部件可以同时改进,则这3个部件经改进后达到的加速比分别为:S1=30,S2=20,S3=10。如果部件1和部件2改进前的执行时间占整个系统执行时间的比例都为30%,那么,部件3改进前的执行时间占整个系统执行时间的比例为多少,才能使3个部件都改进后的整个系统的加速比Sn达到10?9、GPU采用了哪种处理器设计方式作为原型,请简述并画出这种处理器的体系结构原理图。10、名相关和数据相关会产生写读冲突、读写冲突、写写冲突。简述这三种冲突,并举例说明是如何造成了。1)RAW(读超前于写):原程序要求对同一单元进行先写后读的操作,可能因为非按序执行成为先读后写,造成出错。2)WAR(写超前于读)原程序要求对同一单元进行先读后写的操作,可能因为非按序执行成为先写后读,造成出错。3)WAW(写后写)原程序中如果两条指令都要对同一单元进行写数操作,可能因为非按序执行的原因,改变了两条指令写入的次序。11、层次化存储系统存在的理论依据是什么?简要阐述这个依据中的原理。12、写出平均访存时间的公式,从公式的三个变量出发,分别举出一个优化(减少)平均访存时间的技术方案。平均访存时间=命中时间+失效率X失效开销13、CACHE的地址映像规则有三种:全相联、直接映像与组相联。阐述这三种规则,并用图示法说明三种规则的有缺点。全相联映象方式主存储器中的任意一块可以映象到Cache中的任意一块上。优点:块冲突小,控制简单,Cache的利用率高。缺点:需相联存储器。直接映象方式优点:硬件实现简单,不需相联存储器,并且只需比较区号,速度较快。缺点:块的冲突率较高。组相联映象方式优点:块的冲突率大大降低,块的利用率大大提高,并且实现比全相联方式容易。14、有一个Cache存储器,主存有8块(0-7),Cache有4块(0-3),采用组相联映像,组内块数为2块,每块大小为16个字节。某程序运行时,要访存主存地址(二进制)为0110110的字节,则访问Cache的哪一块?3三综合题(4题38分,)1、计算机运行以下指令:线性多功能静态流水线,输入任务是不连续的情况,计算流水线的吞吐率、加速比和效率。 用TI-ASC计算机的多功能静态流水线计算两个向量的点积:Z=AB+CD+EF+GH、2、一条有4个流水段的非线性流水线,每一段的延迟时间相等,预约表如下:(1)写出禁止向量和冲突向量F=(2,4,6)(2)画出调度状态图(3)求出最大吞吐量(4)按最优调度连续输入8个任务,实际吞吐量加速比和效率各为多少3、超标量机的相关性问题以及调度计算机运行以下指令:I1:LOADR1,A;R1←(A)I2:FADDR2,R1;R2←(R2)+(R1)I3:FMULR3,R4;R3←(R3)×(R4)I4:FADDR4,R5;R4←(R4)+(R5)I5:DECR6;R6←(R6)-1I6:FMULR6,R7;R6←(R6)×(R7)(1)请列出程序代码中可能出现的数据相关及相关类型。I1:LOADR1,A;R1←(A)I2:FADDR2,R1;R2←(R2)+(R1)数据相关I3:FMULR3,R4;R3←(R3)×(R4)I4:FADDR4,R5;R4←(R4)+(R5)反相关I5:DECR6;R6←(R6)-1I6:FMULR6,R7;R6←(R6)×(R7)输出相关(2)当程序通过下图的双发射超标量机时,请采用顺序发射乱序完成的方式画出指令流水时空图。(流水线没有使用定向技术。)4、CACHE映像算法有一个Cache存储器,主存有8块(0-7),Cache有4块(0-3),采用组相联映像,组内块数为2块。采用LRU(近期最久未使用)替换算法。(12分,(1)题4分,(2)题8分)(1)指出主存各块与Cache各块之间的映像关系。Cache0【0,2,4,6】Cache1【0,2,4,6】Cache2【1,3,5,7】Cache3【1,3,5,7】(2)某程序运行过程中,访存的主存块地址流为:2,3,4,1,0,7,5,3,6,1,5,2,3,7,1说明该程序访存对Cache的块位置的使用情况,指出发生块失效且块争用的时刻,计算Cache命中率
本文标题:系统结构期末复习
链接地址:https://www.777doc.com/doc-5494633 .html