-计算机系统结构(有详细答案)
(完整版)计算机系统结构课后习题答案

第1章计算机系统结构的基本概念1.1 解释下列术语层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。
这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。
虚拟机:用软件实现的机器。
翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。
解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。
执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。
计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。
在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。
计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。
计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。
系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。
Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。
程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。
包括时间局部性和空间局部性。
CPI:每条指令执行的平均时钟周期数。
测试程序套件:由各种不同的真实应用程序构成的一组测试程序,用来测试计算机在各个方面的处理性能。
存储程序计算机:冯·诺依曼结构计算机。
其基本点是指令驱动。
程序预先存放在计算机存储器中,机器一旦启动,就能按照程序指定的逻辑顺序执行这些程序,自动完成由程序所描述的处理工作。
系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。
计算机系统结构课后答案

习题四
1、解释下列术语 RISC CISC 装载延迟
低端排序 高端排序 延迟转移技术 重叠窗口技术
4、某计算机有
10 条指令,它们的使用频率分别为:
0.3、0.24、0.16、0.12、0.07、0.04、0.03、0.02、0.01、0.01 若用霍夫曼编码对它们的操作码进行编码,其操作码的平均码长 为多少?
5、
6、某模型机有
8 条指令,使用频率分别为:
0.3、0.3、0.2、0.1、0.05、0.02、0.02、0.01 试分别用霍夫曼编码和扩展码对其操作码进行编码,限定扩展编 码只有两种长度, 则它们的平均编码长度各比定长操作码的平均编码 长度减少多少? 答:编码如下表:
指令 1 2 3 4 5 6 7 8 平均指令长度 频率 0.3 0.3 0.2 0.1 0.05 0.02 0.02 0.01 霍夫曼编码 00 01 10 110 1110 11110 111110 111111 2.38 霍夫曼扩展编码 00 01 10 11000 11001 11010 11011 11100 2.6 定长编码 000 001 010 011 100 101 110 111 3
方面加以比较。 答:向量的加工方法有三种:(1)横向加工(2)垂直加工(3)纵横向加工或称为 分组加工。 横向加工用到一个暂存单元,出现 N 次相关和 2N 次功能转换。 垂直加工一次相关一次切换,但要一个中间暂存向量。 横向加工各组有一次数据相关,2 次切换,n 个中间向量寄存器单元。
习题五
1、解释下列术语:
超长指令字机: (VLIW:Very Long Instruction Word)以一条长指令(或一组指 令形式) 来实现每个时钟周期发动多个操作的并行执行, 以减少对存储器的访问。 超标量机:借助对硬件资源重复设置来实现空间的并行操作。 超级流水机:通过提高流水线的运行速度来增强机器的性能,加深流水深度。
计算机体系结构答案

计算机体系结构答案2021 福师网院一、填空题(每空1分,共14分)1.高速缓冲存储器的地址映象方式有三种,它们分别是:全向量方式,直接相联方式,组相联方式。
2. 虚拟存储器的三种管理方式是段式管理,页式管理和段页式管理。
3.从主存的角度来看,“Cache—主存”层次的目的是为了提高速度,而“主存—辅存”层次的目的是为了扩大容量。
4.根据指令间的对同一寄存器读和写操作的先后次序关系,数据相关冲突可分为RAW 、WAR 和WAW 三种类型。
5.当代计算机体系结构的概念包括指令集结构、计算机组成和计算机实现三个方面的内容。
二、名词解释(每题2分,共16分)计算机体系结构:答:计算机体系结构包括指令集结构、计算机组成和计算机实现三个方面的内容。
兼容机:答:不同厂家生产的具有相同计算机结构的计算机;系列机:同一厂家生产的具有相同计算机结构,但具有不同组成和实现的一系列不同档次不同型号的机器;写直达法:答:执行“写”操作时,不仅写入Cache,而且也写入下一级存储器。
高速缓冲存储器:答:为解决CPU与主存储器间速度差而在内存储器和CPU之间增加的一种存取速度远高于普通内存的特殊存储器。
延迟转移技术:答:为了使指令流水线不断流,在转移指令之后插入一条不相关的有效的指令,而转移指令被延迟执行,这种技术称为延迟转移技术。
线性流水线:答:指各段串行连接、没有反馈回路的流水线。
数据通过流水线中的各段时,每一个段最多只流过一次;非线性流水线:指各段除了有串行的连接外,还有反馈回路的流水线。
流水线的吞吐率:答:在单位时间内流水线所完成的任务数量或输出结果的数量。
并行性:答:计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作。
只要在时间上相互重叠,就存在并行性。
它包括同时性与并发性两种含义。
三、简答题(每题5分,共30分)1. 如有一个经解释实现的计算机,可以按功能划分成4级。
每一级为了执行一条指令需要下一级的N条指令解释。
计算机体系结构课后答案

计算机体系结构课后答案【篇一:计算机体系结构习题(含答案)】1、尾数用补码、小数表示,阶码用移码、整数表示,尾数字长p=6(不包括符号位),阶码字长q=6(不包括符号位),为数基值rm=16,阶码基值re=2。
对于规格化浮点数,用十进制表达式写出如下数据(对于前11项,还要写出16进值编码)。
(1)最大尾数(8)最小正数(2)最小正尾数(9)最大负数(3)最小尾数(10)最小负数(4)最大负尾数(11)浮点零(5)最大阶码(12)表数精度(6)最小阶码(13)表数效率(7)最大正数(14)能表示的规格化浮点数个数2.一台计算机系统要求浮点数的精度不低于10-7.2,表数范围正数不小于1038,且正、负数对称。
尾数用原码、纯小数表示,阶码用移码、整数表示。
(1) 设计这种浮点数的格式(2) 计算(1)所设计浮点数格式实际上能够表示的最大正数、最大负数、表数精度和表数效率。
3.某处理机要求浮点数在正数区的积累误差不大于2-p-1 ,其中,p是浮点数的尾数长度。
(1) 选择合适的舍入方法。
(2) 确定警戒位位数。
(3) 计算在正数区的误差范围。
4.假设有a和b两种不同类型的处理机,a处理机中的数据不带标志符,其指令字长和数据字长均为32位。
b处理机的数据带有标志符,每个数据的字长增加至36位,其中有4位是标志符,它的指令数由最多256条减少到不到64条。
如果每执行一条指令平均要访问两个操作数,每个存放在存储器中的操作数平均要被访问8次。
对于一个由1000条指令组成的程序,分别计算这个程序在a处理机和b处理机中所占用的存储空间大小(包括指令和数据),从中得到什么启发?5.一台模型机共有7条指令,各指令的使用频率分别为35%,25%,20%,10%,5%,3%和2%,有8个通用数据寄存器,2个变址寄存器。
(1) 要求操作码的平均长度最短,请设计操作码的编码,并计算所设计操作码的平均长度。
6.某处理机的指令字长为16位,有双地址指令、单地址指令和零地址指令3类,并假设每个地址字段的长度均为6位。
计算机系统结构(第2版)郑伟明汤志忠课后习题答案以及例题收录

计算机系统结构(第2版)郑伟明汤志忠课后习题答案以及例题收录片上地址模块内部体号模式5: 4高阶交叉4低阶交叉16存储器模块每4个形成一个大模块:片上地址模块内部体号模式6: 4并行访问4低阶交叉31 0模块片上地址模块号输出选择(1)所有这些存储器可以并行工作,因此带宽可以增加一般来说,并行内存访问的优点是简单且易于实现,缺点是访问冲突大。
高阶交错存储器具有扩展方便、存取效率低的优点。
低阶交叉存取存储器可以分时方式提高速度46,但扩展不方便。
(2)各种存储器的带宽与其工作频率有关。
不考虑冲突,如果有足够多的独立控制电路和寄存器,那么它们的带宽是相同的。
(3)存储器原理图注意,并行存取存储器非常类似于低阶交叉存取存储器,除了并行存取存储器使用存储器模块号(存储体号)来选择输出结果,而低阶交叉存取存储器用于为存储器模块(存储体)生成芯片选择信号,这通过流水线操作提高了存取速度。
3.14在页面虚拟内存中,一个程序由从P1到P5的5个虚拟页面组成程序执行过程中依次访问的页面如下:P2、P3、P2、P1、P5、P2、P4、P5、P3、P2、P5、P2假设系统为该程序的主存储器分配三个页面,主存储器的三个页面分别由先进先出、先进先出和优化调度(1)绘制主内存页面条目、替换和命中的表(2)计算三种页面替换算法的页面命中率3.15(1)当分配的主内存页的数量大于或等于5时,可以达到最高的页命中率,除了第一次调入未命中,所有访问都在47: 7实际命中之后,因此可以达到的最高页命中率是H?7?0.5833 12(2)由于当页面数大于或等于5时肯定可以达到最高的命中率,让我们看看当页面数小于5时是否可以达到命中率:当由分配的主存储器页面数等于4时,调度过程如下:489 LFU算法4调用中4 5 4 5 3 4 5* 3 2调用中4 5 3 2命中1 5 3* 2调用中1 5 3 2*命中1 5 3* 2命中1 5* 3 2命中1 5 3 2命中1 5 3* 2命中1 5 3 * 2命中1 5 3 2命中1 5 3 2命中1 5 3 2命中7调用中此时也能达到最高命中率。
计算机体系结构习题与答案

一、复习题1.简述冯∙诺依曼原理,冯∙诺依曼结构计算机包含哪几部分部件,其结构以何部件为中心?答:冯∙诺依曼理论的要点包括:指令像数据那样存放在存储器中,并可以像数据那样进行处理;指令格式使用二进制机器码表示;用程序存储控制方式工作。
这3条合称冯∙诺依曼原理冯∙诺依曼计算机由五大部分组成:运算器、控制器、存储器、输入设备、输出设备,整个结构一般以运算器为中心,也可以以控制器为中心。
(P51-P54)2.简述计算机体系结构与组成、实现之间的关系。
答:计算机体系结构通常是指程序设计人员所见到的计算机系统的属性,是硬件子系统的结构概念及其功能特性。
计算机组成(computer organization)是依据计算机体系结构确定并且分配了硬件系统的概念结构和功能特性的基础上,设计计算机各部件的具体组成,它们之间的连接关系,实现机器指令级的各种功能和特性。
同时,为实现指令的控制功能,还需要设计相应的软件系统来构成一个完整的运算系统。
计算机实现,是计算机组成的物理实现, 就是把完成逻辑设计的计算机组成方案转换为真实的计算机。
计算机体系结构、计算机组成和计算机实现是三个不同的概念,各自有不同的含义,但是又有着密切的联系,而且随着时间和技术的进步,这些含意也会有所改变。
在某些情况下,有时也无须特意地去区分计算机体系结构和计算机组成的不同含义。
(P47-P48)3.根据指令系统结构划分,现代计算机包含哪两种主要的体系结构?答:根据指令系统结构划分,现代计算机主要包含:CISC和RISC两种结构。
(P55)4.简述RISC技术的特点?答:从指令系统结构上看,RISC 体系结构一般具有如下特点:(1) 精简指令系统。
可以通过对过去大量的机器语言程序进行指令使用频度的统计,来选取其中常用的基本指令,并根据对操作系统、高级语言和应用环境等的支持增设一些最常用的指令;(2) 减少指令系统可采用的寻址方式种类,一般限制在2或3种;(3) 在指令的功能、格式和编码设计上尽可能地简化和规整,让所有指令尽可能等长;(4) 单机器周期指令,即大多数的指令都可以在一个机器周期内完成,并且允许处理器在同一时间内执行一系列的指令。
(完整版)第3章计算机网络体系结构(习题答案)

第3章计算机网络体系结构一、填空题1.协议主要由(语法)、(语义)和(同步)三个要素组成。
2.OSI模型分为(物理层)、(数据链路层)、(网络层)、(传输层)、(会话层)、(表示层)和(应用层)七个层次。
3.OSI模型分为(资源子网)和(通信子网)两个部分。
4.物理层定义了(机械特性)、(电气特性)、(功能特性)和(规程特性)四个方面的内容。
5.数据链路层处理的数据单位称为(帧)。
6.数据链路层的主要功能有(链路管理)、(成帧)、(信道共享)、(帧同步)、(流量控制)、(差错控制)、(透明传输)和(寻址)。
7.在数据链路层中定义的地址通常称为(硬件地址)或(物理地址)。
8.网络层所提供的服务可以分为两类:(面向连接的)服务和(无连接的)服务。
9.传输层的功能包括(服务选择)、(连接管理)、(流量控制)、(拥塞控制)和(差错控制)等。
二、名词解释同步协议实体对等层对等层通信服务 CIDR 协议数据单元服务数据单元同步同步指的是广义的、在一定条件下发生什么事情的特性,而且条件和时间有关,具有时序的含义。
协议计算机网络中意图进行通信的结点必须要遵守一些事先约定好的规则。
这些为进行数据交换而建立的规则、标准或约定即称为协议,也称为网络协议。
实体任何接收或者发送数据的硬件单元或者软件进程模块都可以称为通信实体,简称实体。
对等层不同的网络结点,若它们遵循的是同一种网络体系结构的话,那么在不同结点上完成同样功能的层次称为对等层。
对等层通信在分层的网络体系结构中,每个层次只知道自己从上层接收来数据并处理后再传递给下一层,结果通信目的方该层次的对等层就收到与己方处理的一模一样的数据。
就好像在两个对等层之间有一条“通道”直接把数据传送过去一样,这种情况就称为对等层通信。
服务下一层能被上一层看见的功能称为服务。
协议数据单元、服务数据单元对等层上传送的数据单位称为协议数据单元,而直接相邻的两个层次之间交换的数据单位称为服务数据单元。
(完整版)计算机系统结构考试题目及参考答案.doc

(完整版)计算机系统结构考试题目及参考答案.doc一:名词解释1:虚拟机:由软件实现的机器。
2:CPI :是衡量CPU 执行指令效率的重要标志,指执行每条指令所需的平均时钟周期数。
3:摩尔定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18 个月便会增加一倍,性能也将提升一倍。
4:并发性:指两个或多个事件在同一时间间隔内发生的并行性。
5:程序局部性原理:是指程序在执行时呈现出局部性规律,即在一段时间内,整个程序的执行仅限于程序中的某一部分。
相应地,执行所访问的存储空间也局限于某个内存区域。
局部性原理又表现为:时间局部性和空间局部性。
6: CISC/RISC : CISC :即复杂指令系统计算机,指在系统中增加更多和复杂的指令,来提高操作系统效率的计算机。
RISC :即精简指令系统计算机,指在系统中选取使用一些频率最高的、长度固定的、格式种类少的简单指令的计算机。
7:计算机系统结构:指对机器语言计算机的软、硬件功能的分配和对界面的定义。
8:系列机:指先设计好一种系统结构,而后就按这种系统结构设计它的系统软件,按器件状况和硬件技术研究这种结构的各种实现方法,并按照速度、价格等不同要求,分别提供不同速度、不同配置的各档机器。
9:模拟:用机器语言程序解释实现程序移植的方法。
10:仿真:用微程序直接解释另一种机器的指令系统。
11:寻址方式:寻找操作数或指令的有效地址的方式。
12:替换算法:在存储体系中,当出现页面失效时或者主存的所有页面已经全部被占用而又出现页面失效时,按照某种算法来替换主存中某页。
[ 由于主存中的块比Cache 中的块多,所以当要从主存中调一个块到Cache 中时,会出现该块所映象到的一组(或一个)Cache 块已全部被占用的情况。
这时,需要被迫腾出其中的某一块,以接纳新调入的块。
]二:选择题1,直接执行微指令的是( C )A 汇编程序B 编译程序C 硬件D 微指令程序2,对汇编语言程序员不透明的是( C )A 程序计数器B 主存地址寄存器C 条件码寄存器D 指令寄存器3,最早的冯·诺依曼型计算机是以( B )为中心的A 运算器B 控制器C 存储器D I/O 设备4,计算机系统结构的角度的结构来看,机器语言程序员看到的机器属性是( C )A 计算机软件所要完成的功能B 计算机硬件的全部组成C 编程要用到的硬件组织D 计算机各部分硬件的实现5,不同系列计算机之间实现可移植性的途径,不包括( B )A 采用统一的高级语言B 采用统一的汇编语言C 模拟D 仿真6,利用时间重叠原理,实现并行处理的是( A )A 流水处理机B 多处理机C 阵列处理机D 集群系统7,多处理机实现的并行主要是(B)A 指令级并行B 任务级并行C 操作级并行D 操作步骤的级并行8 计算机系统结构不包括( B )A 信息保护B 存储速度C 数据表示D 机器工作状态9,不需要编址的数据存储空间( D )A CPU 通用寄存器B 主存储器C I/O 寄存器D 堆栈10, RISC 执行程序的速度比CISC 快的原因是( C )A RISC 指令系统中条数较少B 程序在 RISC 编译生成的目标程序较短C RISC 指令平均执行周期数较少D RISC 中只允许 LOAD 和 STORE 指令存储11,程序员在编写程序时,使用的访存地址是( B )A 主存地址B 逻辑地址C 物理地址D 有效地址12,虚拟存储器主要是为了( A )A 扩大存储器系统容量B 提高存储器系统速度C 扩大存储器系统容量和提高存储器系统速度D 便于程序的访存操作13,与全相联映像相比,组相联映像的优点是( B )A 目录表小B 块冲突概率低C 命中率高D 主存利用率高14,输入输出数据不经过CPU 内部寄存器的输入输出方式是( C )A 程序控制方式B 中断C DMA 方式D 上述三种方式15,在配置了通道的计算机系统中,用户程序需要输入输出时引起的中断是( A )A 访管中断B I/O 中断C 程序性中断D 外部中断16,当计算机系统通过执行通道程序,完成输入输出工作时,执行通道程序的是(B)A CPUB 通道C CPU 和通道D 指定的外设三:填空1,常见的计算机系统结构的分类法有两种:Flynn 分类法,冯氏分类法冯氏分类法是根据系统的最大并行度对计算机系统结构进行分类,大多数的位并行的单处理机属于字串位并的处理机方式2,由软件实现的机器称为:虚拟机3,在一个计算机系统中,低层机器的属性往往对高层机器的程序员是透明的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(仅供参考,不作为考试标准),选择题(30分,每题2分)计算机系统结构设计者所关心的是________所看到的的计算机结构。
A)硬件设计人员B)逻辑设计人员C)机器语言或汇编语言程序员D)高级语言程序员在计算机系统设计时,为了提高系统性能,应当注意________。
A)加快经常性使用指令的执行速度B)要特别精心设计少量功能强大的指令C)要减少在数量上占很小比例的指令的条数D)要加快少量指令的速度重叠寄存器技术主要用于解决在RISC系统中因________而导致的问题。
A)JMP指令影响流水线B)CALL指令的现场保护C)只有LOAD和STORE指令带来的访问存储器不便D)存储器访问速度为使流水计算机运行效率高________A)各过程段时间要不同B)连续处理的任务类型应该不同C)连续处理的任务类型应该相同D)连续处理的任务数尽可能少不属于堆栈型替换算法的是________。
A)近期最少使用法B)近期最久未用法C)先进先出法D)页面失效频率法与全相联映象相比,组相联映象的优点是________。
A)目录表小B)块冲突概率低C)命中率高D)主存利用率高"一次重叠"中消除"指令相关"最好的方法是________。
A)不准修改指令B)设相关专用通路C)推后分析下条指令D)推后执行下条指令流水操作中,遇到数据相关时,采用的解决办法有________。
A)用优化编译器检测,通过指令重新排序的办法B)数据重定向技术C)延迟转移技术D)加快和提前形成条件码经多级网络串联来实现全排列网络,只能用________。
A)多级立方体网络B)多级PM2I网络C)多级混洗交换网络D)上述任何网络虫蚀寻径以流水方式在各寻径器是顺序传送的是________。
授课:XXXA)消息B)包授课:XXXC)片D)字节超标量处理机________A)在一个时钟周期内分时发射多条指令B)只有一个操作部件C)在一个时钟周期内同时发射多条指令D)只有一个取指部件流水线的技术指标不包括________A)响应比B)吞吐率C)加速比D)效率向量处理机属于________A)SISD B)SIMD C)MISD D)MIMD________属于MIMD系统结构。
A)各处理单元同时受同一个控制单元的管理B)各处理单元同时接受同一个控制单元送来的指令C)多处理机和多计算机D)阵列处理机BSP计算机的并行处理机有16个处理单元,并行存储器的存储体个数为________。
A)16 B)1 C)32 D)17判断题(正确打√,错误打╳,10分,每题1分)( ×)对计算机系统中经常使用的基本单元功能,宜于用软件来实现,这样可降低系统的成本。
(√)处理机级流水线又称为指令流水线。
( ×)由于RISC简化了指令系统,因此,RISC上的目标程序比CISC上的目标程序要短一些,程序执行的时间就会少一些。
( ×)在存储体系中,地址的映象与地址的变换没有区别。
( ×)在满足Cache与主存的一致性方面,写回比写直达法好。
( ×)Cache组相联映象的块冲突概率比直接映象的高。
(√)采用LRU替换的Cache存储器,分配给程序的Cache容量一定时,块的大小增加,Cache的命中率将先上升,到一定时候又会逐渐降低。
(×)阵列处理机以多个处理机构成阵列。
( √)SIMD计算机的算法极大地依赖于机器的系统结构。
授课:XXX(× )解决多处理机Cache不一致性问题是基于链式目录的协议优点是限制了共享数据块的拷贝数量。
综合题(10分)如果某计算机系统有3个部件可以改进,则这三个部件经改进后的加速比分别为:S1=30,S2=20,S3=10。
(1)如果部件1和部件2改进前的执行时间占整个系统执行时间的比例都为30%,那么,部件3改进前的执行时间占整个系统执行时间的比例为多少,才能使3个部件都改进后的整个系统的加速比Sn达到10?(2)如果3个部件改进前执行时间占整个系统执行时间的比例分别为30%、30%和20%,那么,3个部件都改进后系统的加速比是多少?未改进部件执行时间在改进后的系统执行时间中占的比例是多少?(10分)一台模型机共有7条指令,各指令的使用频率分别为35%,25%,20%,10%,5%,3%和2%。
(1)要求操作码的平均长度最短,请设计操作码的编码,并计算所设计操作码的平均长度。
授课:XXX(2)设计8字长的寄存器-寄存器型指令3条,16位字长的寄存器-存储器型变址寻址方式指令4条,变址范围不小于±127。
请设计指令格式,并给出各字段的长度和操作码的编码。
解:解:(1)要使得到的操作码长度最短,应采用Huffman 编码,构造Huffman树如下:授课:XXX这样,采用Huffman编码法得到的操作码的平均长度为:H = 2×(0.35+0.25+0.20) + 3×0.10 + 4 ×0.05+ 5×(0.03 + 0.02)=1.6+0.3+0.2+0.25=2.35(10分)有一个4段流水线,如下图所示:授课:XXX若瓶颈段授课:XXXS1可使用细分方法改造,瓶颈段S3可使用并联方法改造,对改造后的流水线,分别使用公式和时空图求连续流入4条指令的实际吞吐率和效率授课:XXX授课:XXX(10分)设向量长度均为64,在Cray-1机上所用浮点功能部件的执行时间分别为:相加6拍,相乘7拍,求倒数近似值14拍;从存储器读数6拍,打入寄存器及启动功能部件各1拍,问下列各指令组,组内的哪些指令可以链接?哪些指令不可链接?不能链接的原因是什么?分别计算出各指令组全部完成所需要的拍数。
(1)V0<--存储器 V1<--V2+V3 V4<--V5*V6(2)V2<--V0*V1 V3<--存储器 V4<--V2+V3(3)V0<--存储器 V2<--V0*V1 V3<--V2+V0 V5<--V3+V4(4)V0<--存储器 V1<--1/V0V3<--V1*V2V5<--V3+V4解:(1)3 条向量指令之间既没有发生源Vi 冲突,也没有Vi 的先写后读相关,又不存在功能部件的使用冲突,所以这 3 条向量指令可以同时并行流水。
向量指令组全部完成需要max{(1+6(访存)+1+64-1),(1+6(浮加)+1+64-1),(1+7(浮乘)+1+64-1)} =72拍。
(2)3 条向量指令之间没有功能部件的使用冲突,但是在第1、2 两条向量指令与第3 条向量指令之间有V2 及V3 的先写后读相关。
只要让第1 条向量指令较第2 条向量指令提前 1 拍启动,则第1,2 两条向量指令的第 1 个结果元素就可以被同时链接到第 3 条向量指令中。
(1+7(浮乘)+1)+(1+6(浮加)+1+64-1)=80(拍)。
(3)第1 条向量指令与第2 条向量指令之间有V0 的先写后读相关,两者可以链接。
第3 条向量指令与第 2 条向量指令之间有源向量寄存器V0 的冲突,它们之间只能串行。
第3 条向量指令与第4 条向量指令之间有加法功能部件的使用冲突,它们之间也只能串行。
授课:XXX(1+6( 访存)+1+1+7( 浮乘)+1+64-1)+(1+6( 访存)+1+64-1)+(1+6( 浮加)+1+64-1) =222(拍)。
(4)4 条向量指令均依次有Vi 的先写后读相关,但无源Vi 冲突,也无功能部件的使用冲突,所以,这4 条向量指令可以全部链接在一起,进行流水。
(1+6(访存)+1)+(1+14(求倒数)+1)+(1+(7 浮乘)+1)+(1+6(浮加)+1)+64-1 =104 拍(10分)有一个5段流水线,各段执行时间均为Δt ,其预约表如下表所示。
t7XS5段S 时间tt1t2t3t4t5t6S1S2S3S4XXXXXXX XX(1)列出禁止表F 和冲突向量C 。
(2)画出流水线调度的状态图。
(3)分别求出允许不等时间间隔调度和等时间间隔调度的两种最优调度策略,以及这两种调度策略的流水线最大呑吐率。
(4)若连续输入10个任务,求这两种调度策略的流水线实际呑吐率和加速比。
解:(1)禁止向量F=(1,3,6) (1 分) 冲突向量C=(100101) (1 分) (2)(3)最小启动循环(2,2,5) 最小平均延迟(2+2+5)/3=3 TPmax=1/(3Dt) (1 分)最小恒定循环(4)TPmax=1/(4Dt) (1 分)(4)授课:XXX(10分)阵列机有0~7共8个处理单元互连,要求按(0,5),(1,4),(2,7),(3,6)配对通信。
(1)写出实现此功能的互连函数的一般式。
(2)画出用3级立方网络实现该互连函数的互连网络拓扑结构图,并标出各控制开关状态。
解:(1)(2)如下图所示:(注:可编辑下载,若有不当之处,请指正,谢谢!)授课:XXX。