第5章-计算机系统结构(第五版)李学干

第5章-计算机系统结构(第五版)李学干

计算机体系结构第五章练习题参考解答

第 五 章 5.34 在一个采用组相联映象方式的Cache 存储系统中,主存由B 0~B 7共8块组成,Cache 有2组,每组2块,每块大小为16B 。在一个程序执行过程中,访存的主存块地址流为:B 6,B 2,B 4,B 1,B 4,B 6,B 3,B 0,B 4,B 5,B 7,B 3。 (1)写出主存地址的格式,并标出各字段的长度。 (2)写出Cache 地址的格式,并标出各字段的长度。 (3)指出主存与Cache 之间各个块的映象关系。 (4)若Cache 的4个块号为C 0、C 1、C 2和C 3,列出程序执行过程中的Cache 块地址流。 (5)若采用FIFO 替换算法,计算Cache 的块命中率。 (6)若采用LRU 替换算法,计算Cache 的块命中率。 (7)若改为全相联映象方式,再做(5)和(6)。 (8)若在程序执行过程中,每从主存装入一块到Cache ,平均要对这个块访问16次,计算在这种情况下的Cache 命中率。 解:(1)(2)采用组相联映象时,主存和Cache 地址的格式分别为: 主存按Cache 的大小分区,现主存有8个块,Cache 有2×2=4个块,则主存分为8/4=2 个区,区号E 的长度为1位。又每区有2个组,则组号G 、g 的长度都为1位。而每组有2个块,则块号B 、b 的长度又都为1位。每块大小为16个存储字,故块内地址W 、w 的长度都为4位。 (3)根据组相联映象的规则,主存块0~7与Cache 块0~3之间的映象关系为:主存块0、1、4、5与Cache 块0、1之间全相联,主存块2、3、6、7与Cache 块2、3之间全相联。 (4)根据组相联映象的规则,该主存块地址流相应的一种Cache 块地址流如下表所示(组内替换算法为FIFO )。 时间: 1 2 3 4 5 6 7 8 9 10 11 12 主存块地址流: B 6 B 2 B 4 B 1 B 4 B 6 B 3 B 0 B 4 B 5 B 7 B 3 Cache 块地址流: C 2 C 3 C 0 C 1 C 0 C 2 C 2 C 0 C 0 C 0 C 3 C 2 (5)组内替换算法采用FIFO 时,Cache 块0~3的使用过程如下表所示。 时间: 1 2 3 4 5 6 7 8 9 10 11 12 主存块地址流: B 6 B 2 B 4 B 1 B 4 B 6 B 3 B 0 B 4 B 5 B 7 B 3 Cache 块0 Cache 块1 Cache 块2 Cache 块3 命中 命中 命中 可见命中三次,Cache 块命中率为H i = 3/12 = 0.25。 (6)组内替换算法采用LRU 时,Cache 块0~3的使用过程如下表所示。

完整版计算机体系结构课后习题原版答案_张晨曦著

第1章计算机系统结构的基本概念 (1) 第2章指令集结构的分类 (10) 第3章流水线技术 (15) 第4章指令级并行 (37) 第5章存储层次 (55) 第6章输入输出系统 (70) 第7章互连网络 (41) 第8章多处理机 (45) 第9章机群 (45) 第1章计算机系统结构的基本概念 1.1 解释下列术语 层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。 虚拟机:用软件实现的机器。 翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。

解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。 计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。 在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。 计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。 计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。 系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。 Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。 程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。包括时间局部性和空间局部性。

(完整版)计算机系统结构(张晨曦)简答题

第1章计算机系统结构的基本概念 1. 什么是计算机系统的多级层次结构? 第6级L6:应用语言虚拟机 第5级L5:高级语言虚拟机 第4级L4:汇编语言虚拟机 第3级L3:操作系统虚拟机 第2级L2:机器语言(传统机器级) 第1级L1:微程序机器级 从计算机语言的角度,把计算机系统按功能划分成以下多级层次结构: 2. 硬件和软件在什么意义上是等效的?在什么意义上是不等效的? 硬件和软件在功能实现上是等效的,即一种功能可以由软件实现,也可以由硬件实现。在实现性能上是不等效的。软件实现的优点是设计容易、改进简单;硬件实现的优点是速度快。 3. 经典计算机系统结构的实质是什么? 计算机系统中软、硬件界面的确定,其界面之上的是软件的功能,界面之下的是硬件和固件的功能。 4. 语言实现的两种基本技术是什么? 翻译和解释是语言实现的两种基本技术。它们都是以执行一串N级指令来实现N+1级指令,但二者存在着差别:翻译技术是先把N+1级程序全部变换成N级程序后,再去执行新产生的N级程序,在执行 过程中N+1级程序不再被访问。而解释技术是每当一条N+1级指令被译码后,就直接去执行一串等效的 N 级指令,然后再去取下一条 N+1级的指令,依此重复进行。在这个过程中不产生翻译出来的程序,因此解释过程是边变换边执行的过程。 5. 对于通用寄存器型机器来说,机器语言程序设计者所看到的计算机的属性主要有哪些? (1) 数据表示 (2) 寻址规则 (3) 寄存器定义 (4) 指令集 (5) 中断系统 (6) 机器工作状态的定义和切换 (7) 存储系统 (8) 信息保护 (9) I/O 结构 6. 什么是软件兼容?软件兼容有几种?其中哪一种是软件兼容的根本特征? 同一个软件可以不加修改地运行于系统结构相同的各档机器上,而且它们所获得的结果一样,差别只在于运行时间的不同。 软件兼容分为向上兼容、向下兼容、向前兼容和向后兼容。其中向后兼容是软件兼容的根本特征。

计算机系统结构_第五章练习 答案

第五章练习 1、描述计算机系统流水线的性能指标有哪些?其定义和定量表达式是什么? 指标主要有吞吐率、加速比、效率。 (1)吞吐率:在单位时间内流水线所完成的任务数量或输出的结果数量。 基本公式:TP=n/Tk,其中,n是任务数,Tk是处理完成n个任务所用的时间。 各个功能段执行时间均相等,输入连续n个任务的一条k段线性流水线的实际吞吐率为:TP=n/[(k+n-1) ?t] (2)加速比:完成一批任务,不使用流水线所用的时间与使用流水线所用的时间之比。 基本公式:S=T0/Tk,其中,T0为不使用流水线所用的时间,Tk为使用流水 线的执行时间。 各个功能段执行时间均相等的一条K段流水线完成n个连续任务时的实际加速比为:s=k*n*?t/[(k+n-1) ?t]=k*n/( k+n-1). (3)效率:指流水线的设备利用率。 在时空图上,流水线的效率定义为n个任务占用的时空区与k个功能段总的时空区之比。即:E=T0/(k*Tk) 各个功能段执行时间均相等,输入连续n个任务的一条k段线性流水线的效率为:E=n/(k+n-1) 2、假设某个流水线由4个功能部件组成,每个功能部件的执行时间都为?t。当 连续输入10个数据后,停顿5?t,又连续输入10个数据,如此重复。 画出时空图,计算流水线的实际吞吐率,加速比和效率。 总时间:Tk=[(4+10-1)+2] *?t*n =15n*?t 实际吞吐率:TP=N/Tk=10n/(15n*?t)=2/(3?t) 不使用流水线所用的时间为T0=4*N*?t =40n*?t 加速比:S=T0/Tk=2.67 效率:E=T0/(k*Tk)=0.67

计算机组成与设计第五版答案

计算机组成与设计(2010年机械工业出版社出版的图书): 《计算机组成与设计》是2010年机械工业出版社出版的图书,作者是帕特森(DavidA.Patterson)。该书讲述的是采用了一个MIPS 处理器来展示计算机硬件技术、流水线、存储器的层次结构以及I/O 等基本功能。此外,该书还包括一些关于x86架构的介绍。 内容简介: 这本最畅销的计算机组成书籍经过全面更新,关注现今发生在计算机体系结构领域的革命性变革:从单处理器发展到多核微处理器。此外,出版这本书的ARM版是为了强调嵌入式系统对于全亚洲计算行业的重要性,并采用ARM处理器来讨论实际计算机的指令集和算术运算。因为ARM是用于嵌入式设备的最流行的指令集架构,而全世界每年约销售40亿个嵌入式设备。 采用ARMv6(ARM 11系列)为主要架构来展示指令系统和计算机算术运算的基本功能。 覆盖从串行计算到并行计算的革命性变革,新增了关于并行化的一章,并且每章中还有一些强调并行硬件和软件主题的小节。 新增一个由NVIDIA的首席科学家和架构主管撰写的附录,介绍了现代GPU的出现和重要性,首次详细描述了这个针对可视计算进行了优化的高度并行化、多线程、多核的处理器。 描述一种度量多核性能的独特方法——“Roofline model”,自带benchmark测试和分析AMD Opteron X4、Intel Xeo 5000、Sun Ultra SPARC T2和IBM Cell的性能。

涵盖了一些关于闪存和虚拟机的新内容。提供了大量富有启发性的练习题,内容达200多页。 将AMD Opteron X4和Intel Nehalem作为贯穿《计算机组成与设计:硬件/软件接口(英文版·第4版·ARM版)》的实例。 用SPEC CPU2006组件更新了所有处理器性能实例。 作者简介: David A.Patterson,加州大学伯克利分校计算机科学系教授。美国国家工程研究院院士。IEEE和ACM会士。曾因成功的启发式教育方法被IEEE授予James H.Mulligan,Jr教育奖章。他因为对RISC 技术的贡献而荣获1 995年IEEE技术成就奖,而在RAID技术方面的成就为他赢得了1999年IEEE Reynold Johnson信息存储奖。2000年他~13John L.Hennessy分享了John von Neumann奖。 John L.Hennessy,斯坦福大学校长,IEEE和ACM会士。美国国家工程研究院院士及美国科学艺术研究院院士。Hennessy教授因为在RISC技术方面做出了突出贡献而荣获2001年的Eckert-Mauchly奖章.他也是2001年Seymour Cray计算机工程奖得主。并且和David A.Patterson分享了2000年John von Neumann奖。

计算机系统结构

第一章计算机系统结构概论 一、填空题 1 、实现程序移植的主要途径有统一高级语言、系列机、(模拟)和(仿真)。 2、系统软件兼容必须做到向(后)兼容,尽可能争取向(上)兼容。 3、开发并行性是为了并行处理,并行性又包括有(同时性)和(并发性)二重含义。 4、提高计算机系统并行性的主要技术途径有(时间重叠)、资源重复和(资源共享)。 5、数组多路通道宜于连接多台(高)速设备,通道“数据宽度”为(定长块)。 6 、Cache存储器采用组相联的映象规则是组间(直接)映象,组内各块间(全相联)映象。 7、自定义数据表示又分(带数据标志符)数据表示和(数据描述符)数据表示。 二、选择题 1、汇编语言源程序变换成机器语言目标程序是经过(D)来实现的。 A编译程序解释 B 汇编程序解释 C编译程序翻译 D汇编程序翻译 2、直接执行微指令的是( D ) A汇编程序 B 编译程序 C微指令程序 D 硬件 3、对机器语言程序员透明的是(B) A 中断字 B 主存地址寄存器 C通用寄存器 D条件码 4 、在系统结构设计中,提高软件功能实现的比例会( C ) A 提高解题速度 B 减少需要的存储容量 C 提高系统的灵活性 D 提高系统的性价比 5 、磁盘外部设备适合于连接:( B ) A字节多路通道或选择通道 B 数组多路通道或选择通道 C数组多路通道或字节多路通道 D 任意一种通道 6 、系列机软件应做到( A ) A 向后兼容,力争向上兼容 B向前兼容,并向上兼容 C向前兼容,并向下兼容 D向后兼容,力争向下兼容 7、块冲突概率最高的Cache地址映象方式是:( B ) A 段相联 B直接 C 组相联 D 全相联 8、对系统程序员不透明的应当是:( C ) A Cache存储器 B 系列机各档不同的数据通路宽度 C虚拟存储器 D 指令缓冲寄存器 9、计算机系统结构不包括:(A) A 主存速度 B 机器工作状态 C 信息保护 D 数据表示 10、组相联映象,LRU替换的Cache存储器,不影响Cache命中率的是( D ): A 增加Cache中的块数 B 增大组的大小 C 增大块的大小 D增大主存容量 11 、与全相联映象相比,组相联映象的优点是:( A ) A 目录表小 B 块冲突概率低 C 命中率高 D 主存利用率高 12、流水机器对全局性相关的处理不包括:( A ) A设置相关专用通路 B 提前形成条件码

计算机系统结构作业答案第三章(张晨曦)

3.1 -3.3为术语解释等解答题。 3.4 设一条指令的执行过程分为取指令,分析指令和执行指令3个阶段,每个阶段所需时间分别为ΔT, ΔT, 2ΔT,分别求出下列各种情况下,连续执行N条指令所需的时间。 (1) 顺序执行方式 (2) 只有“取指令”与“执行指令”重叠 (3) “取指令”,“分析指令”与“执行指令”重叠 解: (1) 4NΔT (2) (3N+1) ΔT (3) 2(N+1) ΔT 3.6 解决流水线瓶颈问题有哪两种常用方法? 解: (1) 细分瓶颈段 将瓶颈段细分为若干个子瓶颈段 (2) 重复设置瓶颈段 重复设置瓶颈段,使之并行工作,以此错开处理任务 3.9 列举下面循环中的所有相关,包括输出相关,反相关,真数据相关。 for(i = 2; i < 100; i=i+1) { a[i] = b[i] + a[i]; -----(1) c[i+1] = a[i] + d[i]; -----(2) a[i-1] = 2*b[i]; -----(3) b[i+1] = 2*b[i]; -----(4) } 解: 输出相关:第k次循环时(1)与第k+1轮时(3) 反相关:第k次循环时(1)和(2)与第k-1轮时(3) 真数据相关:每次循环(1)与(2),第k次循环(4)与k+1次循环(1),(3),(4) 3.12 有一指令流水线如下所示 50ns 50ns 100ns 200ns (1)求连续如入10条指令的情况下,该流水线的实际吞吐率和效率 (2)该流水线的“瓶颈”在哪一段?请采用两种不同的措施消除此“瓶颈”。对于你所给出 的两种新的流水线连续输入10条指令时,其实际吞吐率和效率各是多少? 解:(1)(m表示流水线级数,n 表示任务数)

计算机系统结构 第一章自考练习题答案教学内容

第一章计算机系统结构的基本概念 历年真题精选 1. 下列对系统程序员不透明的是()。 A. 乘法器 B. 先行进位链 C. 指令缓冲器 D. 条件码寄存器2.“从中间开始”设计的“中间”目前多数是在( D )。 A. 微程序机器级与汇编语言机器级之间 B. 操作系统机器级与汇编语言机器级之间 C. 传统机器语言机器级与微程序机器级之间 D. 传统机器语言机器级与操作系统机器级之间 3. 开发计算机系统结构并行性的主要技术途径有时间重叠、(资源重复)和(资源 共享)。 4. 计算机系统弗林分类法,把计算机系统分成单指令流单数据流(SISD)、单指令流多数 据流(SIMD)、(多指令流单数据流(MISD))和(多指令流多数据流(MIMD))四大类。 5. 设计指令系统时,以乘法运算为例,简述系统结构设计、计算机组成设计、计算机实现 各应考虑的问题。(P4) 6. 实现软件移植的途径有哪些?各受什么限制?(P14) 同步强化练习 一.单项选择题。 1. 实现汇编语言源程序变换成机器语言目标程序是由( C )。 A. 编译程序翻译 B. 编译程序解释 C. 汇编程序翻译 D. 汇编程序解释

2. 系列机软件应做到( B ) A. 向前兼容,并向下兼容 B. 向后兼容,力争向上兼容 C. 向前兼容,并向上兼容 D. 向后兼容,力争向下兼容 3. 在计算机系统多级层次结构中,机器级由低到高,相对顺序正确的应当是( B )。 A. 传统机器语言、汇编语言、操作系统 B. 微程序、传统机器语言、高级语言 C. 高级语言、汇编语言、传统机器语言 D. 传统机器语言、应用语言、高级语言 4. 可以直接执行微指令的是( C )。 A. 编译程序 B. 微程序 C. 硬件 D. 汇编程序 5. 计算机系统结构不包括( A )。 A. 主存速度 B. 数据表示 C. 机器工作状态 D. 信息保护 6. 对计算机系统结构透明的是()。 A. 是否使用通道型I/0处理机 B. 虚拟存储器 C. 字符行运算指令 D. VLSI技术 7. 在主存设计上,属计算机系统结构考虑的应是( C )。 A. 频宽的确定 B. 多体交叉还是单体 C. 容量和编址单位 D. 用MOS还是TTL 8. 计算机组成设计不考虑( B )。 A. 缓冲技术 B. 功能部件的集成度 C. 专用部件设置 D. 控制机构的组成 9. 下列说法中不正确的是( D ) A. 硬件的生产费用比软件的生产费用高 B.软件设计费用比软件重复生产费用高 C. 硬件功能只需实现一次而软件功能可能要多次重复实现 D. 硬件实际费用比软件设计费用低

计算机系统结构张晨曦版课后答案

第1章计算机系统结构的基本概念 1.1 解释下列术语 层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。 虚拟机:用软件实现的机器。 翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。 解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。 计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。 在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。 计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。 计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。 系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。 Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。 程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。包括时间局部性和空间局部性。 CPI:每条指令执行的平均时钟周期数。 测试程序套件:由各种不同的真实应用程序构成的一组测试程序,用来测试计算机在各个方面的处理性能。 存储程序计算机:冯?诺依曼结构计算机。其基本点是指令驱动。程序预先存放在计算机存储器中,机器一旦启动,就能按照程序指定的逻辑顺序执行这些程序,自动完成由程序所描述的处理工作。

计算机系统结构李学干版习题答案

第一章 1- 1如有一个经解释实现的计算机,可以按功能划分成4级。每一级为了执行一条指令需要下一级的N条指令解释。若执行第1级的一条指令需K ns时间,那么执行第2、3、4级的一条指令各需要多少时间? 答:执行第2、3、4级的一条指令各需KN ns、(N*N)*K ns、(N*N*N)*K ns 的时间。 1- 2操作系统机器级的某些指令就用传统机器级的指令,这些指令可以用微程序直接解释实现,而不必有操作系统自己来实现。更具你对1-1题的回答,你认为这样做有哪些好处? 答:这样做,可以加快操作系统中操作命令解释的速度,同时也节省了存放解释操作命令这部分解释程序所占的存储空间,简化了操作系统机器级的设计,也有利于减少传统机器级的指令条数。 1- 3有一个计算机系统可按功能分成4级,每级的指令互不相同,每一级的指令都比其下一级的指令在效能上强M倍,即第i级的一条指令能完成第i-1级的M条指令的计算量。 现若需第i级的N条指令解释第i+1级的一条指令,而有一段第1级的程序需要运行Ks,问在第2、3和4级上一段等效程序各需要运行多长时间? 答:第2级上等效程序需运行:(N/M)*Ks。第3级上等效程序需运行:(N/M)*(N/M)*Ks。 第4级上等效程序需运行:(N/M)*(N/M)*(N/M)*Ks。 1- 4硬件和软件在什么意义上是等效的?在什么意义上又是不等效的?试举例说明。 答:软件和硬件在逻辑功能上是等效的,原理上,软件的功能可用硬件或固件完成,硬件的功能也可用软件模拟完成。但是实现的性能价格比,实现的难易程序不同。

例如,编译程序、操作系统等许多用机器语言软件子程序实现的功能完全可以用组合电路硬件或微程序固件来解释实现。它们的差别只是软件实现的速度慢,软件的编制复杂,编程工作量大,程序所占的存储空间量较多,这些都是不利的;但是,这样所用硬件少,硬件实现上也就因此而简单容易,硬件的成本低,解题的灵活性和适应性较好,这些都是有利的。 又如,乘除法运算可以经机器专门设计的乘法指令用硬件电路或乘除部件来实现。向量、数组运算在向量处理机中是直接使用向量、数组类指令和流水或陈列等向量运算部件的硬件方式来实现的,但在标量处理机上也可以通过执行用标量指令组成的循环程序的软件方式来完成。 浮点数运算可以直接通过设置浮点运算指令用硬件来实现,也可以用两个定点数分别表示浮点数的阶码和尾数,通过程序方法把浮点数阶码和尾数的运算映像变换成两个定点数的运算,用子程序软件的方式实现。十进制数的运算可以通过专门设置十进制数运算类指令和专门的十进制运算部件硬的方式来完成,或者通过设置BCD数的表示和若干BCD数运算的校正指令来软硬结合地实现,也可以先经十转二的数制转换子程序将十进制数转成二进制数,再用二进制运算类指令运算,所得结果又调用二转十的数制转换子程序转换成十进制数结果,用全软件的方式实现。 1- 5试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与影响。 答:计算机系统结构、计算机组成、计算机实现互不相同,但又相互影响。 (1)计算机的系统结构相同,但可采用不同的组成。如IBM370系列有115、125、135、158、168等由低档到高档的多种型号机器。从汇编语言、机器语言程序设计者看到的概念性结构相同,均是由中央处理机/主存,通道、设备控制器,外设4级构成。其中,中央处理机都有相同的机器指令和汇编指令系统,只是指令的分析、执行在低档机上采用顺序进行,在高档机上采用重叠、流水或其它并行处理方式。

《计算机系统结构》习题解答%26%2340%3B张晨曦教程%26%2341%3B

1 《计算机系统结构》习题解答(张晨曦教程) 华中科技大学计算机学院 林安 教材:《计算机系统结构教程》,张晨曦等,清华大学出版社,2009 教师参考书:《计算机系统结构学习指导与题解》,张晨曦等,清华大学出版社,2009 实验平台:指令级和流水线操作级模拟器WinMIPS64 一、各次作业应交内容 第1周(2月19日):1.10(改),1.7,1.11(2解法) 第2周(2月26日):2.14(补充),实验1,3.8,3.10 第3周(3月5日):3.11(改),实验2,5.11,5.8,5.9 第4周(3月12日):6.8(改),6.7 第7周(4月2日):7.9,7.11,7.10 第8周(4月9日):7.14(难题),7.12(难题) 第9周(4月16日) :8.12(补),8.11(改) (难题) 第10周(4月23日):9.9(改),9.13 第11周(4月30日): 10.6,10.9(难题) 合计:习题23个,实验2个 二、参考答案 第1章(P28) 1.10(按下文改后再做,题解1.39) 系统中有3个部件同时改进,加速比分别为30、20和10。 (1) 如果前2个部件时间占总时间比例均为30%,第3个部件所占比例要达到多少,才能使系统加速比达到10? (2) 如果3个部件时间占总时间比例分别为30%、30%、20%,改进之后未被改进部分时间占总时间的比例为多少? 解: (1) 将已知数据代入扩展Amdahl 定律:10 3 203.0303.0)33.03.0(11 10 Fe Fe + ++++?= 解出:%369 25 .33≈= Fe (2) 将改进之前总时间记为old T ,则未被改进部分为0.2old T ;又从扩展Amdahl 定律推导过程知,改进后的总时间为: old old T T 245.0102.0203.0303.0)2.03.03.0(1=×?????? +++++?,二者相除:%82245.02.0≈old old T T 1.7 (题解1.36) 解: 01.006.058.035.012950013214 1 ≈≈≈≈==∑=IC IC IC IC IC IC IC IC IC IC i i ,,,, (1) ∑=≈=×+×+×+×=× =4 1 776.11295002300001295001500212950080004129500750002129500450001)(i i i IC IC CPI CPI

吉林大学计算机系统结构题目整合第五章

第五章存储层次 知识点汇总 存储器层次结构、存储层次性能参数(平均每位价格、命中率、平均访存时间)、存储层次4个问题、CPU 访存地址分割、全相联映像、直接映像、组相联映像、查找方法、替换算法(随机、先进先出、最近最少使用法)、写直达法、写回法、按写分配、不按写分配、Cache性能分析、3C失效(强制失效、容量失效、冲突失效)、Victim Cache、伪相联映像Cache、硬件预取、编译器优化(数组合并、内外循环交换、循环融合、分块)、写缓冲合并、单字宽存储器、多字宽存储器、多体交叉存储器、存储体、虚拟存储器(页式、段式)、快表(TLB) 简答题 1.单级存储器的主要矛盾是什么?通常采取什么方法来解决?(知识点:多级存储器) 答:主要矛盾: (1) 速度越快,每位价格就越高。 (2) 容量越大,每位价格就越低。 (3) 容量越大,速度越慢。 采取多级存储层次方法来解决。 2.“Cache-主存”和“主存-辅存”层次的主要区别是什么?(知识点:存储层次)

3.在存储层次中应解决哪四个问题?(知识点:存储层次的四个问题) 答:(1)映像规则:当把一个块调入高一层存储器时,可以放到哪些位置上。 (2)查找算法:当所要访问的块在高一层存储器中时,如何找到该块。 (3)替换算法:当发生失效时,应替换哪一块。 (4)写策略:当进行写访问时,应进行哪些操作。 4.地址映像方法有哪几种?它们各有什么优缺点?(知识点:地址映像) (1)全相联映像。实现查找的机制复杂,代价高,速度慢。Cache空间的利用率较高,块冲突概率较低,因而Cache的失效率也低。 (2)直接映像。实现查找的机制简单,速度快。Cache空间的利用率较低,块冲突概率较高,因而Cache 的失效率也高。 (3)组相联映像。组相联是直接映像和全相联的一种折中。 5.Cache的3C失效是哪三种失效?针对每种失效给出一种降低失效率的方法。(知识点:3C失效) 答:强制性失效、容量失效、冲突失效。 6.简述Cache的两种写策略(知识点:写直达、写回) 写直达法:执行“写”操作时,不仅写入Cache,而且也写入存储器

计算机系统结构 第五章(习题)

1. 向量流水机的工作方式可分为哪两大类?它们的主要特点是什么? 2. 向量的加工方法有哪几种?各有什么特点?试从加工速度、需用中间变量 等方面加以比较。 3. 在CRAY1机上,V为向量寄存器,设向量长度均为32,s为标量寄存器, 所用浮点功能执行部件的执行时间分别为:加法需6拍,相乘需7拍,从存储器读数需6拍,求倒数近似值需14拍,打入寄存器及启动功能部件(包括寄存器)各需1拍。问下列各指令组中的哪些指令可以链接?哪些指令可以并行执行?试说明其原因并分别计算出各指令组全部完成所需的拍数。 (1)V0←存储器 V1←V2+V3 V4←V5*V6 (2)V2←V0*V1 V3←存储器 V4←V2+V3 (3)V0←存储器 V3←V1+V2 V4←V0*V3 V6←V4+V5 (4)V0←存储器 V1←1/V0 V3←V1+V2 V5←V3*V4 (5)V0←存储器 V1←V2+V3 V4←V5*V6 s0←s1+s2 (6)V3←存储器 V2←V0+V1 s0←s2+s3 V3←V1*V4 (7)V3←存储器 V2←V0+V1 V4←V2*V3 存储器←V4 (8)V0←存储器 V2←V0+V1 V3←V2*V1 V5←V3*V4 4. 在CRAYl机上,按链接方式执行下述4条向量指令(括号中给出相应功能 部件时间),如果向量寄存器和功能部件之间的数据传送需1拍,试求此链

接流水线的流过时间为多少拍?如果向量长度为64,则需多少拍能得到全部结果? V0←存储器(存储器取数:7拍) V2←V0+Vl (向量加:3拍) V3←V2<A3 (按(A3)左移:4拍) V5←V3∧V4 (向量逻辑乘:2拍) 5. 若某个向量机其向量方式的执行速率Rv=10MFLOPS,标量方式的执行速 率Rs=1MFLOPS,设α是程序中可向量化的百分比。要求: ⑴推导该向量机的平均执行速率Ra的公式。 ⑵画出在(0,1)范围内,Ra与α的关系图。 ⑶为使平均执行速率Ra=7.5MFlOPS,则α应取何值? ⑷假定Rs=1MFLOPS,α=0.7,则为使Ra=2MFLOPS,Rv应取何值?

计算机系统结构答案

一、选择题 1、对汇编语言程序员,下列(A )不是透明的。 A: 中断字寄存器 B: 乘法器 C: 移位器 D: 指令缓冲器 2、假设对A机器指令系统的每条指令的解释执行可直接由B机器的一段微程序解释执行,则A称为(D )。 A: 仿真机 B: 宿主机 C: 虚拟机 D: 目标机 3、 1. 查看下面三条指令:V3←A;V2←V0+V1;V4←V2*V3;假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。三条指令全部采用串行的方法,那么执行的时间是:A: 3N+20 B: 3N+21 C: 3N+22 D: 3N+23 4、某向量处理机有16个向量寄存器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍。采用类似CRAY-1的链接技术,先计算(A+B)*C,在流水线不停的情况下,接着计算(D+E)*F。求此链接流水线的通过时间是多少拍?(设寄存器出入各需1拍) A: 8 B: 9 C: 17 D: 18 5、设有一个4个处理器的MIMD系统,假设在系统中访存取指和取数的时间可以忽略不计;加法与乘法分别需要2拍和4拍;在MIMD系统中处理器(机)之间每进行一次数据传送的时间为1拍;在MIMD系统中,每个PE都可以和其它PE有直接的的通路。 求利用此系统计算表达式所需的节拍数。 A: 23 B: 12 C: 11 D: 10 6、以下哪些是周期窃取方式的特点? A : 硬件结构简单 B : 硬件结构复杂 C : 数据输入或输出过程中占用了CPU时间 D : 数据输入或输出过程中不占用CPU时间 7、从下列有关Cache的描述中,选出应填入空格中的正确答案: (1)今有甲、乙两台计算机,甲计算机的Cache存取时间为50ns,主存储器为2us;乙计算机的Cache存储时间为100ns,主存储器为1.2us。设Cache的命中率均为95%,则甲计算机的平均存取时间为__A_ns;乙计算机的平均存取时间为__B_ns。 (2)在Cache中,经常采用直接映象或组相联映象两种方式,在Cache容量相等的情况下,前者比后者的命中率__C__。 选项 A : 147.5 153.5 155 180 选项 B : 147.5 153.5 155 180 选项 C : 高低相等 8、有研究人员指出,如果在采用通用寄存器指令集结构的计算机里加入寄存器—存储器寻址方式可能提高计算机效率,做法就是用指令ADD R2,0(Rb)代替指令序列LOAD R1,0(Rb) ADD R2,R2,R1假定使用新的指令能使时钟周期增加10%,并且假定只对时钟产生影响,而不影响CPI那么采用新指令,要达到与原来同样的性能需要去掉的LOAD操作所占的百分比?(提示:去掉的是与ADD指令连用的LOAD指令,假定未采用新指令前LOAD指令占总指令的22.8%) A: 39% B: 36% C: 40% D: 39.8% 9、下述的几个需要解决的问题中,那个是向量处理机所最需要关心的? A: 计算机指令的优化技术 B: 设计满足运算器带宽要求的存储器 C: 如何提高存储器的利用率,增加存储器系统的容量 D: 纵横处理方式的划分问题 10、一台单处理机可以以标量方式运行,也可以以向量方式运行。在向量方式情况下,计算可比标量方式快18倍。设某基准程序在此计算机上运行的时间是T。另外,已知T的25%用于向量方式,其余机器时间则以标量方式运行。那么在上述条件下与完全不用向量方式的条件下相比的加速比是: A: 3 B: 3.43 C: 3.33 D: 以上均不正确 11、给定1个采用完全混洗互连网络,并有256个PE的SIMD机器,加入执行混洗互连函数10次,则原来在PE123中的数据将被送往何处? A: PE237 B: PE222 C: PE111 D: PE175

计算机系统结构第五章

第五章 标量流水技术 计算机处理器的主要功能是控制指令的解释执行,为了能引入并行处理,目前普遍使用一种经济有效的方法,即流水控制方式。 本章讨论的是有关流水控制的概念、原理、涉及的问题与解决的办法,以及流水控制技术的应用和进一步的发展。 5.1控制流及其改变 按算法要求控制指令序列的先后顺序执行称控制流,通常指令的执行顺序是相继的,但控制流经常会发生间断,破坏顺序性,主要有以下几种情况: 1.转移指令 不转移:PC = K0 + K1T 转移:控制流发生间断,以目标地址为起始点, 再顺序流动。 K (a)(b) 2.过程调用和返回 可嵌套和递归,返回时从原来断点继续执行。 3.协同程序 与调用不同,被调用过程不总是从头开始,如下 图。 协同程序A协同程序B 4.中断和自陷 为使流水控制方式能高效地解释指令,程序执行的控 制流必须是连续的,因此对控制流的改变要采取有效的措施,以保证流水控制的实现。 5.2标量流水工作原理 5.2.1重叠操作方式和先行控制 指令的解释执行有以下几种工作方式: 1. 顺序方式 这种方式指令串行执行,设一条指令的解释分为:取

指、分析、执行三个阶段,指令解释执行如下图所示: 设各阶段执行时间为t ,解释n 条指令的时间是: t n T ??=3 若各阶段执行时间不同,分别为t 取、t 分、t 执,则解释 n 条指令时间为: ∑==n i T 1(t 取i +t 分i +t 执i ) 顺序方式控制简单,但指令串行解释速度慢,设备利用率 低。 2. 重叠方式 这是使相邻指令的解释在一些阶段上的操作在时间上 重叠执行,如: 或 T = ( 2n + 1) t 重叠方式需增设指令缓冲寄存器,在执行k 条指令时存放 k+1条指令。同时还要解决取操作数与取指令都要访问存 储器的冲突。 解决冲突的方法: ? 使用分开的指令存储器和数据存储器,称为哈佛结构, 如Pentium 处理器设置有指令Cache 和数据Cache 。 ? 采用多体交叉存储器 ? 设置指令缓冲寄存器组 这可预取指令,取指阶段时间短,可以合并到分析阶 段,一条指令解释是分析和执行两个阶段。重叠方式如下: 这称为一次重叠。

计算机系统结构(张晨曦)试题

试题1 一、填空题(25分,每空1分) 1. AT89S51单片机为 位单片机 2. MCS-51系列单片机的典型芯片分别为 、 、 。 3. AT89S51的异步通信口为 (单工/半双工/全双工) 4. AT89S51有 级中断, 个中断源 5. AT89S51内部数据存储器的地址范围是 ,位地址空间的字节地址范围是 ,对应的位地址范围是 ,外部数据存储器的最大可扩展容量是 。 6. AT89S51单片机指令系统的寻址方式有 、_______、_ ___、_ __ __、 。 7. 如果(A)=34H ,(R7)=0ABH ,执行XCH A, R7;结果(A)= ,(R7)= 。 8. 82C55可以扩展 个并行口,其中 条口线具有位操作功能; 9. 当单片机复位时PSW = H ,这时当前的工作寄存器区是 区,R4所对应的存储单元地址为 H 。 10. 若A 中的内容为67H ,那么,P 标志位为 。 11. 74LS138是具有3个输入的译码器芯片,其输出作为片选信号时,最多可以选中 片芯片。 二、判断以下指令的正误:(5分) (1)MOV 28H ,@R4; ( ) (2)INC DPTR ; ( ) (3)DEC DPTR ; ( ) (4)CLR R0 ; ( ) (5)MOV T0,#3CF0H ; ( ) 三、简答题 1. 如果(DPTR)=507BH ,(SP)=32H ,(30H)=50H ,(31H)=5FH ,(32H)=3CH,则执行下列指令后: POP DPH; POP DPL; POP SP; 则:(DPH)= __ ___;(DPL )=____ ____;(SP )=____ ____;(6分) 2. 采用6MHz 的晶振,定时1ms ,用定时器方式0时的初值应为多少?(请给出计算过程)(6分) 3. 分析下列程序的功能(5分) PUSH ACC PUSH B POP ACC POP B 四、图为8段共阴数码管,请写出如下数值的段码。 0____ __;1_______ _;2_______ _;3____ _ ;_4______ ;5_____ ; b c f h

《大学计算机基础》第五版_第1-4章课后习题答案

1.简述计算机系统的组成。 由硬件系统和软件系统组成 2.计算机硬件包括那几个部分?分别说明各部分的作用。 a)主机和外设 b)主机包括中央处理器和内存作用分别是指挥计算机的各部件按照指令的功能要求协调工作和存放预执行的程序和数据。外设包括输入输出设备和外存,作用是接受用户输入的原始数据和程序并将它们转化为计算机可以识别的形式存放在内存中,将存放在内存中由计算机处理的结果转变为人们所能接受的形式。 3.指令和程序有什么区别?试述计算机执行指令的过程。 a)指令是能被计算机识别并执行的二进制代码,程序是计算机指令的有序集合。 b)取指令,分析指令,执行指令。 4.指令的串行执行和并行执行有什么区别? 串行执行即在任何时刻只能执行一条指令,并行执行可以执行多条指令。 5.什么是流水线技术? 在程序执行时多条指令重叠进行操作的一种准并行处理技术。 6.简述系统软件和应用软件的区别。 系统软件是指控制计算机的运行、管理计算机的各种资源、并为应用软件提供支持和服务。应用软件是利用计算机的软、硬件资源为某一专门目的而开发的软件。 7.简述机器语言、汇编语言、高级语言各自的特点。 机器语言编程工作量大、难学难记难修改;汇编语言编程质量高,站存储空间少、执行速度快;高级语言接近自然语言和数学公式。 8.简述解释和编译的区别。 解释的翻译工作可立即执行,而编译的翻译工作不可立即装入机器执行。 9.简述将资源程序编译成可执行程序的过程。 首先产生一个与资源程序等价的目标程序,然后连接程序将目标程序和有关的程序库组合成一个完整的可执行程序。 10.简述常用各种高级语言的特点。 FORTRAN:用于科学计算。COBOL:面向商业的通用语言。C/C++:功能丰富,灵活,简洁明了。BASIC:非结构化,功能少,速度慢。JAVA:严谨可靠易懂。 11.什么是主板?它主要有哪些部件?各部件是如何连接的? a)主板(母版)是微型计算机中最大的一块集成电路板,也是其他部件和各种外部设备的连接载体。 b)芯片、插槽和接口。 c)通过接口连接。 12.简述主板构架的作用,并列举常见的主板构架。 作用:对主板的尺寸大小,形状,各元器件的布局、排列方式和所有的电源风格等制定出的通用标准。如ATX,Micro ATX,BTX等。 13.CPU有哪些性能指标? 主频、外频和前段总线频率字长和位数高速缓冲存储器容量核心数量制造工艺 14简述ROM和RAM的作用和区别。 ROM可读不可写、断电后数据不会丢失;RAM可读可写、断电后数据丢失。 15.简述内存和外存的特点。 内存:容量小,CPU可直接访问。外存:容量大,CPU不能直接访问。 16.什么是SATA硬盘?它有什么优点? 使用SATA接口的存储设备。结构简单,可靠性高,数据传输率高,支持热插拔。 17.简述Cacha的作用及其原理。 提高计算机性能;在CPU和内存之间放置Cacha,CPU访问它的速度比访问内存的速度快得多。 18什么是总线?列举总线类型。 总线是各部件、设备之间传送数据的公用通道。 类型:ISA,PCI,AGP. 19.简述并行总线和串行总线的优缺点。 并:适用于短距离低总线频率的传输;串:低速数据传输和高速数据传输都适用。

计算机系统结构(高教版)张晨曦 习题答案 第五章

5.1 解释下列术语 多级存储层次:由若干个采用不同实现技术的存储器构成的存储器系统,各存储器处在离CPU不同距离的层次上。使得靠近CPU的存储器速度较快,容量较小。整个存储系统的速度接近与离CPU最近的存储器的速度,而容量和每位价格接近于最低层次的容量和价格。 全相联映像:指主存中的任一块可以被放置到Cache中的任意一个位置。 直接映像:指主存中的每一块只能被放置到Cache中唯一的一个位置。 组相联映像:指主存中的每一块可以被放置到Cache中固定的一个组中的任意位置。 替换算法:由于主存中的块比Cache中的块多,所以当要从主存中调入一个块到Cache中时,会出现该块所映像的Cache块位置已经被占用的情况。替换算法即解决如何选择替换块的问题。 LRU:最近最少使用法。选择近期最少被访问的块作为被替换的块。 写直达法:在执行“写”操作时,不仅把信息写入Cache中相应的块,而且也写入下一级存储器中相应的块。 写回法:只把信息写入Cache中相应的块,该块只有在被替换时才被写回主存。 按写分配法:在写失效时,先把所写单元所在的块从主存调入Cache,然后再进行写入。 不按写分配法:写失效时,直接写入下一级存储器而不将相应的块调入Cache。 命中时间:CPU所要访问的块在Cache中,确认并取走所花费的时间开销。 失效率:CPU一次访存不命中的概率。 失效开销:CPU一次访存不命中,而额外增加的访存开销。 强制性失效:当第一次访问一个块时,该块不在Cache中,需从下一级存储器中调入Cache。 容量失效:如果程序执行执行时所需的块不能全部调入Cache中,则当某些快被替换后,若又重新被访问,就会发生失效。 冲突失效:在组相联或直接映像Cache中,若不多的块映像到同一组中,则会出现该组中某个块被别的块替换,然后又重新被访问的情况。 2:1 Cache经验规则:大小为N的直接映像Cache的失效率约等于大小为N/2的2路组相联Cache的失效率。 相联度:组相联中每组的块数n成为相联度。 Victim Cache:在Cache和它的下一级存储器之间增设一个全相联映像的Cache,存放因冲突而被替换出去的块。 故障性预取:在预取时,若出现虚地址故障或违反保护权限,就会引发异常。 非故障性预取:在预取时,若出现虚地址故障或违反保护权限,不会引发异常,而是放弃预取,转变为空操作。 非阻塞Cache:Cahce在等待预取数据返回的同时,还能继续提供指令和数据。 尽早重启动:在请求字没有到达时,CPU处于等待状态时,一旦请求字到达,就立即发送给CPU,让等待的CPU尽早冲启动,继续执行。 请求字优先:调块时,首先向存储器请求CPU所要的请求字。请求字一旦到达,就立即送往CPU,让CPU继续执行,同时从存储器调入该块的其余部分。 虚拟Cache:和失效相比,Cache命中发生的频度高的多。按照“以经常性事件为重点”的指导思想,应在Cache中使用虚拟地址。这样的Cache成为虚拟Cache。 多体交叉存储器:在存储系统中采用多个DRAM,并利用它们潜在的并行性,可以把存储芯片组织为多个体,并让他们并行工作。从而能一次读或写多个字,存储器内的各个体是按字交叉的。 存储体冲突:两个请求要访问同一体。 TLB:地址变换缓冲器,用于存放近期使用的页表项,其内容是页表部分内容的一个副本。

相关文档
最新文档