计算机系统结构习题课-10级

合集下载

(完整版)计算机系统结构(课后习题答案)

第一章计算机系统结构的基本概念1.有一个计算机系统可按功能分成4级，每级的指令互不相同，每一级的指令都比其下一级的指令在效能上强M倍，即第i级的一条指令能完成第i-1级的M条指令的计算量。

现若需第i级的N 条指令解释第i+1级的一条指令，而有一段第1级的程序需要运行Ks，问在第2、3和4级上一段等效程序各需要运行多长时间？答：第2级上等效程序需运行：(N/M)*Ks。

第3级上等效程序需运行：(N/M)*(N/M)*Ks。

第4级上等效程序需运行：(N/M)*(N/M)*(N/M)*Ks。

note: 由题意可知：第i级的一条指令能完成第i-1级的M条指令的计算量。

而现在第i 级有N条指令解释第i+1级的一条指令，那么，我们就可以用N/M来表示N/M 表示第i+1级需(N/M)条指令来完成第i级的计算量。

所以，当有一段第1级的程序需要运行Ks时，在第2级就需要(N/M)Ks，以此类推2.硬件和软件在什么意义上是等效的？在什么意义上又是不等效的？试举例说明。

答：软件和硬件在逻辑功能上是等效的，原理上，软件的功能可用硬件或固件完成，硬件的功能也可用软件模拟完成。

但是实现的性能价格比，实现的难易程序不同。

在DOS操作系统时代，汉字系统是一个重要问题，早期的汉字系统的字库和处理程序都固化在汉卡（硬件）上，而随着CPU、硬盘、内存技术的不断发展，UCDOS把汉字系统的所有组成部份做成一个软件。

3.试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与影响。

答：计算机系统结构、计算机组成、计算机实现互不相同，但又相互影响。

（1）计算机的系统结构相同，但可采用不同的组成。

如IBM370系列有115、125、135、158、168等由低档到高档的多种型号机器。

从汇编语言、机器语言程序设计者看到的概念性结构相同，均是由中央处理机/主存，通道、设备控制器，外设4级构成。

其中，中央处理机都有相同的机器指令和汇编指令系统，只是指令的分析、执行在低档机上采用顺序进行，在高档机上采用重叠、流水或其它并行处理方式。

计算机组成与系统结构课后答案免费版全(清华大学出版社袁春风主编)

计算机组成与系统结构课后答案免费版全（清华大学出版社袁春风主编）计算机组成与系统结构课后答案免费版全（清华大学出版社-袁春风主编）第一章练习答案5．若有两个基准测试程序p1和p2在机器m1和m2上运行，假定m1和m2的价格分别是5000元和8000元，下表给出了p1和p2在m1和m2上所花的时间和指令条数。

程序p1p2m1指令条数200×106300×103执行时间(ms)100003指令条数150×106420×103m2执行时间(ms)50006请回答下列问题：（1）对于p1，哪台机器的速度快？快多少？对于p2呢？（2）在m1上执行p1和p2的速度分别是多少mips？在m2上的执行速度又各是多少？从执行速度让我们看看，对于P2，哪台机器速度快？多快？（3）假设M1和M2的时钟频率分别为800 MHz和1.2 GHz，则P1在M1和M2上执行时的平均时钟周期期数cpi各是多少？（4）如果某个用户需要大量使用程序p1，并且该用户主要关心系统的响应时间而不是吞吐率，那么，当用户需要购买大量机器时，他应该选择M1还是M2？为什么？（注意：在性价比方面）（5）如果另一个用户也需要购买大量机器，但用户同样使用P1和P2，那么主要的问题是响应时间间，那么，应该选择m1还是m2？为什么？参考答案：（1）对于p1，m2比m1快一倍；对于p2，m1比m2快一倍。

（2）对于M1，P1的速度为200m/10=20mips；P2为300K/0.003=100mips。

对于m2，p1的速度为：150m/5=30mips；p2为420k/0.006=70mips。

就执行速度而言，对于P2，因为100/70=1.43倍，M1比m2快0.43倍。

（3）在M1上执行P1时的平均时钟周期数CPI为：10×800m/（200×106）=40在m2上执行p1时的平均时钟周期数cpi为：5×1.2g/(150×106)=40。

完整版计算机体系结构课后习题原版答案张晨曦著

第1章计算机系统结构得基本概念 (1)第2章指令集结构得分类 (4)第3章流水线技术 (6)第4章指令级并行 (16)第5章存储层次 (25)第6章输入输出系统 (31)第7章互连网络 (41)第8章多处理机 (45)第9章机群 (45)第1章计算机系统结构得基本概念1、1 解释下列术语层次机构:按照计算机语言从低级到高级得次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同得语言为特征。

这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。

虚拟机:用软件实现得机器。

翻译:先用转换程序把高一级机器上得程序转换为低一级机器上等效得程序,然后再在这低一级机器上运行,实现程序得功能。

解释:对于高一级机器上得程序中得每一条语句或指令,都就是转去执行低一级机器上得一段等效程序。

执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。

计算机系统结构:传统机器程序员所瞧到得计算机属性,即概念性结构与功能特性。

在计算机技术中,把这种本来存在得事物或属性,但从某种角度瞧又好像不存在得概念称为透明性。

计算机组成:计算机系统结构得逻辑实现,包含物理机器级中得数据流与控制流得组成以及逻辑设计等。

计算机实现:计算机组成得物理实现,包括处理机、主存等部件得物理结构,器件得集成度与速度,模块、插件、底板得划分与连接,信号传输,电源、冷却及整机装配技术等。

系统加速比:对系统中某部分进行改进时,改进后系统性能提高得倍数。

Amdahl定律:当对一个系统中得某个部件进行改进后,所能获得得整个系统性能得提高,受限于该部件得执行时间占总执行时间得百分比。

程序得局部性原理:程序执行时所访问得存储器地址不就是随机分布得,而就是相对地簇聚。

包括时间局部性与空间局部性。

CPI:每条指令执行得平均时钟周期数。

测试程序套件:由各种不同得真实应用程序构成得一组测试程序,用来测试计算机在各个方面得处理性能。

(完整版)计算机系统结构课后习题答案

第1章计算机系统结构的基本概念1.1 解释下列术语层次机构：按照计算机语言从低级到高级的次序，把计算机系统按功能划分成多级层次结构，每一层以一种不同的语言为特征。

这些层次依次为：微程序机器级，传统机器语言机器级，汇编语言机器级，高级语言机器级，应用语言机器级等。

虚拟机：用软件实现的机器。

翻译：先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序，然后再在这低一级机器上运行，实现程序的功能。

解释：对于高一级机器上的程序中的每一条语句或指令，都是转去执行低一级机器上的一段等效程序。

执行完后，再去高一级机器取下一条语句或指令，再进行解释执行，如此反复，直到解释执行完整个程序。

计算机系统结构：传统机器程序员所看到的计算机属性，即概念性结构与功能特性。

在计算机技术中，把这种本来存在的事物或属性，但从某种角度看又好像不存在的概念称为透明性。

计算机组成：计算机系统结构的逻辑实现，包含物理机器级中的数据流和控制流的组成以及逻辑设计等。

计算机实现：计算机组成的物理实现，包括处理机、主存等部件的物理结构，器件的集成度和速度，模块、插件、底板的划分与连接，信号传输，电源、冷却及整机装配技术等。

系统加速比：对系统中某部分进行改进时，改进后系统性能提高的倍数。

Amdahl定律：当对一个系统中的某个部件进行改进后，所能获得的整个系统性能的提高，受限于该部件的执行时间占总执行时间的百分比。

程序的局部性原理：程序执行时所访问的存储器地址不是随机分布的，而是相对地簇聚。

包括时间局部性和空间局部性。

CPI：每条指令执行的平均时钟周期数。

测试程序套件：由各种不同的真实应用程序构成的一组测试程序，用来测试计算机在各个方面的处理性能。

存储程序计算机：冯·诺依曼结构计算机。

其基本点是指令驱动。

程序预先存放在计算机存储器中，机器一旦启动，就能按照程序指定的逻辑顺序执行这些程序，自动完成由程序所描述的处理工作。

系列机：由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。

计算机系统结构课后答案

习题四
1、解释下列术语 RISC CISC 装载延迟
低端排序高端排序延迟转移技术重叠窗口技术
4、某计算机有
10 条指令，它们的使用频率分别为：
0.3、0.24、0.16、0.12、0.07、0.04、0.03、0.02、0.01、0.01 若用霍夫曼编码对它们的操作码进行编码，其操作码的平均码长为多少？
5、
6、某模型机有
8 条指令，使用频率分别为：
0.3、0.3、0.2、0.1、0.05、0.02、0.02、0.01 试分别用霍夫曼编码和扩展码对其操作码进行编码，限定扩展编码只有两种长度，则它们的平均编码长度各比定长操作码的平均编码长度减少多少？答：编码如下表：
指令 1 2 3 4 5 6 7 8 平均指令长度频率 0.3 0.3 0.2 0.1 0.05 0.02 0.02 0.01 霍夫曼编码 00 01 10 110 1110 11110 111110 111111 2.38 霍夫曼扩展编码 00 01 10 11000 11001 11010 11011 11100 2.6 定长编码 000 001 010 011 100 101 110 111 3
方面加以比较。答：向量的加工方法有三种：(1)横向加工(2)垂直加工(3)纵横向加工或称为分组加工。横向加工用到一个暂存单元，出现 N 次相关和 2N 次功能转换。垂直加工一次相关一次切换，但要一个中间暂存向量。横向加工各组有一次数据相关，2 次切换，n 个中间向量寄存器单元。
习题五
1、解释下列术语：
超长指令字机：（VLIW：Very Long Instruction Word）以一条长指令（或一组指令形式）来实现每个时钟周期发动多个操作的并行执行，以减少对存储器的访问。超标量机：借助对硬件资源重复设置来实现空间的并行操作。超级流水机：通过提高流水线的运行速度来增强机器的性能，加深流水深度。

计算机系统结构复习题(附答案) (1)

计算机系统结构复习题和重点（附答案）一、单项选择题1．实现汇编语言源程序变换成机器语言目标程序是由（）A．编译程序解释B．编译程序翻译C．汇编程序解释D．汇编程序翻译2．系列机软件必须保证（）A．向前兼容，并向上兼容B．向前兼容，并向下兼容C．向后兼容，力争向上兼容D．向后兼容，力争向下兼容3．浮点数尾数基值r m=8，尾数数值部分长6位，可表示规格化正尾数的个数是（）A．56个B．63个C．64个D．84个4．在IBM370系统中，支持操作系统实现多进程共用公用区管理最有效的指令是（）A．“执行”指令B．“程序调用”指令C．“比较与交换”指令D．“测试与置定”指令5．关于非专用总线三种控制方式中，下列叙述错误．．的是（）A．集中式定时查询，所有部件共用同一条“总线忙”线B．集中式定时查询，所有部件都用同一条“总线请求”线C．集中式独立请求，所有部件都用同一条“总线请求”线D．集中式串行链接，所有部件都用同一条“总线请求”线6．磁盘外部设备适合于连接到（）A．字节多路通道B．数组多路通道或选择通道C．选择通道或字节多路通道D．数组多路通道或字节多路通道7．在Cache存储器中常用的地址映象方式是（）A．全相联映象B．页表法映象C．组相联映象D．段页表映象8．在指令级高度并行的超级处理机中，下列叙述正确的是（）A．超标量处理机利用资源重复，要求高速时钟机制B．超流水线处理机利用资源重复，要求高速时钟机制C．超标量处理着重开发时间并行性，要求高速时钟机制D．超流水线处理机着重开发时间并行性，要求高速时钟机制9．间接二进制n方体网络是一种（）A．多级立方体网络B．多级全排列网络C．单级立方体网络D．多级混洗交换网络10．多端口存储器适合于连接A．紧耦合多处理机B．松耦合多处理机C．机数很多的处理机D．机数可变的多处理机二、填空题11．多处理机实现的是___________、___________间的并行。

计算机系统结构(第三版)张晨曦课后答案

i
fi Si
−1
式中，fi 为可加速部件 i 在未优化系统中所占的比例；Si 是部件 i 的加速比。
⎧ f ⎫ f f S = ⎨[1 − ( f1 + f 2 + f 3 )] + 1 + 2 + 3 ⎬ S S S 1 2 3⎭ ⎩
0.3 0.3 f 3 ⎫ ⎧ 10 = ⎨[1 − (0.3 + 0.3 + f 3 )] + + + ⎬ 30 20 30 ⎭ ⎩
课
45000 × 1 + 75000 × 2 + 8000 × 4 + 1500 × 2 = 1.776 129500
答
案网
计算机体系结构 • 第一章 • 第4页
⎡ f ⎤ Te = To ⎢(1 − f e ) + e ⎥ S e⎦ ⎣
S=
1 (1 − f e ) +
fe Se
S=
i
1 (1 − ∑ f i ) + ∑
对于第三级而言，为了完成 IC 条指令的功能，第三级指令的条数为：执行第三级
IC 。为了 M2
IC IC 条指令，需要执行 N 条第二级的指令对其进行解释。那么对第二级 2 M M2 IC IC + 2N 2 M M
而言，总的指令条数为：
N⎤ ⎡ = ⎢1 + ⎥ K ⎣ M⎦ N⎤ ⎡ T4 = ⎢1 + ⎥ K ⎣ M⎦
1.5 计算机系统有三个部件可以改进，这三个部件的加速比如下：部件加速比 1＝30；部件加速比 2＝20；部件加速比 3＝10； (1) 如果部件 1 和部件 2 的可改进比例为 30％，那么当部件 3 的可改进比例为多少时，系统的加速比才可以达到 10？ (2) 如果三个部件的可改进比例为 30％、30％和 20％，三个部件同时改进，那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少？解：在多个部件可改进情况下 Amdahl 定理的扩展:

计算机体系结构课后答案

计算机体系结构课后答案【篇一：计算机体系结构习题(含答案)】1、尾数用补码、小数表示，阶码用移码、整数表示，尾数字长p=6（不包括符号位），阶码字长q=6（不包括符号位），为数基值rm=16，阶码基值re=2。

对于规格化浮点数，用十进制表达式写出如下数据（对于前11项，还要写出16进值编码）。

（1）最大尾数（8）最小正数（2）最小正尾数（9）最大负数（3）最小尾数（10）最小负数（4）最大负尾数（11）浮点零（5）最大阶码（12）表数精度（6）最小阶码（13）表数效率（7）最大正数（14）能表示的规格化浮点数个数2．一台计算机系统要求浮点数的精度不低于10-7.2，表数范围正数不小于1038，且正、负数对称。

尾数用原码、纯小数表示，阶码用移码、整数表示。

(1) 设计这种浮点数的格式(2) 计算（1）所设计浮点数格式实际上能够表示的最大正数、最大负数、表数精度和表数效率。

3．某处理机要求浮点数在正数区的积累误差不大于2-p-1 ，其中，p是浮点数的尾数长度。

(1) 选择合适的舍入方法。

(2) 确定警戒位位数。

(3) 计算在正数区的误差范围。

4．假设有a和b两种不同类型的处理机，a处理机中的数据不带标志符，其指令字长和数据字长均为32位。

b处理机的数据带有标志符，每个数据的字长增加至36位，其中有4位是标志符，它的指令数由最多256条减少到不到64条。

如果每执行一条指令平均要访问两个操作数，每个存放在存储器中的操作数平均要被访问8次。

对于一个由1000条指令组成的程序，分别计算这个程序在a处理机和b处理机中所占用的存储空间大小（包括指令和数据），从中得到什么启发？5．一台模型机共有7条指令，各指令的使用频率分别为35%，25%，20%，10%，5%，3%和2%，有8个通用数据寄存器，2个变址寄存器。

(1) 要求操作码的平均长度最短，请设计操作码的编码，并计算所设计操作码的平均长度。

6．某处理机的指令字长为16位，有双地址指令、单地址指令和零地址指令3类，并假设每个地址字段的长度均为6位。

计算机系统结构(第2版)郑伟明汤志忠课后习题答案以及例题收录

计算机系统结构(第2版)郑伟明汤志忠课后习题答案以及例题收录片上地址模块内部体号模式5: 4高阶交叉4低阶交叉16存储器模块每4个形成一个大模块:片上地址模块内部体号模式6: 4并行访问4低阶交叉31 0模块片上地址模块号输出选择(1)所有这些存储器可以并行工作，因此带宽可以增加一般来说，并行内存访问的优点是简单且易于实现，缺点是访问冲突大。

高阶交错存储器具有扩展方便、存取效率低的优点。

低阶交叉存取存储器可以分时方式提高速度46，但扩展不方便。

(2)各种存储器的带宽与其工作频率有关。

不考虑冲突，如果有足够多的独立控制电路和寄存器，那么它们的带宽是相同的。

(3)存储器原理图注意，并行存取存储器非常类似于低阶交叉存取存储器，除了并行存取存储器使用存储器模块号(存储体号)来选择输出结果，而低阶交叉存取存储器用于为存储器模块(存储体)生成芯片选择信号，这通过流水线操作提高了存取速度。

3.14在页面虚拟内存中，一个程序由从P1到P5的5个虚拟页面组成程序执行过程中依次访问的页面如下:P2、P3、P2、P1、P5、P2、P4、P5、P3、P2、P5、P2假设系统为该程序的主存储器分配三个页面，主存储器的三个页面分别由先进先出、先进先出和优化调度(1)绘制主内存页面条目、替换和命中的表(2)计算三种页面替换算法的页面命中率3.15(1)当分配的主内存页的数量大于或等于5时，可以达到最高的页命中率，除了第一次调入未命中，所有访问都在47: 7实际命中之后，因此可以达到的最高页命中率是H？7？0.5833 12(2)由于当页面数大于或等于5时肯定可以达到最高的命中率，让我们看看当页面数小于5时是否可以达到命中率:当由分配的主存储器页面数等于4时，调度过程如下:489 LFU算法4调用中4 5 4 5 3 4 5* 3 2调用中4 5 3 2命中1 5 3* 2调用中1 5 3 2*命中1 5 3* 2命中1 5* 3 2命中1 5 3 2命中1 5 3* 2命中1 5 3 * 2命中1 5 3 2命中1 5 3 2命中1 5 3 2命中7调用中此时也能达到最高命中率。

计算机系统结构习题课(2012)-万继光

• 计算机系统有三个部件可以改进，这三个部件的加速比如下：部件加速比1＝30；部件加速比2＝20；部件加速比3＝10； • (1) 如果部件1和部件2的可改进比例为30％，那么当部件3的可改进比例为多少时，系统的加速比才可以达到10？ • (2) 如果三个部件的可改进比例为30％、30％和20％，三个部件同时改进，那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少？
M W B S S S S S S E X M W B S S S E X I D I F M W B E X I D I F M W B S S S S E X I D I F M W B S S S E M W X B S S S I F
CPU时间 = IC ×CPI×时钟周期时间 n = （CPIi×ICi）×时钟周期时间
i=1
n （CPIi×ICi） n ICi 时钟周期数 i=1 CPI = = = （CPIi× IC ） IC IC i=1
f MIPS速率 CPI 10 6
▲ 2/101
习题1.7
对于一台400MHz计算机执行标准测试程序，程序中指令类型，执行数量和平均时钟周期数如下：
习题2.14
IEEE754
e N m rm
为便于软件的移植，浮点数的表示格式应该有统一标准（定义）。1985年IEEE提出了IEEE754标准。该标准规定基数为2，阶码E用移码表示，尾数M用原码表示，根据原码的规格化方法，最高数字位总是1，该标准将这个1缺省存储，使得尾数表示范围比实际存储的多一位。
采用定向技术消除数据相关
习题3.11（1）
1 LOOP: LW R1 0(R2) IF ADDI R1 R1 #1 SW 0(R2) R1 ADDI R2 R2 #4 SUB R4 R3 R2 BNZ R4 LOOP 2 ID IF 3 EX ID IF 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 1 1 1 1 5 6 7 8 9

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

0(R 2)
S
S
AD DI SU B BN Z
R2
R 2 R 3 L O O P
#4
S
S
IF
S
S
I D I F
M E M S
W B S E X I D M E M S W B S E X M E M
IF
R4
R 2
S
S
R4
S
S
需要进行396/4=99次循环，由于每次分支都清空流水线。从上图可以看出每次循环需要16个时钟周期，因此总共需要的时钟周期数为99×16＝1584(或1583)
2.
在没有定向（或旁路）硬件的支持下，请画出该指令序列执行的流水线时空图。假设采用排空流水线的策略处理分支指令，且所有的存储器访问都可以命中Cache，那么执行上面循环需要多少时钟周期假设该DLX流水线有正常的定向路径，请画出该指令序列执行的流水线时空图。假设采用预测分支失败的策略处理分支指令，其所有的存储器访问都可以命中Cache，那么执行上面循环需要多少时钟周期
例题选讲（6）
• 在下面Tomasulo结构上执行指令，分别计算每条指令写结果阶段的时间（时钟周期数），并画出相应的时空图。
From Mem FP Op Queue Load Buffers
FP Registers
Load1 Load2 Load3 Load4 Load5 Load6 Add1 Add2 Add3 FP adders Mult1 Mult2 Reservation Stations
例题选讲（5）
• 在DLX流水线上运行如右代码序列。 LOOP: 其中，R3的初值是R2＋396。假设，在整个代码序列的运行过程中，所有的存储器访问都是命中的，并且在一个时钟周期中对同一个寄存器的读操作和写操作可以通过寄存器文件定向。问：
1.
LW R1 0(R2) ADDI SW ADDI SUB BNZ R1 R1 R2 R4 R4 R1 0(R2) R2 R3 LOOP #4 R2 #1
Store Buffers
To Mem FP multipliers
LD F6 LD F2 MULTD F0 SUBD F8 DIVD F10 ADDD F6
34+ 45+ F2 F6 F0 F8
R2 R3 F4 F2 F6 F2
Latency 1 1 10 2 40 2
Common Data Bus (CDB)
Exec Write Issue Comp Result
Load1 Load2 Load3
Busy Address
No No No
Reservation Stations:
Time Name Busy Add1 No Add2 No Add3 No Mult1 No Mult2 No
Op
S1 Vj
S2 Vk
流水段 IF/ID.IR ← Mem[PC]; IF
任何指令类型
IF/ID.NPC,PC ← (if EX/MEM.cond {EX/MEM.NPC} else {PC+4}); ID/EX.A ← Regs[IF/ID.IR6..10]; ID/EX.B ← Regs[IF/ID.IR11..15];
i 1 n
或者写为 CPI （
i 1
n
ICi CPIi），它表明CPI为所有CPIi的加权平均值。 IC
例题选讲（3）
Base Machine (Reg / Reg) Op Freq Cycles CPI(i) ALU 50% 1 .5 Load 20% 2 .4 Store 10% 2 .2 Branch 20% 2 .4 1.5
例题2的解答
• 对于瓶颈部分进行改进可以获得最大的改进效果。（第一问）
Sn 1 0.7 1 0.7 10 2.7

对于瓶颈部分进行改进可以获得最大的改进效果。（第二问）同样情况下使用改进加速比大的方法
Sn 1 0 .7 0 .2 1 0 .7 0 .2 10 30 5.66
n
另一方面，我们又可以写 n Te Ti ( ICi CPIi CYCLE ) ( ICi CPIi ) CYCLE i 1 i 1 i 1 比较上面第一式与最后一式，可以得到CPI与CPIi的关系 IC CPI （ICi CPIi）
表3.5列出了在改进后的流水线数据通路上处理分支指令的一些操作
流水段 IF/ID.IR ← Mem[PC]; IF/ID.NPC , PC IF ← ( if ID/EX.cond {ID/EX.NPC } else {PC + 4} ); 分支指令操作
ID/EX.A ← Regs[IF/ID.IR6..10]; ID/EX.B ← Regs[IF/ID.IR11..15]; ID/EX.NPC ← IF/ID.NPC + ( IR16 )16 ## IR16..31; ID ID/EX.IR ← IF/ID.IR; ID/EX.cond ← ( Regs[IF/ID.IR6..10] op 0 ); ID/EX.Imm ← ( IR16 )16 ## IR16..31;
Sn
1 1 0.4 0.4 10

1 1.56 0.64
它说明局部（40%）的大幅度改进（10倍）对全局的作用要小得多（1.56倍）。方法二： 40 4 60
例题选讲（2）
• 计算机系统中有三个部件可以改进，这三个部件的部件加速比如下：部件加速比1＝30；部件加速比2＝20；部件加速比3＝10；如果某个测试程序在三个部件上的比例分别为20％， 20%，70%，要达到最好改进效果，仅对一个部件进行改进时，选择那个部件？如果运行两个部件，又如何选择？
CPU的性能公式
CPI是衡量CPU执行指令效率的重要指标。让我们先考虑一个标准测速程序的全部执行时间Te和其中所有第i种指令的累计时间Ti，易知
Te IC CPI CYCLE Ti ICi CPIi CYCLE 1 其中：CYCLE ， f
n n
IC ICi
i 1
0(R 2) R2
R1
IF
S
AD DI SU B BN Z
R2
#4
S
IF
R4
R3
R2
IF
R4
LO O P
IF
IDs IFLW来自R10( R2)需要进行396/4=99次循环，由于每次分支预测都失败，并且在 ID段需要计算分支目标和分支条件。从上图可以看出每次循环需要9个时钟周期，因此总共需要的时钟周期数为 98×9+10＝892（或者891）
Exec Write Issue Comp Result
1 Load1 Load2 Load3
MEM
MEM/WB.ALUoutput EX/MEM.ALUoutput;
Regs[MEM/WB.IR16..20] ← MEM/WB.ALUoutput; WB 或 Regs[MEM/WB.IR11..15] ← MEM/WB.ALUoutput; Regs[MEM/WB.IR11..15] ← MEM/WB.LMD;
1
LO OP: LW R1 0( R 2) R 1 R 1 #1 IF
2
I D
3
E X
4
M E M S
5
W B
6
7
8
9 1 0
1 1
1 2
1 3
1 4
1 5
1 6
1 1 1 7 8 9
2 0
2 1
AD DI SW
R1
IF
I D IF
S
E X I D
M E M S
W B S E X M E M E X I D IF W B
EX
MEM
WB
1
LOO P: LW R1 0( R2) IF
2
ID
3
E X
4
M E M S
5
W B
6
7
8
9 1 0
1 1
1 2
1 3
1 4
1 5
1 6
1 7
1 8
1 9
2 0
2 1
AD DI SW
R1
R1
#1
IF
ID
E X ID
M E M E X ID
W B M E M E X ID W B M E M EX W B M E M I D i W B E X i IF M E M i
I
S
I
ES E
ES E
E
E
E
E
E
E
E
E
EC W
EC W
I
S I
S S S S S S S E E E W S C
S
S
S
ES E
E
… … E
EC W
Tomasulo Example
Instruction status:
Instruction LD F6 LD F2 MULTD F0 SUBD F8 DIVD F10 ADDD F6 j 34+ 45+ F2 F6 F0 F8 k R2 R3 F4 F2 F6 F2
RS Qj
RS Qk
Register result status: Clock
0 FU
F0
F2
F4
F6
F8
F10
F12
...
F30
Tomasulo Example Cycle 1
Instruction status: