实验一流水线及流水线中的冲突

合集下载

流水线的相关问题

流水线只有连续不断地流动，不出现断流，才能获得高效率。

如果处理不当，使流水线产生“断流”，就会使流水效率显著下降。

流水过程中因为相关问题而产生冲突，是导致流水线断流的主要原因。

一般来讲，流水线的相关主要分为以下三种类型。

1. 结构相关结构相关是指当指令在重叠执行过程中，硬件资源满足不了指令重叠执行的要求，两条或两条以上指令争用同一资源而引起的冲突，因此，结构相关又称为资源相关。

例如，假设一条指令流水线由5段组成，分别为取指令（IF）、指令译码（ID）、取操作数（MEM）、执行运算（EX）和写寄存器（WR）。

该流水线的时空图如图8-12所示。

图8-12 5段指令流水线从图中可以看出，指令I2的取操作数和指令I4的取指令都需要访问存储器。

若机器中只有一个单端口存储模块，那么I2的取操作数和指令I4的取指令就产生了访存冲突，两个操作无法同时进行，这就是一种典型的资源冲突。

一种解决这种冲突的方法是在机器中增加存储器模块，如使用双端口存储器，使指令和数据分别存放在不同的存储器模块中，这样，取指令和取操作数就不会发生冲突。

另一种方法是，当发生取指令或取操作数冲突时，将其中一个操作的执行时间推迟，如图8-13所示。

当然，这样的话也就是发生了流水线的断流，流水线的吞吐率就下降了。

图8-13 访存相关引起流水线断流2. 数据相关当一条指令需要用到前面指令的执行结果，而这些指令均在流水线中重叠执行时，就有可能产生数据相关。

在流水计算机中，指令的处理是重叠进行的，前一条指令还没有结束，第二、三条指令就陆续地开始工作。

由于多条指令的重叠处理，当后继指令所需的操作数，刚好是前一指令的运算结果时，便发生数据相关冲突。

例如，某一时间以下3条指令在图8-12的流水线中执行。

ADD R1, R2, R3 ；（R2）＋（R3）→R1SUB R4, R1, R5 ；（R1）－（R5）→R4AND R6, R1, R7 ；（R1）∧（R7）→R6其中，SUB指令的EX段需要执行R1减R5，而同一时间，其上一条指令正在执行写结果到R1的操作。

流水线设计

流水线设计1. 概述在计算机科学中，流水线是一种用于提高计算机性能的技术。

它将复杂的任务划分为一系列简单的子任务，并且在同时执行这些子任务的同时传递数据，从而实现更高的吞吐量和更短的响应时间。

本文将介绍流水线设计的基本原理和常见的应用。

我们将讨论流水线的架构、流水线的设计要点以及流水线中可能遇到的一些问题和解决方案。

2. 流水线的架构流水线的基本架构由以下几个组成部分组成：2.1. 输入单元输入单元负责接收外部输入并将其转换为计算机可以处理的格式。

它可以是键盘、鼠标、传感器等。

输入单元还可以包括解码器、缓冲区等组件，以提高数据传输的效率和稳定性。

2.2. 控制单元控制单元负责协调整个流水线中的各个组件的操作。

它根据指令和状态信息来决定下一步的操作，并将相应的指令发送给执行单元。

2.3. 执行单元执行单元是流水线中最重要的部分之一。

它负责执行任务的实际计算部分。

执行单元可以包括算术逻辑单元(ALU)、浮点运算单元(FPU)、乘法器、除法器等。

执行单元可以根据具体的需求进行扩展和优化。

2.4. 存储单元存储单元用于存储流水线中的数据和指令。

它可以是寄存器、缓存、内存等。

存储单元要具备高速访问和大容量的特性，以满足流水线的高效率要求。

2.5. 输出单元输出单元将计算结果输出给外部设备或其他计算机系统。

它可以是显示器、打印机、网络接口等。

输出单元还可以包括编码器、缓冲区等组件，以提高数据传输的效率和稳定性。

3. 流水线的设计要点在设计流水线时，我们需要考虑以下几个要点：3.1. 指令级并行流水线可以将任务划分为一系列子任务，并且在同时执行这些子任务的同时传递数据。

这种指令级并行可以提高计算机的性能。

在设计流水线时，我们需要合理划分子任务，并确保它们之间的依赖关系正确处理。

3.2. 数据冲突在流水线中，由于子任务之间的数据传递，可能会出现数据冲突的情况。

数据冲突会导致流水线的停顿和性能损失。

为了解决数据冲突，我们需要采取一些技术手段，如使用缓存、乱序执行、数据旁路等。

计算机体系结构——流水线技术（Pipelining）

2.按功能分
单功能流水线：流水线只完成一种固定功能多功能流水线：流水线可以完成多种功能，如 TI公司的ASC机，8段流水线，能够实现：定点加减法、定点乘法、浮点加法等功能 3.按同一时间内各段之间的连接方式分静态多功能流水线：同一时间内，多功能结构只能按一种功能的连接方式工作。动态多功能流水线：在同一时间内，可以有多种功能的连接方式同时工作 4.按处理的数据类型标量流水线向量流水线 5.按控制方式同步流水线异步流水线：当Si功能段要向Si+1段传送数据时，首先发出就绪信号，Si+1功能段收到信号后，向Si回送一个回答信号。 6.按任务从输出端的流出顺序顺序流水方式：指令流出顺序 = 指令流入顺序乱序流水方式：指令流出顺序！= 指令流入顺序 7. 线性流水线——不带反馈回路的流水线
三、流水线的分类（了解）
四、流水线相关及冲突（重点） 1.流水线相关 2.流水线冲突 3.流水线冲突带来问题 4.数据冲突及其解决方案 5.结构冲突及其解决方案 6.控制冲突及其解决方案
五、流水线性能分析(含例题讲解) 1.流水线的基本参数——吞吐率 2.流水线的基本参数——加速比 3.流水线的基本参数——效率 4.结果分析 5.有关流水线性能的若干问题
整体评估、反馈、再改进
3. 指令周期
单周期处理机模型：一个周期完成一个指令（每个周期是等长的），指令长度可能不一样，会造成很大的浪费多周期处理机模型：将一个指令的完成划分成若干个周期来实现流水线模型
二、流水线技术 1. 什么是流水线？计算机中的流水线是把一个重复的过程分解为若干个子过程，每个子过程与其他子过程并行进行。由于这种工作方式与工厂中的生产流水线十分相似，因此称为流水线技术从本质上讲，流水线技术是一种时间并行技术。

3-2 流水线技术

IF
ID
IF
EX
MEM
WB
IF ID IF EX ID IF MEM EX ID IF WB MEM EX ID WB MEM EX
stall stall
3、控制冲突

由分支指令引起的延迟称为分支延迟。分支指令在目标代码中出现的频度很高，性能损失很大。

据统计，每3～4条指令就有一条是分支指令。假设：分支指令出现的频度是30％，流水线理想 CPI＝1，那么：流水线的实际 CPI ＝ 1.9。系统性能损失将近50%！
分支指令分支目标指令分支目标指令+1 分支目标指令+2 分支目标指令+3 IF ID IF EX MEM WB IF ID IF EX ID IF MEM EX ID IF WB MEM EX ID WB MEM EX
stall stall
简单处理分支指令：分支失败的情况
分支指令
分支后继指令分支后继指令+1 分支后继指令+2 分支后继指令+3
将计算结果写入R1
6
7
8
9
MEM WB EX MEM ID IF EX ID IF
WB MEM WB EX MEM WB ID EX MEM
读R1
WB
（1）数据相关冲突的3种类型

根据指令读访问和写访问的顺序，可以将数据冲突分为3种类型：考虑两条指令i和j ，且i在j之前进入流水线，可能发生的数据冲突有：
写后读冲突（RAW）：在 i 写入之前，j 先去读。
j 读出的内容是错误的。这是最常见的一种数据
冲突，它对应于真数据相关。
数据相关冲突的3种类型
写后写冲突（WAW）：在 i 写入之前，j 先写。最

流水线相关性分析

1、指令流水线中主要有结构相关、数据相关、控制相关。

计算机组成原理流水线设计基础知识全面解析

计算机组成原理流水线设计基础知识全面解析计算机组成原理是计算机科学与技术的基础课程之一，而流水线设计则是其中的重要内容之一。

本文将全面解析计算机组成原理流水线设计的基础知识，介绍其工作原理、优势、流水线冲突及解决方法等内容。

一、工作原理计算机组成原理中，流水线设计是通过将指令的执行过程划分为多个阶段，并将这些阶段在不同的处理单元上并行执行的方式，从而提高指令的执行效率。

流水线设计主要包含以下几个阶段：1. 取指令阶段（IF）：从内存中读取指令并将其送至指令译码器。

2. 指令译码阶段（ID）：对指令进行解码，判断其类型，并提取相关寄存器的值。

3. 执行阶段（EX）：根据指令的类型，对操作数进行计算，并将结果保存至寄存器中。

4. 访存阶段（MEM）：如果指令需要访问内存，则进行内存读取或写入操作。

5. 写回阶段（WB）：将计算结果写回到寄存器中。

通过将指令的执行划分为多个阶段，并使用多个处理单元并行执行，流水线设计可以大大提高指令的执行效率，加快程序的运行速度。

二、优势流水线设计具有以下几个优势：1. 并行处理：通过将指令的执行划分为多个阶段，并使用多个处理单元并行执行，可以加快指令的执行速度。

2. 提高资源利用率：由于每个处理单元都可以执行不同的指令阶段，因此可以充分利用硬件资源，提高整体的资源利用率。

3. 灵活性：不同的指令可以使用不同的处理单元进行执行，在保持高效率的同时，增加了系统的灵活性，可以执行更多的指令类型。

然而，除了以上的优势外，流水线设计也存在一些问题，即流水线冲突。

三、流水线冲突及解决方法1. 结构冲突：当多个指令需要使用同一硬件资源时，会发生结构冲突。

例如，同时对存储器进行读取和写入操作。

解决方法：通过增加硬件资源的数量或调整指令的执行顺序，可以避免结构冲突的发生。

2. 数据冲突：当后续指令需要使用前一条指令的运算结果时，会发生数据冲突。

例如，一条指令的结果被另一条指令使用。

解决方法：可以通过插入空闲周期或使用旁路机制，将结果传递给后续指令，从而解决数据冲突。

数字系统设计-流水线CPU设计

实验报告课程名称：数字系统设计实验Ⅱ学院：信电系数字系统设计实验Ⅱ流水线MIPS微处理器设计ContentsPart 1实验目的 (3)Part 2实验任务 (3)Part 3实验原理 (4)Part 4实验步骤 (12)1.IF级设计 (12)2.ID级设计 (14)3.Decode单元设计 (16)4.ALU单元设计 (22)5.EX级设计 (27)6.顶层模块设计 (29)Part 5仿真和波形分析 (37)1.IF级仿真分析 (37)2.Decode单元仿真分析 (38)3.ALU仿真分析 (40)4.顶层仿真分析 (41)Part 6心得 (42)实验报告一、实验目的（1）了解提高CPU性能的方法。

（2）理解数据冒险、控制冒险的概念以及流水线冲突的解决方法。

（3）掌握流水线MIPS微处理器的工作原理。

（4）掌握流水线MIPS微处理器的测试方法。

二、实验任务设计一个32位流水线MIPS微处理器。

设计要求：（1）至少执行下列MIPS32指令。

①算数运算指令：ADD ADDU SUB SUBU ADDI ADDU②逻辑运算指令：AND OR NOR XOR ANDI ORI XORI SLT SLTI SLTU SLTIU③移位指令：SLL SLLV SRL SRLV SRA④条件分支指令：BEQ BNE BGEZ BGTZ BLEZ BLTZ⑤无条件跳转指令：J JR⑥数据传输指令：LW SW⑦空指令：NOP（2）在用5级流水线技术，对数据冒险实现转发或阻塞功能。

（3）在XUP Vietex-II Pro开发系统中实现MIPS微处理器，要求CPU的运行速度大于25MHz.三、实验原理1.流水线MIPS CPU总体设计与构建流水线是数字系统中一种提高系统稳定性和工作速度的方法，广泛应用在高档CPU的构建中。

根据MIPS处理器指令的特点，将整体的处理过程分为取指令（IF）、指令译码、执行、存储器访问和寄存器写回五级，对应多周期CPU的五个处理阶段。

3.3 流水线相关冲突及解决办法_v3.0介绍

计算机体系结构
3.4 流水线的相关
例如：考虑下述代码： DIV.D F2，F6，F4 ADD.D F6，F0，F12 SUB.D F8，F6，F14 DIV.D和ADD.D存在反相关。进行寄存器换名（F6换成S）后，变成： DIV.D F2，F6，F4 ADD.D S，F0，F12 SUB.D F8，S，F14

2.
北京信息科技大学
计算机体系结构
3.4 流水线的相关

指令j与指令i之间的名相关有两种：
反相关：如果指令j写的名与指令i读的名相同，则称指令i和j发生了反相关。
指令j写的名＝指令i读的名

输出相关：如果指令j和指令i写相同的名，则称指令i和j发生了输出相关。
指令j写的名＝指令i写的名
北京信息科技大学
计算机体系结构
3.4 流水线的相关

数据相关对于两条指令i（在前，下同）和j（在后，下同），如果下述条件之一成立，则称指令j与指令i数据相关。指令j使用指令i产生的结果；指令j与指令k数据相关，而指令k又与指令i数据相关。数据相关具有传递性。数据相关反映了数据的流动关系，即如何从其产生者流动到其消费者。

北京信息科技大学
计算机体系结构
3.4 流水线的冲突
由于访问同一个存储器而引起的结构冲突北京信息科技大学
计算机体系结构
3.4 流水线的冲突
为消除结构冲突而插入的流水线气泡北京信息科技大学
计算机体系结构
3.4 流水线的冲突
引入暂停后的时空图指令编号 1 指令i 指令i+1 指令i+2 指令i+3 指令i+4 指令i+5 IF 2 ID IF 3 EX ID IF 4 MEM EX ID stall 时钟周期 5 WB MEM EX IF WB MEM ID IF WB EX ID IF WB MEM EX ID WB MEM EX WB MEM 6 7 8 9 10

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验一流水线及流水线中的冲突程元彬PB12011076实验目的1.加深对计算机流水线基本概念的理解；2.理解MIPS结构如何用5段流水线来实现，理解各段的功能和基本操作；3.加深对数据冲突、结构冲突的理解，理解这两类冲突对CPU性能的影响；4.进一步理解解决数据冲突的方法，掌握如何应用定向技术来减少数据冲突引起的停顿。

5.加深对指令调度和延迟分支技术的理解；6.熟练掌握用指令调度技术来解决流水线中的数据冲突的方法；7.进一步理解指令调度技术和延迟分支技术对CPU性能的改进。

实验平台指令级和流水线操作级模拟器MIPSsim，实验内容和步骤首先要掌握MIPSsim模拟器的使用方法。

一、流水线及流水线中的冲突观察1. 启动MIPSsim。

2．根据预备知识中关于流水线各段操作的描述，进一步理解流水线窗口中各段的功能，掌握各流水寄存器的含义。

（用鼠标双击各段，就可以看到各流水寄存器的内容）3. 熟悉MIPSsim模拟器的操作和使用方法。

可以先载入一个样例程序（在本模拟器所在的文件夹下的“样例程序”文件夹中），然后分别以单步执行一个周期、执行多个周期、连续执行、设置断点等的方式运行程序，观察程序的执行情况，观察CPU中寄存器和存储器的内容的变化，特别是流水寄存器内容的变化。

4. 勾选配置菜单中的“流水方式”，使模拟器工作于流水方式下。

5．观察程序在流水线中的执行情况，步骤如下：(1)用MIPSsim的“文件”菜单中的“载入程序”来加载pipeline.s（在模拟器所在文件夹下的“样例程序”文件夹中）；(2)关闭定向功能。

这是通过在“配置”菜单中去选“定向”（即使得该项前面没有“√”号）来实现的；(3)用单步执行一周期的方式（“执行”菜单中，或用F7）执行该程序，观察每一周期中，各段流水寄存器内容的变化、指令的执行情况（代码窗口）以及时钟周期图；(4)当执行到第10个时钟周期时，各段分别正在处理的指令是：IF：ADDI $r6,$r0,8ID：ADD $r2,$r1,$r0EX：BGEZAL $r1,funcMEM：无WB：无画出这时的时钟周期图。

6. 这时各流水寄存器中的内容为：IF/ID.IR：537264136IF/ID.NPC：36ID/EX.A：5ID/EX.B：0ID/EX.Imm：4ID/EX.IR：2101280EX/MEM.ALUo：0EX/MEM.IR：70320132MEM/WB.LMD：0MEM/WB.ALUo：0MEM/WB.IR：703201327. 观察和分析结构冲突对CPU性能的影响，步骤如下：（1）加载structure_hz.s（在模拟器所在文件夹下的“样例程序”文件夹中）；（2）执行该程序，找出存在结构冲突的指令对以及导致结构冲突的部件；存在结构冲突的语句有ADD.D $f3,$f0,$f1ADD.D $f4,$f0,$f1ADD.D $f5,$f0,$f1ADD.D $f6,$f0,$f1ADD.D $f7,$f0,$f1ADD.D $f8,$f0,$f1ADD.D $f9,$f0,$f1导致结构冲突的部件为，浮点加法器。

(3) 记录由结构冲突引起的停顿时钟周期数，计算停顿时钟周期数占总执行周期数的百分比；由结构冲突引起的停顿时钟周期数为35，停顿周期总数为41，总执行周期数为52，所以停顿时钟周期数占总执行周期数的百分比为78.846%（4）把浮点加法器的个数改为6个；（5）再次重复上述（1）～（3）的工作；现在并没有结构冲突导致停顿的周期了，总执行周期数为17，其中停顿时钟周期数为6，停顿时钟周期数占总执行周期数的百分比为35.294%（6）分析结构冲突对CPU性能的影响，讨论解决结构冲突的方法。

结构冲突的发生会让CPU停顿，从而大大降低CPU的性能。

解决结构冲突的方法：附加冗余的硬件，从而在以前发生结构冲突的时候可以用不同的硬件并行处理。

8. 观察数据冲突并用定向技术来减少停顿，步骤如下：（1）把浮点加法器的个数改为1个；（2）加载data_hz.s（在模拟器所在文件夹下的“样例程序”文件夹中）；（3）关闭定向功能。

这是通过在“配置”菜单中去选“定向”（即使得该项前面没有“√”号）来实现的；（4）用单步执行一个周期的方式（F7）执行该程序，同时查看时钟周期图，列出在什么时刻发生了RAW（先写后读）冲突；第4周期的时候，ADDIU $r2,$r0,56进入MEM段的时候LW $r1,0($r2)在ID段，发生RAW冲突。

第6周期的时候，ADD $r1,$r1,$r3进入ID段的时候LW $r1,0($r2)在EX段，发生RAW冲突。

第9周期的时候，ADD $r1,$r1,$r3进入EX段的时候SW $r1,0($r2)在ID段，发生RAW冲突。

第13周期的时候，ADD $r5,$r5,10进入ID段的时候LW $r5,0($r1)在EX段，发生RAW冲突。

第17周期的时候，ADDI $r2,$r2,4进入EX段的时候SUB $r4,$r3,$r2在ID段，发生RAW冲突。

第20周期的时候，BGTZ $r4,loop进入ID段的时候SUB $r4,$r3,$r2在EX段，发生RAW冲突。

……循环了，后面的和前面类似，省略。

（5）记录数据冲突引起的停顿时钟周期数以及程序执行的总时钟周期数，计算停顿时钟周期数占总执行周期数的百分比；数据从图引起的停顿时钟周期数为31，总停顿时钟周期总数为35，程序执行的总时钟周期数为65，停顿时钟周期数占总执行周期数的53.846%，数据停顿时钟周期数占总执行周期数的47.692%（6）复位CPU；（7）打开定向功能。

这是通过在“配置”菜单中勾选“定向”（即使得该项前面有一个“√”号）来实现的；（8）用单步执行一周期的方式（F7）执行该程序，同时查看时钟周期图，列出在什么时刻发生了RAW（先写后读）冲突，并与（3）的结果进行比较；第5周期的时候，ADD $r1,$r1,$r3进入ID段的时候LW $r1,0($r2)在EX段，发生RAW冲突。

第13周期的时候，BGTZ $r4,loop进入ID段的时候SUB $r4,$r3,$r2在EX段，发生RAW冲突。

……循环后的省略。

我们发现数据冲突明显减少了。

（9）记录数据冲突引起的停顿时钟周期数以及程序执行的总时钟周期数。

计算采用定向技术后性能提高的倍数。

数据从图引起的停顿时钟周期数为9，总停顿时钟周期总数为13，程序执行的总时钟周期数为43，停顿时钟周期数占总执行周期数的30.233%，数据停顿时钟周期数占总执行周期数的20.93%，提高的倍数为2.573倍二、指令调度和延迟分支1. 启动MIPSsim。

2. 根据预备知识中关于流水线各段操作的描述，进一步理解流水线窗口中各段的功能，掌握各流水寄存器的含义。

（用鼠标双击各段，就可以看到各流水寄存器的内容）3. 勾选配置菜单中的“流水方式”，使模拟器工作于流水方式下。

4. 用指令调度技术解决流水线中的结构冲突与数据冲突。

（1）启动MIPSsim；（2）通过“配置”菜单中的“常规配置”项把加法﹑乘法﹑除法部件的个数设置为两个，把它们的延迟时间都设置为3个时钟周期；（3）用MIPSsim的“文件”菜单中的“载入程序”来加载schedule.asm（在模拟器所在文件夹下的“样例程序”文件夹中）；（4）关闭定向功能。

这是通过在“配置”菜单中去选“定向”（即使得该项前面没有“√”号）来实现的。

（5）执行所载入的程序，通过查看统计数据和时钟周期图，找出并记录程序执行过程中各种冲突发生的次数、发生冲突的指令组合，以及程序执行的总时钟周期数；第3周期的时候，ADDIU $r1,$r0,56进入EX段的时候LW $r2,0($r1)在ID段，发生RAW数据冲突。

第6周期的时候，ADD $r4,$r0,$r2进入ID段的时候LW $r2,0($r1)在EX段，发生RAW数据冲突。

第9周期的时候，ADD $r4,$r0,$r2进入EX段的时候SW $r4,0($r1)在ID段，发生RAW数据冲突。

第13周期的时候，ADD $r8,$r6,$r1进入ID段的时候LW $r6,4($r1)在EX段，发生RAW数据冲突。

第17周期的时候，ADD $r12,$r10,$r1进入EX段的时候ADD $r16,$r12,$r1在ID段，发生RAW数据冲突。

第20周期的时候，ADD $r18,$r16,$r1进入ID段的时候ADD $r16,$r12,$r1在EX段，发生RAW数据冲突。

第23周期的时候，ADD $r18,$r16,$r1进入EX段的时候SW $r18,16($r1)在ID段，发生RAW数据冲突。

第27周期的时候，MUL $r22,$r20,$r14进入ID段的时候LW $r20,8($r1)在EX段，发生RAW数据冲突。

程序执行的总周期数为33。

（6）采用指令调度技术对程序进行指令调度，消除冲突。

将调度后的程序放到after-schedule.asm中；调度后的指令为：.textmain:ADDIU $r1,$r0,AMUL $r24,$r26,$r14LW $r2,0($r1)LW $r6,4($r1)MUL $r12,$r10,$r1LW $r20,8($r1)ADD $r8,$r6,$r1ADD $r16,$r12,$r1ADD $r4,$r0,$r2MUL $r22,$r20,$r14ADD $r18,$r16,$r1SW $r4,0($r1)SW $r18,16($r1)TEQ $r0,$r0.dataA:.word 4,6,8（7）载入after-schedule.asm；（8）执行该程序，观察程序在流水线中的执行情况，记录程序执行的总时钟周期数；程序的总时钟周期数为19，总延迟周期数为3，其中RAW冲突的周期数为2。

（9）根据记录结果，比较调度前和调度后的性能。

论述指令调度对于提高CPU性能的作用。

调度前的数据冲突RAW为16个周期，调度之后的数据冲突RAW为2个周期，调度前停顿占51.515%，调度之后停顿占15.789%。

指令调度大大提高了CPU的性能。

5. 用延迟分支减少分支指令对性能的影响。

（1）启动MIPSsim；（2）载入branch.asm；（3）关闭延迟分支功能。

这是通过在“配置”菜单中去选“延迟分支”来实现的；（4）执行该程序，观察并记录发生分支延迟的时刻，保存下其时钟周期图（可用拷屏的方法）；第18周期，为分支延迟。

第33周期，为分支延迟。

（5）记录执行该程序所花的总时钟周期数；执行该程序所花的总时钟周期数为38。

（6）假设延迟槽为一个，对branch.asm进行指令调度，然后存到delayed-branch.asm中；进行指令调度之后的代码如下：.textmain:ADDI $r2,$r0,1024ADD $r3,$r0,$r0ADDI $r4,$r0,8loop:LW $r1,0($r2)ADDI $r1,$r1,1ADDI $r3,$r3,4SUB $r5,$r4,$r3BGTZ $r5,loopSW $r1,0($r2)ADD $r7,$r0,$r6TEQ $r0,$r0（7）载入delayed-branch.asm；（8）打开延迟分支功能；（9）执行该程序，观察其时钟周期图，保存下其时钟周期图；我们看到，在执行BGTZ的ID段的时候，读取并执行了延迟槽之中的SW指令，而不是等待。