第五章重叠、流水和向量处理

合集下载

第05章-流水线课后习题

第5章课后习题1．填空题(1) 衡量流水线性能的主要指标有(2) 指令乱序流动可能造成(3) 解决数据相关主要有(4) 超标量处理机开发的是行性。

(1). 吞吐率、加速比、效率(2). 先写后读、先读后写、写写(3). 推后分析、设置专用路径(4). 空间、时间2．假设一条指令的执行过程分为"取指令"、"分析"和"执行"三段，每一段的时间分别为△t、2△t和3△t。

在下列各种情况下，分别写出连续执行n条指令所需要的时间表达式。

(1) 顺序执行方式。

(2) 仅"取指令"和"执行"重叠。

(3) "取指令"、"分析"和"执行"重叠。

第2题(1) 顺序执行时每条指令用时=△t+2△t+3△t=6△t，因此n条指令所需要的时间=6n*△t(2) 第一条指令完成需要时间=△t+2△t+3△t=6△t，根据题义，下一条指令的"取指令"与上一条指令"执行"的最后一个△t重叠。

因此，自从第一条指令完成后，每隔4△t完成一条指令。

所以余下的n-1条指令用时(n-1)*4△t.所以，n条指令所需要的时间=6△t+(n-1)*4△t=2(2n+1)△t。

(3) 第一条指令完成需要时间=△t+2△t+3△t=6△t，由于一条指令的"取指令"和"分析"阶段和下一条指令的"执行"阶段重叠，因此，此后每3△t 完成一条指令，余下的n-1条指令用时(n-1)*3△t.因此n条指令所需要的时间=6△t+(n-1)*3△t=3(n+1)△t3．用一条5个功能段的浮点加法器流水线计算F＝。

每个功能段的延迟时间均相等，流水线的输出端与输入端之间有直接数据通路，而且设置有足够的缓冲寄存器。

第5章重叠、流水和向量流水处理机

读数据缓冲区
写数据缓冲区执行部件
数据缓冲栈
先行操作栈
第 5 章重叠、流水和向量流水处理机
5.1.2 相关处理
1. 转移指令的处理
采用延迟转移技术，将转移指令与条件转移无关的第k-1条指
令交换一下位置，即使转移成功也不会使重叠效率下降。
2. 指令相关的处理
“执行”指令是IBM 370机器为此设置的一条指令，其形式为
第 5 章重叠、流水和向量流水处理机
第 5 章重叠、流水和向量流水处理机
5.1 重叠方式
5.2 流水方式
5.3 向量的流水处理与向量流水处理机
第 5 章重叠、流水和向量流水处理机
本章要点
“一次重叠”方式中各种相关的处理；
流水线的时空图和性能分析；
流水的局部性相关处理，全局性相关处理
单功能非线性流水线的调度；
执行部件空闲
执行k+1
分析k+2
分析k
执行k
分析k+1
分析k+1
执行k+2
执行k+1
分析k+2 执行k+2
分析部件空闲
T重 t 分 1 T先 t 分 1
m ax(t 分 ,t执
i i 2 n
n (a)重叠方式
(b)先行控制
i 1
) t 执n
t执
i 1
i
第 5 章重叠、流水和向量流水处理机
第 5 章重叠、流水和向量流水处理机
流水线各段执行时间不相等的情况下的实际吞吐率为：
TP n
t
i 1
k
i
(n 1) max( t1 , t 2 ,, t k )

第5章-计算机系统结构(第五版)李学干

第5章标量处理机
图 5 - 11 B一次相关与二次相关
第5章标量处理机
由图5 - 11可见，B二次相关时，只需推后“分析k+2”的始点到“执行k”送入通用寄存器的运算结果能在“分析k+2” 开始时出现于通用寄存器输出总线上即可，如图5 - 12(a)所示。至于推后多少拍，这取决于通用寄存器组译码、读
如图5 - 20(b)所示。即使流水线每隔Δt0流入一条指令，也会
因来不及处理被堆积于2段，致使流水线仍只能每隔 3Δt0才流出一条指令。
第5章标量处理机
图 5 - 20 最大吞吐率取决于瓶颈段的时间
第5章标量处理机
消除瓶颈的一种办法是将瓶颈子过程再细分。例如将2
段再细分成21、22、23三个子段，如图5-21(a)所示。让各子
同，如图5 - 23所示那样，则在T时间里，流水线各段的效率
都相同，均为η0，即
nΔt0 n 1 2 m 0 T m (n 1)
第5章标量处理机
整个流水线的效率

1 2 m
m

m0 mnΔt0 0 m mT
式中，分母mT是时空图中m个段和流水总时间T所围成
第5章标量处理机
图 5 - 3 一次重叠工作方式
第5章标量处理机
(2) 要解决“分析”与“执行”操作的并行。 (3) 要解决“分析”与“执行”操作控制上的同步。 (4) 要解决指令间各种相关的处理。图5 - 4示意出条件转移时第k条指令和第k+1条指令的时
间关系。
第5章标量处理机
图 5 - 4 第k条指令和第k+1条指令的时间关系
由于运算结果是在“执行”周期的末尾才送入通用寄存

计算机体系结构学习指导

计算机体系结构学习指导《计算机体系结构》学习指导温东新课程名称：计算机体系结构英⽂名称：COMPUTER ARCHITECTURE开课院系：远程教育学院开课学时：50学分：3授课对象：远程教育学院专升本计算机科学与技术专业学⽣⼀、教学⽬的与课程性质、任务。

教学⽬的：通过本课程的学习，能够帮助学⽣建⽴计算机系统的整体概念，树⽴按最合理的软硬件功能分配原则去设计开发计算机系统的思想，为今后学习并⾏计算机系统结构打下基础。

计算机体系结构课程是计算机科学与技术专业本科教学中⼀门重要的技术专业课。

计算机体系结构课程学习的主要任务是计算机体系结构的基本概念，基本原理，基本结构和基本分析⽅法，还应该清楚认识到涉及操作系统，程序语⾔及其编译，数据结构等内容与计算机体系结构的相互影响和相互促进。

⼆、教学要求该课程开设位于整个本科教学的后期，课程的教学不仅讲授计算机体系结构的基本概念，基本原理，基本结构，和基本分析⽅法，还要在教学过程中将原学习过的专业课结合起来，例如操作系统，程序设计语⾔及其编译，数据结构等内容与本课程结合起来，使学⽣清楚它们与计算机体系结构的相互影响和相互作⽤。

在教学环节上，对学⽣的学习提出“掌握”和“了解”两个层次上要求，所谓“掌握”，是指学⽣在课后，必须能将所学内容⾃⼰理解并解决实际问题，这是将所学知识熟练应⽤到实践中的基础。

所谓“了解”，是要求学⽣对所学内容有初步的认知，在遇到相关问题时要求能够辨识。

教学以课堂讲授为主，辅之以POWERPOINT⽅式。

三、教学进度表四、教学内容与讲授⽅法五、课程的重点、思考题第⼀章绪论本章学习重点：1、计算机系统层次结构组成，计算机系统结构,组成实现的定义和相互关系，2、软件硬件取舍原则及设计⽅法，软件移植⼿段3、应⽤与器件对体系结构的影响，并⾏性的分类与发展，计算机系统分类本章思考题：1、名词解释：翻译解释层次结构解释程序计算机系统结构固件⼯程软件兼容模拟仿真时间重叠资源共享同构型处理机异构型多处理机2、如有⼀个经解释实现的计算机，可以按功能划分4级，每⼀级为了执⾏⼀条指令需要下⼀条的N条指令解释。

提高“计算机系统结构”课程授课质量初探

专业的－￣关键性课程，而且也是培养合格Ｉ－＇ＪＴ产业人才不可或缺的课程，国内外各个院校多年来一直十分重视 “ 系统结构”的教学工作。由于 “ 系统结构”内容抽象、枯燥，教学难度比较大，但其又是计算机专业承上启下的课程及与其他专业区别的重要课程之一，因而上好本课程、提高本课程的课程质量有着重要的意义。
二、明确学习目标
有不少往届的学生反映，从一开始学习 “ 系统结构”就处于混沌的状态，在枯燥的学习中度过一学期后，还是不清楚这门课讲了些什么，自己学了什么。之所以会这样，从我们教学的实践
来看。原因在于学生不清楚 “ 系统结构”的课程结构，没有明确的学习目标。计算机系统按功能分为存储、传输和处理三大块，存储的设计目标就是提供一个大的存储空间；处理的设计目标是采取各种措施来提高运算的速度；传输的设计目标是为信息准确地找到目的地，并保证传输过程的安全性。学生需要从一开始就明确每一部分的设计目，并把这样的思标想贯穿在知识点的学习中。例如，在学习流水线结构原理部分时，明确加快指令的解释是计算机采用流水线结构的基本任务，以这部分的学习就围绕着如何加快指令的解释进行。所学习 “ 系统结构” ，应该把握这门课程的特点，即从分析、评测的角度学习计算机系统结构的设计和实现，对计算机的结构不仅知其然，还需知其所以然。在 “ 系统结构”课程教学时，需要始终强调这一点。以处理流水线的数据相关为例，处理主存空间数相关采用 “ 推后法” ，而处理通用寄存器组相关采用了增加硬件的方法— 设置 “ 相关专用通路” 。后者采用增加硬件提高了指令解释的速度，而前者以牺牲速度为代价，并未增加硬件，这是为什么呢？上课时我们让学生利用学过的知识来解释。经过经常性事件” ；而主存空间数相关发生的概率小，不属于 “ 经常性事件” ，根据Ａｄｈ定律，ｍａｌ应该 “ 加快经常性事件” 。这样，学生在学习时知其所以然，对问题理解了，知识掌握很牢固；另一方面，也有利于培养他们发现问题、分析问题、解决问题的能力。

重叠流水和现代处理器技术

基本问题
CPI
执行整个程序所需 CPU时钟周期程序中指令总数
N
(CPIi * Ii )
i1 IN
其中：Ii 表示第i种指令在程序中执行次数,CPII表示执行一条第i类指令所需的平均时钟周期数, IN 为程序中所有的指令类数..
第2页/共206页
指令执行方式分析
顺序执行方式
一条指令的执行过程：取指令->分析->执行 ▪ 执行n条指令所用的时间为：
• 衡量流水线性能的主要指标有：吞吐率、加速比和效率 1、吞吐率（Though Put）
• 求流水线吞吐率的最基本公式：
TP = n / Tk n为任务数, Tk为完成n个任务所用时间
• 各段执行时间相等，输入连续任务情况下完成n个连续任务需要的总时间为：
Tk= (k+n-1) t
k为流水线的段数， t为时钟周期
n
t t t T ( 取指令 i 分析 i 执行 i）
i 1
▪ 如每段时间都为t，则执行n条指令所用的时间为：T=3nt ▪ 主要优点：控制简单，节省设备。 ▪ 主要缺点：执行指令的速度慢，功能部件的利用率很低。
取指令k 分析k 执行k 取指令k+1 分析k+1 执行k+1
第3页/共206页
例5.2：用一条4段浮点加法器流水线求8个浮点数的和： Z＝A＋B＋C＋D＋E＋F＋G＋H
第34页/共206页
线性流水线的性能分析
• 解：Z = [(A+B) + (C+D)] + [(E+F) +
(G+H空)间]
规格化
1234 5 6
7
尾数加
1234 5 6

计算机系统结构复习要点

计算机系统结构：第一章基本概念填空题、选择题复习：1、从使用语言角度，系统按功能划分层次结构由低到高分别为：微程序机器M0、传统机器M1、操作系统机器M2、汇编语言机器M3、高级语言机器M4、应用语言机器M5.2、计算机系统的设计思路：“从中间开始”设计的“中间”是指层次结构中的软硬件交界面，目前多数在传统机器语言机器级与操作系统机器级之间。

3、翻译与解释的区别与联系：区别：翻译是整个程序转换，解释是低级机器的一串语句仿真高级机器的一条语句；联系：都是高级机器程序在低级机器上执行的必须步骤。

4、模拟与仿真的区别：模拟：用机器语言解释实现软件移植的方法，解释的语言存在主存中；仿真用微程序解释，存储在控制存储器中。

5、解决好软件的可移植性方法有统一高级语言、采用系列机、模拟与仿真。

6、系列机必须保证向后兼容，力争向上兼容。

7、非用户片也称通用片，其功能是由器件厂生产时定死的，器件的用户只能用，不能改；现场片，用户根据需要改变器件内部功能；用户片是专门按用户的要求生产高集成度VLSI器件，完全按用户的要求设计的用户片称为全用户片。

一般同一系列内各档机器可分别用通用片、现场片或用户片实现。

8、计算机应用可归纳为向上升级的4类：数据处理、信息处理、知识处理、智能处理。

9、并行性开发的途径有：时间重叠、资源重复和资源共享。

10、并行性是指：同一时刻或同一时间间隔内完成两种或两种以上性质相同或不同的工作，并行性包含同时性和并发性二重含义。

11、科学计算中的重大挑战性课题往往要求计算机系统能有1TFLOPS的计算能力、1TBYTE 的主存容量、1TBYTE/S的I/O带宽。

12、并行处理计算机的结构：流水线计算机——时间重叠，阵列处理机——资源重复，多处理机——资源共享。

13、多机系统分多处理机系统和多计算机系统，多处理机系统：多台处理机组成的单一系统，多计算机系统：多台独立的计算机组成的系统。

14、多机系统的耦合度可以分为最低耦合、松散耦合和紧密耦合。

教学大纲-东南大学计算机科学与工程学院

计算机系统结构（张晨曦主编）
教学参考书
计算机系统结构（陆鑫达等编）
计算机系统结构（郑纬民等编）
课程的地位、作用及任务
随着计算机硬件、软件技术的不断发展，怎样合理地分配计算机软、硬件功能，最大限度地开发计算机的并行性，达到最佳性能/价格，是计算机系统设计人员最关心的课题。对计算机专业本科生而言，不仅要掌握计算机的软、硬件系统组成及工作原理，具有开发与应用技能；而且必须进一步掌握计算机系统设计的基本原理和方法。《计算机系统结构》正是这样一门面向计算机系统分析与设计的课程。
教学大纲
课程名称计算机系统结构
课程负责人任国林
学时48
学分3
开课院系计算机科学与工程系
制订日期1999年
东南大学
课程基本情况
课程名称
计算机系统结构
课程编号
09406
先修要求
计算机组成原理、接口与通信、操作系统、编译原理
授课对象
计算机专业本科
讲课学时
48学时
实验学时
8学时（课程设计）
上机学时
教材名称
及主编姓名
3.虚拟存储器
以Pentium为例，掌握虚拟存储器的结构与实现技术。
第四章标量流水技术
1.标量流水工作原理
介绍重叠、先行控制到流水线的发展，掌握标量流水工作原理、分类原则、性能指标及其分析、评价方法。
2.流水操作中的主要障碍
掌握流水操作中的几种相关产生原因及其解决方法，介绍Pentium系列处理器全局相关的先进处理方法—动态预测转移技术。
对学生能力培养的要求
1.掌握计算机系统结构的基本概念、组成部分及设计原则。
2.掌握计算机系统结构各组成部分的分析、设计原则和方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

工序 1 工具 1 工序 2 工具 2 工序 3 工具 3 工序 4 工具 4
一种方案：
工序 1 工具 1 工序 2 工具 2 工序 3 工具 3 工序 4 工具 4
工序 1 工具 1
工序 2 工具 2
工序 3 工具 3
工序 4 工具 4
工序 1 工具 1
工序 2 工具 2
工序 3 工具 3
工序 4 工具 4
5.2
DLX的基本流水线
5.2.1 DLX的一种简单实现非流水线实现最多用5个时钟周期来实现一条指令： (1) (2) (3) (4) (5) 取指令周期(IF，Instruction Fetch) 指令译码/读寄存器周期(ID，Instruction Decode) 执行/有效地址计算周期(EX，Execution) 存储器访问/分支完成周期(MEM，Memory Access) 写回周期(WB，Write Back)
0.00 0.00 0.00 0.00 0.00 0.00
0.00 0.00 0.00 0.00 0.00 0.00
doduc mdljdp2 ear hydro2d su2cor 浮点平均
2.84 2.66 2.17 2.53 2.18 2.48
0.01 0.01 0.00 0.00 0.02 0.01
处理机的算术逻辑部件分段，以便为各种数据类型进行流水操作。
◆ 处理机级流水线（指令流水线）：它是把指
令的解释执行过程按照流水方式进行处理。
例如，前面把指令解释过程分解为：
分析和执行。 DLX的基本流水线把指令解释过程分解为：
取指令、指令译码、执行、访存、写回。
◆ 处理机间流水线（宏流水线）：它是指由两个
从失败处调度
的指令不会导致错误。
分支失败时
表 3.7 各种减少分支损失方法的效果
调度方法
每条条件分支指令的分支损失整型浮点平均平均 1.00 1.00 1.00 1.00 0.70 0.35 每条无条件分支指令的损失 1.00 1.00 1.00 0.00
每条分支指令的平均分支损失整型浮点平均平均
(3) 各个功能段所需时间应尽量相等，否则，时间长的功能段将成为流水线的瓶颈，会造成流水线的 “堵塞”和“断流”。这个时间一般为一个时钟周期（拍）； (4) 流水线需要有“通过时间”（第一个任务流出结果所需的时间），在此之后流水过程才进入稳定工作状 (5) 态，每一个时钟周期（拍）流出一个结果；流水技术适合于大量重复的时序过程，只有输入端能连续地提供任务，流水线的效率才能充分发挥。
Regs[IR16 ..20] ← ALUOutput ◆ 寄存器―立即值型 ALU 指令 Regs[IR11 ..15] ← ALUOutput
图示图示
◆ Load 指令
Regs[IR11 ..15] ← LMD
实现特点：不同的时钟周期之间的数据传递通过记
忆装置来实现，这种记忆装置可以分外部可见与不可见两类，外部可见记忆装置包括存储器、通用寄存器、PC等，用于在指令之间传递数据；外部不可见记忆装置为一些临时寄存器，包括LMD、Imm、A、
0.22 0.31 0.46 0.62 0.07 0.33
1.39 1.20 0.59 0.75 0.84 0.95
0.22 0.15 0.12 0.17 0.26 0.18
总平均
2.00
0.10
0.36
0.46
0.09
5.1
流水线的基本概念
5.1.1 基本概念
1. 产品生产流水线
下面通过一个例子来说明流水线的好处:
以上的处理机串行地对同一数据流进行处理，每个处理机完成一项任务。
4．按照数据表示来分
◆ 标量处理机：不具有向量指令和向量数据表示，
仅对标量进行流水处理的处理机。例如：IBM360/91, Amdahl 470V/6 等 ◆ 向量处理机：具有向量指令和向量数据表示的处理机。例如：TI ASC, CRAY-I 等
定义: ADD：加法器 PC：指令计数器 NPC：下一条顺序指令计数器 IR：指令寄存器 A、B：操作数临时寄存器 Imm：立即数临时寄存器 Cond：条件值寄存器 MUX：多路开关 ALU：运算器 ALU Output：运算器输出寄存器 LMD：存储器数据读取寄存器
时钟周期说明：（1）取指令周期（IF） IR ← Mem[PC] NPC ← PC＋4
（3）执行/有效地址计算周期（EX）在这个周期，不同的指令有不同的操作。
◆ 存储器访问
ALUOutput ← A＋Imm ◆ 寄存器―寄存器 ALU 操作 ALUOutput ← A op B ◆ 寄存器―立即值 ALU 操作 ALUOutput ← A op Imm ◆ 分支操作 ALUOutput ← NPC＋Imm Cond ← (A op 0)
B、IR、NPC、ALUOutput以及Cond，用于在一条指
加、减
乘除求平方根取反求绝对值
4
8 36 112 2 2
U,S+A,A+R,R+S
U,E+M,M,M,M,N,N+A,R 28 U,A,R,D ,D+A,D+R,D+A,D+R,A,R U,E,(A+R) 108 ,A,R
U,S U,S
浮点比较
3
2
U,A,R
基准程序
流水线CPI
载入暂停时钟周期数
1.00 1.00 0.69 0.21 1.00 1.00 0.74 0.30
因分支暂停造成的实际 CPI 整型浮点平均平均 1.17 1.17 1.12 1.04 1.15 1.15 1.11 1.04
暂停流水线预测分支成功预测分支失败
0.62
0.25
延迟分支
流水段
分支暂停时钟周期数
浮点结果暂停时钟周期数
浮点结构性暂停时钟周期数
compress eqntott espresso gcc li 整数平均
1.20 1.88 1.42 1.56 1.64 1.54
0.14 0.27 0.07 0.13 0.18 0.16
0.06 0.61 0.35 0.43 0.46 0.38
◆ 存储器访问
LMD ← Mem[ALUOutput] 或 Mem [ALUOutput] ← B ◆ 计算下一条指令地址 if（cond）PC ← ALUOutput else PC ← NPC （5）写回周期（WB）不同指令在该周期完成的工作也不一样。
◆ 寄存器―寄存器型 ALU 指令
图示
图示
A D E M N R S U
功能部件
浮点加法器浮点除法器浮点乘法器浮点乘法器浮点乘法器浮点加法器浮点加法器
描
述
尾数加流水段除法流水段例外测试段乘法器第一个流水段乘法器第二个流水段舍入段操作数移位段展开浮点数
浮点指令
延迟
初始化间隔 3
4 35 111 1 1
使用的流水段
ID
EX
MEM WB
从前调度 ADD R1,R2,R3 if R2=0 then 延迟槽
从目标处调度 SUB R4,R5,R6 ADD R1,R2,R3 if R1=0 then 延迟槽
从失败处调度 ADD R1,R2,R3 if R1=0 then 延迟槽 SUB R4,R5,R6
SUB R4,R5,R6 if R2=0 then ADD R1,R2,R3 ADD R1,R2,R3 if R1=0 then SUB R4,R5,R6
看，由于4道工序在同时进行，处理速度提高4倍。
指令流水线: 把指令的解释过程分解为“分析”和“执行” 两个子过程，并让这两个子过程分别用独立的分析部件和执行部件来实现。理想情况：速度提高一倍
指令流水线:
浮点加法流水线把浮点加法的全过程分解为“求阶差”、“对阶”、“尾数相加”、“规格化”四个子过程，并让它们分别用各自独立的部件来实现。理想情况：速度提高3倍
（2）指令译码/读寄存器周期（ID）操作码译码 A ← Regs[IR6 ..10] B ← Regs[IR11 ..15] Imm ← (IR16)16 ## IR16 ..31
指令译码和读寄存器是并行进行的。之所
以能做到这一点，是因为在DLX指令格式中，操作码在固定位置。这种技术也称为固定字段译码。
图示图示图示
图示
上述四种操作都要用到ALU，它们能放在同一个时钟周期中完成的原因：因为在 DLX 指令集结构中，没有任何指令需要同时计算数据的存储器地址、计算分支指令的目标地址和进行ALU数据运算，也即这样做是由 DLX指令集结构本身的特点所允许的。
（4）存储器访问/分支完成周期（MEM）
第 5章
重叠、流水和向量处理机
流水线技术是提高CPU性能和运算部
件性能的一类主要技术，也是现代计算
机系统设计中的一项关键技术。即现代CPU设计的关键是高性能的流水线。
表 3.6 改进后流水线的分支操作
ADD R1,R2,R3 if R1=0 then SUB R4,R5,R6
三种方法的要求及效果
调度策略从前调度对调度的要求被调度的指令必须与分支无关什么情况下起作用？
任何情况
必须保证在分支失败时执行被调度
从目标处调度
分支成功时的指令不会导致错误。有可能需要 (但由于复制指令，有可能会增大程序空间) 复制指令。必须保证在分支成功时执行被调度
浮点加法流水线
时－空图: 时－空图从时间和空间两个方面描述了流水线的工作过程。时－空图中，横坐标代表时间，纵坐标代表流水线的各个段。