第5章计算机流水线技术

合集下载

兰州大学计算机专业(本科) 计算机体系结构教学标准

兰州大学计算机科学与技术专业(本科)《计算机体系结构》教学标准目录一. 课程基本信息二. 课程的性质、地位与任务三. 教材与主要参考书四. 计划学时与学时分配五. 课程内容与要求第 1 章计算机设计基础第 2 章指令集的设计第 3 章CPU 的设计第 4 章流水线技术第 5 章存储器层次结构第 6 章计算机输入/输出系统第7 章网络并行计算系统第8 章多处理器计算机结构六. 教学环节七. 实验环节八. 考试要求九. 其它相关说明一. 课程基本信息课程编号：2043061课程名称：计算机体系结构课程英文名称：Computer Architecture课程性质：指定选修课先修课程：数字逻辑；计算机组成原理；概率论与统计；数据结构；操作系统；编译原理。

适用专业：计算机科学与技术专业、通信工程专业开课学期：第七学期学时：72（54）学分：4（3）二. 课程的性质、地位与任务计算机系统结构是计算机科学与技术领域的重要学科，也是高等院校计算机系本科生和研究生学习设计、分析和评价计算机的主干课程。

许多著名的院校作为研究生入学考试课程之一。

该课程以讲授计算机系统结构的基本概念和基本原理为主，而不是完整介绍各种系统结构，即不是以具体的机器为实例进行教学。

在教学中引进定量原理，让学生学会如何测试实际机器，分析实际机器，分析计算机设计中遇到的各种限制因素，培养正确选择各种折衷方案的能力。

强调计算机系统结构与操作系统和编译系统的相互关系，充分反映出计算机系统结构不是单纯的硬件课程，而是硬件和系统软件的结合点，因此本课程不仅适用于培养系统结构和芯片设计工程师和计算机系统工程师，而且也适用于培养编译系统和操作系统工程师。

三. 教材与主要参考书1.教材：《计算机体系结构》石教英等著杭州:浙江大学出版社,1998[1版].2.参考书：①《计算机系统结构—量化研究方法》（第三版）(美)J ohn L.H e nn e ss y D av i dA.P a tt e r s on著郑伟明、汤志忠、汪东升译电子工业出版社,2004[1版].②《高级计算机体系结构》(美)K a i H w a ng著ADVANCED COMPUTER ARCHITECTURE 机械工业出版社,1999[1版].③《计算机系统结构》郑伟民、汤志忠著清华大学出版社,1998[2 版].④《计算机系统结构》李学干著西安电子科技大学出版社,2000[3 版].⑤《计算机体系结构》张晟曦著高等教育出版社,2000[3 版].[21 世纪教材]四.计划学时与学时分配1.教学建议《计算机体系结构》课程分经典教案面授和电子教案面授两种。

第5章标量处理机(5.7) 超标量超流水处理机

yangruioot@
计算机科学与技术
超标量处理机的结构

超标量处理机至少具有两套或者两条以上完整的指令执行部件。高性能的超标量处理机通常还设置一个先行指令窗口：能够从指令Cache中预取多条指令能够对窗口内的指令进行数据相关性分析和功能部件冲突的检测窗口的大小：一般为2至8条指令
yangruioot@
计算机科学与技术
实际指令级并行度与理论指令级并行度的关系

当横坐标给出的理论指令级并行度比较低时，处理机的实际指令级并行度的提高比较快。当理论指令级并行度进一步增加时，处理机实际指令级并行度提高的速度越来越慢。在实际设计超标量、超流水线、超标量超流水线处理机的指令级并行度时要适当，否则，有可能造成花费了大量的硬件，但实际上处理机所能达到的指令级并行度并不高。目前，一般认为，m 和 n 都不要超过4。
多条无数据相关和控制相关的指令在单发射处理机中的时空图如图
度为1
部件写结果执行译码取指 0 1 1 1 2 2 1 2 3 3 1 2 3 4 4 2 3 4 5 5 3 4 5 6 6 4 5 6 7 7 5 6 7 8 8 6 7 8 9 9 7 8 9 10 10 8 9 10 11 11 9 10 11 12 12 13 14 15 10 11 12 11 12 12
写结果
图 5 44 超标量超流水线时空图
在一台指令并行度为（m， n）的超标量超流水线处理机上，连续执行没有相关的N条指令的所需要的时间为：
T ( m, n ) ( k N m ) t nm
执行译码取指
超标量超流水线处理机相对于单流水线普通标量处理机的加速比为：

第05章-流水线课后习题

第5章课后习题1．填空题(1) 衡量流水线性能的主要指标有(2) 指令乱序流动可能造成(3) 解决数据相关主要有(4) 超标量处理机开发的是行性。

(1). 吞吐率、加速比、效率(2). 先写后读、先读后写、写写(3). 推后分析、设置专用路径(4). 空间、时间2．假设一条指令的执行过程分为"取指令"、"分析"和"执行"三段，每一段的时间分别为△t、2△t和3△t。

在下列各种情况下，分别写出连续执行n条指令所需要的时间表达式。

(1) 顺序执行方式。

(2) 仅"取指令"和"执行"重叠。

(3) "取指令"、"分析"和"执行"重叠。

第2题(1) 顺序执行时每条指令用时=△t+2△t+3△t=6△t，因此n条指令所需要的时间=6n*△t(2) 第一条指令完成需要时间=△t+2△t+3△t=6△t，根据题义，下一条指令的"取指令"与上一条指令"执行"的最后一个△t重叠。

因此，自从第一条指令完成后，每隔4△t完成一条指令。

所以余下的n-1条指令用时(n-1)*4△t.所以，n条指令所需要的时间=6△t+(n-1)*4△t=2(2n+1)△t。

(3) 第一条指令完成需要时间=△t+2△t+3△t=6△t，由于一条指令的"取指令"和"分析"阶段和下一条指令的"执行"阶段重叠，因此，此后每3△t 完成一条指令，余下的n-1条指令用时(n-1)*3△t.因此n条指令所需要的时间=6△t+(n-1)*3△t=3(n+1)△t3．用一条5个功能段的浮点加法器流水线计算F＝。

每个功能段的延迟时间均相等，流水线的输出端与输入端之间有直接数据通路，而且设置有足够的缓冲寄存器。

计算机系统结构(张晨曦)基本概念

在同一时刻或是同一时间间隔内完成两种或两种以上性质相同或不相同的工作。只要时间上互相重叠，就存在并行性。同时性两个或多个事件在同一时刻发生的并行性。并发性两个或多个事件在同一时间间隔内发生的并行性。字串位串每次只对一个字的一位进行处理。这是最基本的串行处理方式。字串位并同时对一个字的全部位进行处理，不同字之间是串行的。字并位串同时对许多字的同一位（称为位片）进行处理。全并行同时对许多字的全部位或部分位进行处理。指令内部并行单条指令中各微操作之间的并行。指令级并行并行执行两条或两条以上的指令。线程级并行并行执行两个或两个以上的线程，通常是以一个进程内派生的多个线程为调度单位。任务级或过程级并行并行执行两个或两个以上的过程或任务（程序段），以子程序或进程为调度单元。作业或程序级并行并行执行两个或两个以上的作业或程序。时间重叠多个处理过程在时间上相互错开，轮流使用同一套硬件设备的各个部分，以加快硬件周转而赢得速度。资源重复通过重复设置资源，尤其是硬件资源，大幅度提高计算机系统的性能。资源共享是一种软件方法，它使多个任务按一定时间顺序轮流使用同一套硬件设备。同构型（对称型）多处理机由多个同类型，至少担负同等功能的处理机组成，同时处理同一作业中能并行执行的多个任务。异构型（非对称型）多处理机由多个不同类型，至少担负不同功能的处理机组成，按照作业要求的顺序，利用时间重叠原理，依次对它们的多个任务进行加工，各自完成规定的功能动作。分布处理系统把若干台具有独立功能的处理机（或计算机）相互连接起来，在操作系统的全盘控制下，统一协调地工作，而最少依赖集中的程序、数据或硬件。耦合度反映多机系统各机器之间物理连接的紧密程度和交互作用能力的强弱。松散耦合通过通道或通信线路实现计算机间互连，共享某些外围设备，机间的相互作用是在文件或数

微型计算机技术及应用内部习题

微型计算机技术及应用内部习题第一章作业1.主板主要由哪几部分组成？CPU插座、芯片组（北桥芯片、南桥芯片等）、BIOS芯片、系统时钟发生器芯片、总线（前端系统总线FSB、QPI总线、内存总线、图形总线AGP、外围设备总线PCI-E等）、接口（集成驱动电子设备接口IDE、通用串行设备接口USB、以太网接口LAN、音频接口AC’97、超级输入输出接口SIO等）。

2.微处理器、微型计算机和微型计算机系统三者之间有什么不同？微处理器是微型计算机的核心，是微型计算机的一部分。

它是集成在一块芯片上的CPU，由运算器和控制器组成。

微型计算机包括微处理器、存储器、I/O接口和系统总线，是微型计算机系统的主体。

微型计算机系统包括微型计算机、外设及系统软件三部分。

3.微型计算机的性能指标有哪些？CPU的位数、CPU的主频、内存容量和速度、硬盘容量。

第二章习题1.若(AL)=0C0H,(B某)=03523H,则执行指令ADDAL,BL之后(AL)=_____,(BL)=_____,标志位OF,SF,ZF,AF,CF,PF的状态对应为_____.2.设（SS）＝2250H,（SP）＝0140H,若在堆栈中放入5个数据,则栈顶的物理地址为___,如果又从堆栈中取出3个数据,则栈顶的物理地址为____.3.两个逻辑地址分别为2003H：1009H和2101H：0029H，它们对应的物理地址是多少？说明了什么？4.在8088/8086中，逻辑地址FFFF∶0001,00A2∶37F和B800∶173F的物理地址分别是多少？物理地址＝段地址某10H＋偏移地址所以FFFF：0001的物理地址是FFFFH某10H＋0001H＝FFFF1H00A2：37F的物理地址是00A2某10H＋037FH=00D9FHB800：173F的物理地址是B800某10H＋173F=B973FH5.在8088/8086中，从物理地址388H开始顺序存放下列三个双字节的数据，651AH,D761H和007BH，请问物理地址388H,389H,38AH,38BH,38CH和38DH6个单元中分别是什么数据？地址388H389H38AH38BH38CH38DH内容1AH65H61HD7H7BH00H6.已知当前(DS)＝7F06H，在偏移地址为0075H的存储器中连续存放6个字节的数据：11H，22H，33H，44H，55H，66H。

第5章-计算机系统结构(第五版)李学干

第5章标量处理机
图 5 - 11 B一次相关与二次相关
第5章标量处理机
由图5 - 11可见，B二次相关时，只需推后“分析k+2”的始点到“执行k”送入通用寄存器的运算结果能在“分析k+2” 开始时出现于通用寄存器输出总线上即可，如图5 - 12(a)所示。至于推后多少拍，这取决于通用寄存器组译码、读
如图5 - 20(b)所示。即使流水线每隔Δt0流入一条指令，也会
因来不及处理被堆积于2段，致使流水线仍只能每隔 3Δt0才流出一条指令。
第5章标量处理机
图 5 - 20 最大吞吐率取决于瓶颈段的时间
第5章标量处理机
消除瓶颈的一种办法是将瓶颈子过程再细分。例如将2
段再细分成21、22、23三个子段，如图5-21(a)所示。让各子
同，如图5 - 23所示那样，则在T时间里，流水线各段的效率
都相同，均为η0，即
nΔt0 n 1 2 m 0 T m (n 1)
第5章标量处理机
整个流水线的效率

1 2 m
m

m0 mnΔt0 0 m mT
式中，分母mT是时空图中m个段和流水总时间T所围成
第5章标量处理机
图 5 - 3 一次重叠工作方式
第5章标量处理机
(2) 要解决“分析”与“执行”操作的并行。 (3) 要解决“分析”与“执行”操作控制上的同步。 (4) 要解决指令间各种相关的处理。图5 - 4示意出条件转移时第k条指令和第k+1条指令的时
间关系。
第5章标量处理机
图 5 - 4 第k条指令和第k+1条指令的时间关系
由于运算结果是在“执行”周期的末尾才送入通用寄存

机电一体化技术第5章计算机控制及接口技术

1
安全性
解释计算机控制系统面临的安全挑战，如网络攻击、数据泄露等，以及相应的解决方案。
2
可靠性
讨论计算机控制系统的可靠性问题，如故障率、备份策略等，以及提高可靠性的方法。
3
维护与升级
介绍计算机控制系统的维护和升级，如软件更新、硬件维修等的注意事项。
自动化
自动化程度高，能够减少人力投入，提高生产效率。
计算机控制系统的应用领域
工厂自动化
解释计算机控制系统在工业生产中的应用，如流水线控制、机器人控制等。
家庭自动化
讨论计算机控制系统在家庭中的应用，如智能家居控制、安防系统等。
交通控制
介绍计算机控制系统在交通管理中的应用，如智能交通信号控制等。
1
传感器检测
解析传感器如何检测物理量，并将其转换为电信号。
2
控制算法计算
说明控制器如何根据传感器反馈的信号，进行计算并生成控制命令。
3
执行设备控制
阐述控制命令如何驱动执行设备，实现自动控制。
计算机控制系统的优势
高精度
计算机控制系统能够实现高精度的控制，提高机电一体化系统的性能。
灵活性
计算机控制系统具有较强的灵活性，可以根据需求进行快速调整和改变。
计算机控制系统的未来发展趋势
1 人工智能
讨论计算机控制系统与人工智能的结合，以及对未来发展的影响。
2 互联网 of Things (IoT)
解释计算机控制系统与物联网的融合，打造智能化的生活和工作环境。
3 虚拟现实
探讨计算机控制系统与虚拟现实技术的结合，创造更加沉浸式的交互体验。
计算机控制系统的挑战及解决方案
机电一体化技术第5章计算机控制及接口技术

《大学计算机基础》第五版-第1-4章课后习题答案

第一章1.计算机的发展经历了那几个阶段？各阶段的主要特征是什么?a）四个阶段：电子管计算机阶段;晶体管电路电子计算机阶段;集成电路计算机阶段；大规模集成电路电子计算机阶段。

b）主要特征：电子管计算机阶段：采用电子管作为计算机的逻辑元件；数据表示主要是定点数；用机器语言或汇编语言编写程序。

晶体管电路电子计算机阶段：采用晶体管作为计算机的逻辑元件,内存大都使用铁金氧磁性材料制成的磁芯存储器.集成电路计算机阶段：逻辑元件采用小规模集成电路和中规模集成电路。

大规模集成电路电子计算机阶段:逻辑元件采用大规模集成电路和超大规模集成电路。

2.按综合性能指标分类,计算机一般分为哪几类?请列出各计算机的代表机型.高性能计算机(曙光），微型机（台式机算机)，工作站(DN—100），服务器（Web服务器）。

3.信息与数据的区别是什么?信息：对各种事物的变化和特征的反映，又是事物之间相互作用和联系表征。

数据：是信息的载体。

4.什么是信息技术？一般是指一系列与计算机等相关的技术。

5.为什么说微电子技术是整个信息技术的基础?晶体管是集成电路技术发展的基础，而微电子技术就是建立在以集成电路为核心的各种半导体器件基础上的高新电子技术。

6.信息处理技术具体包括哪些内容？3C含义是什么?a）对获取的信息进行识别、转换、加工，使信息安全地存储、传送,并能方便的检索、再生、利用，或便于人们从中提炼知识、发现规律的工作手段。

b）信息技术、计算机技术和控制技术的总称7.试述当代计算机的主要应用。

应用于科学计算、数据处理、电子商务、过程控制、计算机辅助设计、计算机辅助制造、计算机集成制造系统、多媒体技术和人工智能等。

第二章1.简述计算机系统的组成。

由硬件系统和软件系统组成2.计算机硬件包括那几个部分？分别说明各部分的作用。

a）主机和外设b）主机包括中央处理器和内存作用分别是指挥计算机的各部件按照指令的功能要求协调工作和存放预执行的程序和数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第五章
5.1 流水处理概述 5.2 流水线工作方式 5.3 流水线性能分析
流水线处理技术
5.4 超标量超流水计算机 5.5 向量处理机器
5.1 流水线处理概述
一、CPU主要工作方式: 顺序重叠流水
和铺地板的原理相似…
5.1 流水线处理概述
设指令工作方式分成取指令、分析、执行指令
取指令
T t分1 maxt分i , t执i 1 t执n
n i 2
先行控制：分析部件和执行部件能分别连续不断地分析和执行指令，预取和缓冲相结合的技术，通过对指令流和数据流的先行控制，使指令分析器和执行部件能尽量连续并行工作。执行时间：
分析k 执行k 分析k+1 执行k+1 分析k+2 执行k+2
浮加
定乘
8 7 6 5 4 3 2 1
1 2
3
1 1 2 1 2 3 1 2 3 4 1 2 3 4 5
2 3 4 5 ...
3 4 5 ... ...
4 5 ... ... ...
4 5 ... ... ... n-1 n 一一二一二三 5 ... ... ... n-1 n ... ... ... n-1 n ... ... n-1 n ... n-1 n n-1 n 一二三四
分析指令和执行指令时间不等时的一次重叠方式
分析k
分析k+1
执行k
分析k +2
执行k+1
分析k+3
执行k +2 执行k+3
采用先行缓冲栈时指令执行过程的一种表示方法
先行控制：
一般采用先行缓冲栈的方式实现：一般设置四种缓冲栈：先行指令缓冲栈当主存比较忙时，指令分析器能够从先行指令缓冲栈中得到所需指令。先行操作栈
... ... ... n-1 n ... ... n-1 n ... n-1 n n-1 n
(n-1) △ t0
T0=m
△ t0 t0 (m-1) △ t0
时间
T 流水时空图
建立时间：在流水线开始时有一段流水线填入时间，使得流水线填满。正常流动时间：流水线正常工作，各功能段源源不断满载工作。
浮点加
乘 1 输入
5
规格化 6
7 8 尾数相乘累加输出
定点乘
空间 (段号)
浮加
定乘
8 7 6 5 4 3 1 1 2 1 2 3 2 1 1 2 3 4
1 2
3
4 ... ... ... n-1 n
一
一二一二三
1 2 3 4 ...
2 3 4 ... ...
3 4 ... ... ...
T t分1 maxt分i , t执i 1 t执n
n i 2
n t
先行控制：
现代计算机指令系统是复杂的，“分析”和“执行”所需要的时间往往相差很大，从而造成功能部件的浪费，因此，需要采用先行控制技术。
分析k 执行k 功能部件浪费
分析k+1
执行k+1
分析k+2
执行k+2
包括一次重叠、先行控制技术和多操作部件并行。
将相邻两条指令的重叠时间再往前提前一个阶段； T=3×t+（n-1）×t=（n+2）×t 一次重叠：把取指令操作隐含在分析、执行指令过程中，则在任何时候只允许上条指令“执行”与下条指令 “分析”相重叠。 T=（n+1）×t 若各段时间不等时，有实际执行时间：
C总线
诊断总线
操作台虚拟地址
标准SBI 适配器
SBI
I/O子系统
E部件
I部件
存储器数据总线
M部件
适配器总线
F部件
数组总线
选件SBI 适配器
SBI
主存
写总线操作数总线 I/O子系统
VAX8600的CPU结构图
周期
N-1
取指令
N+1 指令译码
N+2
操作
N+2 N+2
N-2
N-1
N+1 形成操作数地址
IF ID EX IF ID IF
指令 i+3
指令 i+4
IF
EX
ID
两条指令同时访存造成资源相关
冲突
解决方法：
时 1 钟指令 Load I 指令 F 指令 i+1 指令 i+2 指令 i+3 指令 i+4 2 3 4 5 6 7 8
9
ID EX MEM
WB
IF ID IF
EX ID 停顿
MEM EX IF
4 ... ... ... n-1 n ... ... ... n-1 n ... ... n-1 n ... n-1 n n-1 n
一二三四
时间
静态多功能流水线时-空图
静态流水线：只有当进入的是一串相同运算的指令时，流水的效能才得以发挥，才能使各个功能段并行地对多条指令的数据进行流水处理。
1. 资源相关资源相关是指当有多条指令进入流水线后在同一机器周期内争用同一功能部件所发生的冲突 X 6 X 1 X 2 两条指令同时要用一个加法器例1：
X5 X3 X4
流水段
指令
ALU 取指译码、读寄存器堆
LOAD/STORE 取指译码、读寄存器堆
IF ID
EX
MEM WB
3、流水的分级、分类分级：（处理的级别分类）部件级：将复杂的算逻运算组成流水工作方式；指令级：把一条指令解释过程分成多个子过程；处理机级：每个处理机完成某一专门任务，各个处理机所得到的结果需存放在与下一个处理机所共享的存储器中其他分类：功能：单功能流水线（如CRAY-1）、多功能流水线（如TI-ASC）工作方式：静态流水线、动态流水线连接方式：线性、非线性处理数据：标量流水、向量流水
分析
n
执行。。。
每阶段时间为t，共n条指令
顺序串行（sequence）： T
(t
i 1
取i
t分i t执i )
若各阶段执行时间相等，则共需3 n t
优点：控制简单；缺点：速度慢，机器各部件的利用率很低。
重叠（Overlap）：在两条相近指令的解释过程中，某些不同解释阶段在时间上存在重叠部分。
取指令1 取指令2 取指令3 取指令4 存结果1 取指令5 取指令6
指令译码器1
指令译码2
执行1
指令译码3
执行2
指令译码4
执行3
指令译码5
执行4
地址变换和MMU
地址变换和MMU
80386的指令流水处理
相关处理
定义：相近指令出现某种关联使不能同时执行。资源相关数据相关控制相关
另一种分类：局部相关全局相关
通过一种极端情况计算举例：
假设先行指令缓冲栈已经完全充满，缓冲深度是D1。此时指令缓冲栈输出端，指令流出速度最快，而输入端，流入最慢
假设指令序列的最大长度是L1，平均分析一条指令的时间是t1 而此时更坏的是取指令很慢，平均取一条指令的时间是t2 假设先行控制栈充满到被取空的过程中指令分析条数是L1 则此时有：可以计算深度： L1t1 = (L1-D1)t2
WB MEM ID IF WB EX ID MEM EX WB MEM
使i+3指令停顿一拍进入流水线，以解决访存相关
或重复设置一个存储器
2. 数据相关例：有i 和j两条指令，i指令在前，j指令在后，则三种不同类型的数据相关的含义为：顺序
流动
RAW读写(先写后读) - 指令 j 试图在指令 i 写入寄存器前就读出该寄存器内容，这样，指令j就会错误地读出该寄存器旧的内容。不按顺（改用相关） i: R1+R2->R3 j: R3*R4->R5 序流动 WAR写读(先读后写) - 指令 j 试图在指令 i读出寄存器之前就写入该寄存器，这样，指令i就错误地读得该寄存器新的内容。不按顺（用改相关）i: R3*R4->R5 j: R1+R2->R3 序流动 WAW写写(先写后写) - 指令j试图在指令i写寄存器之前就写入该寄存器，这样，两次写的先后次序被颠倒，就会错误地使由指令i写入的值成为该寄存器内容。（改改相关） i: R1*R2->R3 j: R4+R5->R3
对于条件转移等使用。
先行读书栈
主存储器和运算器之间的缓冲存储器，用来平缓运算器和主存储器之间的工作。
后行写数栈当前没有完全写道主存的数据可以暂存到写数栈
先行控制的处理机结构：
主存储器存储控制 Nhomakorabea器先行指令缓冲栈
指令分析器
先行读数栈
后行写书栈
运算器
通用寄存器
先行控制中的缓冲深度设计：
多操作部件并行：采用有多个功能部件的处理机，把ALU的多种功能分散到几个具有专门功能的部件中，这些功能部件可以并行工作，使指令流出速度大大提高。
取指令
n
分析
执行
分析k
执行k 分析k+1 执行k+1 分析k+2 执行k+2
T (t取i t分i t执i )
i 1
3n t
3、流水的分级、分类线性流水线：入
1
2
3
4
出
非线性流水线非线性流水线：入
1
2
3
4 出
非线性流水线
4、流水线举例 (1)ASC算术运算流水线（多功能）加输入 1 输入 1 减阶 2 减阶 2 3 对阶移位对阶移位 3 相加 4 相加 4 5 6 7 8 规格化相乘累加输出 8 输出