第5章标量处理机(5.1,5.2,5.3)-性能分析与非线性调度

合集下载

计算机系统结构-第五章自考练习题答案

(效率：3/8△t 效率：3/8)同步强化练习一．单项选择题。

1. 重叠机器局部相关的处理方法有两类：推后后续指令对相关单元的读和〔 C 〕。

A.异步流动B.采用顺序流动C.设置相关直接通路D.调整指令流动的顺序2. CRAY-1的流水线是〔 C 〕。

A. 多条单功能流水线B.一条单功能流水线C.一条多功能流水线D.多条多功能流水线3. 指令间的“一次重叠〞是指〔 B 〕。

A.“K 执行〞与“1+K 取指〞重叠B.“1+K 分析〞与“K 执行〞重叠C.“1+K 取指〞与“K 分析〞重叠D. “K 分析〞与“1+K 执行〞重叠4. 指令缓冲器的容量越大，发生指令相关的概率将〔 A 〕。

A.增大B.降低C.不变D.不定5. “取指〞、“分析〞、“执行〞之间的流水属于〔 B 〕。

A.系统级流水B.处理机级流水C.部件级流水D.作业级流水6. 非线性流水线是指〔 B 〕。

A.流水线中某些功能段在各次运算中的作用不同B.一次运算中要屡次使用流水线中的某些功能段C.一次运算中使用流水线的多个功能段D.流水线的各个功能段在各种运算中有不同的组合7. 关于标量流水机的说法有错的是〔 B 〕。

A.没有向量数据表示B.不能对向量数据进展运算C.可对标量数据进展流水处理D.可以对向量、数组进展运算8. 与流水线最大吞吐率有关的是〔 D 〕。

A.最后子过程的时间B.各个子过程的时间C.最快子过程的时间D.最慢子过程的时间9. 在流水线的相关处理中，会发生“写一写〞相关和“先读后写〞相关的是〔 C 〕。

A.猜想法B.顺序流动C.异步流动D.相关专用通路10. 在流水机器中，全局性相关是指〔 D 〕。

A.先读后写相关B.指令相关C.先写后读相关D.由转移指令引起的相关11. IBM360/91机对指令中断的处理方法是〔 A 〕。

A.不准确断点法B.指令复执法C.准确断点法D.对流水线重新调度12. CRAY-1机的两条向量指令V1←V2+V3V4←V1*V5属于〔 B 〕。

华东理工大学《操作系统》第四章处理机调度

10
（4）基于优先级调度算法：静态法和动态法
作业调度程序根据JCB优先数决定进入内存的次序,系统开销小
（a）静态优先级（外部优先数）
用户提交作业时，根据急迫程度规定适当的优先数系统或操作员根据作业类型及要求资源情况指定。
（b）由系统动态计算优先级(内部优先数) 例如：可按如下公式计算作业的优先数：
要求：（1）提供必要的调度信息就绪时间、开始时限、完成时限、处理时间、资源要求、优先级（2）快速的外部中断响应能力（3）调度方式硬实时任务广泛采用抢占调度方式有些软实时任务也可用非抢占方式（4）快速任务分派，进程切换

1.实时系统的特点
25
2.实时调度算法
1）时间片轮转法
仅能获得秒级的响应时间，只适用于一般实时信息处理，不能用于要求严格的实时控制系统中。
5
1）调度算法性能的衡量
调度算法的确定基于一定因素，一般系统的设计目标有：
（1）每天运行尽能多的作业；（2）使CPU保持忙；（3）使I/O保持忙；常用指标：周转时间：指将一个作业提交给计算机系统后到该作业的结果返回给用户所需时间。吞吐率：在单位时间内，一个计算机系统所完成的总工作量。响应时间：从用户向计算机发出一个命令到系统把相应结果返回所需时间。 6 设备利用率：输入输出设备的使用情况。（4）对所有作业公平合理。
优先数
0 时间片S1
PCB队列
1 时间片S2 ……
PCB队列
j 时间片Sj
PCB队列
……
PCB队列
i-1 时间片Si-1
i
时间片Si
PCB队列
多级反馈队列
24
注：时间片S1<S2<S3< …… <Si

中国海洋大学计算机系统结构课程大纲(理论课程)

中国海洋大学计算机系统结构课程大纲（理论课程）中国海洋大学计算机系统结构课程大纲(理论课程)英文名称Computer Architecture【开课单位】计算机科学与技术系【课程模块】学科基础【课程编号】【课程类别】选修【学时数】 48 (理论实践 ) 【学分数】 3一、课程描述本课程大纲根据2011年本科人才培养方案进行修订或制定。

(一)教学对象计算机科学与技术专业大学三年级学生(二)教学目标及修读要求1、教学目标(课程结束后学生在知识、技能和态度三个层面达到的目标) 本课程的结束后，学生应掌握计算机系统结构的基本概念、基本原理、基本结构和基本分析方法，初步了解和掌握几种高性能计算机系统的架构;初步具备计算机系统的架构分析能力，初步具备计算机系统性能的评测技能;对现有的主流计算机系统能有一个比较全面的了解，开阔眼界和思路，为今后进一步的学习、研究和工作奠定基础。

2、修读要求(简要说明课程的性质，与其他专业课程群的关系，学生应具备的基本专业素质和技能等)本课程是一门专业理论课。

由于计算机系统是一个复杂的系统，在学生已经学习了“计算机组成原理”、“计算机操作系统”、“汇编语言程序设计”、“高级语言程序设计”等计算机硬件和软件方面的多门课程之后，通过学习“计算机系统结构”这门课程才能够建立起计算机系统的完整概念。

(三)先修课程(参照2011版人才培养方案中的课程名称，课程名称要准确) 先修课程:“高级语言程序设计”;“计算机组成原理”;“操作系统”。

二、教学内容(一)第1章计算机系统结构的基本概念1、主要内容:1.1 计算机系统结构1.2 计算机系统设计技术1.3 系统结构的评价标准1.4 计算机系统结构的发展2、教学要求:(按照掌握、理解、了解三个层次对学生学习提出要求)掌握计算机系统层次结构，计算机系统结构、计算机组成、计算机实现定义及三者之间的关系，透明性概念，Amdahl定律，CPU性能公式，局部性原理，MIPS 定义，MFLOPS定义，计算机系统结构的分类;理解计算机系统设计方法，系统结构的评价标准;了解冯?诺依曼计算机特征，计算机系统结构的发展，价格、软件、应用、VLSI和算法对系统结构的影响。

02325计算机系统结构

02325计算机系统结构计算机系统结构第1章计算机系统结构的基本概念1.1计算机系统的多级层次结构计算机系统的多级层次结构 1.2计算机系统结构、组成与实现1.2.1结构、组成、实现的定义与内涵内涵1.2.2计算机系统结构、组成和实现三者的相互影响现三者的相互影响1.3软硬件取舍与计算机系统设计思路思路1.3.1软硬件取舍的基本原则软硬件取舍的基本原则1.3.2计算机系统的设计思路计算机系统的设计思路1.4结构设计要解决好软件的可移植性植性1.4.1统一高级语言统一高级语言1.4.2采用系列机采用系列机1.4.3模拟与仿真模拟与仿真1.5应用与器件的发展对系统结构的影响的影响1.5.1应用的发展对系统结构的影响1.5.2器件的发展对系统结构的影响1.6系统结构中的并行性发展及计算机系统的分类算机系统的分类1.6.1并行性概念并行性概念1.6.2并行处理系统的结构与多机系统的耦合度系统的耦合度1.6.3计算机系统的分类计算机系统的分类第2章数据表示与指令系统章数据表示与指令系统2.1数据表示数据表示2.1.1数据表示与数据结构数据表示与数据结构2.1.2高级数据表示高级数据表示2.1.3引入数据表示的原则引入数据表示的原则2.1.4浮点数尾数基值大小和下溢处理方法的选择处理方法的选择2.2寻址方式寻址方式2.2.1寻址方式分析寻址方式分析2.2.2逻辑地址与主存物理地址逻辑地址与主存物理地址 2.3指令格式的优化设计指令格式的优化设计2.3.1操作码的优化操作码的优化2.3.2指令字格式的优化指令字格式的优化2.4按CISC方向发展与改进指令系统系统2.4.1面向目标程序优化实现改进2.4.2面向高级语言优化实现改进2.4.3面向操作系统优化实现改进2.5按RISC方向发展与改进指令系统系统2.5.1 RISC的提出的提出2.5.2设计RISC的原则的原则2.5.3设计RISC结构用的基本技术2.5.4 RISC技术的发展技术的发展第3章总线、中断与输入输出系统中断与输入输出系统 3.1输入输出系统的基本概念输入输出系统的基本概念3.2总线设计总线设计3.2.1总线的类型总线的类型3.2.2总线的控制方式总线的控制方式3.2.3总线的通讯技术总线的通讯技术3.2.4数据宽度与总线线数数据宽度与总线线数3.3中断系统中断系统3.3.1中断的分类和分级中断的分类和分级3.3.2中断系统的软硬件功能分配3.4通道处理机通道处理机 3.4.1工作原理工作原理3.4.2通道流量的分析通道流量的分析第4章存储体系章存储体系4.1存储体系概念与并行主存系统4.1.1发展存储体系的必要性发展存储体系的必要性4.1.2并行主存系统频宽的分析并行主存系统频宽的分析4.1.3存储体系的形成与分支存储体系的形成与分支4.1.4存储体系的性能参数存储体系的性能参数4.2虚拟存储器虚拟存储器4.2.1不同的虚拟存储管理方式不同的虚拟存储管理方式4.2.2页式虚拟存储器的构成页式虚拟存储器的构成4.2.3页式虚拟存储器实现中的问题4.3高速缓冲高速缓冲(Cache)(Cache)(Cache)存储器存储器存储器4.3.1基本结构基本结构4.3.2地址的映象与变换地址的映象与变换4.3.3替换算法的实现替换算法的实现4.3.4 Cache存储器的透明性及性能分析性能分析第5章重叠、流水和向量处理机章重叠、流水和向量处理机5.1重叠方式重叠方式5.1.1基本思想和一次重叠基本思想和一次重叠5.1.2相关处理相关处理5.2流水方式流水方式5.2.1基本概念基本概念5.2.2流水线处理机的主要性能流水线处理机的主要性能5.2.3流水机器的相关处理和控制机构机构5.3向量的流水处理与向量流水处理机理机5.3.1向量的流水处理向量的流水处理5.3.2向量流水处理机向量流水处理机5.4指令级高度并行的超级处理机5.4.1超标量处理机超标量处理机5.4.2超长指令字超长指令字(VLIW)(VLIW)(VLIW)处理机处理机处理机5.4.3超流水线处理机超流水线处理机第6章阵列处理机章阵列处理机6.1阵列处理机原理阵列处理机原理6.1.1阵列处理机的基本构形阵列处理机的基本构形6.1.2阵列处理机的特点阵列处理机的特点6.2阵列处理机的并行算法阵列处理机的并行算法6.2.1 ILLIACⅣ的处理单元阵列结构结构6.2.2阵列处理机的并行算法举例6.3 SIMD计算机的互连网络计算机的互连网络6.3.1互连网络的设计目标及互连函数函数6.3.2基本的单级互连网络基本的单级互连网络6.3.3多级互连网络多级互连网络6.4并行存储器的无冲突访问并行存储器的无冲突访问6.5并行处理机举例并行处理机举例6.5.1 MPP位平面阵列处理机位平面阵列处理机6.5.2 CM连接机连接机第7章多处理机章多处理机7.1多处理机的特点及主要技术问题7.2多处理机的硬件结构多处理机的硬件结构7.2.1紧耦合和松耦合紧耦合和松耦合7.2.2机间互连形式机间互连形式7.3程序并行性程序并行性7.3.1并行算法并行算法7.3.2程序并行性的分析程序并行性的分析7.3.3并行程序设计语言并行程序设计语言7.4多处理机的性能多处理机的性能7.4.1任务粒度与系统性能任务粒度与系统性能7.4.2性能模型与分析性能模型与分析7.5多处理机的操作系统多处理机的操作系统7.5.1主从型操作系统主从型操作系统7.5.2各自独立型操作系统各自独立型操作系统7.5.3浮动型操作系统浮动型操作系统第8章其它计算机结构章其它计算机结构8.1脉动阵列机脉动阵列机8.1.1脉动阵列结构的原理和特点8.1.2通用的脉动阵列结构通用的脉动阵列结构8.2大规模并行处理机MPP与机群系统系统8.2.1大规模并行处理机MPP8.2.2机群系统机群系统8.3数据流机数据流机8.3.1数据驱动的概念数据驱动的概念8.3.2数据流程序图和语言数据流程序图和语言8.3.3数据流计算机的结构数据流计算机的结构8.3.4数据流机器存在的问题数据流机器存在的问题8.4归约机归约机8.5智能机智能机8.5.1智能信息处理与智能机智能信息处理与智能机8.5.2智能机的结构和机器语言智能机的结构和机器语言★翻译和解释的区别和联系？区别：区别：翻译是整个程序转换，翻译是整个程序转换，翻译是整个程序转换，解释解释是低级机器的一串语句仿真高级机器的一条语句。

计算机系统结构PPT课件

流水线周期主时钟周期
IF IS RF EX DF DS TC WB
IF IS RF EX DF DS TC WB IF IS RF EX DF DS TC WB IF IS RF EX DF DS TC WB IF IS RF EX DF DS TC WB
当前CPU周期
如果在LOAD指令之后的两条指令中，任何一条指令要在它的EX流水级使用这个数据，则指令流水线要暂停一个时钟周期采用顺序发射方式
把超标量与超流水线技术结合在一起，就成为超标量超流水线处理机
5.5.1 指令执行时序 5.5.2 典型处理机结构
5.5.3 超标量超流水线处理机性能
5.5.4 三种指令级并行性处理机性能比较
5.5.1 指令执行时序
超标量超流水线处理机在一个时钟周期内分时发射指令n次，每次同时发射指令m条，每个时钟周期总共发射指令m n条。
5.4 超流水线处理机
两种定义：一个周期内能够分时发射多条指令的处理机称为超流水线处理机指令流水线有8个或更多功能段的流水线处理机称为超流水线处理机提高处理机性能的不同方法：超标量处理机是通过增加硬件资源为代价来换取处理机性能的超流水线处理机则通过各硬件部件充分重叠工作来提高处理机性能
关性允许，IBOX就把两条指令同时发射给EBOX、ABOX和FBOX三个指令执行部件中的两个。指令流水线采用顺序发射乱序完成的控制方式。在指令Cache中有一个转移历史表，实现条件转移的动态预测。在EBOX内还有多条专用数据通路，可以把运算结果直接送到执行部件。 Alpha 21064处理机共有三条指令流水线整数操作流水线和访问存储器流水线分为7个流水段，其中，取指令和分

第5章标量处理机(5.7) 超标量超流水处理机

yangruioot@
计算机科学与技术
超标量处理机的结构

超标量处理机至少具有两套或者两条以上完整的指令执行部件。高性能的超标量处理机通常还设置一个先行指令窗口：能够从指令Cache中预取多条指令能够对窗口内的指令进行数据相关性分析和功能部件冲突的检测窗口的大小：一般为2至8条指令
yangruioot@
计算机科学与技术
实际指令级并行度与理论指令级并行度的关系

当横坐标给出的理论指令级并行度比较低时，处理机的实际指令级并行度的提高比较快。当理论指令级并行度进一步增加时，处理机实际指令级并行度提高的速度越来越慢。在实际设计超标量、超流水线、超标量超流水线处理机的指令级并行度时要适当，否则，有可能造成花费了大量的硬件，但实际上处理机所能达到的指令级并行度并不高。目前，一般认为，m 和 n 都不要超过4。
多条无数据相关和控制相关的指令在单发射处理机中的时空图如图
度为1
部件写结果执行译码取指 0 1 1 1 2 2 1 2 3 3 1 2 3 4 4 2 3 4 5 5 3 4 5 6 6 4 5 6 7 7 5 6 7 8 8 6 7 8 9 9 7 8 9 10 10 8 9 10 11 11 9 10 11 12 12 13 14 15 10 11 12 11 12 12
写结果
图 5 44 超标量超流水线时空图
在一台指令并行度为（m， n）的超标量超流水线处理机上，连续执行没有相关的N条指令的所需要的时间为：
T ( m, n ) ( k N m ) t nm
执行译码取指
超标量超流水线处理机相对于单流水线普通标量处理机的加速比为：

CMX体系结构实验教程

A
通用寄存器
B
特殊寄存器
ALU
图 1-1-1 单总线的运算器结构
单总线结构的运算器如图 1-1-1 所示，所有部件都接到同一总线上。这种结构的运算器控制电路比较简单，在同一时间内,只能有一个操作数放在单总线上。为了把两个操作数输入到 ALU,需要分两次来做,而且还需要 A,B 两个缓冲寄存器。这种结构的主要缺点是操作速度较慢。
总线 1
特殊寄存器通用寄存器特殊寄存器
ALU
缓存器
总线 2
图 1-1-2 双总线的运算器结构
双总线结构的运算器如图 1-1-2 所示。在这种结构中,两个操作数同时加到 ALU 进行运算, 只需一次操作控制,而且马上就可以得到运算结果。但 ALU 的输出不能直接加到总线上去。这是因为,当形成操作结果的输出时,两条总线都被输入数占据,因而必须在 ALU 输出端设置缓冲寄存器，等到下一周期再输出运算器的结果到总线上。
1
计算机体系结构与系统设计实验指导书
西安唐都科教仪器公司
三总线结构的运算器如图 1-1-3 所示。在三总线结构中,ALU 的两个输入端分别由两条总线供给,而 ALU 的输出则与第三条总线相连。这样,算术逻辑操作就可以在一步的控制之内完成。由于 ALU 本身有时间延迟,所以打入输出结果的选通脉冲必须考虑到包括这个延迟。另外,设置了一个总线旁路器。如果一个操作数不需要修改,而直接从总线 1 传送到总线 3,那么可以通过控制总线旁路器把数据传出;如果一个操作数传送时需要修改,那么就借助于 ALU。很显然,三总线结构的运算器的特点是操作速度快。
附录 1
软件使用说明.................................................................................................................... 72

计算机系统结构(高教版)张晨曦习题答案第五章

5.1 解释下列术语多级存储层次：由若干个采用不同实现技术的存储器构成的存储器系统，各存储器处在离CPU不同距离的层次上。

使得靠近CPU的存储器速度较快，容量较小。

整个存储系统的速度接近与离CPU最近的存储器的速度，而容量和每位价格接近于最低层次的容量和价格。

全相联映像：指主存中的任一块可以被放置到Cache中的任意一个位置。

直接映像：指主存中的每一块只能被放置到Cache中唯一的一个位置。

组相联映像：指主存中的每一块可以被放置到Cache中固定的一个组中的任意位置。

替换算法：由于主存中的块比Cache中的块多，所以当要从主存中调入一个块到Cache中时，会出现该块所映像的Cache块位置已经被占用的情况。

替换算法即解决如何选择替换块的问题。

LRU：最近最少使用法。

选择近期最少被访问的块作为被替换的块。

写直达法：在执行“写”操作时，不仅把信息写入Cache中相应的块，而且也写入下一级存储器中相应的块。

写回法：只把信息写入Cache中相应的块，该块只有在被替换时才被写回主存。

按写分配法：在写失效时，先把所写单元所在的块从主存调入Cache，然后再进行写入。

不按写分配法：写失效时，直接写入下一级存储器而不将相应的块调入Cache。

命中时间：CPU所要访问的块在Cache中，确认并取走所花费的时间开销。

失效率：CPU一次访存不命中的概率。

失效开销：CPU一次访存不命中，而额外增加的访存开销。

强制性失效：当第一次访问一个块时，该块不在Cache中，需从下一级存储器中调入Cache。

容量失效：如果程序执行执行时所需的块不能全部调入Cache中，则当某些快被替换后，若又重新被访问，就会发生失效。

冲突失效：在组相联或直接映像Cache中，若不多的块映像到同一组中，则会出现该组中某个块被别的块替换，然后又重新被访问的情况。

2：1 Cache经验规则：大小为N的直接映像Cache的失效率约等于大小为N/2的2路组相联Cache的失效率。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算机科学与技术
yangruioot@
5.1 流水线的基本概念

指令流水线

把指令的解释过程分解为分析和执行两个
子过程，并让这两个子过程分别用独立的
分析部件和执行部件来实现。
理想情况：速度提高一倍

入
4段指令流水线
取指令译码执行存结果出
计算机科学与技术
yangruioot@
流水线需要有通过时间和排空时间。通过时间：第一个任务从进入流水线到流出结果所需的时间。排空时间：最后一个任务从进入流水线到流出结果所需的时间。

计算机科学与技术
yangruioot@
流水技术的特点

流水线把一个处理过程分解为若干个子过程（段），每个子过程由一个专门的功能部件来实现。
TP max 1 3t
计算机科学与技术
yangruioot@
解决流水线瓶颈问题的常用方法
1.
细分瓶颈段举例例如：对前面的5段流水线把瓶颈段S4细分为3个子流水线段：S4-1，S4-2，S4-3
△t △t S2 △t S3 △t S4-1 △t S4-2 △t S4-3 △t S5 出 S1
TP
n
t
i 1
k
i
( n 1) max(t1 , t 2 ,, t k )

流水线的最大吞吐率为：
TP max
1 max(t1 , t 2 , t k )
yangruioot@
计算机科学与技术
5.2.1 吞吐率
对前面举例2中的5段流水线最大吞吐率为：

流水技术适合于大量重复的时序过程，只有在输入端不断地提供任务，才能充分发挥流水线的效率。
计算机科学与技术
yangruioot@
5.1.2 流水线的分类
从不同的角度和观点，把流水线分成多种不同的种类。

按照流水技术用于计算机系统的等级不同可以分为部件级、处理机级及处理机间流水线
计算机科学与技术
yangruioot@
5.2.2 流水线的加速比
加速比：完成同样一批任务，不使用流水线所用的时间与使用流水线所用的时间之比。
假设：不使用流水线（即顺序执行）所
用的时间为Ts，使用流水线后所用的时间为Tk，则该流水线的加速比为：
Ts S T k
计算机科学与技术 yangruioot.2 流水线的分类

按照流水线所完成的功能可分为单功能流水线与多功能流水线单功能流水线：只能完成一种固定功能的流水线。多功能流水线：流水线的各段可以进行不同的连接，以实现不同的功能。
例： ASC的多功能流水线
计算机科学与技术
yangruioot@
5.2.1 吞吐率

流水线完成n个连续任务所需要的总时间为：（假设一条k段线性流水线） Tk＝kΔt＋(n－1)Δt＝(k＋n－1)Δt 流水线的实际吞吐率
n TP (k n 1)t

最大吞吐率
TP max
计算机科学与技术
n 1 lim n k n 1t t
yangruioot@

计算机科学与技术
5.2 流水线的性能指标
5.2.1 吞吐率

吞吐率：在单位时间内流水线所完成的任务数量或输出结果的数量
n TP Tk
n：任务数 Tk：处理完成n个任务所用的时间
计算机科学与技术
yangruioot@
5.2.1 吞吐率
计算机科学与技术
yangruioot@
5.1.2 流水线的分类

系统级流水线（宏流水线）：把多台处理机串行连接起来，对同一数据流进行处理，每个处理机完成整个任务中的一部分。动画解析
数据流
处理机 1
存储器
处理机 2
存储器
„
处理机 n
存储器
任务 1
任务 2
任务 n
计算机科学与技术

部件级流水线（运算操作流水线）：把处理机中的部件分段，再把这些分段相互连接起来，使得各种类型的运算操作能够按流水方式进行。
计算机科学与技术
yangruioot@
5.1.2 流水线的分类

处理机级流水线（指令流水线）：把指令的执行过程按照流水方式处理。把一条指令的执行过程分解为若干个子过程，每个子过程在独立的功能部件中执行。
5.1 流水线的基本概念

浮点加法流水线把流水线技术应用于运算的执行过程，就形成了运算操作流水线，也称为部件级流水线。把浮点加法的全过程分解为求阶差、对阶、尾数相加、规格化四个子过程。理想情况：速度提高3倍
入求阶差 △t 对阶 △t 尾数相加 △t 规格化 △t
yangruioot@
出
计算机科学与技术

时－空图

时－空图从时间和空间两个方面描述了流水线的工作过程。时－空图中，横坐标代表时间，纵坐标代表流水线的各个段。浮点加法流水线的时空图
计算机科学与技术
yangruioot@
时－空图时－空图从时间和空间两个方面描述了流水线的工作过程。时－空图中，横坐标代表时间，纵坐标代表流水线的各个段。浮点加法流水线的时空图
空间通过时间排空时间
规格化尾数相加对阶求阶差 0 1 1 1 2 2 1 2 3 3
1 2 3 4 4
2 3 4
3 4
4
„„ „„ „„ „„
n tn-1 tn tn+1 n n
n
5
6
7
„„
tn+2
tn+3
时间
计算机科学与技术
yangruioot@
流水技术的特点
1 2 3 4 5
输
入
1 2 3 4 5 6 7 8
输
入
1 2 3 4 5 6 7
输
入
求阶差对相阶加
求阶差对相阶加
规格化相累输乘加出
规格化
6
7 8
相累输
乘加出
输
出
8
（a）分段
（b）浮点连接
（c）定乘连接
计算机科学与技术
yangruioot@
计算机科学与技术
yangruioot@
5.2.1 吞吐率

各段时间不完全相等的流水线

各段时间不等的流水线及其时空图
举例1（时空图）

一条4段的流水线 S1，S3，S4各段的时间：Δ t S2的时间：3Δ t （瓶颈段）

流水线中这种时间最长的段称为流水线的瓶颈段。
计算机科学与技术
yangruioot@
5.1.2 流水线的分类

动态流水线：在同一时间内，多功能流水线中的各段可以按照不同的方式连接，同时执行多种功能。动画

优点：灵活，能够提高流水线各段的使用率，从而提高处理速度。缺点：控制复杂。

静、动态流水线时空图的对比
计算机科学与技术

根据任务流入和流出的顺序是否相同可以分为顺序流水线与乱序流水线顺序流水线：流水线输出端任务流出的顺序与输入端任务流入的顺序完全相同。每一个任务在流水线的各段中是一个跟着一个顺序流动的。乱序流水线：流水线输出端任务流出的顺序与输入端任务流入的顺序可以不同，允许后进入流水线的任务先完成（从输出端流出）。也称为无序流水线、错序流水线、异步流水线
计算机科学与技术
yangruioot@
5.1 流水线的基本概念

流水线技术

把一个重复的过程分解为若干个子过程，每个子过程由专门的功能部件来实现。

把多个处理过程在时间上错开，依次通过各
功能段，这样，每个子过程就可以与其它的
子过程并行进行。

流水线中的每个子过程及其功能部件称为流水线的级或段，段与段相互连接形成流水线。流水线的段数称为流水线的深度。
流水线中各段的时间应尽可能相等，否则将引起流水线堵塞、断流。时间最长的段将成为流水线的瓶颈。

计算机科学与技术
yangruioot@
流水技术的特点

流水线每一个段的后面都要有一个缓冲寄存器（锁存器），称为流水寄存器。

作用：在相邻的两段之间传送数据，以保证提供后面要用到的信息，并把各段的处理工作相互隔离。
5.1.2 流水线的分类

按照同一时间内各段之间的连接方式对多功能流
水线可作进一步的划分，分别为静态流水线与动
态流水线

静态流水线：在同一时间内，多功能流水线
中的各段只能按同一种功能的连接方式工作。

对于静态流水线来说，只有当输入的是一串相同的运算任务时，流水的效率才能得到充分的发挥。
例如：ASC的8段流水线
入
改进后的流水线的吞吐率：
TP max
计算机科学与技术
1 t
yangruioot@
解决流水线瓶颈问题的常用方法
2.
重复设置瓶颈段
举例：时-空图缺点：控制逻辑比较复杂，所需的硬件增加了。例如：对前面的5段流水线重复设置瓶颈段S4：S4a，S4b，S4c

△t4=3△t S4a △t1=△t 入 S1 △t2=△t S2 △t3=△t S3 S4b S4c △t5=△t S5 出
yangruioot@
5.1.2 流水线的分类

按照流水线中是否有反馈回路可以分为线性流水线与非线性流水线线性流水线：流水线的各段串行连接，没有反馈回路。数据通过流水线中的各段时，每一个段最多只流过一次。非线性流水线：流水线中除了有串行的连接外，还有反馈回路。（举例）