第5章指令级并行及其开发——硬件方法.

合集下载

兰州大学计算机专业(本科) 计算机体系结构教学标准

兰州大学计算机科学与技术专业(本科)《计算机体系结构》教学标准目录一. 课程基本信息二. 课程的性质、地位与任务三. 教材与主要参考书四. 计划学时与学时分配五. 课程内容与要求第 1 章计算机设计基础第 2 章指令集的设计第 3 章CPU 的设计第 4 章流水线技术第 5 章存储器层次结构第 6 章计算机输入/输出系统第7 章网络并行计算系统第8 章多处理器计算机结构六. 教学环节七. 实验环节八. 考试要求九. 其它相关说明一. 课程基本信息课程编号：2043061课程名称：计算机体系结构课程英文名称：Computer Architecture课程性质：指定选修课先修课程：数字逻辑；计算机组成原理；概率论与统计；数据结构；操作系统；编译原理。

适用专业：计算机科学与技术专业、通信工程专业开课学期：第七学期学时：72（54）学分：4（3）二. 课程的性质、地位与任务计算机系统结构是计算机科学与技术领域的重要学科，也是高等院校计算机系本科生和研究生学习设计、分析和评价计算机的主干课程。

许多著名的院校作为研究生入学考试课程之一。

该课程以讲授计算机系统结构的基本概念和基本原理为主，而不是完整介绍各种系统结构，即不是以具体的机器为实例进行教学。

在教学中引进定量原理，让学生学会如何测试实际机器，分析实际机器，分析计算机设计中遇到的各种限制因素，培养正确选择各种折衷方案的能力。

强调计算机系统结构与操作系统和编译系统的相互关系，充分反映出计算机系统结构不是单纯的硬件课程，而是硬件和系统软件的结合点，因此本课程不仅适用于培养系统结构和芯片设计工程师和计算机系统工程师，而且也适用于培养编译系统和操作系统工程师。

三. 教材与主要参考书1.教材：《计算机体系结构》石教英等著杭州:浙江大学出版社,1998[1版].2.参考书：①《计算机系统结构—量化研究方法》（第三版）(美)J ohn L.H e nn e ss y D av i dA.P a tt e r s on著郑伟明、汤志忠、汪东升译电子工业出版社,2004[1版].②《高级计算机体系结构》(美)K a i H w a ng著ADVANCED COMPUTER ARCHITECTURE 机械工业出版社,1999[1版].③《计算机系统结构》郑伟民、汤志忠著清华大学出版社,1998[2 版].④《计算机系统结构》李学干著西安电子科技大学出版社,2000[3 版].⑤《计算机体系结构》张晟曦著高等教育出版社,2000[3 版].[21 世纪教材]四.计划学时与学时分配1.教学建议《计算机体系结构》课程分经典教案面授和电子教案面授两种。

计算机系统总复习(2011)

总复习第一章1.计算机系统结构、组成、实现的基本概念和包含的内容；系统结构与软硬件功能划分的关系；计算机系统的多级层次结构；判断某项内容属于结构、组成、实现的哪一类；判断某项内容针对不同程序员的透明性。

2.促进系统结构发展的因素（软件、应用、器件）。

软件：实现软件可移植性的方法；系列机的概念；软件兼容的概念（向前、向后、向上、向下兼容）；模拟与仿真技术的概念；应用：应用对系统结构的要求。

器件：系统结构下移的概念。

3.计算机系统的分型与分类的概念。

Flynn分类法4.系统结构设计的定量原理（Amdahl定理）；加速比的计算方法；5.程序访问的局部性原理（时间局部性、空间局部性）；判断系统结构中局部性原理的应用。

6.系统评价的指标（响应时间、CPU时间、MIPS、MFLOPS）；运用CPU性能公式、平均CPI比较系统性能。

7.并行性的概念；并行性的等级、粒度；并行性的开发策略（时间重叠、资源重复、资源共享）；8.计算机系统的主要设计方法第二章1.指令系统的设计要求（完备性、有效性、兼容性、规整性、对称性、可扩充性、正交性、有利于编译）。

2.指令系统的分类（堆栈型、累加器型、通用寄存器型）；通用寄存器型指令的特点（R－R型、R－M型、M－M型）。

3.操作数访问方式（按地址访问、按内容访问）；按地址访问的编址问题：字编址、字节编址、位编址；按字节编址时的大端排序与小端排序。

编址规定中的访存越界问题及其解决方法。

按内容访问：联想存储器的工作过程。

4.指令格式的设计准则；操作码的优化方法（霍夫曼编码、扩展霍夫曼编码）。

5.指令系统的两种设计风格CISC和RISC。

CISC风格的特点；RISC风格的特点。

RISC风格指令系统的实现技术：窗口寄存器重叠技术、优化转移技术。

6.数据类型、数据表示、数据结构的概念和关系；引入数据表示的原则（减少程序执行时间和存储容量、较好的通用性和较高的效率）；数据表示与系统结构的关系。

CMX体系结构实验教程

A
通用寄存器
B
特殊寄存器
ALU
图 1-1-1 单总线的运算器结构
单总线结构的运算器如图 1-1-1 所示，所有部件都接到同一总线上。这种结构的运算器控制电路比较简单，在同一时间内,只能有一个操作数放在单总线上。为了把两个操作数输入到 ALU,需要分两次来做,而且还需要 A,B 两个缓冲寄存器。这种结构的主要缺点是操作速度较慢。
总线 1
特殊寄存器通用寄存器特殊寄存器
ALU
缓存器
总线 2
图 1-1-2 双总线的运算器结构
双总线结构的运算器如图 1-1-2 所示。在这种结构中,两个操作数同时加到 ALU 进行运算, 只需一次操作控制,而且马上就可以得到运算结果。但 ALU 的输出不能直接加到总线上去。这是因为,当形成操作结果的输出时,两条总线都被输入数占据,因而必须在 ALU 输出端设置缓冲寄存器，等到下一周期再输出运算器的结果到总线上。
1
计算机体系结构与系统设计实验指导书
西安唐都科教仪器公司
三总线结构的运算器如图 1-1-3 所示。在三总线结构中,ALU 的两个输入端分别由两条总线供给,而 ALU 的输出则与第三条总线相连。这样,算术逻辑操作就可以在一步的控制之内完成。由于 ALU 本身有时间延迟,所以打入输出结果的选通脉冲必须考虑到包括这个延迟。另外,设置了一个总线旁路器。如果一个操作数不需要修改,而直接从总线 1 传送到总线 3,那么可以通过控制总线旁路器把数据传出;如果一个操作数传送时需要修改,那么就借助于 ALU。很显然,三总线结构的运算器的特点是操作速度快。
附录 1
软件使用说明.................................................................................................................... 72

计算机体系结构并行计算基础知识

计算机体系结构并行计算基础知识计算机体系结构是计算机硬件和软件的结构和组织方式。

而并行计算指的是在计算机中同时执行多个任务或指令的能力。

在本文中，我们将探讨计算机体系结构中的并行计算的基础知识。

一、并行计算的概念和原理并行计算是指同时使用多个处理器或计算单元来执行任务或指令。

与串行计算相比，它能够加快计算速度，提高系统的整体性能。

并行计算的原理是将一个大任务或指令分解成多个小任务或指令，并利用多个处理器或计算单元同时执行这些小任务或指令。

这样可以充分利用计算资源，提高系统的运行效率。

二、并行计算的分类并行计算可以按照不同的标准进行分类。

下面是几种常见的分类方式：1.按照并行计算的粒度，可以分为指令级并行、线程级并行、过程级并行、任务级并行等。

指令级并行是指同时执行多条指令，线程级并行是指同时执行多个线程，过程级并行是指同时执行多个独立的过程，任务级并行是指将一个大任务分解成多个小任务，并同时执行这些小任务。

2.按照并行计算的结构，可以分为共享内存并行计算和分布式并行计算。

共享内存并行计算是指多个处理器共享同一块内存，分布式并行计算是指每个处理器都有自己的内存，通过网络进行通信和协调。

3.按照并行计算的拓扑结构，可以分为串行结构、对称多处理结构、集群结构等。

串行结构是指只有一个处理器的结构，对称多处理结构是指多个处理器之间没有主从关系，集群结构是指多个处理器通过网络连接起来，具有主从关系。

三、并行计算的优势和应用并行计算具有以下优势：1.提高计算速度：通过同时执行多个任务或指令，可以加快计算速度，提高系统的整体性能。

2.提高系统的可靠性：当一个处理器出现故障时，其他处理器可以继续工作，保证系统的正常运行。

3.节省成本：通过并行计算，可以充分利用计算资源，减少计算机的数量和成本。

并行计算的应用非常广泛，包括科学计算、人工智能、图像处理、数据挖掘等领域。

在科学计算中，通过并行计算可以加快模拟和分析的速度；在人工智能中，通过并行计算可以提高机器学习和深度学习的效率；在图像处理和数据挖掘中，通过并行计算可以快速处理大量的数据。

单片机指令的并行执行技术

单片机指令的并行执行技术单片机指令的并行执行技术是一种提高单片机性能和效率的重要方法。

通过同时执行多个指令，可以大大加快程序运行速度，提高系统的响应能力。

本文将介绍单片机指令的并行执行技术以及其应用。

一、指令的并行执行原理指令的并行执行是指在一个时钟周期内同时执行多个指令。

实现指令的并行执行需要满足以下几个条件：1. 数据无相关性：同时执行的指令之间不能有数据相关性，即后续指令不依赖于前面指令的结果。

否则会导致数据错误。

2. 硬件支持：需要具备支持并行执行的硬件结构，包括有多个执行单元和数据通路。

基于以上原理，下面将介绍几种常见的单片机指令并行执行技术。

二、指令级并行执行技术指令级并行执行技术是指在一个时钟周期内同时执行多条指令的技术。

常见的指令级并行执行技术包括：1. 流水线技术：将指令执行过程分为多个阶段，每个阶段由不同的硬件执行，实现多个指令的同时执行。

比如Fetch（取指令）、Decode （解码）、Execute（执行）和Write Back（写回）等阶段。

2. 超标量技术：通过增加硬件资源，同时从指令存储器中提取多条指令并行执行。

不同于流水线技术，超标量技术可以并行执行多个指令的某个或全部阶段。

三、循环级并行执行技术循环级并行执行技术是指在一个循环中同时执行多条指令的技术。

常见的循环级并行执行技术包括：1. 向量处理器：通过并行处理多个数据元素来加速程序运行速度。

向量处理器可以一次性处理多个相同类型的指令，提高程序的执行效率。

2. SIMT技术：Single Instruction Multiple Thread，即单指令多线程技术。

通过将多个线程分配给不同的处理单元，实现多个线程的同时执行。

这种技术广泛应用于图形处理器（GPU）等领域。

四、应用领域指令的并行执行技术在多个领域都有广泛应用，特别是对于对计算能力要求较高的应用场景。

下面列举几个典型的应用领域：1. 数字信号处理（DSP）：在音频和视频处理等领域，需要高效处理大量数据，指令的并行执行技术可以提高处理速度和实时性。

本科专业认证《计算机体系结构》教学大纲

《计算机体系结构》教学大纲课程名称：计算机体系结构英文名称：Computer Architecture课程编号：0812000485课程性质：选修学分/学时：2/32。

其中，讲授 32学时，实验 0学时，上机 0学时，实训 0学时。

课程负责人：先修课程：模拟电路，数字电路，计算机组成原理，汇编语言，操作系统，算法与程序设计方法一、课程目标通过本课程的教学，使学生先掌握计算机系统结构的基本概念，以及计算机系统结构的形成和发展过程，再以现代计算机系统结构为主线，掌握计算机系统结构的合成、存储系统结构、流水线结构、多处理机系统、RISC结构、分布计算环境结构及数据流计算机结构等现代计算机的系统结构，并了解软件对计算机系统结构的影响，最后了解现代计算机系统结构的最新发展。

本课程帮助学生了解计算机系统结构的基本概念，基本原理、基本结构、基本分析方法以及近年来的重要进展。

通过本课程的学习，达到以下教学目标：1. 工程知识1.1 掌握必要的计算机体系结构基础理论知识。

1.2 能够应用计算机体系结构理论知识解决复杂工程技术问题。

2. 问题分析2.1 能够理解并恰当表述计算机体系结构的实际问题。

2.2 能够找到合适的解决计算机体系结构实际问题的程序与方法。

2.3 在一定的限制条件下能够合理解决计算机体系结构方面的实际问题。

3．设计/开发解决方案能够运用计算机系统结构基础知识初步进行计算机系统的规划与设计并体现创新意识。

4. 研究4.1能够采用计算机系统结构理论知识进行研究并合理设计实验方案。

4.2具备采集有效数据的能力。

5. 使用现代工具能够正确运用工具与资源对计算机系统的性能提升等问题进行设计与实现。

6. 终身学习6.1具有自觉搜集阅读与整理资料的能力。

6.2了解计算机系统结构的发展前沿。

6.3具有终身学习的意识与能力。

二、课程内容及学时分配如表1所示。

三、教学方法课程教学以课堂教学、实验教学、课外作业、综合讨论、网络课程等共同实施。

2019年计算机系统结构第4章指令级并行及限制.ppt

Loop:
流出时钟
LD
F0,0(R1) 1
（空转）
2
ADDD F4,F0,F2 3
（空转）
4
（空转）
5
SD
0(R1),F4 6
LD
F6,-8(R1) 7
（空转）
8
ADDD F8,F6,F2 9
（空转）
10
（空转）
11
SD
-8(R1),F8 12
LD
F10,-16(R1) 13
（空转）
14
流出时钟
ADDD F12,F10,F2
2相关性对指令级并行的影响本章使用的浮点流水线的延迟产生结果指令使用结果指令延迟时钟周期数浮点计算另外的浮点计算3浮点计算浮点数据存操作sd2浮点数据取操作ld浮点计算1浮点数据取操作ld浮点数据存操作sd07例41对于下面的源代码fori1
第四章指令级并行及限制
4.1 指令级并行的概念 4.2 指令的动态调度 4.3 转移预测技术 4.4 多发射技术 4.5 向指令级并行的支持与限制 4.6 Intel Pentium 4 实例分析
15
（空转）
16
（空转）
17
SD
-16(R1),F12
18
LD
F14,-24(R1) 19
（空转）
20
ADDD F16,F14,F2
21
（空转）
22
（空转）
23
SD
-24(R1),F16 24
SUBI R1,R1,#32 25
（空转）
26
BNEZ R1,Loop 27
（空转）
28
25
结果分析: 这个循环每遍共使用了28个时钟周期有4个循环体，完成4个元素的操作平均每个元素使用28/4=7个时钟周期原始循环的每个元素需要10个时钟周期节省的时间:从减少循环控制的开销中获得的在整个展开后的循环中，实际指令只有14条，其它13个周期都是空转。效率并不高

标量处理机

第五章标量处理机
1．标量处理机：只有标量数据表示和标量指令系统的处
理机称为标量处理机。标量处理机是一种最通用，也是使用最普遍的处理机。
2．标量处理机中提高指令执行速度的主要途径有：
①提高主频；②缩短CPI——设计更好的算法和功能部件；③指令级并行——主要方法，又可分为：
a．流水线技术和超流水线技术；
2．主存操作数相关例如：k: add [0001],ax k+1: mov bx, [0001]
2021/8/10
第五章标量处理机
第8 页
5.1 先行控制技术
在现代计算机中，中间结果一般写入寄存器，所以该类相关发生不多。解决方法：推后分析法。
2021/8/10
第五章标量处理机
第9 页
5.1 先行控制技术
1．采用先行控制技术的处理机结构
2021/8/10
第五章标量处理机
第4 页
5.1 先行控制技术
2．四个先行缓冲栈（1）先行指令缓冲栈——缓冲主存和指令分析器（2）先行操作栈——存放经过指令分析器预处理后的指
令。这种预处理内容很多。
2021/8/10
第五章标量处理机
第5 页
5.1 先行控制技术
2021/8/10
第五章标量处理机
第15 页
5.1 先行控制技术
对于条件转移，相关最严重的情况发生在条件码是由上一条指令产生的。
下面是条件转移对程序执行速度影响的分析：
① 如果转移不成功——运算器等待一个时钟周期 ② 如果转移成功
如果L在先行指令缓冲栈中，则条件转移对程序执行的影响是：
a．作废k+2到L-1之间的所有指令； b．运算器等待一个时钟周期。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

▲
5/137
5.1 指令级并行的概念
例如，考虑下述语句：
for （i=1； i<=500； i=i＋1） a[i]=a[i]＋s；

每一次循环都可以与其它的循环重叠并行执行；在每一次循环的内部，却没有任何的并行性。
5. 最基本的开发循环级并行的技术
循环展开（loop unrolling）技术采用向量指令和向量数据表示
开发ILP的途径有两种

资源重复，重复设置多个处理部件，让它们同时执行相邻或相近的多条指令；采用流水线技术，使指令重叠并行执行。

本章研究：如何利用各种技术来开发更多的指令
级并行（硬件的方法）
▲ 3/137
5.1 指令级并行的概念
1. 开发ILP的方法可以分为两大类
主要基于硬件的动态开发方法
第5章指令级并行及其开发——硬件方法
▲
1/137
5.1 5.2
指令级并行的概念相关与指令级并行
5.3
5.4 5.5
指令的动态调度
动态分支预测技术多指令流出技术
▲
2/137
指令级并行：指指令之间存在的一种并行性，利
用它，计算机可以并行执行两条或两条以上的指令。
（ILP：Instruction-Level Parallelism）
只有在可能会导致错误的情况下，才保持程序顺序。
▲ 8/137
5.2 相关与指令级并行
4. 控制相关并不是一个必须严格保持的关键属性。 5. 对于正确地执行程序来说，必须保持的最关键的两个属性是：数据流和异常行为。
保持异常行为是指：无论怎么改变指令的执行顺
序，都不能改变程序中异常的发生情况。

系，但也因此受阻。
▲ 14/137
5.3 指令的动态调度
在前面的基本流水线中：
ID
检测结构冲突检测数据冲突一旦一条指令受阻，其后的指令都将停顿。
▲
15/137
5.3 指令的动态调度
为了使上述指令序列中的SUB.D指令能继续执行
下去，必须把指令流出的工作拆分为两步：

检测结构冲突等待数据冲突消失
只要检测到没有结构冲突，就可以让指令流出。并且流出后的指令一旦其操作数就绪就可以立即执行。 2. 乱序执行
指令的执行顺序与程序顺序不相同
指令的完成也是乱序完成的

即指令的完成顺序与程序顺序不相同。
▲
16/137
5.3 指令的动态调度
3. 为了支持乱序执行，我们将5段流水线的译码阶段再分为两个阶段：流出（Issue，IS）：指令译码，检查是否存在结构冲突。（in-order issue) 读操作数（Read Operands，RO）：等待数据冲突消失，然后读操作数。 (out of order execution)
5.3.1 动态调度的基本思想
1. 到目前为止我们所使用流水线的最大的局限性:
指令是按序流出和按序执行的考虑下面一段代码：
DIV.D ADD.D SUB.D F4，F0，F2 F10，F4，F6 F12，F6，F14
ADD.D指令与DIV.D指令关于F4相关，导致
流水线停顿。 SUB.D指令与流水线中的任何指令都没有关
即原来程序中是怎么发生的，改变执行顺序后还是怎么发生。弱化为：指令执行顺序的改变不能导致程序中发生新的异常。

数据流：指数据值从其产生者指令到其消费者指
令的实际流动。
▲
9/137
5.2 相关与指令级并行

分支指令使得数据流具有动态性，因为一条指令有可能数据相关于多条先前的指令。分支指令的执行结果决定了哪条指令真正是所需数据的产生者。
▲ 4/137
5.1 指令级并行的概念
3. 基本程序块
基本程序块：一串连续的代码除了入口和出口以
外，没有其他的分支指令和转入点。
程序平均每4～7条指令就会有一个分支。
4. 循环级并行：使一个循环中的不同循环体并行执行。
开发循环的不同叠代之间存在的并行性

最常见、最基本
是指令级并行研究的重点之一
基于软件的静态开发方法
2. 流水线处理机的实际CPI
理想流水线的CPI加上各类停顿的时钟周期数：
CPI流水线 = CPI理想 + 停顿结构冲突 + 停顿数据冲突 + 停顿控制冲突
理想CPI是衡量流水线最高性能的一个指标。
IPC：Instructions Per Cycle
（每个时钟周期完成的指令条数）
减少数据相关导致的停顿。
▲
12/137
5.3 指令的动态调度

优点：

能够处理一些在编译时情况不明的相关（比如涉
及到存储器访问的相关），并简化了编译器；

能够使本来是面向某一流水线优化编译的代码在其它的流水线（动态调度）上也能高效地执行。

以硬件复杂性的显著增加为代价
▲
13/137
5.3 指令的动态调度
Skipnext：OR
R7，R8，R9
▲
11/137
5.3 指令的动态调度
静态调度

依靠编译器对代码进行静态调度，以减少相关和冲突。
它不是在程序执行的过程中、而是在编译期间进行代码调度和优化。

通过把相关的指令拉开距离来减少可能产生的停顿。
动态调度

在程序的执行过程中，依靠专门硬件对代码进行调度，
相关是程序固有的一种属性，它反映了程序中指
令之间的相互依赖关系。
具体的一次相关是否会导致实际冲突的发生以及
该冲突会带来多长的停顿，则是流水线的属性。 2. 可以从两个方面来解决相关问题：
保持相关，但避免发生冲突。
指令调度
通过代码变换，消除相关。
3. 程序顺序：由原来程序确定的在完全串行方式下指令的执行顺序。

有时，不遵守控制相关既不影响异常行为，也不
改变数据流。

可以大胆地进行指令调度，把失败分支中的指令调度到分支指令之前。
▲
137
5.2 相关与指令级并行

举例： DADDU BEQZ DSUBU DADDU R1，R2，R3 R12，Skipnext R4，R5，R6 R5，R4，R9
▲
6/137
5.2 相关与指令级并行
1. 相关与流水线冲突
相关有三种类型：
数据相关、名相关、控制相关
流水线冲突是指对于具体的流水线来说，由于相关
的存在，使得指令流中的下一条指令不能在指定的时钟周期执行。
流水线冲突有三种类型：结构冲突、数据冲突、控制冲突
▲
7/137
5.2 相关与指令级并行