高级流水线-超长指令字

合集下载

原题目：指令集体系结构的分类与比较

原题目：指令集体系结构的分类与比较引言指令集体系结构指的是计算机中用于执行指令的硬件和软件的组合方式。

不同的指令集体系结构对计算机程序的编写、执行和性能都有着不同的影响。

本文将对指令集体系结构进行分类，并对各种指令集体系结构进行比较。

指令集体系结构的分类常见的指令集体系结构主要有以下几类：1. 精简指令集（RISC）体系结构：RISC体系结构以简化指令为特点，将指令集精简为少量、固定长度的指令。

它注重简化指令的执行时间，减少指令的执行周期，以提高指令的执行效率。

常见的RISC体系结构有ARM和PowerPC等。

2. 复杂指令集（CISC）体系结构：CISC体系结构以实现复杂指令为特点，将指令集设计为丰富多样、灵活可变的指令。

它注重减少指令数量，提高编写程序的便利性，但由于指令复杂，执行时间会相对较长。

常见的CISC体系结构有x86和MIPS等。

3. 超长指令字（VLIW）体系结构：VLIW体系结构在指令流水线的基础上，通过编译器将多个指令捆绑为一条宽指令，以提高指令级并行度。

它注重编译器的优化和指令的同时执行，以提高程序的性能。

常见的VLIW体系结构有Itanium和EPIC等。

4. 特定领域指令集（DSP）体系结构：DSP体系结构主要针对数字信号处理领域的需求，将指令集设计为高度优化的专用指令，以提高数字信号处理的效率。

常见的DSP体系结构有TI TMS320和Motorola DSP等。

指令集体系结构的比较不同的指令集体系结构在性能、功耗、编程模型、兼容性等方面存在差异。

1. 性能：RISC体系结构在指令执行速度方面相对较快，适合于需要较高计算能力的应用；CISC体系结构则在编写程序的便利性和指令数量方面相对优势，适合于需要灵活指令和多功能性的应用。

2. 功耗：RISC体系结构通常具有较低的功耗，适合于功耗敏感的移动设备；CISC体系结构由于指令复杂，功耗相对较高，适合于高性能计算机系统。

3. 编程模型：RISC体系结构通常采用Load/Store指令模型，需要通过专门的Load/Store指令对寄存器和内存进行数据传输；CISC体系结构采用的是内存-寄存器指令模型，可以直接对内存进行操作。

山东大学自考强化实践能力培养考核计算机科学与技术计算机系统结构作业答案

一、简答题1. 试述现代计算机系统的多级层次结构。

答：现代通用的计算机系统是由紧密相关的硬件和软件组成的。

从使用语言的角度，可以将系统看成是按功能划分的多层机器级组成的层次结构。

层次结构由高到低分别为应用语言机器级、高级语言机器级、汇编语言机器级、操作系统机器级、传统机器语言机器级和微程序机器级。

应用语言机器级：是为满足专门的应用设计的。

使用面向某种应用的应用语言编写的程序一般是经应用程序包翻译成高级语言程序后，再逐级向下实现。

高级语言机器级：其上的程序可以先用编译程序整个翻译成汇编语言程序或机器语言程序，再逐级或越级向下实现，也可以用汇编语言程序、机器语言程序，甚至微指令语言程序解释实现。

汇编语言机器级：则是先用汇编程序整个将它变换成等效的二进制机器语言目标程序，再在传统机器级上实现。

操作系统机器级：提供了传统机器级所没有，但为汇编语言和高级语言使用和实现所用的基本操作、命令及数据结构。

传统机器级：采用组合逻辑电路控制，其指令可直接用硬件来实现,也可以采用微程序控制，用微指令(程序来解释实现。

微指令直接控制硬件电路的动作。

2. 试述RISC 设计的基本原则和采用的技术。

答：（一）RISC 设计的基本原则：(1)确定指令系统时，只选择使用频度很高的那些指令，再增加少量能有效支持操作系统、高级语言实现及其他功能的指令，大大减少指令条数，使之一般不超过100条。

(2)减少指令系统所用寻址方式种类，一般不超过两种。

(3)让所有指令都在一个机器周期内完成。

(4)扩大通用寄存器数，一般不少于32个，尽量减少访存，所有指令只有存(STORE)、取(LOAD)指令访存，其他指令一律只对寄存器操作。

(5)为提高指令执行速度，大多数指令都用硬联控制实现，少数指令才用微程序实现。

(6)通过精简指令和优化设计编译程序，简单有效地支持高级语言的实现。

（二）RISC 设计采用的技术：(1)按设计RISC 的一般原则来设计。

计算机体系结构——流水线技术（Pipelining）

2.按功能分
单功能流水线：流水线只完成一种固定功能多功能流水线：流水线可以完成多种功能，如 TI公司的ASC机，8段流水线，能够实现：定点加减法、定点乘法、浮点加法等功能 3.按同一时间内各段之间的连接方式分静态多功能流水线：同一时间内，多功能结构只能按一种功能的连接方式工作。动态多功能流水线：在同一时间内，可以有多种功能的连接方式同时工作 4.按处理的数据类型标量流水线向量流水线 5.按控制方式同步流水线异步流水线：当Si功能段要向Si+1段传送数据时，首先发出就绪信号，Si+1功能段收到信号后，向Si回送一个回答信号。 6.按任务从输出端的流出顺序顺序流水方式：指令流出顺序 = 指令流入顺序乱序流水方式：指令流出顺序！= 指令流入顺序 7. 线性流水线——不带反馈回路的流水线
三、流水线的分类（了解）
四、流水线相关及冲突（重点） 1.流水线相关 2.流水线冲突 3.流水线冲突带来问题 4.数据冲突及其解决方案 5.结构冲突及其解决方案 6.控制冲突及其解决方案
五、流水线性能分析(含例题讲解) 1.流水线的基本参数——吞吐率 2.流水线的基本参数——加速比 3.流水线的基本参数——效率 4.结果分析 5.有关流水线性能的若干问题
整体评估、反馈、再改进
3. 指令周期
单周期处理机模型：一个周期完成一个指令（每个周期是等长的），指令长度可能不一样，会造成很大的浪费多周期处理机模型：将一个指令的完成划分成若干个周期来实现流水线模型
二、流水线技术 1. 什么是流水线？计算机中的流水线是把一个重复的过程分解为若干个子过程，每个子过程与其他子过程并行进行。由于这种工作方式与工厂中的生产流水线十分相似，因此称为流水线技术从本质上讲，流水线技术是一种时间并行技术。

10-3 超标量、超级流水线和超长指令字计算机(郑宏)

• 单发射处理机的设计目标是每个时钟周期平均执行一条机器指令；但由于转移和数据相关的问题，还有其它的资源冲突，使得实际上达不到这一目标。
单发射和多发射
多发射
– 在一个时钟周期中发出多条指令。 – 常见的多发射处理机有：
✓ 超标量处理机 ✓ 超流水线处理机 ✓ 超长指令字（ VLIW ）处理机。
ID
EX
WR
IF
ID
EX
WR
IF
ID
EX
WR
IF
ID
EX
WR
IF
ID
EX
WR
有三条4级的流水线，每时钟周期发射3条指令
超标量处理机
超标量处理机内部往往具有多个执行部件，其个数可能多于每个周期发射的指令条数。
超标量处理机实际上是以增加硬件资源为代价来换取处理机性能的，即以空间换取了时间。
目前，在多数超标量处理机中，每个时钟周期发射两条指令，通常不超过四条。
1
2
3
456来自I1 IFID EX WR
时钟周期
I2
IF ID EX WR
超流水线处理机侧重
I3
IF ID EX WR
开发时间并行性，在
I4
IF ID EX WR
公共硬件上采用较短
I5
IF ID EX WR
的时钟周期，深度流
I6
IF
ID EX WR
水来提高速度。
指令将每一级流水线分成三个子流水线，
每个时钟周期分时发送3条指令的超流水线
由于存在有数据相关和条件转移等问题，采用一般的指令调度技术，理论上的最佳情况是每个时钟周期发射3条指令。
超流水线处理机
特点：

计算机体系结构的发展历程

计算机体系结构的发展历程计算机体系结构是指计算机中各个组成部分的组织方式和相互连接关系，它决定了计算机的功能和性能。

随着计算机技术的不断发展，计算机体系结构也经历了多次演进和革新。

本文将为您介绍计算机体系结构的发展历程，从最早的冯·诺依曼体系结构到现代的并行计算体系结构。

一、冯·诺依曼体系结构冯·诺依曼体系结构是现代计算机体系结构的鼻祖，由冯·诺依曼于1945年提出。

其主要特点是将数据和指令以同等地位存储在存储器中，通过控制器和运算器的协作来实现计算机的运算功能。

冯·诺依曼体系结构由五个基本部件组成：运算器、控制器、存储器、输入设备和输出设备。

二、批处理计算机随着计算机技术的发展，人们对计算机的应用需求也越来越高。

在20世纪50年代和60年代，批处理计算机开始出现，采用了批处理方式进行运算。

批处理计算机顺序地执行一系列任务，无需人工干预。

该体系结构采用分时操作系统，将计算机资源合理分配给多个用户，提高了计算机的利用率。

三、指令流水线指令流水线是20世纪60年代末和70年代初提出的一种计算机体系结构，旨在提高计算机运算速度。

它将指令的执行分为多个步骤，并行地执行不同的指令步骤，从而实现多条指令的同时执行。

指令流水线大大提高了计算机的运算效率，广泛应用于各个领域。

四、超标量和超长指令字超标量和超长指令字是为了进一步提高计算机的性能而提出的两种计算机体系结构。

超标量体系结构通过增加硬件资源提高指令并行度，实现多条指令的同时执行。

超长指令字体系结构通过将多条指令打包成一条长指令，在一次指令的执行过程中完成多条指令的操作，从而提高计算机的指令级并行度。

五、并行计算体系结构随着计算机应用对计算能力的需求不断增加，并行计算成为了计算机体系结构的一个重要发展方向。

并行计算体系结构将计算任务分为多个子任务，由多个处理器并行地执行，从而提高计算机的运算速度。

并行计算体系结构广泛应用于高性能计算、人工智能等领域。

流水线原理——ILP

– 编译器，指令调度。乱序执行，动态调度
llxx@ 18
直到C6，数据才可用
指令调度
• 指令调度，是RISC微处理器编译技术之一。 • 指令调度是解决数据相关的最经济的方法，它可以解决RAW、WAR 和WAW数据相关。 • 假设有这样一个指令序列： I0: R1+R2R3 I1: R3+R4R5 I2: R7 OR R8R9 • 假定我们按下列方法重新安排指令次序： R1+R2 R3 R7 OR R8 R9 R3+R4 R5
从此开始，每个周期流出一条指令，IPC≈1
Execute Store res.
pipelined instruction execution
Time
llxx@
9
流水线分类
• 单功能流水线：只能完成一种功能的流水线，如浮点加法流水线。 • 多功能流水线：流水线的各段可以进行不同的连接，从而使流水线在不同的时间完成不同的功能。 • 静态流水线：在某一时间段内，流水线的各段只能按同一种功能的连接方式工作，即只有当输入是一串相同性质的操作时其性能才能得到发挥。 • 动态流水线：在某一段时间内，某些段正在实现某类操作（定点乘），其他段却在实现另一类操作（浮点加）。 • 线性流水线：流水线的各段串行连接，没有反馈回路。 • 非线性流水线：流水线中除了串行的通路，还有反馈回来。 • 顺序流水线：流水线的流出顺序与其流入顺序相同。 • 乱序流水线：流水线的流出顺序与其流入顺序不同。
Pipelined
non-pipelined dish cleaning
Time
pipelined dish cleaning
Time
• 流水过程由多个相互联系的子过程组成，每个子过程称为流水线的“级”或“段”。

第六章指令流水线

Instruction Memory Instruction
应保存后面阶段用到的指令和PC+4的值！
指令在随后阶段被送出译码！ PC+4用来计算转移目标地址
不需控制信号，因为每条指令执行功能一样，是确定的，无需根据指令的不同来控制执行不同的操作！
译码/取数（Reg/Dec）阶段
Clk
° Location 10: lw $1, 0x100($2 ) You are here! 能：$1 <- Mem[($2) + 0x100]
Ifetch Reg/Dec RegWr
1 0
功
Mem Branch
Exec ExtOp ALUOp
PC+4 Imm Rs Ra Rb Rt RFile Rt Rw Di Rd
PC+4 Imm busA bus Exec B Unit
0 1
RegWr 是Wr段的信号
Mem/Wr Register Ex/Mem Register Zero Data Mem RADo WA Di
ID/Ex Register
Store指令呢？
RegDes=x, ALUSrc=1 ALUop=addu, Extop=1
0 Mux
Branch指令呢？
RegDes=x, ALUSrc=0 ALUop=subu, Extop=1
Extender
imm 16
32 ExtOp=?
1
Ori指令呢？
RegDes=0, ALUSrc=1 ALUop=or, Extop=0
°Exec：16位立即数符号扩展后与寄存器值相加，计算主存地址 °Mem：将寄存器读出的数据写到主存 • Wr: 加一个空的写阶段，使流水线更规整！

指令流水线——精选推荐

指令流⽔线流⽔线指令如果可以⼀个重复的过程分解成若⼲个⼦过程，每个⼦过程可以和其他的⼦过程并⾏；⼀条指令的执⾏可以分成多个阶段，根据计算机的不同，具体的分法也不同；例如之前总结的⼀个指令的执⾏可能分成如下⼏个阶段1. 取址阶段2. 间址阶段3. 执⾏阶段4. 中断阶段举个例⼦，某个指令执⾏3个阶段，每个阶段执⾏都是时间t，执⾏n次顺序执⾏： 3*n*t⼀次重叠执⾏ t + 2*n*t⼆次重叠执⾏：2t + n*t流⽔线⽅式的特点：1. 把⼀个任务分解成⼏个有联系的⼦任务，每个⼦仍⽆都是⼀个专门的功能部件来执⾏；多个部件并⾏来缩短时间；2. 每个部件都要有⼀个缓冲寄存器，锁存器，⽤来保存流⽔线执⾏的指令结果；3. 各个功能端尽量时间相等，否则会引起堵塞，断流；4. 同⼀类任务，连续任务5.流⽔线有装⼊时间和排空时间，第⼀个任务进⼊到流⽔线道输出流⽔线的时间，排空时间是最后⼀个任务进⼊到排除流⽔线的时间；根据不同的分类⽅式，流⽔线可以分成如下的不同种类：部件级别流⽔线：算术逻辑运算，例如浮点数加法-> 求阶差，对阶，尾数相加，规格化 4个流程处理器级别的流⽔：取指，译码，执⾏，访存，写回处理间级别的流⽔：宏流⽔，每个处理机都完成⼀个单独的任务，结果存放在下⼀个处理器共享的储存器中按照功能种类分单功能流⽔：只能使⽤⼀种固定专门功能的流⽔线；多功能流⽔：不同连接⽅式可以同时或者不同时实现多种功能的流⽔线；按照各个段之间的连接⽅式动态流⽔线：各段只能同⼀种功能连接⽅式⼯作静态流⽔线：某些段某种运算时，另⼀些段进⾏另⼀种运算按照是否有反馈信号线性流⽔线：从输⼊到输出每个段只允许经过⼀次，不存在反馈回路⾮线性流⽔线：存在反馈回路，某些段数次通过流⽔线，线性递归运算流⽔线性能指标1. 流⽔线吞吐率单位时间内流⽔线完成的任务数量；TP = n/Tk；对于理想的流⽔线时间 Tk=(k+n-1)dT2. 流⽔线的加速⽐不使⽤流⽔线的时间和使⽤流⽔线的时间⽐值S=T0/Tk对于理想的流⽔线作业 S=kn/(k+n-1);3.流⽔线的效率E=n个任务占⽤的时空有效⾯积/n个任务所⽤的时间和k个流⽔段围成时空区总⾯积；影响流⽔线性能的因素1. 多条指令在同⼀时刻真多资源⽽形成的冲突叫做资源冲突2. 相关问题：相邻指令间存在关联，使得流⽔线停顿：2.1 数据冲突（数据冒险）下⼀条指令会⽤到这⼀条指令的结果，数据冒险指令，如果多条指令重叠会出现冲突；1）后续指令暂停⼀到两个时钟周期，硬件阻塞stall软件插⼊NOP⽅法；2）专⽤通路，不写回寄存器直接结果作为输⼊数据，数据旁路技术3）指令编译优化，调整指令顺序2.2 控制冲突（控制冒险）指令在确定下⼀条指令位置，例如发⽣转移调⽤返回等会改变PC值，造成断流1）分⽀预测，今早⽣成转移⽬标地址，静态预测动态预测；2）预取转移成功或者不成功的⽬标指令3）加快提前形成条件码4）提⾼转移⽅向的猜准率cache缺失处理过程也会造成流⽔线阻塞超标量流⽔线1. 超标量流⽔线技术每个时钟周期并发多个独⽴指令，⽤并⾏的操作⽅式将两条或者多条指令编译并执⾏；需要多个功能部件2. 超流⽔线技术在⼀个时钟周期内，⼀个功能部件使⽤多次，不调整执⾏顺序，编译程序解决优化问题3. 超长指令字：挖掘出指令间潜在的并⾏性，多个指令组合成⼀条具有多个操作码字段的超长指令字(多达⼏百位)，需要多个处理部件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

流水线介绍
（3）计算机应用
CPU的工作也可以大致分为指令的获取、解码、运算和结果的写入四个步骤，采用流水线设计之后，指令（好比待装配的汽车）就可以连续不断地进行处理。在同一个较长的时间段内，显然拥有流水线设计的CPU 能够处理更多的指令。来自流水线核心思想超常指令字
（1）定义
超常指令字（VLIW：VeryLongInstructionWord）是由美国Yale大学教授Fisher提出的。它有点类似于超级标量，是一条指令来实现多个操作的并行执行，之所以放到一条指令是为了减少内存访问。通常一条指令多达上百位，有若干操作数，每条指令可以做不同的几种运算。那些指令可以并行执行是由编译器来选择的。通常VLIW机只有一个控制器，每个周期启动一条长指令，长指令被分为几个字段，每个字段控制相应的部件。由于编译器需要考虑数据相关性，避免冲突，并且尽可能利用并行，完成指令调度，所以硬件结构较简单。
超常指令字
（2）工作机制
在一个基本时钟周期内能够分时发射多条指令的处理机，一般流水线的级数多达8条及以上。超流水线处理机采用多相的高频时钟。一台度为m的超流水线处理机的时钟Δt’只是基本时钟周期Δt的1/m。如果一条指令的解释需要K个Δt，则共需KmΔt’的时钟解释。让指令之间错开一个Δt’的时间，重叠流水地工作，执行完 N条指令的时间为： [K+(N-1)/m] Δt 当N趋于无穷大时，并行度可达到最大值m。
高级流水线技术
超长指令字
网工1101班
朱旭宏张旭张佳煜 2011011317 2011011316 2011011331
成员介绍
?
?
?
成员介绍
其实
张佳煜
张旭
朱旭宏
主要内容
一、流水线介绍二、流水线核心思想三、工作机制
四、其优缺点
流水线介绍
（1）定义
流水线（pipeline）技术是指在程序执行时多条指令重叠进行操作的一种准并行处理实现技术。流水线是 Intel首次在486芯片中开始使用的。流水线的工作方式就象工业生产上的装配流水线。在CPU中由5—6个不同功能的电路单元组成一条指令处理流水线，然后将一条X86指令分成5—6步后再由这些电路单元分别执行，这样就能实现在一个CPU时钟周期完成一条指令，因此提高CPU的运算速度。经典奔腾每条整数流水线都分为四级流水，即指令预取、译码、执行、写回结果，浮点流水又分为八级流水。
超长指令字
（3）优缺点
缺点
①程序代码长度增加了提高并行性而进行的大量的循环展开。指令字中的操作槽并非总能填满。 ②采用了锁步机制任何一个操作部件出现停顿时，整个处理机都要停顿。 ③机器代码的不兼容性
超长指令字
（4）应用
超长指令字DSP面向MP3、PMP中的SoC应用
台湾地区的研究人员已自主开发出了一种超长指令字(VLIW)DSP，适用于MP3、PMP及其它低功耗便携产品中的SoC。同时，他们也在致力于开发下一代多内核、多线程架构，以处理高清编码或视频搜索之类的任务。
流水线介绍
不久之后就发现，某个时段中一辆汽车在进行装配时，其它三个工人处于闲置状态，显然这是对资源的极大浪费！于是开始思考能有效利用资源的方法：在第一辆汽车经过冲压进入焊接工序的时候，立刻开始进行第二辆汽车的冲压，而不是等到第一辆汽车经过全部四个工序后才开始。之后的每一辆汽车都是在前一辆冲压完毕后立刻进入冲压工序，这样在后续生产中就能够保证四个工人一直处于运行状态，不会造成人员的闲置。这样的生产方式就好似流水川流不息，因此被称为流水线。
谢谢！
流水线介绍
（2）产生背景
借鉴了工业流水线制造的思想，现代CPU也采用了流水线设计。在工业制造中采用流水线可以提高单位时间的生产量；同样在CPU中采用流水线设计也有助于提高CPU的频率。例如装配一辆汽车需要4个步骤：冲压、焊接、涂装、总装；同时对应地需要冲压、焊接、涂装和总装四个工人。采用流水线的制造方式，同一时刻四辆汽车在装配。如果不采用流水线，那么第一辆汽车依次经过上述四个步骤装配完成之后，下一辆汽车才开始进行装配，最早期的工业制造就是采用的这种原始的方式。未采用流水线的原始制造方式，同一时刻只有一辆汽车在装配。
超长指令字
（3）优缺点
优点
① 把能并行执行的多条指令组装成一条很长的指令 ② 设置多个功能部件 ③ 指令字被分割成一些字段，每个字段称为一个操作槽，直接独立地控制一个功能部件。 ④ 超长指令字结构的处理器采用软件静态编译的方法替代动态调度，由编译器完成在更大范围内的指令调度，有效地降低了流水线的复杂度，使单芯片上可以容纳更多的重复资源以同时处理多条指令。