chap4-3指令级并行

合集下载

计算机组成原理 [袁春风]chap3_1

15
南京大学计算机系多媒体技术研究所袁春风
3.2.3 先行进位ALU
(1)为什么用先行进位方式行波进位是串行逐级传递的整个和的生成受到行波进位的影响因此现代计算机采用一种先行进位(Carry look ahead)方式 (2)如何产生先行进位定义两个辅助函数 Gi=aibi…进位生成 Pi=ai⊕bi…进位传递通常把实现上述逻辑的电路称为进位生成/传递部件全加逻辑方程 Si=Pi⊕Ci Ci+1=Gi+PiCi (i=0,1,…n) 设n=4,则 C1=G0+P0C0 C2=G1+P1C1=G1+P1G0+P1P0C0 C3=G2+P2C2=G2+P2G1+P2P1G0+P2P1P0C0 C4=G3+P3C3=G3+P3G2+P3P2G1+P3P2P1G0+P3P2P1P0C0 由上式可知:各进位之间无等待相互独立并同时产生通常把实现上述逻辑的电路称为4位CLA部件由此根据Si=Pi⊕Ci 可并行求出各位和通常把实现Si=Pi⊕Ci的电路称为求和部件 CLA加法器由“进位生成/传递部件” “CLA部件”和“求和部件”构成
高位进位逻辑表达式
9
南京大学计算机系多媒体技术研究所袁春风
全加和逻辑
10
南京大学计算机系多媒体技术研究所袁春风
全加和逻辑续
11
南京大学计算机系多媒体技术研究所袁春风
全加器逻辑图
上述全加器和Sum的延迟为6ty,进位Cout的延迟为 (假定一个与/或门延迟为1ty 异或门的延迟则为
AL BL CL DL CS DS SS ES IP 16位

chap存储器系统讲课文档

chap存储器系统
第一页，共63页。
第5章存储器系统
5.1 存储器件的分类（掌握） ✓ 按存储介质分类
✓ 按读写策略分类
5.2 半导体存储芯片的基本结构与性能指标（掌握）
✓ 随机存取存储器
✓ 只读存储器 ✓ 存储器芯片的性能指标 5.3 存储系统的层次结构（掌握）
✓ 存储系统的分层管理 ✓ 虚拟存储器与地址映射 ✓ 现代计算机的多层次存储体系
缺点：需要两个MOS管；编程电压偏高；P沟道管的开关
速度低。
16 16
第十六页，共63页。
电可擦除的ROM(EEPROM)
特点：擦除和写入均利用隧道效应。浮栅与漏区间的氧化物层极薄（20纳米以下），称为隧道区。当隧道区电场大于107V/cm时隧道区
双向导通。
1177
第十七页，共63页。
读出
擦除（写1）
……
栈顶 (栈底)
1022CH 1A B1
1022EH 12 34 10230H 00 11
SS 10 20
SP 0000022C3E0
（c）出栈操作（实栈顶）
8/42
5.2 半导体存储器结构
地址译码器：接收来自CPU的n位地址，经译码后产生2n个地址选择信号，实
现对片内存储单元的选址
控制逻辑电路：接收片选信号CS及来自CPU的读/写控制信号，形成芯片内部控制信号，控制数据的读出和写入。
CE：片选，低电平有效
OE：输出允许输入线，低电平有效 WE：写允许输入线，低电平有效
VCC：工作电源 VPP：擦除/编程电源，当其为高压12.0V时，才能
向指令寄存器中写入数据。当VPP < VCC＋2V时
，存储单元的内容不变

chap4+控制器

地址总线数据总线控制总线
CPU
PC
MAR
存储器
CU
IR
MDR
3. 执行周期数据流
不同指令的执行周期数据流不同
4 . 中断周期数据流
CPU 地址总线数据总线控制总线
PC
MAR
存储器
CU
MDR
4.3 微操作命令的分析
完成一条指令分 4 个工作周期
取指周期间址周期

组合逻辑型（硬布线控制器） – 采用组合逻辑技术来实现，其时序控制信号形成部件是由门电路组成的复杂树形网络，以使用最少器件数和取得最高操作速度为设计目标。 – 最大优点是速度快，但是时序控制信号形成部件的结构不规整，难以实现设计自动化。
存储逻辑型（微程序控制器） – 采用存储逻辑来实现的，也就是把微操作信号代码化，使每条机器指令转化成为一段微程序并存入一个专门的存储器（控制存储器）中，微操作控制信号由微指令产生。 – 它具有设计规整、扩充指令方便的优点，易于实现自动化设计。但是，由于它增加了一级控制存储器，所以指令执行速度比组合逻辑控制器慢。
控制 CPU 操作其中 MAR、MDR、IR PC 用户不可见用户可见
(2) 状态寄存器
PSW 寄存器存放程序状态字，存放条件码中断标记寄存器
3. 举例
Z8000 8086
MC 68000（自学）
四、控制单元 CU 和中断系统

CU： – 产生全部指令的微操作命令序列 – 为数据通路的建立提供各种操作信号 – 操作信号提供的依据是指令操作码和时序信号两个概念 – 数据通路是许多寄存器之间传送信息的通路，包括寄存器、ALU和连接它们的内部总线，操作控制器在各寄存器之间建立数据通路。 – ALU将两个操作数进行运算并将结果写回的过程称为数据通路周期。

2024年国家电网招聘之电网计算机考试题库

2024年国家电网招聘之电网计算机考试题库单选题（共45题）1、Hash 表示用于数据存储的一种有效的数据结构，Hash 表等查找复杂度依赖于Hash 值算法的有效性，在最好的情况下，Hash 表的查找复杂度为（）。

A.O(nlogn)B.O(logn)C.O(n)D.O(1)【答案】 D2、以下白血病属于惰性淋巴造血疾病的是：（）A.急性红白血病（M6）B.急性淋巴细胞白血病C.多发性骨髓瘤D.毛细胞性白血病【答案】 D3、M2M 技术的核心理念是（）A.简单高效B.网络一切C.人工智能D.智慧地球【答案】 B4、数据库设计包括需求分析、概念结构设计、逻辑结构设计、物理结构设计等阶段，其中“E-R模型到关系模型转换”属于数据库设计的()。

A.需求分析B.概念结构C.逻辑结构设计D.物理结构设计【答案】 C5、在磁盘的各磁道中（）。

A.最外圈磁道的位密度最大B.最内圈磁道的位密度最大C.中间磁道的位密度最大D.所有磁道的位密度一样大【答案】 B6、IP 地址为 200.3.6.2 的网络类别是（）。

A.A 类B.B 类C.C 类D.D 类【答案】 C7、某质量技术监督部门为检测某企业生产的批号为B160203HDA的化妆品含铅量是否超标，通常宜采用（）的方法。

A.普查B.查有无合格证C.抽样检查D.查阅有关单据【答案】 C8、Email 应用中需采用（）协议来支持多种格式的邮件传输。

A.MIMEB.SMTPC.POP3D.Telnet【答案】 A9、计算机的运算速度可以用 MIPS 来描述，它的含义是（）。

A.每秒执行百万条指令B.每秒处理百万个字符C.每秒执行千万条指令D.每秒处理千万个字符【答案】 A10、若系统在运行过程中，由于某种硬件故障，使存储在外存上的数据部分损失或全部损失，这种情况称为（）。

A.事务故障B.系统故障C.介质故障D.人为错误【答案】 C11、一个节拍信号的宽度是指（）A.指令周期B.机器周期C.时钟周期D.存储周期【答案】 C12、某用户从云服务提供商租用虚拟机进行日常使用，外出旅游时把虚拟机归还给云服务提供商，这体现了云计算的哪个关键特征（）。

《计算机操作系统教程》第三版答案

第一章操作系统概述课后习题1. 硬件将处理机划分为两种状态，即管态和目态，这样做给操作系统设计带来什么好处 ? 答：便于设计安全可靠的操作系统。

管态和目态是计算机硬件为保护操作系统免受用户程序的干扰和破坏而引入的两种状态。

通常操作系统在管态下运行，可以执行所有机器指令；而用户程序在目态下运行，只能执行非特权指令。

如果用户程序企图在目态下执行特权指令，将会引起保护性中断，由操作系统终止该程序的执行，从而保护了操作系统。

2. 何为特权指令?举例说明之。

如果允许用户执行特权指令，会带来什么后果？答：只能在态下才能执行的指令称为特权指令。

如开关中断、置程序状态寄存器等。

如果允许用户执行特权指令，它将不仅影响当前运行的程序，而且还有可能影响操作系统的正常运行，甚至整个系统。

3. 中断向量在机器中的存储位置是由硬件确定的，还是由软件确定的 ? 答：中断向量在机器中的位置是由硬件确定的。

例如，在 INTEL 80x86 CPU 中，内存空间0x00000——0x003ff为中断向量空间。

4. 中断向量的内容是由操作系统程序确定的还是由用户程序确定的？答：中断向量的内容是由操作系统程序确定的。

向量的内容包括中断处理程序的入口地址和程序状态字（中断处理程序运行环境），中断处理程序是由操作系统装入内存的，操作系统将根据装入的实际地址和该中断处理程序的运行环境来填写中断向量。

5. 中断向量内的处理机状态位应当标明是管态还是目态 ? 为什么? 答：应当标明是管态。

该状态由系统初试化程序设置，这样才能保证中断发生后进入操作系统规定的中断处理程序。

6. 中断和程序并发之间的关系是什么？答：中断是程序并发的必要条件。

如果没有中断，操作系统不能获得系统控制权，无法按调度算法对处机进行重新分配，一个程序将一直运行到结束而不会被打断。

7. 说明“栈”和“堆”的差别．答：栈是一块按后进先出（FIFO）规则访问的存储区域，用来实现中断嵌套和子程序调用的参数和返回断点。

archit44

系统结构
4.3 动态分支预测技术

指令并行
处理器可达到的指令级并行度越高，控制相关的影响越大动态解决技术利用硬件对程序运行时分支的行为进行预测，提前对分支操作做出反应，加快分支处理的速度。分支预测的效果不仅取决于其准确性，而且与分支预测时的开销密切相关。分支转移的最终延迟取决于流水线的结构、预测的方法和预测错误后恢复所采取的策略动态分支预测技术要记录分支指令的历史、并据此决定预测的分支，还要尽快找到分支目标地址，从而避免控制相关造成流水线停顿
4.4 多指令流出技术

指令并行
将等于1的理想CPI减小，必须实现一个时钟周期流出（发射issue）多条指令
超标量(Superscalar)处理器：每个时钟周期流出多条指令（1～8），可以采用编译器进行静态调度顺序执行，也可以采用硬件动态调度乱序执行超长指令字(VLIW: Very Long Instruction Word)：通过编译器调度无关的多条指令（4～16）形成一条长指令，每个时钟周期流出一条长指令超级流水线(Super pipelining)：将每个功能部件进一步流水化，使得一个功能部件在一个时钟周期中可以处理多条指令（可以简单地理解为很长的流水线）

WAW 冲突（输出相关引起）如果在SUB.D写入F10 之前 ADD.D 执行结束，会出现问题
寄存器换名可以消除WAR和WAW冲突
指令并行
DIV.D F4,F0,F2 SUB.D F10,F4,F6 ADD.D F8,F12,F14

DIV.D F4,F0,F2 SUB.D F10,F4,F6 ADD.D F8,F6,F14
① 根据历史记录（预测位状态）进行分支预测 ② 根据实际分支情况修改预测位

计算机系统结构(第2版(课后习题答案

word 文档下载后可自由复制编辑你计算机系统结构清华第 2 版习题解答word 文档下载后可自由复制编辑1 目录1.1 第一章（P33）1.7-1.9 （透明性概念），1.12-1.18 （Amdahl定律），1.19、1.21 、1.24 （CPI/MIPS）1.2 第二章（P124）2.3 、2.5 、2.6 （浮点数性能），2.13 、2.15 （指令编码）1.3 第三章（P202）3.3 （存储层次性能）， 3.5 （并行主存系统），3.15-3.15 加 1 题（堆栈模拟），3.19 中（3）（4）（6）（8）问（地址映象/ 替换算法-- 实存状况图）word 文档下载后可自由复制编辑1.4 第四章(P250)4.5 （中断屏蔽字表/中断过程示意图），4.8 （通道流量计算/通道时间图）1.5 第五章（P343）5.9 （流水线性能/ 时空图），5.15 （2种调度算法）1.6 第六章（P391）6.6 （向量流水时间计算），6.10 （Amdahl定律/MFLOPS）1.7 第七章（P446）7.3 、7.29（互连函数计算），7.6-7.14 （互连网性质），7.4 、7.5 、7.26（多级网寻径算法），word 文档下载后可自由复制编辑7.27 （寻径/ 选播算法）1.8 第八章(P498)8.12 ( SISD/SIMD 算法)1.9 第九章(P562)9.18 ( SISD/多功能部件/SIMD/MIMD 算法)（注：每章可选1-2 个主要知识点，每个知识点可只选 1 题。

有下划线者为推荐的主要知识点。

）word 文档下载后可自由复制编辑2 例 , 习题2.1 第一章 (P33)例 1.1,p10假设将某系统的某一部件的处理速度加快到 10倍 ,但该部件的原处理时间仅为整个运行时间的40%，则采用加快措施后能使整个系统的性能提高多少？解：由题意可知： Fe=0.4, Se=10，根据 Amdahl 定律S n To T n1 (1Fe )S n 1 10.6 0.4100.64 Fe Se 1.56word 文档下载后可自由复制编辑例 1.2,p10采用哪种实现技术来求浮点数平方根 FPSQR 的操作对系统的性能影响较大。

指令级并行的概念

○ 开发循环体中存在的并行性。 ● 最常见、最基本
○ 是指令级并行研究的重点之一。
指令级并行的概念
4.1 指令级并行的概念
最基本的开发循环级并行的技术
指令调度（scheduling）
A
技术换名（renaming）技术 C
循环展开（loop
B
unrolling）技术
指令级并行的概念
通过改变指令在程序中的位置，将相关指 ○ 令之间的距离加大到不小于指令执行延迟，将 ● 相关指令转化为无关指令。 ● 指令调度是循环展开的技术基础。
结构有关。程序中的相关主要有以下三种
• 数据相关 • 名相关 • 控制相关
1.数据相关（data
dependence）
指令级并行的概念
0
对于指令i和指令j，如果
1
一．
指令j使用指令i产生的结果，或者
二．
指令j与指令k数据相关，指令k与指令i数据相
○
关，则指令j与指令i数据相关。
○
数据相关具有传递性。
ADDD F16,F14,F2
8
SD 0(R1),F4
SD -8(R1),F8
SUBI R1,R1,#32
12
SD 16(R1),F12
11
BNEZ R1,Loop
SD 8(R1),F16
14
指令 1 2
5 6
9 10
13
4.1 指令级并行的概念
结果分析：
没有数据相关引起的空转等待整个循环仅仅使用了14个时钟周期
-8(R1),F8 F10,-16(R1) 13
流出时钟
ADDD 15
（空转） 16
（空转） 17

计算机系统结构教程课后答案

1.7某台主频为400MHz 的计算机执行标准测试程序，程序中指令类型、执行数量和平均时钟周期数如下：指令类型指令执行数量平均时钟周期数整数 45000 1 数据传送 75000 2 浮点 8000 4 分支 1500 2求该计算机的有效CPI 、MIPS 和程序执行时间。

解：1(/)ni i i CPI CPI IC IC ==⨯∑（1）CPI ＝(45000×1＋75000×2＋8000×4＋1500×2) / 129500＝1.776 （2）MIPS 速率＝f/ CPI ＝400/1.776 ＝225.225MIPS （3）程序执行时间= (45000×1＋75000×2＋8000×4＋1 500×2)／400=575s1.9 将计算机系统中某一功能的处理速度加快10倍，但该功能的处理时间仅为整个系统运行时间的40%，则采用此增强功能方法后，能使整个系统的性能提高多少？解：由题可知：可改进比例Fe=40% = 0.4 部件加速比Se = 10根据()011 1.5625(10.4)0.4/101n n T S Fe T Fe Se ====-+-+ 1.10 计算机系统中有三个部件可以改进，这三个部件的部件加速比为：部件加速比1=30；部件加速比2=20；部件加速比3=10 （1）如果部件1和部件2的可改进比例均为30%，那么当部件3的可改进比例为多少时，系统加速比才可以达到10？（2）如果三个部件的可改进比例分别为30%、30%和20%，三个部件同时改进，那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少？解：（1）在多个部件可改进情况下，Amdahl 定理的扩展：()011231123123n nT S Fe Fe Fe T Fe Fe Fe Se Se Se ==---+++ 已知S1＝30，S2＝20，S3＝10，Sn ＝10，F1＝0.3，F2＝0.3，得：得F3＝0.36，即部件3的可改进比例为36%。

计算机组成原理 [袁春风]chap4-2

特点
– 容易实现但不够灵活 Cache存储空间得不到充分利用例如需将主存第0块与第16块同时复制到Cache中时由于它们都只能复制到Cache第0槽即使Cache其它槽空闲也有一个主存块不能写入Cache 这样就会产生频繁的 Cache装入
26 南京大学计算机系多媒体技术研究所袁春风
基于程序访问的局部性使访存要求快速响应
– 如果在CPU和主存之间设置一个快速小容量的存储器其中总是存放最活跃被频繁访问的程序块和数据 CPU 访问这些程序或数据时就不必访问主存而直接从这个高速缓存中取得这样便使得CPU和主存速度匹配起来了
12
南京大学计算机系多媒体技术研究所袁春风
程序局部性原理图
为什么引入Cache能达到快速访问的目的
–主要是基于程序访问的局部化性质
13
南京大学计算机系多媒体技术研究所袁春风
4.4.2 Cache的工作原理
在主存-Cache存储体系中所有的程序和数据都在主存中 Cache中只存放主存一部分程序块和数据的副本主存由多达2n个可寻址的字组成每个字有唯一的n位地址为了实现映射我们把这个存储器看成由许多定长的块(block) 组成每块有K个字即有L=2n K个字块 Cache由M个槽 (slot)组成每个槽有K个字槽(或称为行line)的数量远远小于主存储器块的数目在任何时侯存储器中的几个块驻留在Cache的槽中如果要读取存储块中的某个字则整个块被传送到Cache的一个槽中由于块数多于槽数所以单个的槽不能久久地被某块专用因此每个槽有一个标记(tag) 用来识别当前存储的是哪个块这个标记通常是主存储器地址的一部分
南京大学计算机系多媒体技术研究所袁春风

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

10
4.1位预测机制的缺点
鲁
只要预测出错，往往是连续两次而不是一次。
东
大学信
5.解决方法
息与
采用两个预测位的预测机制。
电
气工
在两个预测位的分支预测中，更改对分支的
程
学院
预测必须有两次连续预测错误。
两位分支预测的状态转换图
11
鲁东大学
分支成功
分支不成功
11
10
分支成功
分支预测：成功
ADDD F6,F8,F2
27
解状态如图4.15所示。
鲁
东
大
学信
保留站
息与
名称
电
忙
操作
Vj
Vk
气
工程
Add1
no
学
院 Add2
no
Qj Qk
Add3 no
Mult1 no MULTD Mem[45+Regs[R3]]
Regs[F4]
Mult2 yes DIVD
Mem[34+Regs[R2]] #3
当前 PC 值送存储器和 BTB
否
是
BTB 中存在？
鲁东
取指令
大
学
信
息与
否
是
成功分支指令？
以分支目标 PC 值送存储器
电
气工
普通指令
程
否
当前分支成功？是
学院
指令译码
指令执行
将当前指令 PC 值和分支目标 PC 送入 BTB 中作为一个新项
预测错误，清除取来的指令并从分支的另外一个目标取指令，删除 BTB 中对应项
26
例4.8 假设浮点功能单元的延迟为加法是2个时钟周
期，乘法是10个时钟周期，除法40个时钟周
鲁东大
期。给出下面的代码段当指令MULTD要确认
学
信息
时的状态。
与
电气
LD F6,34(R2)
工
程学
LD F2,45(R3)
院
MULTD F0,F2,F4
SUBD F8,F6,F2
DIVD F10,F0,F6
方法和预测错误后恢复所采取的策略。
4
4.3.1 分支预测缓冲
¡ 动态分支预测必须解决两个问题：
鲁
东大
• 如何记录一个分支操作的历史。
学
信息与
• 决定预测的走向。
电
气工
¡ 记录分支历史的方法有以下几种：
程
学院
（1）仅仅记录最近一次或最近几次的分支历
史；
（2）记录分支成功的目标地址；
（3）记录分支历史和分支目标地址，相当于前
3. 分支预测错误时，预测位就被修改，并且需
要恢复现场，程序从分支指令处重新执行。
8
得到分支结果
鲁东
i+1
i+2
大学
分支指令
信
息
与电
i-1
i
气
工
程
学
猜测执行路径
院
p+1
p+2
实际执行路径
图4.10 分支预测执行不成功和重新执行过程
9
例4.6 一个循环共循环10次，它将分支成功9次，
1次不成功。假设此分支的预测位始终在缓
工程
令地址都与保存的标示作比较，一旦相同，我们
学院
就认为本指令是分支指令，且认为它转移成功，
并且它的分支目标（下一条指令）地址就是保存
在缓冲区中的分支目标地址。
这个缓冲区就是分支目标缓冲区（BranchTarget Buffer，简记为BTB，或者BranchTarget Cache）。
15
1. 分支目标缓冲结构和工作过程
4 yes SUBD F8,F6,F2 写结果 F8 #1-#2
信
息与
5 yes DIVD F10,F0,F6 执行 F10
电
气工
6 yes ADDD F6,F8,F2 写结果 F6 #4+#2
程
学
院
浮点寄存器状态表
域
F0 F2 F4 F6 F8 F10 … F30
ROB号 3
6 4 5…
忙
yes no no yes yes yes … no
程
学院
速度也快了n倍；
• 根据Amdahl定律可知，随着机器CPI的降低，
控制相关对性能的影响越来越大。
3
本节着重于：
鲁
东大
通过硬件技术，动态地进行分支处理，对程
学
信
息与
序运行时的分支行为进行预测，提前对分支操作做
电
气工
出反应，加快分支处理的速度。
程
学院
分支的最终延迟取决于流水线的结构、预测的
目的
#3 #5
28
ROB
项号忙
指令
状态目的
值
1 no LD F6,34(R2) 确认 F6 Mem[34+Regs[R2]]
2 no LD F2,45(R3) 确认 F2 Mem[45+Regs[R3]]
鲁东
3 yes MULTD F0,F2,F4 写结果 F0 #2×Regs[F4]
大学
24
¡ 再定序缓冲的每个项包含三个域：
（1）指令的类型
鲁
指令类型包括是否是分支（尚无结果）、
东大
存操作（目的地址为存储器）或寄存器操作
学
信息
（ALU操作或目的地址是寄存器的取操作）。
与
电气
（2）目的地址
工程
目的地址域给出结果应写入的目的寄存
学
院
器号（对于取操作和ALU指令）或存储器的地
址（存操作）。
当前 PC
查找、比较地址标示
分支目标 PC
分支目标指令
分
鲁
东
支
大学
目
信
标
息
与
缓
电气
冲
工
程
学
院
命中？
Y 命中，则认为本指令是分支，且分支成功，以分支目标缓冲中分支目标 PC 作为下一条指令地址
N
没有命中，则认为本指令不是
分支，按普通指令执行
图4.12 分支目标缓冲的结构和工作过程
16
2. 在流水线的各个阶段中，具有分支目标缓冲的工作分配如图4.13。
学
院
¡ 对目的指令进行缓冲，构成称为分支目标指令
缓冲（branch folding）的结构，它可使无条
件分支的延迟达到零，甚至有的条件分支也可
达到零延迟。
21
4.3.3 基于硬件的前瞻执行
鲁东
前瞻（Speculation）的技术方法：
大学
它允许在处理器还未判断指令是否能执行
信
息与
之前就提前执行，以克服控制相关。
信
息
与电
分支成功
分支不成功
气
工
程学院
分支预测：
01
分支不成功 00
分支不成功
不成功
分支成功
图4.11 具有两个分支预测位的分支预测缓冲状态转换机制
12
6. n位分支预测缓冲
鲁
¡ 采用n位计数器，则计数器的值在0到2n-1之间：
东大学
当计数器的值大于或等于最大值的一半（ 2n-1 ）
（3）值域值域用来保存指令前瞻执行的结果，直
到指令得到确认。
25
¡ 使用再定序缓冲的处理部件的硬件结构
从指令部件来
再定序缓冲
浮点
……
操作
队列
鲁东
去存储器
大学
操作总线 (地址/数据)
浮点寄存器组
信
息
与
操作数总线
电
气
工
程
学
院
保留站
从存储器来 (取的结果)
FP 加法器
FP 乘法器
公共数据总线
图4.14 采用Tomasulo算法并支持前瞻执行的DLX浮点部件的结构
延迟为0。
（2）在BTB中，预测成功，实际不成功，此时
的延迟为：
19
BTB命中率 × 预测错误率 × 2
鲁东
= 90% × 10% × 2
大
学信
= 0.18（时钟周期）
息
与电
（3）不在BTB中，实际成功，此时的延迟为：
气工程
（1-BTB命中率） × 不在BTB中分支转移成功率 × 2
学院
分支成功
图4.9 只有1个预测位的分支预测缓冲状态转换图
7
2. 分支预测缓冲技术包括两个步骤
¡ 分支预测
鲁东大
如果当前缓冲记录的预测位为“1”，则预
学信息
测分支为成功；如果预测位为“0”，则预测分支
与电
为不成功。
气
工程学
¡ 预测位修改
院
如果当前分支成功，则预测位置为“1”；
如果当前分支不成功，预测位置为“0”。
通过再定序缓冲，可以在进行精确异常处理的同时进行动态指令调度。29
鲁
东大
前瞻执行的技术策略很容易的推广到整数寄存器
学
信息
和整数功能单元上。
与
电
气工
前瞻技术存在的一个主要缺点：
程
学
院
支持前瞻的硬件太复杂，需要大量的硬件资源。
30
4.4 多指令流出技术
鲁