基于32位超标量处理器的保留站设计

合集下载

基于32位超标量处理器的保留站设计

表 1 保留Leabharlann 格式OpQjQk
Vj
Vk
A
Busy
其中 op 表示操作码；Qj 与 Qk 表示产生源操作数的保留站，若为 0，则说明源操作数在 Vj 或 Vk 中已准备好；Vj 与 Vk 表示源操作数的值或保存偏移量字段；A 为计算 load 指令和 store 指令的存储器地址保存信息；Busy 表示保留站及其相关功能单元已被占用。在本设计中，所有指令将沿用该结构，对于写数据(sw)这条指令，由于其操作数与执行的特殊性将会在沿用该结构的基础上做适当改进。
g不同磁场模式下开关型霍尔传感器的开关门限检测试结论设计的实验装置经过多批次实验教学应用能够丰富实验内容拓展实验项目通过实验内容的丰富加强了学生对知识的理解掌握学生利用实验装置开展应用系统的自主设计开发积极性明显提高工程技术创新性教学效果良好
总第 15 卷 171 期 2013 年 11 月
大众科技 Popular Science & Technology
【文献标识码】A
【文章编号】1008-1151(2013)11-0003-02
Reservation station design based on 32 bits superscalar processors
Abstract: The reservation station will temporarily store the data sent by data register or the ALU unit according to superscalar processor register renaming principle. When the data in two data bits is ready, the instructions stored in reservation station will be sent to ALU unit to calculate. In this design, a structure is added to receive data from ALU unit. It can judge the source of the data and whether the data sent by ALU unit will be used. When the ALU unit operation is complete, the data can be sent to corresponding reservation station before the next clock cycle. Compared to read data from the reordering buffer (ROB), this will reduce the time that reservation station

ABB AC800F

1. 系统概述及项目背景ABB IndustrialIT系统是在ABB原有控制系统基础上发展起来的最新的企业自动化解决方案。

该系统融传统的DCS和PLC优点于一体并支持多种国际现场总线标准，尤其适合于水泥行业的应用，目前在水泥行业应用非常广泛。

2001年安徽海螺集团上了2500 t/d 生产线两条，5000 t/d 生产线四条，全部采用ABB AC800F控制系统，3年来运行良好，在此良好合作的基础上2004年又大规模地上了11条5000 t/d和10000 t/d生产线，全部采用了ABB的控制系统，在2005年还将有6条5000 t/d和10000 t/d 生产线采用ABB的控制系统。

本文以池州2×5000 t/d 生产线项目为重点，从技术角度介绍AC800F系统在海螺的成功应用。

2. DCS系统控制网络系统网络分为现场控制层和中央监控层两层网络。

第一层为现场控制层，ABB S800 远程I/O采用Profibus DP通信标准与AC800F控制器进行通信，通讯速率高达12MB/s，距离远达1200米，根据项目要求，有些站距离比较远，采用光纤作为传输介质；在现场采用了部分现场总线仪表，采用ProfiBus PA通信标准与AC800F 控制器进行通信。

第二层为中央监控层，实现各控制器之间及与操作员站、工程师站的通信，采用基于TCP/IP协议的工业以太网。

由于水泥行业的特点，控制器及操作员站位置分散，且距离较远，现场干扰较大，所以通信网络采用了冗余光纤环网结构。

采用赫斯曼导轨安装型光纤集线器通信模件，该集线器提供双冗余供电，双路光纤接口，可以将光缆接成环形，通信模件内置冗余管理功能，当环路任何一处出现故障可以在30ms内自动切换到另外一条备用线路上，同时可以诊测到故障发生位置。

3. DCS过程控制站3.1 DCS控制站特点描述过程控制级包括多个ControlIT控制站，完成各种控制功能，ControlIT控制站由AC800F现场总线型控制器和下挂的S800分布式智能I/O 站组成。

《计算机硬件技术基础(第三版)》第3章 32位微处理器

计算机硬件技术基础
（１）总线接口部件总线接口部件与片内Cache外部总线接口实行的是逻辑接口连接。当访问 Cache出现没命中、或需更改系统存储器内容、或需向Cache写入某些信息时，就要通过总线接口从外部存储器系统中取出一批数据。（２）预取缓冲部件预取缓冲部件取指令是指从高速缓冲存储器Cache内或从内存储器中取出指令代码，以备译码之用的操作。（３）指令译码部件指令译码部件译码操作，一是检查一条指令的格式，二是确定它是哪种类型操作的指令，并给出这条指令所需的操作数。（４）控制部件控制部件 Pentium微处理器控制部件的作用是，负责解释来自指令译码部件的指令字和控制ROM的微代码。控制部件的输出控制着整数流水线部件和浮点部件。（5）执行部件执行部件是微处理器用于执行指令所规定的具体操作的CPU的核心硬件部分。这些非常具体的操作是指诸如数值运算、逻辑操作以及分支转移处理等。
为了支持在Pentium内采用的分支转移预测新技术，芯片内装备有两个预取缓冲存储器，一个是以线性方式来预取代码，另一个则是根据分支转移目标缓冲器（BTB）预取代码。这样就可以保证在执行之前将所需用的指令从存储器预取出来。由于Pentium采用了这项技术，可以在无延迟的情况下正确地预测各种转移。另外，V流水线中的条件转移指令可以与一条比较类指令成对执行，当然也可以与U流水线中的置标志指令配合执行。但Pentium作到了与现有软件是完全兼容，所以不必修改现有软件。
计算机硬件技术基础
3．1 ．
CISC和RISC 和
1 复杂指令系统计算机复杂指令系统计算机—CISC 每一种微处理器的CPU都有属于它自己的指令系统。 CPU正是通过执行一系列的特定的指令来实现应用程序的某种功能。像Intel x86系列，为了增加新的功能，就必须增加新的指令；另一方面，为了保持向上兼容，又必须保留原有的指令。每条指令又有若干个不同的操作字段，用来说明要操作的数据类型，以及存放的位置。这就意味着一个较大的指令系统和复杂的寻址技术。以这样的微处理器为平台的计算机系统就是“复杂指令系统计算机”(CISC)。 CISC也有许多优点，如指令经编译后生成的指令程序较小执行起来较快，节省硬件资源。像存取指令的次数少，占用较少的存储器等。

INTEL全族图谱32位元处理器432 860 960

32 位元处理器: 非x86 微处理器iAPX 432推出于1981年1月1日为Intel 第一个32 位元微处理器，Object/capability 架构Microcoded 操作系统primitives，1 TB 虚拟可寻址空间，硬件支援容错，两个芯片的一般资料处理器，包含43201 和43202 、43203 界面处理器(IP) 与I/O 子系统互动，43204 总线界面单元(BIU) 简化了建造多重处理器系统，43205 内存控制单元(MCU)，架构和执行单元内部的资料线路是32 位元。

时脉速度: 5 MHz 7 MHz 8 MHzi960 或80960推出于1988年4月5日，类似RISC 的32 位元架构，主要地使用在嵌入式系统Evolved from the capability 处理器developed for the BiiN joint venture with Siemens很多的变形，由末两位字母可以辨识。

960CA -42G2866960CA -A80960CA-25960CA-A80960CA-33960CA-KU80960CA-16960CA-KU80960CA-25960CF-A80960CF-25960CF-KU80960CF-33960FC80960HD66960A80960KA-22960GC80960RN-100960GC80960RS-100960N80960SA16960N80960SA-16960N80960SA20960GC80960RD66960N80960SB16i860 或 80860推出于 1989年 2月27，Intel 的第一个超标量处理器，RISC 32/64 位元架构, 管线的特性对于程式设计师而言非常显而易见，使用于 Intel Paragon 巨型平行超级电脑。

A80860XP-50。

ABB Freelance 800F分布式控制系统说明书

Freelance 800F分布式控制系统系统描述术语表过程站：这个术语用于描述AC800F控制器（现场控制器）和机架式控制器。

一个过程站可以设计成冗余配置和非冗余配置。

AC800F：这个术语用于描述AC800F现场控制器这种类型的过程站。

一个冗余的过程站包含了2个AC800F控制器。

机架式过程站：这个术语用于描述机架式类型的过程站。

一个冗余的过程站包含2个机架式CPU。

控制器：这个术语用于描述一个单独的，非冗余的过程站。

目录Freelance 800F：灵活的的过程控制系统页 4系统结构页 6过程级自动化：控制器页 8过程级自动化：远程I/O 页 12过程级自动化：现场设备页 13过程级自动化：Freelance机架式I/O 页 14系统通信页 16操作员级DigiVis软件页 18 Control Builder F组态和调试软件页 28工程与服务页 40 Freelance 800F系统数据页 42ABB4在现代自动化系统投资中，由于硬件设备部分只占用整个系统中较少的成本，则编写工程应用软件的成本就变得越来越重要。

通常来讲，一个自动化项目的工程应用软件费用约占到了整个项目的50%左右，这不难看出，成本结构的迁移给用户创造了优化项目投资的机会，所以，必须从工程编程一开始就要考虑降低费用！这就是我们开发Freelance 800F 系统的目的：保持硬件价格与那些可编程逻辑控制器一致的情况下，通过减少用户工程费用来提高成本效率。

Freelance 800F 过程控制系统如何帮助用户减少工程费用？通过使用一个完整的工程工具（Control Builder F ）来配置组态整个控制系统，包括自动化功能、操作员界面显示和记录，以及组态现场总线设备（PROFIBUS ，FOUNDATION Fieldbus ，HART 等等）和设备参数设定。

在过程控制站和操作员站之间自动生成全局的数据通信。

对于现场设备、过程控制站和操作员站，整个控•••制系统采用了一个统一的全局数据库，从而降低了建立数据通信及交互访问的成本和时间投资，并保证整个系统范围内数据的一致性。

基于32位Intel CPU的反汇编引擎设计与实现

（．１河南大学软件学院，南开封４５０；．南大学计算机与信息工程学院，南开封４５０）河７０１２河河７０１
摘要：过对ＩｔｌＡ３通ｎｅ一２机器指令与中断调试机制等技术的研究．用动态反汇编技术．计了基于３Ｉ采设２位Ｉｔｎｅｌ
Ｉｔｌ编有着固定的格式：ａｅ：ｅｏｉｏｅａｄ、ｐｒｎ２ｎｅ汇Ｌｂｌｍｎｍｎｃｐｒｎｌｏｅａｄ、
ｏｅｎ３其中：）ｂｌ为一条指令的开始，ｐｒｄ。ａ（ｌｅ：￣ａ代表该条指令在内
存中的起始位置；ｍｅｏｉ：＠ｎｍｎ为助记符，示机器码代表的操ｃ表
用于Ｗｉｄｗ系统，Ａ＆Ｔ则用于Ｕｉｎｏｓ而Ｔｎｘ和类Ｕｉｎｘ系统。中其
１反汇编引擎概述
反汇编引擎主要功能是将可执行的文件中的二进制机器指令经过分析转变为汇编程序。分析转变的依据是机器指令其
１．反汇编引擎架构３
格式，是机器代码和汇编语言格式之间的桥梁。不同类型的也
ＣＵ的指令格式是不同的，本文主要探讨的为常用的Ｉｔ系Ｐｎｅｌ列兼容ＣＵ机器指令格式．以此为基石设计和开发反汇编引Ｐ擎。１１机器指令．Ｉｔｌ器指令一般分为Ｉｔｌ４和Ｉ３分别是６ｎｅ机ｎｅ６Ａ一２，４位指令和３２位指令．文仅讨论３本２位指令的情况，其中的很多但

32位RISC中存储管理单元的设计

第 22 卷
图 1 M M U 地址转换类型注: M SR( M achine St ate Reg ister )
D SI ( Dat a Stor ag e Interr upt ) I SI ( Instr uction Sto rag e Inter rupt)
图 2 是页地址转换的地址变换流程, 表明了从有效地址到物理地址产生的过程, 在段寄存器中, 除了转换所需要的段描述符之外, 还有一些相应的标志信息, 用于进行异常检测与处理。
西北工业大学航空微电子中心针对机载处理器
的需求, 设计了一个 32 位超标量 RISC 微处理器 A RS03, 该处理器与 P ow erPC603E[ 2, 3] 在指令系统级兼容。支持 IEEE-754 浮点标准, 有片上的指令 Cache 和数据 Cache。目前已完成后端设计, 年内完成芯片的测试和系统验证。
块保护冲突
块保护发现冲突
第3期
李瑛等: 32 位 R ISC 中存储管理单元的设计
页保护冲突
页保护发现冲突
No -ex ecut e 保护冲突当 SR [ N ] = 1 时取指
Dir ect -sto re 取指
当 SR [ T ] = 1 时取指
Dir ect -sto re 数据访问当 SR [ T ] = 1 时存取数据
32 位 ARS03 微处理器, 具有 32 位地址总线, 寻址能力达 232( 4G ) 物理存储器空间, 其中每页的大小为 4 k 字节, 每段的大小为 256 M 字节。另外, 32 位 ARS03 微处理器的 MM U 使用一个中间虚拟地址( 52 位) 和哈希分布函数来产生页表的 32 位物理地址。ARS03 微处理器还有块地址转换机制来映射存储器的较大的块。块的大小范围是从 128 k 字节到 256 M 字节, 是由软件编程控制的。

基于RISC-V参数化超标量处理器的优化设计

基于RISC-V参数化超标量处理器的优化设计
刘有耀;潘宇晨
【期刊名称】《计算机工程与应用》
【年(卷),期】2022(58)5
【摘要】为解决嵌入式领域对处理器不同性能面积的需求,以及对重排序缓冲区阻塞,保留站派遣长短周期指令时导致的吞吐率不平衡及堵塞问题,设计并优化了一种简便配置的参数化流水线超标量处理器。

通过定制化流水线中的分支预测,缓存与运算单元,将RISC-V指令划分5大类处理,对不同周期的执行单元采用级联与并行的混合分布方式,将充当排序缓存中的指令再派遣,达到指令暂存和分类执行的目的,使一条不定周期指令可以携带多条单周期指令提交。

缓存之间以直连方式进行通信,以避免复杂的公共数据总线以降低时序损耗。

实验结果表明,该处理器可以通过配置达到IPC为0.746~1.476之间的性能,平均比同类型处理器IPC提升132.4%。

【总页数】9页(P66-74)
【作者】刘有耀;潘宇晨
【作者单位】西安邮电大学电子工程学院
【正文语种】中文
【中图分类】TP332
【相关文献】
1.基于 MIPS 指令集的超标量和超长指令字混合架构处理器设计
2.基于32位超标量处理器的保留站设计
3.基于RISC-V指令集的超标量处理器设计
4.DMR:兼容
RISC-V架构的乱序超标量通用处理器核5.32位RISC-V处理器中乘法器的优化设计
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

need to get the data. Keywords: reservation station; ALU; superscalar
1 引言
在多发射处理器中，为了提高对后续指令的处理速度，引入了保留站，保留站将起到暂存数据的作用，当数据准备好时则发送至下一级的 ALU 单元。本文设计了一种保留站，在该保留站中增加了从 ALU 单元接受数据的结构，可以判断所需的数据是否从 ALU 单元中送来。该保留站使用 Verilog HDL 进行了 RTL 级的描述，并用 ModelSim 进行了仿真，通过 Xilinx ISE 的综合工具来看，速度最高可达 203.603MHz。考虑到采用的 XXX 模型以及 FPGA 仿真版中 LUT 单元数量对布局布线的限制，则实际速度应会更快。
3.1 数据第一次进入该保留站（1）保存指令操作数与立即数。（2）对于 rs 操作数，无论指令是 I-type 还是 R-type，都需要存储 rs 的数据，因此仅增加对于 rs 数据来源的判断：判断所保存的数据是来自 alu 还是来自上一级 IR_decode 发来的数据。（3）对于 rt 操作数，若指令为 I-type 指令，判断是否是 store word 指令，如果是，对于 rt 操作数的处理与 R-type 一样，判断所保存的数据是来自 alu 还是来自上一级
指令被读入并发射进入保留站的过程如下：（1）两条指令从存储器中被读入。（2）指令将进入检测端，在检测端进行 RAW、WAR 和 WAW 的数据相关性检测，并根据是否有寄存器调用的冲突来决定是否进行寄存器重命名。对于 RAW 的相关，只能等待写操作的完成，而对于 WAR 与 WAW 的数据相关，则可进行寄存器重命名，以此来避免数据相关。（3）将重命名之后的指令送入保留站。
4 实验装置功能特点
（1）函数信号通过电流放大器对功率放大，形成足够的磁场驱动电流，利用线圈进行电流到磁场的变换，从而获得对应于各种信号波形的磁场模式。利用标准磁场计定标校准后，实现对霍尔传感器进行各种形态磁场下的探测实验和研究。
2 寄存器重命名原理在保留站中的应用
在多发射处理器中，为发挥其指令执行的并行性的优势，应在一个时钟周期中尽可能的发射多条指令。为实现指令的多发射，需要在指令的发射阶段检测发射的多条指令是否有数据相关产生。如有 WAR(读后写)或 WAW(写后写)的数据相关产生，则可用寄存器重命名的方法解决[1]。在本文中，将就双发射处理器中发射阶段中寄存器重命名技术及发射端的硬件
实现进行探讨。双发射处理器即每个时钟周期发射两条指令。本文设计
的双发射处理器采用 tomasulo 算法与重排序缓存(ROB)， tomasulo 算法相比记分牌算法具有两个优势：（1）指令不会因为 WAR 或 WAW 的数据相关而产生停顿；（2）由于保留站采用分布式，相对于记分牌的集中式，运算单元计算的数据可以同时送至各保留站。Tomasulo 算法中的保留站格式如表 1[2]：
3 保留站设计的实现
在本文作者所设计的处理器中，保留站格式采用了 Tomasulo 算法的保留站格式。由于 J-tpye 指令在 pc 模块中进行处理，因此该保留站针对 R-type 与 I-type 两种类型指令进行处理。对于保留站的设计主要考虑两种情况，再从该两种情况中扩展开来，两种情况中的特殊情况如下所示：
总第 15 卷 171 期 2013 年 11 月
大众科技 Popular Science & Technology
Vol.15 No.11 November 2013
基于 32 位超标量处理器的保留站设计
翟召岳
（同济大学电子与信息工程学院，上海 201804）
【摘要】该保留站根据超标量处理器中寄存器重命名的原理, 将从数据寄存器或 ALU 单元送来的数据临时存储在保留站
表 1 保留站格式
Op
Qj
Qk
Vj
Vk操作码；Qj 与 Qk 表示产生源操作数的保留站，若为 0，则说明源操作数在 Vj 或 Vk 中已准备好；Vj 与 Vk 表示源操作数的值或保存偏移量字段；A 为计算 load 指令和 store 指令的存储器地址保存信息；Busy 表示保留站及其相关功能单元已被占用。在本设计中，所有指令将沿用该结构，对于写数据(sw)这条指令，由于其操作数与执行的特殊性将会在沿用该结构的基础上做适当改进。
的数据位，当两个数据位的数据都准备好时，则发射存储在保留站中的指令给 ALU 单元进行运算。文章的设计中，增加了从
ALU 单元接受数据的结构，使保留站可以判断数据的来源，以及是否使用 ALU 单元送来的数据。当 ALU 单元运算完成时，数
据可以在下一个时钟周期前送至对应的保留站。与从重排序缓存（ROB）中读取数据相比较，这将减少保留站获取数据的时间。
假设顺序读入的两条新指令分别为 IR0 与 IR1，则(2) 中数据相关性的检测策略如下：
RAW：（1）检测 IR0 [dst]与 IR1[src0]或 IR1[src1]的值是否一样，如一样则重命名 IR1[src0]或 IR1[src1]，使 IR1[src0] 或 IR1[src1]的值指向产生 IR0[dst]结果的 ALU 序号， IR0[dst]保存于 ROB 中。（2）将 IR0[src0]和 IR0[src1]与寄存器文件中的 Qi 字段进行比较，检查 Qi 字段是否有内容。如：IR0[src0]为 1，则检测寄存器 R1 中 Qi 是否为 0（0 表示无效），若为 0，则说明不存在 RAW 的数据冒险；若不为 0，则表示 R1 的值来自于 Qi 字段所指向的保留站的指令运行结果，即 IR0[src0]=R1.Qi （R1.Qi 表示 R1 中 Q i 的值） WAR 与 WAW：为避免 IR_0[dst]与各保留站中的 Psrc_0 或 Psrc_1 相同，或为避免 IR0[dst]所对应寄存器中的 Qi 字段有效，则所有目的寄存器 dst 全部重命名。对于 WAR，因为操作数的数值保存于保留站中，或者操作数的数值指向某一保留站的运算结果，则操作数的获取可以独立于写操作，从而避免了 WAR。对于 WAW，则在重命名完成之后更新对应的寄存器的 Qi 字段。
IR_decode 发来的数据；如果不是，对于 rt 操作数直接赋 0，即使 rt 操作数处于已准备好的状态。
（4）保留站 busy 位置 1。 3.2 保留站已完成初次的数据存储，在等待 ALU 中送来的数据（1）对于操作数与立即数保持不变。（2）对于 rs 或 rt 操作数，如果与 ALU 送来的数据相匹配，则将 rs 或 rt 操作数置 0，保存 rs 或 rt 操作数对应的数据，否则，如果不匹配，则继续等待。（3）对于保留站 busy 标志位，当 rs 与 rt 操作数都为 0，则发射保留站中的指令与数据，busy 位置 0，否则保持置 1。在该保留站的设计中，共有 7 个标志信号，分别是 sw_en， reg_data0/1_ROB_ID_match，RS_ID_send_en， reg_data0/1_ROB_ID_ match_first_write，其中 sw_en 是 store word 指令的使能信号， reg_data0/1_ROB_ID_match 表示在上述情况 2 中 alu 送来的数据与需求的数据 ID 是否相匹配，reg_ data0/1_ROB_ID_ match_ first_write 表示在上述情况 1 中 alu 送来的数据与需求的数据 ID 是否相匹配，RS_ID_send_en 表示该保留站发射指令的使能信号。在该设计中，如果在第一次写入数据时，rs 与 rt 操作数的数据没有准备好，则存在一种可能，即指令发送到保留站时，所需要的数据刚好由 alu 运算完成，而如果在情况 2 中再存储之前从 alu 中送来的数据，若 alu 刷新，则数据会丢失。因此在该设计中考虑到这一点，对保留站的结构进行了改进，在情况 1 时，增加了一个对 rs 与 rt 操作数来源的判断信号，该信号作为 select 信号控制 mux 来选择数据是来自 alu 还是来自上一级 IR_decode 发来的数据，相关电路结构如图 1 所示，reg_data0/1_ROB_ID_match_first_write 是比较器的输出信号，为图中的 select 信号。
【关键词】保留站；ALU；超标量；多发射
【中图分类号】TP311
【文献标识码】A
【文章编号】1008-1151(2013)11-0003-02
Reservation station design based on 32 bits superscalar processors
Abstract: The reservation station will temporarily store the data sent by data register or the ALU unit according to superscalar processor register renaming principle. When the data in two data bits is ready, the instructions stored in reservation station will be sent to ALU unit to calculate. In this design, a structure is added to receive data from ALU unit. It can judge the source of the data and whether the data sent by ALU unit will be used. When the ALU unit operation is complete, the data can be sent to corresponding reservation station before the next clock cycle. Compared to read data from the reordering buffer (ROB), this will reduce the time that reservation station

基于32位超标量处理器的保留站设计