第十章安腾高性能处理机体系结构

合集下载

多核处理器体系结构及并行程序设计

13
Floating Point
Integer
Floating Point
Integer
L1 D-Cache and D-TLB
L1 D-Cache and D-TLB
Even 2 floating point threads can be executed at the same time now (per processor) as there are multiple floating point execution units
– 只共享系统总线，独立缓存 – 高性能，资源冲突少

9

双核技术 VS. 超线程技术
• 双核是真正意义上的双处理器
– 不会发生资源冲突 – 每个线程拥有自己的缓存、寄存器和运算器
• 一个3.2GHz Smithfiled在性能上并非等同于3.2GHz P4 with HT 的2 倍
Integer
Rename/Alloc uop Queues Schedulers
BTB & I-TLB Decoder
Trace Cache
Floating Point
uCode ROM
2 threads CANNOT be executed at the same time (per processor) if
BTB & I-TLB Decoder
Trace Cache
Floating Point
uCode
ROM

14

多核技术与超线程技术的结合
Dual Core
2 threads/socket
Dual Core with Hyper-Threading

计算机高性能体系结构复习资料整理

A. 指令 i 产生的结果被指令 j 使用；
B. 指令 j 与指令 k 数据相关，而指令 k 与指令 i 数据相关。数据相关：考虑两条指令 i 和 j，i 在 j 的前面，如果下述条件之一成立，则称指令 j 与指令 i 数据相关：（1）指令 j 使用指令 i 产生的结果；（2）指令 j 与指令 k 数据相关，而指令 k 又与指令 i 数据相关精确异常：（所谓不精确异常，是指：当执行指令 i 导致发生异常时，处理机的现场（状态）
第四章互连与通信
互连网络：由开关元件按一定拓扑结构和控制方式构成的网络以实现计算机系统内部多个处理机或多个功能部件间的相互连接。网络直径：是指互联网络中任意两个结点之间距离的最大值。虚拟通道：是两个节点间的逻辑链接，它是由源结点的片缓冲区、结点间的物理
通道以及接收结点的片缓冲区组成。
第五章 Cache Coherence
第二章高性能计算机性能测评
并行度：指令并行执行的最大条数。在指令流水中，同时执行多条指令称为指令并行。并行性：计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作。只要在时间上相互重叠，就存在并行性。它包括同时性与并发性两种含义。加速比：（speedup），是同一个任务在单处理器系统和并行处理器系统中运行消耗的时间的比率，用来衡量并行系统或程序并行化的性能和效果。绝对加速比：
简述题
第一章高性能计算与高性能计算机
何为高性能计算，研究高性能计算有何意义？高性能计算(英文 high performance computing，缩写 HPC) 指通常使用很多处理器（作为单个机器的一部分）或者某一集群中组织的几台计算机（作为单个计算资源操作）的计算系统和环境。意义：1）高性能计算的内在含义

计算机组成原理第一章

课程的基本要求课程的基本要求
计算机系统概述、计算机中的数据表示、运算方法和运算器、指令系统、随机逻辑和微程序控制原理、存储系统、输入输出系统、计算机外设简介，要求学生掌握计算机的组成和工作原理。通过学习，使学生了解计算机的组成原理及工作原理，以建立整机概念。本课程设有实验，以加深对课程内容的理解，培养学生的动手能力。
课程内容
第一章计算机系统概论第二章运算方法和运算器第三章内部存储器第四章指令系统第五章中央处理机
课程内容
第六章总线系统第七章外围设备第八章输入输出系统第九章操作系统支持第十章安腾高性能处理机体系结构
主教材：主教材：
计算机组成原理白中英主编科学出版社
参考教材：参考教材：
1.1计算机的分类 1.1计算机的分类
电子计算机从总体上来说分为两大类。一、电子计算机从总体上来说分为两大类。电子模拟计算机数值由连续的量来表示。电子模拟计算机。数值由连续的量来表示。模拟计算机。电子数字计算机电子数字计算机。计算机中的数值由不连续的数数字计算机。字来表示。字来表示。
物理与电子学院通信工程教研室陈莹
上课要求
第一：要求大家准时上课，有事请假，我会点名第二：遵守课堂纪律绍：
《计算机组成原理》属于专业基础课。面向应用、突出实践、偏向硬件和理论。《计算机组成原理》是计算机教学中的一门核心课程，是学习计算机课程所要必修的主干课。通过教学，使学生对计算机的各主要部分（运算器、控制器、存储器、输入输出设备）的构成及工作原理有一个深刻的、系统的认识和理解，同时对计算机的发展趋势也有一个较为深入的了解。
我国首台万亿次计算机诞生：我国首台万亿次计算机诞生：

体系结构名词解释

体系结构名词解释体系结构名词解释1. 计算机系统结构：计算机体系结构包括指令集结构、计算机组成和计算机实现三个方面的内容。

2. CISC：CISC是指采用一整套计算机指令进行操作的计算机。

而后又出现了精简指令集计算机，它精简了指令集，只保留了那些常用的指令，这样计算机能以更快的速度执行操作。

3. 定向技术：将计算结果从其产生的地方直接送到真正需要它的地方，而不是从寄存器文件读出使用，它是一种解决数据相关，避免流水线暂停的技术4. 指令级并行：完成一批任务，不使用流水线所用的时间与使用流水线所用的时间之比称为流水线的加速比5. 多级存储层次：采用不同的技术实现的存储器，处在离CPU不同距离的层次上，目标是达到离CPU最近的存储器的速度，最远的存储器的容量6. 系统加速比:对系统中某部分进行改进时，改进后系统性能提高的倍数。

7. RISC：精简指令集计算机8. 动态流水线：同一时间内，当某些段正在实现某种运算时，另一些段却在实现另一种运算。

9. 指令的动态调度:是指在保持数据流和异常行为的情况下，通过硬件对指令执行顺序进行重新安排，以提高流水线的利用率且减少停顿现象。

是由硬件在程序实际运行时实施的。

10:全相联映象:主存中的任一块可以被放置到Cache中任意一个地方。

10. Amdahl定律：加快某部件执行速度所获得的系统性能加速比，受限于该部件在系统中的所占的重要性。

11. 寻址方式:就是寻找操作数或操作数地址的方式12. 静态流水线:在同一段时间内，多功能流水线中的各个功能段只能按照一种固定的方式连接，实现一种固定的功能。

13. 前瞻执行：解决控制相关的方法，它对分支指令的结果进行猜测，然后按这个猜测结果继续取指、流出和执行后续的指令。

只是指令执行的结果不是写回到寄存器或存储器，而是放到一个称为ROB的缓冲器中。

等到相应的指令得到“确认”（即确实是应该执行的）后，才将结果写入寄存器或存储器14. 替换算法:由于主存中的'块比Cache中的块多，所以当要从主存中调一个块到Cache中时，会出现该块所映象到的一组（或一个）Cache块已全部被占用的情况。

计算机组成原理本科生期末试卷1~5选择填空答案

本科生期末试卷（一）一、选择题（每小题1分，共15分）1 从器件角度看，计算机经历了五代变化。

但从系统结构看，至今绝大多数计算机仍属于（冯.诺依曼）计算机。

2 某机字长32位，其中1位表示符号位。

若用定点整数表示，则最小负整数为（-(231-1) ）。

3 以下有关运算器的描述，（算术运算与逻辑运算）是正确的。

4 EEPROM是指（电擦除可编程只读存储器）。

5 常用的虚拟存储系统由（主存-辅存）两级存储器组成，其中辅存是大容量的磁表面存储器。

6 RISC访内指令中，操作数的物理位置一般安排在（两个通用寄存器）。

7 当前的CPU由（控制器、运算器、cache）组成。

8 流水CPU是由一系列叫做“段”的处理部件组成。

和具备m个并行部件的CPU相比，一个m段流水CPU的吞吐能力是（具备同等水平）。

9 在集中式总线仲裁中，（独立请求）方式响应时间最快。

10 CPU中跟踪指令后继地址的寄存器是（程序计数器）。

11 从信息流的传输速度来看，（单总线）系统工作效率最低。

12 单级中断系统中，CPU一旦响应中断，立即关闭（中断屏蔽）标志，以防止本次中断服务结束前同级的其他中断源产生另一次中断进行干扰。

13 安腾处理机的典型指令格式为（41位）位。

14 下面操作中应该由特权指令完成的是（从用户模式切换到管理员模式）。

15 下列各项中，不属于安腾体系结构基本特征的是（超线程）。

二、填空题（每小题2分，共20分）1 字符信息是符号数据，属于处理（非数值）领域的问题，国际上采用的字符系统是七单位的（IRA ）码。

2 按IEEE754标准，一个32位浮点数由符号位S（1位）、阶码E（8位）、尾数M（23位）三个域组成。

其中阶码E的值等于指数的真值（ e ）加上一个固定的偏移值（127 ）。

3 双端口存储器和多模块交叉存储器属于并行存储器结构，其中前者采用（空间）并行技术，后者采用（时间）并行技术。

4 虚拟存储器分为页式、（段）式、（段页）式三种。

计算机系统组成

内存的选购
目前市场上内存条分为有品牌和无品牌两种，品牌内存一般都有外包装，如：金士顿（kingmax）。无品牌内存多为散装，只依内存条上的内存芯片的品牌命名，如：现代（HY）。在选购内存时，还要注意它的兼容性，某些品牌的内存在有些主板上会造成无法开机、运行时死机、不稳定等现象。
内存条的安装
内存
内存泛指计算机系统中存放数据与指令的半导体存储单元，包括RAM（随机存储器，随机存取存储器）按内存的工作原来分类按内存的工作原理可分为只读存储器ROM（只读记忆）和随机存储器（随机存储器）。 1. 只读存储器（ROM）是计算机厂商用特殊的装置把内容写在芯片中，只能读取，不能随意该变内容的一种储存器，如基本输入输出系统（1）EPROM 它与一般ROM不同点在与，EPROM可以用特殊的装置擦除和重写的内容如早期主板上的基本输入输出系统。（2）闪电存储器（闪光记忆）使用闪速存储器的主要特点是在不加电的情况下能长期存储的信息。 2，随机存储器（RAM） RAM就是平常所说的内存，系统运行时，将所需的指令和数据从外部存储器调入内存中，CPU再从内存中读取指令或数据进行运算，并将运算结果存入内存中，根据其制造原理不同，现在的RAM多为MOS型半导体电路，它分为静态和动态两种。（1）静态存储器（SRAM） SRAM的一个存储单元的基本结构是一个双稳态电路，读写速度很快这样一方面降低了SRAM 的集成度，另一方面也增加了生产成本。（2）动态RAM（DRAM）一个DRAM单元由一个晶体管和一个小电容组成，所以DRAM中存储的数据需要不断的刷新。根据DRAM不同的标准又可分为多种类型的DRAM，如SDRAM（同时的DRAM, 同步动态随机存储器）DDR SDRAM（两倍数据比率SDRAM, 双倍数据速度 SDRAM）RDRAM（RambusDRAM），早期还有一种RDR内存，发热量比较大，两面都有散热片，并且必须要插满插槽。

高级体系结构-2

– Sun Niagara
• Eight cores, four hyper-threaded threads per core.
– General Purpose Computation on Graphics Processors (GPGPU) – Intel expects to produce 16- or even 32-core chips within a decade.
L3
Support for Simultaneous Multithreading (SMT): Alpha EV8. VLIW & intelligent compiler techniques: Intel/HP EPIC IA-64. More Advanced Branch Prediction Techniques. Chip Multiprocessors (CMPs): The Hydra Project. IBM Power 4,5 Vector processing capability: Vector Intelligent RAM (VIRAM). Or Multimedia ISA extension. • Digital Signal Processing (DSP) capability in system. • Re-Configurable Computing hardware capability in system.
• Systems with more than two cores are here with more coming:
– IBM Cell (asymmetric).
• Dual-core PowerPC plus eight “synergistic processing elements”. ”

CPU的架构

处理器（CPU）架构CPU架构是CPU厂商给属于同一系列的CPU产品定的一个规范，主要目的是为了区分不同类型CPU的重要标示。

目前市面上的CPU分类主要分有两大阵营，一个是intel、AMD 为首的复杂指令集CPU，另一个是以IBM、ARM为首的精简指令集CPU。

两个不同品牌的CPU，其产品的架构也不相同，例如，Intel、AMD的CPU是X86架构的，而IBM公司的CPU是PowerPC 架构，ARM公司是ARM架构。

一、基本概念总体架构Core架构的Merom处理器确实性能强劲。

在多项测试中，频率2GHz的T7200能战胜频率2.33GHz的T2700就是最好的证明。

但是您同时也注意到了，在移动平台Merom 虽然性能强劲，但并没有给您带来太大的惊喜。

虽然胜过Yonah，但幅度都不大，而且在一些测试项中，频率稍低的T7200也是输给了T2700的。

因此可能在移动平台Core微架构的优势不像桌面平台那样出彩——一颗频率最低的E6300也可以全歼高频率的Pentium D。

究其原因就是Yonah本身就比较优秀，而不像NetBurst那样失败，况且Core微架构本身就是在Yonah微架构改进而来，成绩不会形成太大的反差也在情理之中。

Core微架构是Intel的以色列设计团队在Yonah微架构基础之上改进而来的新一代微架构。

最显著的变化在于在各个关键部分进行强化。

为了提高两个核心的内部数据交换效率采取共享式二级缓存设计，2个核心共享高达4MB的二级缓存。

其内核采用较短的14级有效流水线设计，每个核心都内建32KB一级指令缓存与32KB一级数据缓存，2个核心的一级数据缓存之间可以直接传输数据。

每个核心内建4组指令解码单元，支持微指令融合与宏指令融合技术，每个时钟周期最多可以解码5条X86指令，并拥有改进的分支预测功能。

每个核心内建5个执行单元子系统，执行效率颇高。

加入对EM64T与SSE4指令集的支持。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

10.2安腾体系结构的基本设计思想
6、寄存器堆栈技术

安腾处理机利用128个通用寄存器中的96个堆栈寄存器实现寄存器堆栈，并在处理机内部设置一个寄存器堆栈引擎RSE来管理寄存器堆栈。当96个堆栈寄存器不够用时，寄存器堆栈引擎能够自动将寄存器堆栈与内存储器对接，将寄存器堆栈溢出的数据转移到内存储器中保存，或在寄存器堆栈弹出数据时执行反向操作。这样，编译器将看到一个容量没有限制的寄存器堆栈空间。
10.3安腾指令系统结构
二、安腾寄存器ห้องสมุดไป่ตู้构

与RISC体系结构类似，安腾体系结构大量使用寄存器操作;见下一页图只有取数load和存数store指令才能够访问内存，所有其他指令都在寄存器上操作。在以安腾为基础的处理机内，用户可直接使用的寄存器数量甚至大大超过了主流RISC处理机。一方面可以加快数据存取的速度，减少访存延迟，另一方面可以更好地支持并行操作。
例1:下面给出一些汇编指令
①add rl=r2，r3 //简单指令:r2+r3=>r1 ②(P4)add rl=r2，r3 //推断指令，指定推断寄存器4 ③add r1=r2，r3, //立即寻址指令 ④cmp eq P3，P5=0，r4 //带指令完成符的指令：将 r4寄存器的值与0比较，若相等则置推断寄存器P3为1， P5为0；否则置推断寄存器P3为0，P5为1 ⑤ld8 r1=［r7］ //从寄存器r7指向的存储器空间读取连续8个字节,装入寄存器r1 add r6=r9，r8； //与上一条指令不存在相关性，故可放在一个指令组中 sub r3=r1,r4 //第一条指令的目标操作数是本指令的源操作数，故需重新开始一个指令组 st8 ［r6］=r10 //将寄存器r10的内容存入寄存器r6指向的存储器单元

安腾体系结构采用超长指令字技术，利用集束指令合成；
10.3安腾指令系统结构

指令组

指令组将相互之间没有读后写相关，写后写相关，可以并行执行的一组指令集合。模版字段正是为实现EPIC的设计思想服务的：一方面，编译器可以通过5位模版字段指明每个指令槽中的指令使用哪一个执行单元；另一方面，编译器可以通过模板字段明确给出指令束内或指令束间的依赖关系。
10.4指令级并行机制
2、安腾的推断技术原理推断技术处理分支的方法是利用多个功能部件并行执行各个分支，然后根据判定结果选取某一分支的运行结果，因而可消除大部分的转移，使得整个系统的运行速度得到提高。采用显式并行指令计算技术的安腾处理机将处理机的多个功能部件的并行处理能力与编译器的强大功能相结合，允许在编译时让编译器对程序进行优化，消除转移，提高效率。安腾处理机的指令系统允许在每条指令中都指定一个推断寄存器。
一、IA体系结构的历史演变

IA32体系结构：IA32家族中的第一款32位微处理机流水技术 IA32体系结构仍是基于CISC架构的处理机。 Pentium体系结构:CISC外壳加RISC内核的结构
10.1高性能处理机体系结构的演变
二、英特尔64位处理机的两种体系结构
1、64T(英特尔64):基于显式并行指令计算EPIC （Explicitly Parallel Instruction Computing）技术的IA64体系结构,不与IA32指令系统的兼容性。 2、安腾体系结构:与IA32指令系统的兼容性。
10.2安腾体系结构的基本设计思想
4、推测技术

推测技术，包括控制推测和数据推测，以减少存储器访问响应时间的影响。控制推测技术和数据推测技术允许提前执行从内存单元至通用寄存器的取数指令。当程序中有分支时，控制推测技术将位于分支指令之后的取数指令提前若干周期执行，以此消除访存延时，提高指令执行的并行度。而数据推测技术则用于解决提前取数指令后的数据相关性问题。推测技术避免了cache命中失败而导致访存延迟的损失，消除了因处理机空闲而导致的并行性降低的缺憾。
第十章安腾高性能处理机体系结构
返回
第十章安腾高性能处理机体系结构

高性能处理机体系结构的演变安腾体系结构的基本设计思想安腾指令系统结构指令级并行机制双核安腾处理机的组成
10.1高性能处理机体系结构的演变
一、IA体系结构的历史演变二、英特尔64位处理机的两种体系结构
10.1高性能处理机体系结构的演变
10.2安腾体系结构的基本设计思想

安腾体系结构脱离了IA32 CISC体系结构的束缚，但并没有完全照搬RISC处理机的设计思想。EPIC既不是 RISC，也不是CISC，而是一种吸收了CISC和RISC两者长处的全新的体系结构。主要体现在以下几个方面：显式并行指令计算(EPIC)技术超长指令字(VLIW)技术分支推断技术推测技术软件流水技术
10.2安腾体系结构的基本设计思想
3、分支推断技术

技术能将传统的“if then else”分支结构转变为无分支的顺序/并行代码，以避免由于错误预测分支而付出代价。当处理机在运行中遇到分支时，它并不是进行传统的分支预测并选择可能性最大的一个分支执行，而是按分支的所有可能的后续路径开始并行执行多段代码并暂存各段代码的执行结果，直到处理机能够确认分支转移与否的条件是真是假时，处理机再把应该选择的路径上的指令执行结果保留下来。采用了推断技术后，原有的转移指令被转换成条件执行指令。原有的转移指令的所有的分支都被并行执行，无论哪条分支将被命中，都不会出现流水线断流现象，故消除了因分支预测失误而重新装载流水线导致的低效率现象。更进一步，以前由于程序分支和指令依赖等因素不能并行执行的许多指令现在完全可以并行执行，从而提高了处理机的执行效率。
10.3安腾指令系统结构
一、执行单元与指令类型为提高并行处理能力，安腾处理机内部设置了多个执行单元。这些执行单元被分为四类：

I单元:整数执行单元，用于执行整数算术运算、逻辑运算、移位和比特处理等指令，以及32位数据和指针操作。 M单元:存储器执行单元，用于执行通用寄存器、浮点寄存器和存储器之间的取数（load)指令、存数 (store)指令以及某些整数ALU运算指令。 B单元:转移执行单元，用于执行转移分支类指令。 F单元:浮点执行单元，用于执行浮点运算指令。相应地，安腾指令系统中的所有指令被分成六种类型，每种指令使用一种或多种执行单元。
安腾的主要寄存器
10.3安腾指令系统结构
三、安腾指令格式

典型指令格式:安腾的每条指令占41

对于寄存器操作数，需要7位选择128个通用寄存器或浮点寄存器。故一条典型的R R R型安腾指令需要21位来标识两个源寄存器操作数和一个目标寄存器操作数。大多数指令还需要一个6位字段选择64个推断寄存器之一，用于支持推断执行、软件流水等功能。
10.4指令级并行机制
一、推断执行技术 1、分支对系统性能的影响分支是在两个指令序列中根据判定条件选择其中一个序列执行。为了判定最终选择哪一个指令序列执行，必须等待一些条件判断指令的执行结果。

指令执行一旦遇到分支转移，在执行判定操作之前，多个功能部件由于无法确定程序的执行方向而空闲等待，使系统性能明显下降。分支预测并不能充分利用处理机流水线的功能部件
cmp x，0;比较x和0 je L1;若相等则转移至标号L1 sub m,1；m=m-1 jmp L2；无条件转移至标号L2 L1：add m，1；m=m+l L2：
10.4指令级并行机制例2续
而安腾处理机可以通过编译优化消除条件语句中的分支指 ①cmp eq P1，P2=0，x；//无条件执行：将r4寄存器的值与0比较，若相等则置推断寄存器P1为1，P2为0，否则置推断寄存器P1为0，P2为1 ②(P1)add m=1，m //若P1为1，则m+1送m ③(P2)add m=-1，m //若P2为1，则m-1送m 从判定流程上，似乎上面的三条语句并没有从逻辑上改变 if-then-else结构的执行过程。但如果我们能够把这个例子和安腾体系结构结合起来，还是可以从这个简单的例子中体会到安腾处理机的设计思想。

10.2安腾体系结构的基本设计思想
1、显式并行指令计算(EPIC)技术

安腾的指令中设计了属性字段，用于指明哪些指令可以并行执行。这些属性信息并不是在指令执行过程中由处理机判定后获得的，而是由编译程序在编译时通过对源代码的分析获取指令级的并行性信息，并填写到执行代码中。这就是所谓显式并行的概念。 EPIC技术则充分利用现代编译程序强大的对程序执行过程的调度能力，由专用的EPIC编译器首先分析源代码，根据指令之间的依赖关系最大限度地挖掘指令级的并行性，从而确定哪些指令可以并行执行，然后把并行指令放在一起并重新排序，提取并调度其指令级的并行，并将这种并行性通过属性字段“显式” 地告知指令执行部件。
10.4指令级并行机制
4、安腾处理机设计思想首先，安腾指令系统中的每条指令都能够支持推断执行，所以第二条指令和第三条指令中的条件判断并不需要使用专门的判断指令。虽然后面两条指令是条件执行的，但整体条件判断结构不再需要分支指令。其次，指令中的推断操作的安排是由编译器在编译过程中完成的，不需要处理机在执行指令的非常短的时间内动态安排各条指令的条件执行。最后，每条指令中虽然可以指定推断寄存器，但取指令、指令译码和执行操作并不需要等到推断寄存器的取值确定后再进行。下面可以看一下传统流水线与安腾处理机比较。
10.4指令级并行机制
3、推断执行的实现例2考察下面的一个典型的if-then-else结构： If （x=0) then m=m+1 else m=m-1 在传统的超标量流水线体系结构中，完成上述判断通常要首先安排一条比较语句，将x与0进行比较。得到比较结果后，再选择执行 then分支或else分支。