并行计算机体系结构的分类按照Flynn分类法,可把

合集下载

计算机体系结构习题与答案

第二章习题（P69-70）一、复习题1．简述冯∙诺依曼原理，冯∙诺依曼结构计算机包含哪几部分部件，其结构以何部件为中心？答：冯∙诺依曼理论的要点包括：指令像数据那样存放在存储器中，并可以像数据那样进行处理；指令格式使用二进制机器码表示；用程序存储控制方式工作。

这3条合称冯∙诺依曼原理冯∙诺依曼计算机由五大部分组成：运算器、控制器、存储器、输入设备、输出设备，整个结构一般以运算器为中心，也可以以控制器为中心。

(P51-P54)2．简述计算机体系结构与组成、实现之间的关系。

答：计算机体系结构通常是指程序设计人员所见到的计算机系统的属性，是硬件子系统的结构概念及其功能特性。

计算机组成（computer organization）是依据计算机体系结构确定并且分配了硬件系统的概念结构和功能特性的基础上，设计计算机各部件的具体组成，它们之间的连接关系，实现机器指令级的各种功能和特性。

同时，为实现指令的控制功能，还需要设计相应的软件系统来构成一个完整的运算系统。

计算机实现，是计算机组成的物理实现, 就是把完成逻辑设计的计算机组成方案转换为真实的计算机。

计算机体系结构、计算机组成和计算机实现是三个不同的概念，各自有不同的含义，但是又有着密切的联系，而且随着时间和技术的进步，这些含意也会有所改变。

在某些情况下，有时也无须特意地去区分计算机体系结构和计算机组成的不同含义。

(P47-P48)3．根据指令系统结构划分，现代计算机包含哪两种主要的体系结构？答：根据指令系统结构划分，现代计算机主要包含：CISC和RISC两种结构。

(P55)4．简述RISC技术的特点？答：从指令系统结构上看，RISC 体系结构一般具有如下特点：(1) 精简指令系统。

可以通过对过去大量的机器语言程序进行指令使用频度的统计，来选取其中常用的基本指令，并根据对操作系统、高级语言和应用环境等的支持增设一些最常用的指令;(2) 减少指令系统可采用的寻址方式种类，一般限制在2或3种;(3) 在指令的功能、格式和编码设计上尽可能地简化和规整，让所有指令尽可能等长;(4) 单机器周期指令，即大多数的指令都可以在一个机器周期内完成，并且允许处理器在同一时间内执行一系列的指令。

系统结构复习

中国地质大学（武汉）计算机学院吴湘宁计算机体系结构习题及答案第一章基础知识1．名词解释翻译解释模拟仿真透明性程序访问局部性[答案]略2. 一个经解释实现的计算机可以按功能划分为四级. 每一级为了执行一条指令需要下一级的N条指令. 若执行第一级的一条指令需要的时间为K ns, 那么执行第二、三、四级的一条指令各需要多少时间?3. 计算机系统按功能划分层次结构的好处主要体现在哪些方面?[答案] (1) 有利于理解软件, 硬件和固件在系统中的地位和作用;(2) 有利于理解各种语言的实质和实现途径;(3) 有利于推动计算机系统结构的发展;(4) 有利于理解计算机系统结构的定义.4. 什么是透明性? 对计算机系统结构, 下列哪些是透明的? 哪些是不透明的?1) 存储器的模m交叉存取; 2) 浮点数据表示; 3) I/O系统是采用通道方式还是I/O处理机方式; 4) 阵列运算部件; 5) 数据总线宽度; 6) 通道是采用结合型的还是独立型的; 7) 访问方式保护; 8) 程序性中断; 9) 串行、重叠还是流水控制方式; 10) 堆栈指令; 11) 存储器的最小编址单位; 12) Cache存储器.[答案] 一种本来是存在的事务或属性, 但从某种角度看却好像不存在, 称为透明性.对计算机系统结构来说透明的是: 1), 4), 5), 6), 9), 12)对计算机系统结构来说不透明的是:2), 3), 7), 8), 10), 11)5. 什么是计算机体系结构? 什么是计算机组成? 什么是计算机实现? 并说明三者的关系和相互影响?[答案] 计算机系统结构是计算机系统的软, 硬件分界面, 是机器语言程序员或是编译程序员所需了解的计算机属性;计算机组成是计算机系统结构的逻辑事项;计算机实现是计算机组成的物理实现.三者的关系和互相影响为:(1) 具有相同系统结构的计算机可以采用不同的组成;(2)(2) 一种计算机组成可以采用多种不同的计算机实现;(3) 计算机组成、计算机实现对计算机系统结构有着很大的影响;(4) 计算机系统结构的设计不应限制计算机组成和实现技术，应能用于高档机，也可用于低挡机;(5) 在不同时期, 计算机系统结构,、组成和实现所包含的内容会有所变化，三者之间的界线常常很模糊.6. 从机器(汇编)语言程序员角度看, 以下哪些是透明的?1) 指令地址存储器; 2) 指令缓冲器; 3) 时标发生器; 4) 条件码寄存器; 5) 乘法器; 6) 主存地址寄存器; 7) 磁盘外设; 8) 先行进位链; 10) 通用寄存器; 11) 中断字寄存器.[答案] 对机器(汇编)语言程序员来说透明的有: 2), 3), 5), 6), 8), 9)对机器(汇编)语言程序员来说不透明的有: 1), 4), 7), 10), 11)7. 假设在一台40 MHz处理机上运行200 000条指令的目标代码, 程序主要由四种类型的指令所组成. 根据程序跟踪实验结果, 各类指令的混合比和每类指令的CPI值如表1.9所示.(1) 试计算在单处理机上执行上述该程序时的平均CPI;(2) 根据(1)所得到的CPI, 计算相应的MIPS速率及程序的执行时间.[答案] (1) 2.24 CPI (2) 17.86 MPIS; 0.0112 s8. 某工作站采用时钟频率为15 MHz、处理速率为10 MIPS的处理机来执行一个程序，假定每次存储器存取为1周期延迟, 试问:(1) 此计算机的有效CPI是多少?(2) 假定将处理机的时钟频率提高到30 MHz, 但存储器子系统速率不变, 这样, 每次存储器存取需要两个时钟周期. 如果30%的指令每条只需要一次存储存取, 而另外5%的指令每条需要两次存储存取, 还假定已知混合程序的指令数不变, 并与原工作站兼容, 试求改进后的处理机性能.[答案] (1) 1.5 CPI; (2) 15.8 MPIS9.什么是并行性？它分为哪两种类型？开发计算机系统并行性的主要技术途径有哪三个？沿这些途径分别发展出什么类型的计算机？[答案]略10.实现软件移植的途径有哪些？[答案]略11.什么是Flynn分类法，按照Flynn分类法可将计算机系统分为哪几类？[答案]略第二章指令系统1. 名词解释数据类型、数据表示、规格化浮点数、Huffman编码、扩展编码、RISC[答案]略2. 某模型机有8条指令I1~I8, 它们的使用频度分别为0.3, 0.3, 0.2, 0.1, 0.05, 0.02, 0.02, 0.01.(1) 试分别用Huffman编码和平均码长最短的等长扩展码(限定为两种码长)对其操作码进行编码.(2) 分别计算Huffman编码和等长扩展码编码的平均长度.[答案] (1) 操作码的Huffman编码和2-4等长扩展码编码如下表1所示.(2) Huffman编码的平均长度为2.38位; 等长扩展码编码的平均码长为2.8位.3. 某模型机有10条指令I1~I10, 它们的使用频度分别为0.3, 0.24, 0.16, 0.12, 0.07, 0.04, 0.03,0.02, 0.01, 0.01.(1) 计算机采用等长操作码表示时的信息冗余量.(2) 要求操作码平均码长最短, 试设计操作码的编码, 并计算所设计操作码的平均长度. (3) 设计2-5扩展操作码编码，并计算平均码长.(4) 设计2-4（2/8）等长扩展码编码，并计算平均码长. [答案] (1) 采用等长操作码表示时的信息冗余量为33.5%. (2) 操作码的Huffman编码如表2所示, 此种编码的平均长度为2.7位.(3) 操作码的2-5扩展码编码如表2所示, 此种编码的平均长度为2.9位.(4) 操作码的2-4（2/4）等长扩展码编码如表2所示, 此种编码的平均长度为2.92位.4. 何谓指令格式的优化? 操作码和地址码的优化一般采用哪些方法?[答案] 指令格式的优化是指通过采用多种不同的寻址方式, 地址制, 地址形式和地址码长度以及多种指令字长, 并将它们与可变长操作码的优化表示相结合, 就可以构成冗余度尽可能少的指令字. 操作码的优化采用扩展操作码编码法. 地址码优化有以下四种方法:(1) 在指令中采用不同的寻址方式;(2)(2) 在指令中采用多地址制;(3) 同一种地址制还可以采用多种地址形式和长度, 也可以考虑利用空白处来存放直接操作数或常数等;(4) 在以上措施的基础上, 还可以进一步考虑采用多种指令字长度的指令.5. 若某机设计有如下指令格式的指令:三地址指令12种, 一地址指令254种, 设计指令的长度为16位, 每个地址码字段的位数均为4位. 若操作码的编码采用扩展操作码, 问二地址指令最多可以设计多少种? [答案] 二地址指令最多可以设计48种.6. 一台模型机共有九条指令I1~I9, 各指令的使用频度分别为0.3，0.2，0.2，0.1，0.08，0.6，0.03, 0.02, 0.01. 该模型机有8位和16位两种指令字长. 8位字长指令为寄存器----寄存器(R--R)二地址类型, 16位字长指令为寄存器----存储器(R--M)二地址变址寻址类型.(1) 试设计有两种码长的扩展操作码, 使其平均码长最短, 并计算此种编码的平均码长. (2) 在(1)的基础上, 该机允许使用多少个可编址的通用寄存器?(3) 若采用通用寄存器作为变址寄存器, 试设计该机的两种指令格式, 并标出各字段的位数.(4) 计算变址寻址的偏移地址范围.[答案] (1) 操作码的2-5扩展码编码如表3所示, 此种编码的平均长度位2.9位.2) 在(1)的基础上, 该机允许使用8个可编址的通用寄存器.(3) 该机的两种指令格式及各字段的位数如下:R-R型: 操作码OP (2位) | 源寄存器RS (3位) | 目的寄存器Rd (3位)R-M型: 操作码OP (5位) | 源寄存器RS (3位) | 变址寄存器RX (3位) | 偏移地址 (5位)(4) 变址寻址的偏移地址范围为-16~+15.7. 简述CISC的特点.[答案] CISC的特点如下:(1) 庞大的指令系统;(2) 采用了可变长度的指令格式;(3) 指令使用的寻址方式繁多;(4) CISC指令系统中包括一些用于特殊用途的指令, 各种指令的使用频度相当悬殊.8. 从指令格式, 寻址方式以及平均CPI三个方面, 比较经典CISC和纯RISC体系结构.[答案] 略9．简述RISC设计的一般原则。

计算机系统结构总复习题(填空选择判断)

二、填空题1、按照Flynn分类法,根据指令流和数据流的不同组织方式,计算机系统的结构可以分为SISD(单指令流单数据流)、MISD、MIMD或单指令流多数据流和多指令流多数据流。

2、Amdahl等人在1964年把系统结构定义为：由程序设计者所看到的一个计算机系统的属性，即概念性结构和功能特性。

3、指令系统是软件设计人员与硬件设计人员之间的一个主要分界面，也是他们之间互相沟通的一座桥梁。

在计算机系统的设计过程中，指令系统的设计是非常关键的，它必须由软件设计人员和硬件设计人员共同来完成。

4、实现程序移植的主要途径有统一高级语言、系列机、模拟和仿真。

5、系列机软件兼容必须做到向后兼容，尽可能争取向上兼容。

6、开发并行性是为了并行处理，并行性又包括有同时性和并发性二重含义。

7、浮点数尾数基值增大。

可使运算中的精度损失减小可表示数的精度变降低。

8、浮点数阶码位数影响数的可表示范围大小，尾数位数影响数的可表示精度大小。

9、设计指令系统时，在功能方面的基本要求是：指令系统的完整性、规整性、高效率和兼容性。

10、根据多台外围设备共享通道的不同情况，可将通道分为三种类型：字节多路通道、选择通道和数组多路通道。

11、输入输出设备的异步性、实时性、与设备无关性三个特点是现代计算机系统必须具备的共同特性。

12、评价存贮器性能的基本要求是大容量、高速度和低价格。

13、虚拟存贮器主要是为解决主存容量满足不了要求发展出来的。

14、Cache存贮器是为解决主存速度满足不了要求发展出来的。

15、虚拟存贮器是增加辅助软硬件。

使主、辅存形成整体，速度接近于主存的。

容量是辅存的。

16、Cache存贮器是增加辅助硬件，使之速度接近于Cache的，容量是__主_存的。

17、Cache存贮器对应用程序员是透明的。

对系统程序员是透明的(填“透明”或“不透明”)18、程序在时间上的局部性表现在，最近未来要用的信息可能就是现在正在使用的信息，这是因为程序中有存在着循环。

(完整版)计算机系统结构考试题目及参考答案

一：名词解释1：虚拟机：由软件实现的机器。

2：CPI：是衡量CPU执行指令效率的重要标志，指执行每条指令所需的平均时钟周期数。

3：摩尔定律：当价格不变时，集成电路上可容纳的晶体管数目，约每隔18个月便会增加一倍，性能也将提升一倍。

4：并发性：指两个或多个事件在同一时间间隔内发生的并行性。

5：程序局部性原理：是指程序在执行时呈现出局部性规律，即在一段时间内，整个程序的执行仅限于程序中的某一部分。

相应地，执行所访问的存储空间也局限于某个内存区域。

局部性原理又表现为：时间局部性和空间局部性。

6：CISC/RISC：CISC：即复杂指令系统计算机，指在系统中增加更多和复杂的指令，来提高操作系统效率的计算机。

RISC：即精简指令系统计算机，指在系统中选取使用一些频率最高的、长度固定的、格式种类少的简单指令的计算机。

7：计算机系统结构：指对机器语言计算机的软、硬件功能的分配和对界面的定义。

8：系列机：指先设计好一种系统结构，而后就按这种系统结构设计它的系统软件，按器件状况和硬件技术研究这种结构的各种实现方法，并按照速度、价格等不同要求，分别提供不同速度、不同配置的各档机器。

9：模拟：用机器语言程序解释实现程序移植的方法。

10：仿真：用微程序直接解释另一种机器的指令系统。

11：寻址方式：寻找操作数或指令的有效地址的方式。

12：替换算法：在存储体系中，当出现页面失效时或者主存的所有页面已经全部被占用而又出现页面失效时，按照某种算法来替换主存中某页。

[由于主存中的块比Cache中的块多，所以当要从主存中调一个块到Cache中时，会出现该块所映象到的一组（或一个）Cache块已全部被占用的情况。

这时，需要被迫腾出其中的某一块，以接纳新调入的块。

]二：选择题1，直接执行微指令的是（C）A 汇编程序B 编译程序C 硬件D微指令程序2，对汇编语言程序员不透明的是（C）A 程序计数器B主存地址寄存器C条件码寄存器D指令寄存器3，最早的冯·诺依曼型计算机是以（B）为中心的A运算器B控制器C存储器 D I/O设备4，计算机系统结构的角度的结构来看，机器语言程序员看到的机器属性是（C ）A 计算机软件所要完成的功能B 计算机硬件的全部组成C 编程要用到的硬件组织D计算机各部分硬件的实现5，不同系列计算机之间实现可移植性的途径，不包括（B ）A 采用统一的高级语言B采用统一的汇编语言C 模拟D仿真6，利用时间重叠原理，实现并行处理的是（A）A流水处理机B多处理机 C 阵列处理机D集群系统7，多处理机实现的并行主要是（B）A指令级并行 B 任务级并行C 操作级并行D操作步骤的级并行8计算机系统结构不包括（B）A信息保护B存储速度C数据表示D机器工作状态9，不需要编址的数据存储空间（D ）A CPU通用寄存器B 主存储器C I/O寄存器D堆栈10，RISC执行程序的速度比CISC 快的原因是（C）A RISC指令系统中条数较少B 程序在RISC编译生成的目标程序较短C RISC指令平均执行周期数较少D RISC中只允许LOAD和STORE指令存储11，程序员在编写程序时，使用的访存地址是（B）A主存地址B逻辑地址C物理地址D有效地址12，虚拟存储器主要是为了（A）A扩大存储器系统容量B提高存储器系统速度C扩大存储器系统容量和提高存储器系统速度D便于程序的访存操作13，与全相联映像相比，组相联映像的优点是（B）A目录表小B块冲突概率低C命中率高D主存利用率高14，输入输出数据不经过CPU内部寄存器的输入输出方式是（C ）A程序控制方式B中断 C DMA方式D上述三种方式15，在配置了通道的计算机系统中，用户程序需要输入输出时引起的中断是（A）A访管中断 B I/O中断C程序性中断D外部中断16，当计算机系统通过执行通道程序，完成输入输出工作时，执行通道程序的是（B）A CPUB 通道C CPU和通道D指定的外设三：填空1，常见的计算机系统结构的分类法有两种：Flynn分类法，冯氏分类法冯氏分类法是根据系统的最大并行度对计算机系统结构进行分类，大多数的位并行的单处理机属于字串位并的处理机方式2，由软件实现的机器称为：虚拟机3，在一个计算机系统中，低层机器的属性往往对高层机器的程序员是透明的。

体系结构简答

1.2 试用实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系。

答：如在设计主存系统时，确定主存容量、编址方式、寻址范围等属于计算机系统结构。

确定主存周期、逻辑上是否采用并行主存、逻辑设计等属于计算机组成。

选择存储芯片类型、微组装技术、线路设计等属于计算机实现。

计算机组成是计算机系统结构的逻辑实现。

计算机实现是计算机组成的物理实现。

一种体系结构可以有多种组成。

一种组成可以有多种实现。

1.3 计算机系统结构的Flynn分类法是按什么来分类的？共分为哪几类？答：Flynn 分类法是按照指令流和数据流的多倍性进行分类。

把计算机系统的结构分为：（1）单指令流单数据流SISD （2）单指令流多数据流SIMD （3）多指令流单数据流MISD （4）多指令流多数据流MIMD 1.4 计算机系统设计中经常使用的4个定量原理是什么？并说出它们的含义。

答：（1）以经常性事件为重点。

在计算机系统的设计中，对经常发生的情况，赋予它优先的处理权和资源使用权，以得到更多的总体上的改进。

（2）Amdahl定律。

加快某部件执行速度所获得的系统性能加速比，受限于该部件在系统中所占的重要性。

（3）CPU 性能公式。

执行一个程序所需的CPU时间 = IC ×CPI ×时钟周期时间。

（4）程序的局部性原理。

程序在执行时所访问地址的分布不是随机的，而是相对地簇聚。

1.5 分别从执行程序的角度和处理数据的角度来看，计算机系统中并行性等级从低到高可分为哪几级？答：从处理数据的角度来看，并行性等级从低到高可分为：（1）字串位串：每次只对一个字的一位进行处理。

这是最基本的串行处理方式，不存在并行性；（2）字串位并：同时对一个字的全部位进行处理，不同字之间是串行的。

已开始出现并行性；（3）字并位串：同时对许多字的同一位（称为位片）进行处理。

这种方式具有较高的并行性；（4）全并行：同时对许多字的全部位或部分位进行处理。

并行计算机体系结构的分类按照Flynn分类法,可把

CPU0
CPU1
CPU2
CPU3
存储器
I/O
集中共享存储器计算机
7.1 引言
(2) 分布式存储器结构每个结点包含：
处理器存储器 I／O
动画
在许多情况下，分布式存储器结构优于集中式共享存储器结构
CPU0
CPU1
CPU2
CPU3
存储器
I/o
存储器
I/o
存储器
I/o
存储器
I/o
互连网络
7.1 引言
3. 并行程序的计算／通信比率 ➢ 反映并行程序性能的一个重要的度量计算与通信的比率 ➢ 计算／通信比率随着处理数据规模的增大而增加；随着处理器数目的增加而降低。
（NUMA: Non-Uniform Memory Access)
7.1 引言
(2) 整个地址空间由多个独立的地址空间构成，它们在逻辑上也是独立的，远程的处理器不能对其直接寻址。
每一个处理器-存储器模块实际上是一个单独的计算机，这种机器也称为多计算机。
7.1 引言
2. 两种通信模型共享地址空间的机器利用Load和Store指令中的地址隐含地进行数据通讯。多个地址空间的机器通过处理器间显式地传递消息完成。 (消息传递机器)
解有0.5%远程访问的机器的实际CPI CPI＝基本CPI＋远程访问率×远程访问开销＝1.0＋0.5%×
7.1 引言
远程访问开销＝远程访问时间/时钟时间＝2000ns/10ns＝200
∴ CPI＝1.0＋0.5%×200＝2.0 它为只有局部访问的机器的2.0／1.0＝2倍，因此在没有远程访问的状态下的机器速度是有0.5% 远程访问的机器速度的2倍。 ➢ 问题的解决并行性不足：采用并行性更好的算法远程访问延迟的降低：靠体系结构支持和编程技术

并行体系结构课后答案

第一章绪论什么是并行计算机答：简单地讲，并行计算机就是由多个处理单元组成的计算机系统，这些处理单元相互通信和协作，能快速高效求解大型的复杂的问题。

简述Flynn分类法：答：根据指令流和数据流的多重性将计算机分为：1）单指令单数据流SISD2）单指令多数据流SIMD3）多指令单数据流MISD4）多指令多数据流MIMD简述当代的并行机系统答：当代并行机系统主要有：1）并行向量机（PVP）2）对称多处理机（SMP）3）大规模并行处理机（MPP）4）分布式共享存储（DSM）处理机5）工作站机群（COW）为什么需要并行计算机答：1）加快计算速度2）提高计算精度3）满足快速时效要求4）进行无法替代的模拟计算简述处理器并行度的发展趋势答：1）位级并行2）指令级并行3）线程级并行简述SIMD阵列机的特点答：1）它是使用资源重复的方法来开拓计算问题空间的并行性。

2）所有的处理单元（PE）必须是同步的。

21m 3）阵列机的研究必须与并行算法紧密结合，这样才能提高效率。

4）阵列机是一种专用的计算机，用于处理一些专门的问题。

简述多计算机系统的演变答：分为三个阶段：1）1983-1987年为第一代，代表机器有：Ipsc/1、Ameteks/14等。

2）1988-1992年为第二代，代表机器有：Paragon 、Intel delta 等。

3）1993-1997年为第三代，代表机器有：MIT 的J-machine 。

简述并行计算机的访存模型答：1）均匀存储访问模型（UMA ）2）非均匀存储访问模型（NUMA ）3）全高速缓存存储访问模型（COMA ）4）高速缓存一致性非均匀访问模型（CC-NUMA ）简述均匀存储访问模型的特点答：1）物理存储器被所有处理器均匀共享。

2）所有处理器访问任何存储字的时间相同。

3）每台处理器可带私有高速缓存。

4）外围设备也可以一定的形式共享。

简述非均匀存储访问模型的特点答：1）被共享的存储器在物理上分布在所有的处理器中，其所有的本地存储器的集合构成了全局的地址空间。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(3) 通讯延迟的隐藏 ➢ 如何才能较好地将通信和计算或多次通信之间重叠起来，以实现通讯延迟的隐藏。 ➢ 通常的原则：只要可能就隐藏延迟。 ➢ 通信延迟隐藏是一种提高性能的有效途径，但它对操作系统和编程者来讲增加了额外的负担。
7.1 引言
4. 不同通信机制的优点 A. 共享存储器通信的主要优点 (1) 与常用的集中式多处理机使用的通信机制兼容。 (2) 易于编程 —— 与传统的编程模式一致 (3) 当通信数据较小时，通信开销较低，带宽利用较好。 (4) 通过硬件控制的Cache减少了远程通信的频度，
需要高带宽的互连。
➢ 簇：超结点
7.1 引言
7.1.2
1. 地址空间的组织方案（两种） (1) 物理上分离的多个存储器作为一个逻辑上共享的存储空间进行编址。
这类机器的结构被称为分布式共享存储器结构
（DSM: Distributed Shared-Memory) 可缩放共享存储器结构
（SSM: Scalable Shared-Memory) NUMA机器
（NUMA: Non-Uniform Memory Access)
7.1 引言
(2) 整个地址空间由多个独立的地址空间构成，它们在逻辑上也是独立的，远程的处理器不能对其直接寻址。
每一个处理器-存储器模块实际上是一个单独的计算机，这种机器也称为多计算机。
7.1 引言
2. 两种通信模型共享地址空间的机器利用Load和Store指令中的地址隐含地进行数据通讯。多个地址空间的机器通过处理器间显式地传递消息完成。 (消息传递机器)
7.1 引言
7.1.3 并行处理面临的挑战
并行处理面临着两个重要的挑战：
程序中有限的并行性相对较高的通信开销
。
1
系统加速比 =（1可加速部分比可例理加）论速加部速分比比例
7.1 引言
1. 第一个挑战：有限的并行性使机器要达到好的加速比十分困难
例7.1 如果想用100个处理器达到80的加速比，求原计算程序中串行部分所占比例。
IBM SP-2
消息传递
多级开关
2－512
30-100μs
7.1 引言
例一台32个处理器的计算机，对远程假设计算中的访问均命中局部存储器。当发出一个远程请求时，本处理器挂起。处理器时钟时间为10ns，如果指令基本的CPI为1.0(设所有访存均命中Cache)，求在没有远程访问的状态下与有0.5%的指令需要远程访问的状态下，前者比后者快多少?
7.1 引言
➢ 消息传递机器根据简单的网络协议，通过传递消息来请求某些服务或传输数据，从而完成通信。例如：一个处理器要对远程存储器上的数据进行访问或操作： (1) 发送消息，请求传递数据或对数据进行操作；远程进程调用(RPC， Remote Process Call) (2) 目的处理器接收到消息以后，执行相应的操作或代替远程处理器进行访问，并发送一个应答消息将结果返回。
存储器
I/o
存储器
I/o
存储器
I/o
存储器
I/o
CPU4
CPU5
CPU6
分布共享存储器计算机
CPU7
7.1 引言
➢ 分布式存储器结构的优点
如果大多数的访问是针对本结点的局部存储器，则可降低对存储器和互连网络的带宽要求；
局部存储器的访问延迟低。
➢ 主要缺点
处理器之间的通信较为复杂，且各处理器之间的访问延迟较大。
≤36
1μs
Cray T3D
共享存储器 3维环网
32－2048
1μs
Convex Exemplar KSR-1
共享存储器交叉开关＋环
8－64
共享存储器多层次环
32－256
2μs 2-6μs
CM-5
消息传递
胖树
32－1024
10μs
Intel Paragon
消息传递
2维网格
32－2048
10-30μs
7.1 引言
B. 消息传递通信机制的主要优点 (1) (2) 通信是显式的，从而引起编程者和编译程序的注意，着重处理开销大的通信。
在共享存储器上支持消息传递相对简单在消息传递的硬件上支持共享存储器就困难得多。
所有对共享存储器的访问均要求操作系统提供地址转换和存储保护功能，即将存储器访问转换为消
(1) MIMD
(2) MIMD可以充分利用商品化微处理器在性能价格
比方面的优势。
3. 根据系统中处理器个数的多少，可把现有的MIMD
机器分为两类
（每一类代表了一种存储器的结构和互连策略）
(1) 集中式共享存储器结构
动画
这类机器有时被称为 SMP机器（Symmetric shared-memory MultiProcessor） UMA机器（Uniform Memory Access）
解动画演示
2. 第二个挑战：多处理机中远程访问的延迟较大
在现有的机器中，处理器之间的数据通信大约需要50～10000个时钟周期。
远程访问一个字的延迟时间
机器
通信机制
互连网络
SPARC Center
共享存储器总线
处理机数量 ≤20
典型远程存储器访问时间
1μs
SGI Challenge
共享存储器总线
第７章多处理机
7.1 引言
7.1.1 并行计算机体系结构的分类
1. 按照Flynn分类法，可把计算机分成 ➢ 单指令流单数据流（SISD） ➢ 单指令流多数据流（SIMD） ➢ 多指令流单数据流（MISD） ➢ 多指令流多数据流（MIMD）
7.1 引言
2. MIMD已成为通用多处理机体系结构的选择，原因：
CPU0
CPU1
CPU2
CPU3
存储器
I/O
集中共享存储器计算机
7.1 引言
(2) 分布式存储器结构每个结点包含：
处理器存储器 I／O
动画
在许多情况下，分布式存储器结构优于集中式共享存储器结构
CPU0
CPU1
CPU2
CPU3
存储器
I/o
存储器
I/o
存储器
I/o
存储器
I/o
互连网络
7.1 引言
➢ 同步消息传递请求处理器发送一个请求后一直要等到应答
结果才继续运行。 ➢ 异步消息传递
发送方不先经请求就直接把数据送往数据接受方。
3.通信机制的性能指标（3个） (1) 通信带宽
理想状态下的通信带宽受限于处理器、存储器和互连网络的带宽。
7.1 引言
(2) 通信延迟理想状态下通信延迟应尽可能地小。通信延迟＝发送开销 + 跨越时间 + 传输延迟 +

并行计算机体系结构的分类按照Flynn分类法,可把

计算机体系结构 习题与答案

系统结构复习

计算机系统结构总复习题(填空选择判断)

(完整版)计算机系统结构考试题目及参考答案

最新系统结构总复习题(附答案)

体系结构简答

并行计算机体系结构的分类按照Flynn分类法,可把

并行体系结构课后答案

计算机体系结构习题与答案