第八章并行处理机和多处理机

合集下载

计算机系统结构--向量处理机

如果程序的90％是向量运算，10％是标量运算。则向量平衡点为0.9。硬件利用率最高。向量处理机的向量平衡点必须与用户程序的向量化程度相匹配。 IBM向量计算机的设计思想与上述方法不同，它维持较低的向量与标量比例，定在3～5的范围之间。这种做法能够适应通用应用问题对标量和向量处理要求。
6.2.1 存储器－存储器结构
向量处理机中有多个高速流水线运算部件，存储器的访问速度是关键采用多个存储体交叉和并行访问来提高存储器速度，例如： CRAY-1有64个存储体，每个处理机访问4个存储体 STAR-100采用32个存储体交叉，每个存储体并行读出8个64位数据我国研制的YH-1向量计算机有37个存储体
把存储器-存储器结构中的缓冲栈改为向量寄存器，运算部件需要的操作数从向量寄存器中读取，运算的中间结果也写到向量寄存器中。向量寄存器与标量寄存器的主要差别是：一个向量寄存器能够保存一个向量，例如：64个64位寄存器。连续访问一个向量的各个分量。需要有标量寄存器和地址寄存器等。
采用寄存器-寄存器结构的主要优点：降低主存储器的流量。例如：采用寄存器-寄存器结构的 CRAY-1与采用存储器-存储器结构的 STAR-100比较，运算速度高3倍多，而主存流量低2.5倍。 STAR-100的主存储器流量： 32×8W/1.28us=200MW/S CRAY-1的主存储器流量： 4W/50ns=80MW/S
6.3 向量处理方式
要根据向量运算的特点和向量处理机的类型选择向量的处理方式。有三种处理方式： 1．横向处理方式，又称为水平处理方式，横向加工方式等。向量计算是按行的方式从左至右横向地进行。 2．纵向处理方式，又称为垂直处理方式，纵向加工方式等。向量计算是按列的方式自上而下纵向地进行。 3．纵横处理方式，又称为分组处理方

《计算机操作系统教程》第三版答案

第一章操作系统概述课后习题1. 硬件将处理机划分为两种状态，即管态和目态，这样做给操作系统设计带来什么好处 ? 答：便于设计安全可靠的操作系统。

管态和目态是计算机硬件为保护操作系统免受用户程序的干扰和破坏而引入的两种状态。

通常操作系统在管态下运行，可以执行所有机器指令；而用户程序在目态下运行，只能执行非特权指令。

如果用户程序企图在目态下执行特权指令，将会引起保护性中断，由操作系统终止该程序的执行，从而保护了操作系统。

2. 何为特权指令?举例说明之。

如果允许用户执行特权指令，会带来什么后果？答：只能在态下才能执行的指令称为特权指令。

如开关中断、置程序状态寄存器等。

如果允许用户执行特权指令，它将不仅影响当前运行的程序，而且还有可能影响操作系统的正常运行，甚至整个系统。

3. 中断向量在机器中的存储位置是由硬件确定的，还是由软件确定的 ? 答：中断向量在机器中的位置是由硬件确定的。

例如，在 INTEL 80x86 CPU 中，内存空间0x00000——0x003ff为中断向量空间。

4. 中断向量的内容是由操作系统程序确定的还是由用户程序确定的？答：中断向量的内容是由操作系统程序确定的。

向量的内容包括中断处理程序的入口地址和程序状态字（中断处理程序运行环境），中断处理程序是由操作系统装入内存的，操作系统将根据装入的实际地址和该中断处理程序的运行环境来填写中断向量。

5. 中断向量内的处理机状态位应当标明是管态还是目态 ? 为什么? 答：应当标明是管态。

该状态由系统初试化程序设置，这样才能保证中断发生后进入操作系统规定的中断处理程序。

6. 中断和程序并发之间的关系是什么？答：中断是程序并发的必要条件。

如果没有中断，操作系统不能获得系统控制权，无法按调度算法对处机进行重新分配，一个程序将一直运行到结束而不会被打断。

7. 说明“栈”和“堆”的差别．答：栈是一块按后进先出（FIFO）规则访问的存储区域，用来实现中断嵌套和子程序调用的参数和返回断点。

并行处理机和多处理机

65536 个 PE 排成 10 维超立方体 , 每个 Thinking PE 可有 1M 位存储 Machines公器 , 32 个 PE 共享司CM-2 FPU 选件 , 峰值速度28 Gflops和持续速度5.6 Gflops 1K 位 /PE 方形网格 Active 互连成 4096PE 的细 Memory 粒、位片 SIMD 阵 Technology 列，正交 4- 邻位链 DAP600 接， 20GIPS 和系列 560Mflops 峰值性能
理速度极高，但标量处理速度只是每秒一百万次，那么对于标量运算占10％的题目来说，总的有效速度就不过是每秒一千万次。

SIMD基本上是一台向量处理专用计算机。尽管它有一个功能很强的控制部件实际上起作标量处理机的作用，但仍然必须和一台高性能单处理机配合工作，使后者担负系统的全部管理功能。
并行处理机实例
由 VAX, Sun 或 Symbolics 360主机驱动, PARIS支持的 Lisp 编译器、 Fortran90 、 C* 和 *Lisp 由主机 VAX/VMS 或 UNIX Fortranplus 或 DAP 上 APAL 提供，主机的 Fortran77 或 C; 与 Fortran90 标准有关的Fortran-plus
CU LM0 PE0 LM1 PE1 …… ……
IOP LMn-1 PEn-1
互连网络
2. 共享存储器并行处理机

共享的多体并行存储器 SM 通过互连网络与各处理单元PE相连。存储模块的数目等于或略大于处理单元的数目。同时在存储模块之间合理分配数据，通过灵活、高速的互连网络，使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行，而最少受存储冲突的影响。共享存储器模型的处理单元数目一般不多，几个至几十个。 Burroughs Scientific Processor (BSP)采用了这种结构。 16个PE通过一个16×17的对准互连网络访问17个共享存储器模块。存储器模块数与PE数互质可以实现无冲突并行访问存储器。

计算机组成原理课件第08章

一、接口的功能和组成
1、总线连接方式的I/O接口电路、总线连接方式的接口电路在总线结构的计算机系统中，每一台 I/O设备都是通过I/O接口挂到系统总线上的。如图示：
数据线：数据线：传送数据信息，其根数一般等于存储字长的位数或字符的位数。双向。设备选择线：设备选择线：传送设备码，其根数取决于I/O指令中设备码的位数。单向。命令线：命令线：传输CPU向设备发出的各种命令信号，其根数与命令信号多少有关。单向总线。状态线：状态线：向主机报告I/O 设备状态的信号线。单向总线。
CPU在任何瞬间只能接受一个中断源 CPU在任何瞬间只能接受一个中断源的请求。的请求。因此，当多个中断源提出中断请求时，CPU必须对各中断源的请求进行排队，且只能接受级别最高的中断源的请求，不允许级别低的中断源中断正在运行的中断服务程序。此时，就可用MASK来改变中断源的优先级别。另外，CPU总是在统一的时间，即执 CPU总是在统一的时间，总是在统一的时间行每一条指令的最后时刻，行每一条指令的最后时刻，查询所有设备是否有中断请求。是否有中断请求。接口电路中D、INTR、MASK和中断查询信号的关系如图示：
2、排队器、当多个中断源同时向CPU提出请求时，经排队器的排队，只有优先级高的中断源排上队，这样就能实现CPU按中断源优先级的高低响应中断请求。下图是设在各个接口电路中的排队电路— —链式排队器。
其中首尾相接的虚线部分组成的门电路是排当各中断源均无中断请求时，各INTRi 为高电队器的核心，由一个非门和一个与非门构成。平，其INTP1 '、 INTP2' 、 INTP3 '……均为高电平中断源优先级最高的是1号中断源。当多个中。一旦某中断源提出中断请求,就迫使比其优先级断源提出中断请求时，排队器输出端INTPi，低的中断源之INTPi '变为低电平，封锁其发中断只有一个为高电平，表示该中断源排上队。请求。

第8章多处理机习题

一、填空题
1、按弗林(Flynn)提出的计算机系统分类方法，多处理机属于( )
A.SISD
B.SIMD
C.MISD
D.MIMD
2、在共享主存的多处理机中，为减少访问主存冲突，采用的方式一般是( D )
A．虚拟存储器B．共享Cache存储器
C．用高速单体主存系统D．并行多体交叉主存系统
二、填空题
1、多处理器系统具有两种典型的结构：和；P222
2、在多核处理器中，根据集成的多核处理器核心是否相同，多核处理器可分为
和。

3、解决多处理cache一致性问题的方法有：软件方法、总线监听法和目录表法。

三、名词解释
1、超线程技术
P217
2、多处理器系统
3、多核处理器
四、简答题
1、单核处理器的发展受到那几个方面的限制？
或者这么问：（为什么单核处理器会被多核处理器取代？）
P219
2、多处理器系统，按组成规模，其分为哪4个层次？
P222
3、为了充分发挥多处理器系统的并行处理能力，需要面对哪2个问题？
解决方法是什么？
P227
4、解决多处理cache一致性问题的方法有哪3种？
5、集群系统的特点？
P241
6、构建集群系统的关键技术？P243
7、多核处理器的优点？
P221。

操作系统五大管理功能包括哪些

操作系统五大管理功能包括哪些操作系统的五个基本管理功能你知道是什么呢?下面由店铺整理了操作系统五大管理功能包括哪些的相关知识，希望对你有帮助。

操作系统五大管理功能包括哪些1) 设备管理：主要是负责内核与外围设备的数据交互，实质是对硬件设备的管理，包括对输入输出设备的分配，初始化，维护与回收等。

例如管理音频输入输出。

2) 作业管理：这部分功能主要是负责人机交互，图形界面或者系统任务的管理。

3) 文件管理：这部分功能涉及文件的逻辑组织和物理组织，目录结构和管理等。

从操作系统的角度来看，文件系统是系统对文件存储器的存储空间进行分配，维护和回收，同时负责文件的索引，共享和权限保护。

而从用户的角度来说，文件系统是按照文件目录和文件名来进行存取的。

4) 进程管理：说明一个进程存在的唯一标志是pcb(进程控制块)，负责维护进程的信息和状态。

进程管理实质上是系统采取某些进程调度算法来使处理合理的分配给每个任务使用。

5)存储管理：数据的存储方式和组织结构。

补充：操作系统的四大类操作系统的类型也可以分为几种：批处理系统，分时操作系统，实时操作系统，网络操作系统等。

下面将简单的介绍他们各自的特点：1) 批处理系统：首先，用户提交完作业后并在获得结果之前不会再与操作系统进行数据交互，用户提交的作业由系统外存储存为后备作业;数据是成批处理的，有操作系统负责作业的自动完成;支持多道程序运行。

2) 分时操作系统：首先交互性方面，用户可以对程序动态运行时对其加以控制;支持多个用户登录终端，并且每个用户共享CPU和其他系统资源。

3) 实时操作系统：会有时钟管理，包括定时处理和延迟处理。

实时性要求比较高，某些任务必须优先处理，而有些任务则会被延迟调度完成。

4) 网络操作系统：网络操作系统主要有几种基本功能(1) 网络通信：负责在源主机与目标主机之间的数据的可靠通信，这是最基本的功能。

(2) 网络服务：系统支持一些电子邮件服务，文件传输，数据共享，设备共享等。

微机原理与应用第八章

无条件传送的输出实例：
300 x 8 数据总线
+5V
74LS373
LE OE
CS WR
MOV DX, 160H MOV AL, [BX] OUT DX, AL
可认为： LED发光二极管是“始终就绪” 的外设。
无条件传送的输入输出接口：
A0～A15
IOR IOW
译码 8000 H +5V G LS244 三态缓冲器 CLK LS273 8D 锁存器 LS06 反相驱动器
⑴ CPU对DMA控制器进行初始化设置 ⑵ 外设、DMAC和CPU三者通过应答信号建立联系：CPU将总线交给DMAC控制传送流程 ⑶ DMA传送

DMA读存储器：存储器 → 外设 DMA写存储器：存储器 ← 外设
8.1 8.2 8.3 8.4
微型计算机的输入/输出接口并行通信与并行接口可编程并行通信接口芯片8255A 串行通信与串行接口
DB
数据信息
主
AB
机
CB
接口电路
外设
数据通常有四种类型：
状态信息
控制信息
模拟量不能直接进入计算机，必须经过A/D转换器
数字量：二进制形式的数据，或是已经编过码的二进制形式的数据。（1位、8位、16位或32位）模拟量：用模拟电压或电流幅值大小表示的物理量。开关量：有两个状态，即“开”或“关” 一位二进制数就可表示的量脉冲量：以脉冲形式表示的一种信号
LED7
K0 K1
…
LED0
K7
+5V …
D0～D7
8086
next:
mov dx,8000h in al,dx not al out dx,al call delay jmp next

《并行处理机》PPT课件

设A、B和C为3个 8×8 的二维矩阵。若给定A和B，则为计算
C=A*B的 64 个分量，可用下列公式
7
cij aik bkj
k 0
其中， 0≤i≤7 且 0≤j≤7。
SIMD处理机的算法举例-
在SISD计算机上求解这个问题，可执行用FORTRAN语言编写的下列
程序
DO 10 I=0,7
并行处理机的控制部件中进行的是单指令流，因此与高性能单处理机一样，指令基本上是串行执行，最多加上使用指令重叠或流水线的方式工作。
指令重叠是将指令分成两类，把只适合串行处理的控制和标量类指令留给控制部件自己执行，而把适合于并行处理的向量类指令播送到所有处理单元，控制让处于活跃的那些处理单元去并行执行。因此这是一种标量控制类指令和向量类指令的重叠执行。
ILLIAC Ⅳ的处理单元阵列结构
PU5
PU5
6
7
PU6
PU0
PU1
3
PБайду номын сангаас7
PU8
PU9
PU5 8
PU7
PU8
PU15
PU1
6
PU5
PU56
5
PU57
PU63
PU0
PU0
PU1
PU7
图 8.2 ILLIAC Ⅳ处理单元的互连结构
SIMD处理机的算法举例-矩阵加法
在阵列处理机上，解决矩阵加法是最简单的一维情形。若有两个 8×8 的矩阵A、B相加，所得结果矩阵C也是一个 8×8
（2）共享存贮的并行处理机。
每个PE没有局部存触器，存储模块以集中形式为所有 PE共享。互连网IN受CU控制，具有双向性采用分布式存贮器组成基本结构。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

CU LM0 PE0 LM1 PE1 …… ……
IOP LMn-1 PEn-1
互连网络
2. 共享存储器并行处理机

共享的多体并行存储器 SM 通过互连网络与各处理单元PE相连。存储模块的数目等于或略大于处理单元的数目。同时在存储模块之间合理分配数据，通过灵活、高速的互连网络，使存储器与处理单元之间的数据传送在大多数向量运算中都能以存储器的最高频率进行，而最少受存储冲突的影响。共享存储器模型的处理单元数目一般不多，几个至几十个。 Burroughs Scientific Processor (BSP)采用了这种结构。 16个PE通过一个16×17的对准互连网络访问17个共享存储器模块。存储器模块数与PE数互质可以实现无冲突并行访问存储器。
第八章并行处理机和多处理机
并行处理机又叫SIMD计算机。它是单一控制部件控制下的多个处理单元构成的阵列，所以又称为阵列处理机。多处理机是由多台独立的处理机组成的系统。
并行处理机结构和实例多处理机结构和实例

并行处理计算机模型并行处理机定义：
多个PU按照一定方式互连，在同一个CU控制下，对各自的数据完成同一条指令规定的操作。从CU看，指令是串行执行的，从PU看，数据是并行处理的。并行处理机也称为阵列处理机。按照佛林分类法，它属于SIMD计算机。并行处理机的应用领域：主要用于高速向量或矩阵运算中。
由 VAX, Sun 或 Symbolics 360主机驱动, PARIS支持的 Lisp 编译器、 Fortran90 、 C* 和 *Lisp 由主机 VAX/VMS 或 UNIX Fortranplus 或 DAP 上 APAL 提供，主机的 Fortran77 或 C; 与 Fortran90 标准有关的Fortran-plus
进一步分析：当2logm < m/2时即m > 16时并行累加比两路线性累加更优。反之，当m < 16 时，两路线性累加更快。其根本原因就是并行累加算法节省了加法时间，但是花费更多的数据传送时间。
算法描述如下: Par： For j=1 to m Do S(j)=A1j*B1j For 2 to [n/m] Do S(j)=S(j)+Aij*Bij Enddo S(j)=S(j)+S(j+1) S(j)=S(j)+S(j+2) S(j)=S(j)+S(j+4) …… S(j)=S(j)+S(j+[n/m]) Enddo

(4) 产生和向所有处理单元广播公共的数据； (5) 接收和处理PE、I/O操作以及B6700产生的陷阱中断信号。 2、输入输出系统 IlliacIV的输入输出系统由磁盘文件系统DFS、 I/O分系统和一台B6700处理机组成。 I/O分系统又由输入输出开关IOS、控制描述字控制器CDC和输入输出缓冲存储器BIOM 三个部分组成。
CU PE0 PE1 …… PEn-1
互连网络
SM0 SM1 IOP …… SMk-1
并行处理机的特点

并行处理机的主要特点如下：速度快，特别适于高速数值计算。 SIMD依靠的是资源重复，而不是时间重叠。它依靠增加PE个数，与流水线处理机主要依靠缩短时钟周期相比，其提高速度的潜力要大得多。依赖于互连网络和并行算法。互连网络决定了PE之间的连接模式，也决定了并行处理机能够适应的算法。需要有一台高性能的标量处理机。如果一台机器的向量处

IlliacIV 是最先采用SIMD结构的并行机随后一个方向是用位片PE制造的并行机，如
Goodyear MPP、AMT/DAP 610和TMC/CM-2。CM-5是以 SIMD模式运行的同步MIMD计算机。另一方向是用字宽运算 PE的中粒度SIMD计算机。

并行处理机的两个发展方向：
保留阵列结构，但每个处理单元的规模减小，如一个bit。去掉阵列结构和分布存储器。 Burroughs公司的BSP是典型代表。 GF-11是由IBM Watson实验室研制、作科学模拟研究用的。 MasPar MP1是中粒度并行处理机的典型代表。
并行处理机的基本结构
两种SIMD计算机的基本结构：
分布存储器并行处理机共享存储器并行处理机一台并行处理机由五个部分组成：多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP
1、分布存储器结构

目前的大部分并行处理机是基于分布式存储器模型的系统。比较容易构成MPP（Massively Parallel Processor）,几十万个PE。必须依靠并行算法来提高PE的利用率。因此，应用领域很有限。 CU是控制部件，执行标量指令，并把向量指令广播到各个PE中。在CU中通常有一个较大容量的存储器。 IOP是输入输出处理机，或称为主机。在IOP上安装操作系统，它除了负担输入输出工作外，还负责程序的编辑、编译和调试等工作。数据在局部存储器中的分布是一个很关键的问题。标量指令与向量指令可以并发执行。
65536 个 PE 排成 10 维超立方体 , 每个 Thinking PE 可有 1M 位存储 Machines公器 , 32 个 PE 共享司CM-2 FPU 选件 , 峰值速度28 Gflops和持续速度5.6 Gflops 1K 位 /PE 方形网格 Active 互连成 4096PE 的细 Memory 粒、位片 SIMD 阵 Technology 列，正交 4- 邻位链 DAP600 接， 20GIPS 和系列 560Mflops 峰值性能
理速度极高，但标量处理速度只是每秒一百万次，那么对于标量运算占10％的题目来说，总的有效速度就不过是每秒一千万次。

SIMD基本上是一台向量处理专用计算机。尽管它有一个功能很强的控制部件实际上起作标量处理机的作用，但仍然必须和一台高性能单处理机配合工作，使后者担负系统的全部管理功能。
并行处理机实例
（3）加速比当采用两路线性累加的方法时加速比为：
6 n 2 n S 4 6 3 [ n /2 ]
若m = n，做乘法的时间变为4，则加速比简化为
6 n 2 S 6 [ n /m ] 3 [ m /2 ] 4
当采用递归并行累加时加速比为：
6 n 2 S 6 [ n /m ] m 2 log m 3
下图是H.J.Siegel提出的SIMD计算机的操作模型
控制器
PE0 P0
M0
PE1 P1
M1
PE2 P2
M2 ……
Pen-1 Pn-1
Mn-1
互连网络
H· J· Siegel提出的并行处理机模型
并行处理机的操作模型可用五元组来表示： M＝(N，C，I，M，R), 其中： N为PE个数。如IlliacIV有64个PE。 C为由控制部件CU直接执行的指令集，包括标量指令和程序控制指令。 I为所有PE并行执行的指令集，包括算术运算、逻辑运算、数据寻径、屏蔽以及其它由每个活动的PE对它的数据所执行的局部操作。 M为屏蔽操作集，每种屏蔽将PE划分为允许操作和禁止操作两个子集。 R是数据寻径集，说明互连网络中PE 间通信所需要的各种设置模式。
PU 57 2 3 4 5 6
P U 63 PU 8
PU0 PU 8 16 24 32 40 48
PU1 PU 9 17 25 33 41 49 PU 57 PU 1
PU 7
PU8
10 11 12 13 14 18 26 34 42 50 19 27 35 43 51 20 28 36 44 52 21 29 37 45 53 22 30 38 46 54
典型并行处理机
SIMD计算系统结构和性能语言、编译器和软件支持
系统型号
1024~16384 个 PE, Fortran77, MasPar Fortran 26 GIPS 或 1.3 (MPF) 和 MasPar Gflops; 每个 PE MasPar 带16KB本地存储并行应用语言; X MP-1系列器, X-Net网格加窗口 UNIX/OS, 符号调试程序 , 一个多级交叉开可视化和动画制关互连网作程序
试在含一个 PE的SISD机和在含 m个 PE的且连接成一线性环的SIMD机上计算下列求内积的表达式。
s
A
i 1
n
i
Bi
假定完成每次 ADD 操作需 2 个单元时间，完成每次 MULTIPLY操作需4个单位时间，沿双向环在相邻PE 间移数需1个单位时间。（1）SISD计算机上计算s需多少时间？（2）SIMD计算机上计算s需多少时间？（3）用SIMD机计算s相对于用SISD机计算的加速比是多少？
48
48 BIOM 1 28
CU
模式位线 PE 63 PE 0 64 X 8 PEM 0 C U 总线 PEM 1 PE 1 64 C DB
48 控制线
CDC
PE 0 PE 63
...
D FS PEM 63 2 56 1 02 4 2 56
I/O 总线
IOS
1 02 4
实时装置
PU 56 P U 63
构成的线性环做累加运算。若采用两路7线性累加的方法共用做加法[m/2]次,数据传递[m/2]次，共用时间4 （[n/m]+1）+2[n/m]+3[m/2] = 6[n/m]+ 3[m/2]+4。若用递归累加的方法，假设 m 是 2 的 p 次幂。做 p 次并行的加法，移位1+2+4+ … + m/2 = m-1 次。用时 2p+（m-1）。总共用时为 4 （ [n/m]+1 ） +2[n/m]+2log m + （ m-1 ） = 6[n/m]+ m+2log m +3