第六章并行处理和多处理

合集下载

电子科大高级计算机系统结构_总结

高级计算机系统结构
第二章 Intel 系列处理器
三、80286的工作模式
(一) 实地址模式
(二) 虚地址保护模式
1. 虚地址保护模式的基本概念
(1) 虚地址 (2) 保护
保护什么? —对存储空间的(数据和程序的)保护为什么需要保护? — 多任务机制的引入
保护的具体内容是什么? — 地址空间上的保护
执行某任务的时间)
高级计算机系统结构
三、流水线的相关与冲突 1、流水线相关
第三章并行技术和高端处理器
数据相关(真数据相关)、名相关、控制相关
2、流水线冲突 (1) 数据冲突 (2) 控制冲突 (3)资源冲突
四、分支预测技术分为静态分支预则和动态分支预则。
第二节向量处理技术
1. 水平(横向)处理方式 2. 垂直(纵向)处理方式 3. 分组(纵横)处理方式
例1. 假设一种指令集的每一条指令的执行分为三个阶段,分别为“取指”、“译码”、“执行”, 每一阶段所需时间分别为1个时钟、2个时钟、3个时钟, 每一个时钟长度为t。试画出连续执行5条指令的流水线执行图, 并给出执行N条指令所需时间的表达式(不考虑数据相关、控制相关等流水线阻塞)。
t 2t 3t
2. 处理器中的“准备好”信号READY的作用是什么? 3. 说明如何计算80286的虚地址空间。
4. 什么是地址流水线？它的作用是什么?
5. 在Intel8086处理器中, 任务切换标志的含义和作用是什么?
6. 在80386/80486中, 地址线中为什么没有A0和A1, 在这种情况下, 如何实现对存储器的访问？
高级计算机系统结构课程总结
高级计算机系统结构
第二章 Intel 系列处理器

操作系统6处理机管理习题

第六章处理器管理练习题(一)单项选择题1．多道程序设计系统中，让多个计算问题同时装入计算机系统的主存储器( )。

A．并发执行B．顺序执行C．并行执行D．同时执行2．引入多道程序设计技术后，处理器的利用率( )。

A．有所改善B．极大地提高C．降低了D．无变化，仅使程序执行方便3．计算机系统采用多道程序设计技术后，（)。

A．缩短了每个程序的执行时间B．系统效率随并行工作道数成比例增长C．提高了系统效率D．使用设备时不会发生冲突4．进程是( )。

A．一个系统软件B．与程序概念等效C．存放在内存中的程序D．执行中的程序5.进程的( )和并发性是两个很重要的属性。

A．动态性 B.静态性C．易用性D．顺序性6．( )是完成操作系统功能的进程。

A．用户进程B．系统进程C．并发进程D．编译进程7．可再入程序必须是纯代码，在执行中( )。

A.可以随意改变B．计算结果相同C．自身不改变D．要求输入相同的数据8．已经获得除( )以外所有运行所需资源的进程处于就绪状态。

A主存储器B．打印机C．CPU D．磁盘空间9．在一个单处理器系统中，处于运行态的进程( )。

A．可以有多个B．不能被打断C．只有一个D．不能请求系统调用10.对于一个单处理器系统来说,允许若干进程同时执行，轮流占用处理器．称它们为（)的。

A．顺序执行B．同时执行C．并行执行D．并发执行11．操作系统根据( )控制和管理进程，它是进程存在的标志。

A．程序状态字B．进程控制块C．中断寄存器D．中断装置12．若干个等待占有CPU并运行的进程按一定次序链接起来的队列为( )。

A．运行队列B．后备队列C．等待队列D．就绪队列13．用户从终端上输入一条命令，即产生了( )。

A．程序性中断事件B．外部中断事件C．输入输出中断事件D．自愿性中断事件14．( )的断点是确定的。

A．硬件故障中断B．自愿性中断C．程序性中断D．外部中断15．自愿性中断事件是由( )引起的。

第六章总线系统

数据线地址线
BG0 BR0
设备接口0 排队器
设备接口1
25
§ 6.4 总线的时序
◆ 总线的定时
同步定时：总线操作的各个过程由共用的总线时钟信号控制适合速度相当的器件互连总线，否则需要准备好信号让快速器件等待慢速器件微处理器控制的总线时序采用同步时序异步定时：总线操作需要握手联络（应答）信号控制数据传输的开始伴随有启动（选通或读写）信号数据传输的结束有一个确认信号，进行应答不需要统一的公共时钟信号，总线周期的长度可变。允许快速和慢速的功能模块都能连接到同一总线上。
BS -总线忙这种方式增加了设备地址线， BR-总线请求数据线但可以通过改变计数器的初值来灵活地改变优先次序。地址线
1 0
计数器
总线控制部件
设备地址
BS BR
设备接口0
计算机组成原理
设备接口1
叶晓霞
…
设备接口n
24
③独立请求方式
总线控制部件
BG-总线同意 BR-总线请求优点：响应时间快，对优先次序的控制灵活 BGn 缺点：线数多。 BRn BG1 当代总线标准普遍 BR1 采用独立请求方式
总线是构成计算机系统的互连机构，是多个系统功能部件之间进行数据传送的公共通路。其中系统总线构成包括：数据总线、地址
总线和控制总线。数据总线用来传送数据，是双向的；地址总线用来传送主存与外设一、总线的分类的地址信息，是单向的；控制总线用来指明数据传送的方向（存储器读／写、外设单处理器系统中可分为内部总线、系统总线和 I/0总线。读／写）、中断控制和定时控制等，控制总线中的每一根是单向的。
计算机组成原理
叶晓霞

微机原理与接口技术_第6章 IO接口

三、I/O端口编址（续） 2.I/O独立编址(续)
缺点：专用I/O指令增加指令系统复杂性，且I/O指令类型少，程序设计灵活性较差；要求处理器提供MEMR#/MEMW#和IOR#/IOW#两组控制信号，增加了控制逻辑的复杂性。

三、I/O端口编址（续）
PC系列微机I/O端口访问 1.I/O端口地址空间
程序控制方式
程序控制方式是指CPU与外设之间的数据传送由程序控制完成。程序控制方式又分为无条件传送和条件传送两种 1.无条件传送方式（同步传送）特点：输入时假设外设已准备好，输出时假设外设空闲。要求：输入接口加缓冲器，输出接口加锁存器。应用：对简单外设的操作。
1. 无条件传送方式（同步传送）输入接口的设计要求:
寻址确定输入端口地址 AB、M/ IO、ALE、DT/R 等待数据输入等待数据输入输入缓冲器读入数据输入缓冲器 DB CPU
一、 I/O 接口的功能（续）
3. I/O接口应具有的功能（解决的方案）
1）设置数据缓冲器以解决两者速度差异所带来的不协调问题；输出时： CPU DB 锁存器输出设备数据线
以上三类信息分别通过各自的寄存器和相应的控制逻辑来完成信息的传送。通常将这类寄存器和相应的控制逻辑称为I/O端口。CPU与一个外设之间通常有三个端口。数据端口 (输入/输出)；状态端口；控制端口。
二、I/O接口的一般结构（续） I/O接口组成：接口由接口硬件和接口软件组成。 1.接口硬件
接口

这类接口面对总线，因此要使用三态输出器件；对于输入信号有记忆功能的一般使用三态门；对于输入信号无记忆功能的一般还要增加锁存功能；
1. 无条件传送方式（同步传送）

fluent手册

FLUENT教程赵玉新I、目录第一章、开始第二章、操作界面第三章、文件的读写第四章、单位系统第五章、读入和操作网格第六章、边界条件第七章、物理特性第八章、基本物理模型第九章、湍流模型第十章、辐射模型第十一章、化学输运与反应流第十二章、污染形成模型第十三章、相变模拟第十四章、多相流模型第十五章、动坐标系下的流动第十六章、解算器的使用第十七章、网格适应第十八章、数据显示与报告界面的产生第十九章、图形与可视化第二十章、Alphanumeric Reporting第二十一章、流场函数定义第二十二章、并行处理第二十三章、自定义函数第二十四章、参考向导第二十五章、索引（Bibliography）第二十六章、命令索引II、如何使用该教程概述本教程主要介绍了FLUENT的使用，其中附带了相关的算例，从而能够使每一位使用者在学习的同时积累相关的经验。

本教程大致分以下四个部分：第一部分包括介绍信息、用户界面信息、文件输入输出、单位系统、网格、边界条件以及物理特性。

第二和第三部分包含物理模型，解以及网格适应的信息。

第四部分包括界面的生成、后处理、图形报告、并行处理、自定义函数以及FLUENT所使用的流场函数与变量的定义。

下面是各章的简略概括第一部分：开始使用：本章描述了FLUENT的计算能力以及它与其它程序的接口。

介绍了如何对具体的应用选择适当的解形式，并且概述了问题解决的大致步骤。

在本章中，我们给出了一个可以在你自己计算机上运行的简单的算例。

●使用界面：本章描述了用户界面、文本界面以及在线帮助的使用方法。

同时也提供了远程处理与批处理的一些方法。

（请参考关于特定的文本界面命令的在线帮助）●读写文件：本章描述了FLUENT可以读写的文件以及硬拷贝文件。

●单位系统：本章描述了如何使用FLUENT所提供的标准与自定义单位系统。

●读和操纵网格：本章描述了各种各样的计算网格来源，并解释了如何获取关于网格的诊断信息，以及通过尺度化（scale）、分区（partition）等方法对网格的修改。

(完整版)计算机操作系统复习知识点汇总

《计算机操作系统》复习大纲第一章绪论1.掌握操作系统的基本概念、主要功能、基本特征、主要类型；2.理解分时、实时系统的原理；第二章进程管理1.掌握进程与程序的区别和关系；2.掌握进程的基本状态及其变化；3.掌握进程控制块的作用；4.掌握进程的同步与互斥；5.掌握多道程序设计概念；6.掌握临界资源、临界区；7.掌握信号量，PV操作的动作，8.掌握进程间简单同步与互斥的实现。

第三章处理机调度1.掌握作业调度和进程调度的功能；2.掌握简单的调度算法：先来先服务法、时间片轮转法、优先级法；3.掌握评价调度算法的指标：吞吐量、周转时间、平均周转时间、带权周转时间和平均带权周转时间；4.掌握死锁；产生死锁的必要条件；死锁预防的基本思想和可行的解决办法；5.掌握进程的安全序列，死锁与安全序列的关系；第四章存储器管理1.掌握用户程序的主要处理阶段；2.掌握存储器管理的功能；有关地址、重定位、虚拟存储器、分页、分段等概念；3.掌握分页存储管理技术的实现思想；4.掌握分段存储管理技术的实现思想；5.掌握页面置换算法。

第五章设备管理1.掌握设备管理功能；2.掌握常用设备分配技术；3.掌握使用缓冲技术的目的；第六章文件管理1.掌握文件、文件系统的概念、文件的逻辑组织和物理组织的概念；2.掌握目录和目录结构；路径名和文件链接；3.掌握文件的存取控制；对文件和目录的主要操作第七章操作系统接口1.掌握操作系统接口的种类；2.掌握系统调用的概念、类型和实施过程。

计算机操作系统复习知识点汇总第一章1、操作系统的定义、目标、作用操作系统是配置在计算机硬件上的第一层软件，是对硬件系统的首次扩充。

设计现代OS的主要目标是：方便性，有效性，可扩充性和开放性.OS的作用可表现为：a. OS作为用户与计算机硬件系统之间的接口；（一般用户的观点）b. OS作为计算机系统资源的管理者；（资源管理的观点）c. OS实现了对计算机资源的抽象.2、脱机输入输出方式和SPOOLing系统（假脱机或联机输入输出方式）的联系和区别脱机输入输出技术(Off-Line I/O)是为了解决人机矛盾及CPU的高速性和I/O 设备低速性间的矛盾而提出的.它减少了CPU的空闲等待时间，提高了I/O速度.由于程序和数据的输入和输出都是在外围机的控制下完成的，或者说，它们是在脱离主机的情况下进行的，故称为脱机输入输出方式；反之，在主机的直接控制下进行输入输出的方式称为联机（SPOOLing）输入输出方式假脱机输入输出技术也提高了I/O的速度，同时还将独占设备改造为共享设备，实现了虚拟设备功能。

人工智能习题参考答案

• 神经网络主要通过指导式（有师）学习算法和非指导式（无师）学习算法。此外，还存在第三种学习算法，即强化学习算法；可把它看做有师学习的一种特例。 • （１）有师学习 • 有师学习算法能够根据期望的和实际的网络输出（对应于给定输入）间的差来调整神经元间连接的强度或权。因此，有师学习需要有个老师或导师来提供期望或目标输出信号。有师学习算法的例子包括 Delta规则、广义Delta规则或反向传播算法以及ＬＶＱ算法等。 • （２）无师学习 • 无师学习算法不需要知道期望输出。在训练过程中，只要向神经网络提供输入模式，神经网络就能够自动地适应连接权，以便按相似特征把输入模式分组聚集。无师学习算法的例子包括Kohonen算法和 Carpenter-Grossberg自适应谐振理论（ＡＲＴ)等。 • （３）强化学习 • 强化（增强）学习是有师学习的特例。它不需要老师给出目标输出。强化学习算法采用一个“评论员”来评价与给定输入相对应的神经网络输出的优度（质量因数）。强化学习算法的一个例子是遗传算法（GA）。
• • • • • • • • • •
• 6-2专家系统由哪些部分构成?各部分的作用为何? • 答： •
• 5-7遗传算法、进化策略和进化编程的关系如何？有何区别？ • 遗传算法是一种基于空间搜索的算法，它通过自然选择、遗传、变异等操作以及达尔文适者生存的理论，模拟自然进化过程来寻找所求问题的解答。 • 进化策略(Evolution Strategies，ES)是一类模仿自然进化原理以求解参数优化问题的算法。 • 进化编程根据正确预测的符号数来度量适应值。通过变异，为父代群体中的每个机器状态产生一个子代。父代和子代中最好的部分被选择生存下来。 • 进化计算的三种算法即遗传算法、进化策略和进化编程都是模拟生物界自然进化过程而建立的鲁棒性计算机算法。在统一框架下对三种算法进行比较，可以发现它们有许多相似之处，同时也存在较大的差别。 • 进化策略和进化编程都把变异作为主要搜索算子，而在标准的遗传算法中，变异只处于次要位置。交叉在遗传算法中起着重要作用，而在进化编程中却被完全省去，在进化策略中与自适应结合使用，起了很重要的作用。 • 标准遗传算法和进化编程都强调随机选择机制的重要性，而从进化策略的角度看，选择（复制）是完全确定的。进化策略和进化编程确定地把某些个体排除在被选择（复制）之外，而标准遗传算法一般都对每个个体指定一个非零的选择概率。

并行计算(中科大讲义)

▪ n,节点规模 w，数据宽度
国家高性能计算中心（合肥）
2021/4/12
22
标准互联网络（1）
▪ Myrinet:
▪ Myrinet是由Myricom公司设计的千兆位包交换网络，其目的是为了构筑计算机机群，使系统互连成为一种商业产品。
▪ Myrinet是基于加州理工学院开发的多计算机和VLSI技术以及在南加州大学开发的ATOMIC/LAN技术。Myrinet能假设任意拓扑结构，不必限定为开关网孔或任何规则的结构。
▪ 多处理机总线系统的主要问题包括总线仲裁、中断处理、协议转换、快速同步、高速缓存一致性协议、分事务、总线桥和层次总线扩展等
CPU板
LM
CPU
本地外围设备 (SCSI总线)
IOC
存储器板存储器单元
本地总线
存储器总线
高速缓存
IF
IF
MC
系统总线
I/O板
IOP
IF
数据总线
缓冲
IF
(底板上)
通信板
IF
开关，在Ilinois大学的
Cedar[2]多处理机系统中采用了Ω网络
▪ Cray Y/MP多级网络，该网络用来支持8个向量处理器和256 个存储器模块之间的数据传输。网络能够避免8个处理器同时进行存储器存取时的冲突。
国家高性能计算中心（合肥）
2021/4/12
21
动态互连网络比较
动态互连网络的复杂度和带宽性能一览表
▪ 一个交换开关模块有n个输入和n个输出，每个输入可连接到任意输出端口，但只允许一对一或一对多的映射，不允许多对一的映射，因为这将发生输出冲突
▪ 级间互连（Interstage Connection ）：

第6章中断系统

中断系统的功能
CPU响应中断时，会停止当前执行程序，转去执行中断处理程序，原程序被打断的地方称为“断点”。
断点地址是指中断处理程序结束后，返回原程序恢复执行的第一条指令的地址，又称“返回地址”。
现场是指进入中断服务程序之前CPU各个寄存器的状态。
正常程序 CS : IP 断点 CS : IP+1 继续执行中断服务程序
中断系统的功能
2. 链式优先权排队电路（应答方式）
外设1
+5V D7 ～ D0 INTA INTR IOR IOW
外设2
IEI 接口2 IEO
SEL1 SEL2
外设3
IEI 接口3 IEO
SEL3
IEI 接口1 IEO
※ 电路说明
① 每个接口有一个中断允许输入IEI和中断允许输出IEO, 只有IEI为高电平时才允许该接口芯片发中断请求； ② IEO=IEI•INT INT表示该设备有中断请求； ③ 每个接口芯片的中断请求输出为OC门，具有负逻辑的 “线或”关系； ④ 响应中断时由INTA从接口读取中断矢量。计算机原理讲义
中断处理
返回断点
3. 中断服务完成时将中断申请信号撤销 4. 中断服务完成后恢复现场和断点，返回原程序计算机原理讲义
中断系统的功能
（二）对中断进行控制
1. 对中断申请进行控制例1 一个输入设备的中断接口电路
三态缓冲器 D7～D0 INTR IOW A15 ～ A0 IOR INTA 地址译码器三态缓冲器 B Q R C D 中断类型码(0FH) D7～D0
中断系统
第六章中断系统
计算机原理讲义
中断的作用
第6.1节计算机中断系统

第六章_基本输入输出接口技术

20
6.3 CPU与外设之间的数据传送方式
[例] 设状态端口地址为086H，数据端口地址为084H，外设忙碌D7=1，请用查询方式写出CPU从存储器缓冲区 Buffer送出1KB的数据给外设的程序段。 LEA SI , Buffer ；取Buffer的有效地址送SI MOV CX , 1000 ；循环次数 W1: MOV DX, 086H ；状态端口地址送DX W2: IN AL , DX ；从状态端口读入状态信息 AND AL，80H ； BUSY=0? JNZ W2 ； BUSY=1，返回继续查询 MOV AL,[SI] ； BUSY=0，取数据 MOV DX, 084H ；数据端口地址送DX OUT DX,AL ；数据输出到数据端口 INC SI ；SI指向下一个字节数据 LOOP W1 ；CX-1送CX≠0，循环 HLT ；CX=0，传送结束
FFFFF
内存空间 I/O 空间
10
§6-2 I/O端口的编址与访问
二、 I/O端口地址的译码方法：
I/O端口地址译码的一般原则是：把CPU用于I/O端口寻址的地址线分为高位地址线和低位地址线两部分：
将低位地址线直接连到I/O接口芯片的相应地址引脚，实现片内寻址，即选中片内的端口。将高位地址线与CPU的控制信号组合，经地址译码电路产生I/O接口芯片的片选信号。常见的译码器： 2/4线译码器74LS139 3/8线译码器74LS138
返回断点

6.3 CPU与外设之间的数据传送方式
关于中断的几点说明：
采用中断的数据传送方式时，外设处于主动申请地位，CPU配合进行数据传送；CPU不必反复去查询外设的状态，而是可以与外设“并行工作”，因此提高了CPU的工作效率，并且更具有实时性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

BSP的五级数据流水线构图
17个存储块存储器
（集中式共享存贮器）
NW1 对准网络
指令译码控制部件
NW2 对准网络
处理器
16个处理单元
BSP的五级数据流水线在BSP中，存储器-存储器型的浮点运算是流水进行的。 BSP的流水线组织由五个功能级组成。尤其是并行处理机包括有16个处理单元、17个存储器模块和2套互连网络（亦称对准网络）组合在一起，就形成了一条五级的数据流水线，使连续几条向量指令能在时间下重叠起来执行。作用：（1）由17个存储器模块并行读出16个操作数；（ 2 ）经对准网络 NW1 将 16 个操作数重新排列成 16 个处理单元所需要的次序；（3）将排列好的16个操作送到并行处理单元完成操作；（ 4 ）所得的 16 个结果经过对准网络 NW2 重新排列成 17 个存储器模块所需要的次序；（5）写入存储器；
对处理单元阵列实现控制,(发控制信号,广播公共地址, 广播公共数据)对指令流进行译码控制,利用CU内部资源可以进行标量操作,接受和处理各类中断，其他输入输出操作。 •I/O系统由磁盘文件系统DFS，输入输出子系统和宿主计算机S/C 构成（驻留操作系统，编译程序，I/O服务程序等）
控制器CU
ADB
6.2
并行处理技术及发展
提高计算机系统的并行性的技术途径：(单机系统) 时间重叠（Time Interleaving）：在并行性概念中引入时间因素。让多个处理过程在时间上相互错开，轮流重叠地使用同一套硬件设备的各个部分，以加快硬件周转而赢得速度。资源重复（Resource Replication）：并行性概念中引入空间因素。通过重复设置的硬件资源来提高系统可靠性或性能。例如，通过使用两台或多台完全相同的计算机完成同样的任务来提高可靠性。资源共享（Resource Sharing）：利用软件的方法让多个用户按一定时间顺序轮流地使用同一套资源，以提高其利用率，这样相应地提高整个系统的性能。例如多道程序分时系统. (多机系统) 功能专用化,机间互连,网络化技术途径发展成异构型多处理机,同构型多处理机,分布式处理机系统
6．3．2 SIMD 并行处理机算法
一．矩阵加
矩阵加(配比加)是最简单的情况。假定两个8*8的矩阵 A，B，相加，所得结果矩阵C也是一个8*8的矩阵。设A B 的分量元素分别存在PEM i的Z,Z+1单元中,所得结果矩阵C 各分量存在PEM i 的Z+2单元中
小结：
细粒度并行性常在指令级或循环级上借助于并行化或向量化编译器来进行开发的。
任务或作业步骤（过程级）中粒度并行性开发需要程序员和编译器的共同作用。开发程序作业级的粗粒度并行性主要取决于高效的操作系统和所用算法的效率。
共享变量通信常用于支持中、细粒度计算。消息传递型多计算机用于中粒度和粗粒度的计算。通常情况下，粒度越细，并行性潜力越大，通信和调度的开销也越大。细粒度能提供较高的并行度，但与粗粒度计算相比，其通信开销也较大。大规模并行性通常是在细粒度级上开发。如： SIMD或 MIMD计算机上开发的数据并行性。
二并行处理机分类
并行处理机根据存贮器采用的组成方式不同分成两种基本构成。（1）分布存贮的并行处理机各个处理单元设有局部存贮器存放分布式数据，只能被本处理单元直接访问。此种局部存贮器称为处理单元存贮器（Processing Element Memory）PEM。在控制部件CU内设有一个用来存放程序的主存贮器CUM。整个系统在CU统一控制下运行系统程序的用户程序。执行主存中的用户程序指令播送给各个PE，控制PE并行地执行。（2）共享存贮的并行处理机。每个 PE 没有局部存触器，存储模块以集中形式为所有 PE 共享。互连网 IN 受 CU 控制，具有双向性采用分布式存贮器组成基本结构。
0 1 PEM0 。。。。 2047
0 1 PEM1 。。。。 2047
......
ILLIAC-IV的处理单元原理图
ILLIAC-IV的处理单元互连图
PU5 6 PU6 3 PU7 PU0 PU5 7 PU1 PU5 8 PU7
PU8
PU8
PU9
PU15

PU1 6
PU5 5
PU56
PU57
PU63
第六章、并行处理技术和多处理机
6.1 概述 6.2 并行处理技术的发展 6.3 SIMD并行处理机 6.4 多处理机结构 6.5 多处理机高速缓冲存储器（cache）一致性 6.6 并行处理软件 6.5 多处理机举例本章重点书P252 6.1~6.9
6.1 概述
一并行性概念并行处理是一种有效的强调开发计算过程中并行事件的信息处理方式. 在数值计算，数据处理，知识处理或人工智能求解过程中，可能存在某些能同时进行运算或操作的部分。同时性（simultaneity）:指两个或多个事件在同一时刻发生在多个资源中。并发性（concurrency）:指两个或多个事件在同一时间间隔内发生在多个资源中
（2）控制处理器：除了用以控制并行处理机以外，还提供了与系统管理机相连的接口。
（ 3 ）文件存储器：半导体辅助存储器。 BSP 的计算任务文件从系统管理机加载到它上面。然后对这些任务进行排队，由控制处理机加以执行。（ 4）对准网络：包完全交叉开关以及用来实现数据从一个源广播至几个目的地以及当几个源寻找一个目的地地址时能分解冲突的硬件。这就需要在算术单元阵列和存储器模块之间具备通用的互连特性。而存储模块和对准网络的组合功能则提供了并行存储器的无冲突访问能力。算术单元也利用输出对准网络来实现一些诸如数据压缩和扩展操作以及快速傅立叶变换算法等专用功能。
级5
作业级（程序）粗粒度
级4
任务级（过程或程序段）中粒度
通信需求与调度开销
级3
子任务级（例行程序，或子程序）
循环或递归循环细粒度
并行程度
级2
级1
指令或语句
现代计算机程序运行并行性级别
五种程序执行级别体现了不同的算法粒度规模以及通信和控制要求的变化。级别越低，软件进程的粒度越细。一般情况，程序可在这些级别的组合状态下运行。
三并行处理机的特点共同特点：可以通过各种途径把它们转化成为对数组或向量的处理，利用多个处理单元对向量或数组所包含的各个分量同时进行运算，从而易于获得很高的处理速度。并行处理机有如下特点：（1）利用资源重复（空间因素）而非时间重叠。（2）利用同时性而非并发性。它的每个处理单元在同一时刻要同等地担负起各种运算功能。（3）提高运算速度主要是靠增大处理单元个数，比起向量流水线处理机主要依靠缩短时钟周期来说，速度提高的潜力要大得多。（4）使用简单而又规整的互连网络来确定多个处理单元之间的连接模式。（5）并行处理机（阵列机）研究必须与并行算法研究密切结合，使之适应性更强，应用面更广。
在同一时刻或同一时间间隔内完成多个性质相同
或不同的任务
二.
并行的等级和分类
1．从计算机信息加工步骤和阶段看，并行性等级可分为：存贮器操作并行----并行存贮器系统和以相联存贮器为核心构成的相联处理机。处理器操作步骤并行----可以是一条指令的取指、分析、执行等操作步骤，也可以是具体运算。处理器操作并行----为支持向量、数组运算，可以通过重复设置处理单元进行，如并行处理机指令、任务、作业并行----称为较高级并行，属于多指令流多数据流计算机。 2. 从系统结构发展看:
PU0
PU0
PU1
PU7
将PU63传送到PU10，最快可经 PU63→PU7→PU8→PU9→PU10。
科学处理机BSP系统结构（集中式共享存贮器) （ 1 ）并行处理机：并行机中每个处理器以 160ns 的时钟周期进行向量计算。所有16个算术单元AE对不同的数据组（从并行处理机控制器广播来）进行同一种指令操作。
•处理单元阵列由64个PUi构成,每个Pui包括(PEi和PEMi)
由64个结构完全相同的处理单元PEi 构成，每个处理单元 PEi字长64位，PEMi为隶属于PEi的局部存储器，每个存储器有 2K字，全部PEi由CU统一管理，PEi都有一根方式位线，用来向 CU传送每个PEi的方式寄存器D中的方式位，使CU能了解各PEi 的状态是否活动，作为控制它们工作的依据。 •阵列控制器 CU 相当一台小型控制计算机
（A）具有共享存贮器并行处理机结构
CU SC
PE0
PE1 ICN
…
PEN-1
（B）分布存贮器并行处理机结构
… MMN-1
MM0
MM1
SC
CU CUM I/O 接口 D
I/O-CH I/O …
SM PEM0 PE0 PEM1 PE1 PEMN-1 PEMN-1
ICN
ILLIAC-IV
结构
（分布存贮器并行处理机结构）
（ 1 ）指令级：并行性发生在指令内部微操作之间或指令之间。取决于程序的具体情况。可借助于优化编译器开发细粒度并行性，它能自动检测并行性并将源代码换成运行时系统能识别的并行形式。（ 2 ）循环级：相当于迭代循环操作，典型循环包含的指令大约几百条，循环级并行性是并行机或向量计算机上运行的最优程序结构，并行处理主要由编译器在循环级中进行开发。（ 3 ）子任务级：属于中粒度。子程序是在单处理机或多处理机的多道程序设计这一级进行的。这一级并行性由算法设计者或程序员开发而非用编译器开发。（ 4 ）任务级：这是与任务、过程、程序段、协同程序级相对应的中粒度或粗粒度规模。典型粒度包含的指令几千条，检测本级的并行性比细粒度级困难得多，需要更多地涉及过程间的相关性分析。需编译器支持。（5）作业（程序）级：对于少量几台高性能处理机构成的超级计算机开发这种粗粒度并行性切实可行。
松散耦合系统、专用外围处理机