计算机系统结构 第8章 并行处理机

合集下载

并行处理机获奖课件

并行处理机获奖课件

111 111
111
Cube0
Cube1
Cube2
扩展成超立方体:
有n=log2N个互连函数; Cubei=(bn-1…bi…b0); 最大连接度=log2N; 结点最大间距=log2N。 应用:几种互连函数反复调用,任意结点间可连接。
2.PM2I单级网络(循环移数网络)
出端编码与连接旳入端结点编码相差2i。
2 2[log2(N+1)-1]
3 log2N
1
动态:没有源开关,借助控制信号重新组合。
单级循环网、多种多级互连网络。
4.设计思绪
根据应用需要(互连网络属性),选择合 理旳特征方式,考虑互连网络旳性能原因, 综合加以合理组合。
目的:低成本、高灵活性、高连接度、低延时、适 合VLSI。
5.互连网络表达
以STARAN网络为例简介。
互换开关:二功能(直通和互换)
拓扑构造:第i级为Cubei; 为何只有三级?
(1)互换功能
入端
控制:级控制(开关为1时互换功能,不然为直通)
0 1 2 3 4 5 6 7
功 能
级控制信号(k2k1k0)
000 001 010 011 100 101 110 111
0
1
2
应用: 屡次调用混洗互换互连函数,可实现任意结点间
旳连接。
4.总结 (1)单级互连网络特征
任一单级互连网络均可表达成N入
N出旳过程。
任一单级互连网络可实现部分结点(一对或几对) 间旳连接,不能实现任意多对结点间旳同步连接。
单级互连网络含义:某些连接措施或拓扑构造。 (2)单级互连网络应用
利用单级互连网络旳特征作为实际IN旳拓扑构造; 经过互换开关作为IN旳可变原因; 经过互换开关屡次控制实现IN旳结点间任意互连。

完整版计算机体系结构课后习题原版答案张晨曦著

完整版计算机体系结构课后习题原版答案张晨曦著

第1章计算机系统结构得基本概念 (1)第2章指令集结构得分类 (4)第3章流水线技术 (6)第4章指令级并行 (16)第5章存储层次 (25)第6章输入输出系统 (31)第7章互连网络 (41)第8章多处理机 (45)第9章机群 (45)第1章计算机系统结构得基本概念1、1 解释下列术语层次机构:按照计算机语言从低级到高级得次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同得语言为特征。

这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。

虚拟机:用软件实现得机器。

翻译:先用转换程序把高一级机器上得程序转换为低一级机器上等效得程序,然后再在这低一级机器上运行,实现程序得功能。

解释:对于高一级机器上得程序中得每一条语句或指令,都就是转去执行低一级机器上得一段等效程序。

执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。

计算机系统结构:传统机器程序员所瞧到得计算机属性,即概念性结构与功能特性。

在计算机技术中,把这种本来存在得事物或属性,但从某种角度瞧又好像不存在得概念称为透明性。

计算机组成:计算机系统结构得逻辑实现,包含物理机器级中得数据流与控制流得组成以及逻辑设计等。

计算机实现:计算机组成得物理实现,包括处理机、主存等部件得物理结构,器件得集成度与速度,模块、插件、底板得划分与连接,信号传输,电源、冷却及整机装配技术等。

系统加速比:对系统中某部分进行改进时,改进后系统性能提高得倍数。

Amdahl定律:当对一个系统中得某个部件进行改进后,所能获得得整个系统性能得提高,受限于该部件得执行时间占总执行时间得百分比。

程序得局部性原理:程序执行时所访问得存储器地址不就是随机分布得,而就是相对地簇聚。

包括时间局部性与空间局部性。

CPI:每条指令执行得平均时钟周期数。

测试程序套件:由各种不同得真实应用程序构成得一组测试程序,用来测试计算机在各个方面得处理性能。

计算机系统结构复习

计算机系统结构复习

n
2
pi (pi 表示第 i 种操作码在程序中出现的概率)
4
Copyright 2011
计算机系统结构复习提纲
© 计 081

固定长编码相对于 Huffman 编码的信息冗余量: R 1 必须知道每种操作码在程序中出现的概率
pi log i
1
n
2
pi
log n
2
扩展编码法
Huffman 操作码的主要缺点: 操作码长度很不规整,硬件译码困难 与地址码共同组成固定长的指令比较困难 扩展编码法:由固定长操作码与 Huffman 编码法相结合形成
存在的问题
以硬件为主固件为辅 固件的主要缺点是: 执行速度低。目前,ROM 的速度低于 SRAM 一条机器指令通常要多条微指令解释执行 固件的主要优点是: 便于实现复杂指令,便于修改指令系统 以硬联逻辑为主来实现指令系统 对于少数复杂的指令,目前的许多处理机也用微程序技术实现。 RISC 对编译器造成的困难主要有: (1)必须精心安排每一个寄存器的用法,以便充分发挥每一个通用寄存器的效率,尽量减少访问主存储器的次数。 (2)做数据和控制相关性分析,要调整指令的执行序列,并与硬件相配合实现指令延迟技术和指令取消技术等。 (3)要设计复杂的子程序库,RISC 的子程序库通常要比 CISC 的子程序库大得多。
2. 数据表示的含义及与数据结构的关系
数据表示的定义: 数据表示是指计算机硬件能够直接识别,可以被指令系统直接调用的那些数据类型。 例如:定点、逻辑、浮点、十进制、字符、字符串、堆栈和向量等 数据类型:文件、图、表、树、阵列、队列、链表、栈、向量、串、实数、整数、布尔数、字符等 确定哪些数据类型用数据表示实现,是软件与硬件的取舍问题

02325计算机系统结构

02325计算机系统结构

02325计算机系统结构计算机系统结构第1章计算机系统结构的基本概念1.1计算机系统的多级层次结构计算机系统的多级层次结构 1.2计算机系统结构、组成与实现1.2.1结构、组成、实现的定义与内涵内涵1.2.2计算机系统结构、组成和实现三者的相互影响现三者的相互影响1.3软硬件取舍与计算机系统设计思路思路1.3.1软硬件取舍的基本原则软硬件取舍的基本原则1.3.2计算机系统的设计思路计算机系统的设计思路1.4结构设计要解决好软件的可移植性植性1.4.1统一高级语言统一高级语言1.4.2采用系列机采用系列机1.4.3模拟与仿真模拟与仿真1.5应用与器件的发展对系统结构的影响的影响1.5.1应用的发展对系统结构的影响1.5.2器件的发展对系统结构的影响1.6系统结构中的并行性发展及计算机系统的分类算机系统的分类1.6.1并行性概念并行性概念1.6.2并行处理系统的结构与多机系统的耦合度系统的耦合度1.6.3计算机系统的分类计算机系统的分类第2章数据表示与指令系统章数据表示与指令系统2.1数据表示数据表示2.1.1数据表示与数据结构数据表示与数据结构2.1.2高级数据表示高级数据表示2.1.3引入数据表示的原则引入数据表示的原则2.1.4浮点数尾数基值大小和下溢处理方法的选择处理方法的选择2.2寻址方式寻址方式2.2.1寻址方式分析寻址方式分析2.2.2逻辑地址与主存物理地址逻辑地址与主存物理地址 2.3指令格式的优化设计指令格式的优化设计2.3.1操作码的优化操作码的优化2.3.2指令字格式的优化指令字格式的优化2.4按CISC方向发展与改进指令系统系统2.4.1面向目标程序优化实现改进2.4.2面向高级语言优化实现改进2.4.3面向操作系统优化实现改进2.5按RISC方向发展与改进指令系统系统2.5.1 RISC的提出的提出2.5.2设计RISC的原则的原则2.5.3设计RISC结构用的基本技术2.5.4 RISC技术的发展技术的发展第3章总线、中断与输入输出系统中断与输入输出系统 3.1输入输出系统的基本概念输入输出系统的基本概念3.2总线设计总线设计3.2.1总线的类型总线的类型3.2.2总线的控制方式总线的控制方式3.2.3总线的通讯技术总线的通讯技术3.2.4数据宽度与总线线数数据宽度与总线线数3.3中断系统中断系统3.3.1中断的分类和分级中断的分类和分级3.3.2中断系统的软硬件功能分配3.4通道处理机通道处理机 3.4.1工作原理工作原理3.4.2通道流量的分析通道流量的分析第4章存储体系章存储体系4.1存储体系概念与并行主存系统4.1.1发展存储体系的必要性发展存储体系的必要性4.1.2并行主存系统频宽的分析并行主存系统频宽的分析4.1.3存储体系的形成与分支存储体系的形成与分支4.1.4存储体系的性能参数存储体系的性能参数4.2虚拟存储器虚拟存储器4.2.1不同的虚拟存储管理方式不同的虚拟存储管理方式4.2.2页式虚拟存储器的构成页式虚拟存储器的构成4.2.3页式虚拟存储器实现中的问题4.3高速缓冲高速缓冲(Cache)(Cache)(Cache)存储器存储器存储器4.3.1基本结构基本结构4.3.2地址的映象与变换地址的映象与变换4.3.3替换算法的实现替换算法的实现4.3.4 Cache存储器的透明性及性能分析性能分析第5章重叠、流水和向量处理机章重叠、流水和向量处理机5.1重叠方式重叠方式5.1.1基本思想和一次重叠基本思想和一次重叠5.1.2相关处理相关处理5.2流水方式流水方式5.2.1基本概念基本概念5.2.2流水线处理机的主要性能流水线处理机的主要性能5.2.3流水机器的相关处理和控制机构机构5.3向量的流水处理与向量流水处理机理机5.3.1向量的流水处理向量的流水处理5.3.2向量流水处理机向量流水处理机5.4指令级高度并行的超级处理机5.4.1超标量处理机超标量处理机5.4.2超长指令字超长指令字(VLIW)(VLIW)(VLIW)处理机处理机处理机5.4.3超流水线处理机超流水线处理机第6章阵列处理机章阵列处理机6.1阵列处理机原理阵列处理机原理6.1.1阵列处理机的基本构形阵列处理机的基本构形6.1.2阵列处理机的特点阵列处理机的特点6.2阵列处理机的并行算法阵列处理机的并行算法6.2.1 ILLIACⅣ的处理单元阵列结构结构6.2.2阵列处理机的并行算法举例6.3 SIMD计算机的互连网络计算机的互连网络6.3.1互连网络的设计目标及互连函数函数6.3.2基本的单级互连网络基本的单级互连网络6.3.3多级互连网络多级互连网络6.4并行存储器的无冲突访问并行存储器的无冲突访问6.5并行处理机举例并行处理机举例6.5.1 MPP位平面阵列处理机位平面阵列处理机6.5.2 CM连接机连接机第7章多处理机章多处理机7.1多处理机的特点及主要技术问题7.2多处理机的硬件结构多处理机的硬件结构7.2.1紧耦合和松耦合紧耦合和松耦合7.2.2机间互连形式机间互连形式7.3程序并行性程序并行性7.3.1并行算法并行算法7.3.2程序并行性的分析程序并行性的分析7.3.3并行程序设计语言并行程序设计语言7.4多处理机的性能多处理机的性能7.4.1任务粒度与系统性能任务粒度与系统性能7.4.2性能模型与分析性能模型与分析7.5多处理机的操作系统多处理机的操作系统7.5.1主从型操作系统主从型操作系统7.5.2各自独立型操作系统各自独立型操作系统7.5.3浮动型操作系统浮动型操作系统第8章其它计算机结构章其它计算机结构8.1脉动阵列机脉动阵列机8.1.1脉动阵列结构的原理和特点8.1.2通用的脉动阵列结构通用的脉动阵列结构8.2大规模并行处理机MPP与机群系统系统8.2.1大规模并行处理机MPP8.2.2机群系统机群系统8.3数据流机数据流机8.3.1数据驱动的概念数据驱动的概念8.3.2数据流程序图和语言数据流程序图和语言8.3.3数据流计算机的结构数据流计算机的结构8.3.4数据流机器存在的问题数据流机器存在的问题8.4归约机归约机8.5智能机智能机8.5.1智能信息处理与智能机智能信息处理与智能机8.5.2智能机的结构和机器语言智能机的结构和机器语言★翻译和解释的区别和联系?区别:区别:翻译是整个程序转换,翻译是整个程序转换,翻译是整个程序转换,解释解释是低级机器的一串语句仿真高级机器的一条语句。

计算机系统结构--向量处理机

计算机系统结构--向量处理机

采用寄存器-寄存器结构的主要优点:降低 主存储器的流量。 例如:采用寄存器-寄存器结构的 CRAY-1与采用存储器-存储器结构的 STAR-100比较,运算速度高3倍多,而 主存流量低2.5倍。
STAR-100的主存储器流量: 32×8W/1.28us=200MW/S CRAY-1的主存储器流量: 4W/50ns=80MW/S
6.2.1 存储器-存储器结构
向量处理机中有多个高速流水线运算部件, 存储器的访问速度是关键 采用多个存储体交叉和并行访问来提高存 储器速度,例如: CRAY-1有64个存储体,每个处理 机访问4个存储体 STAR-100采用32个存储体交叉, 每个存储体并行读出8个64位数据 我国研制的YH-1向量计算机有37个 存储体
计算机系统结构 (第20讲)
计算机系统结构
第一章 第二章 第三章 第四章 第五章 基本概念 第六章 向量处理机 指令系统 第七章 互连网络 存储系统 第八章 并行处理机和 多处理机 输入输出系统 标量处理机
第六章 向量处理机
6.1 6.2 6.3 6.4 6.5 6.6 6.7 向量数据表示方式 向量处理机的结构 向量处理方式 向量处理机的关键技术 向量处理机实例 向量处理机的性能评价 向量处理机的发展
存储器采用字节编址方式,字长为32位 在一般标量处理机中需要如下指令序列 来实现(A、B、C分别是向量a、b、c在内存 中的起始地址):
START: LOAD R0, ST LOAD R1, ED LOAD R2, L MOVE R3, R2 MUL R3, R0 LOOP: ;读循环初值,10 ;读循环终值,1010 ;读内存地址增量, ;常数4
操作数缓冲栈和写结果缓冲栈主要用于解 决访问存储器冲突 虽然采用质数个存储体能消除访问 存储器的冲突,但是,数据经过多次运 算之后,在存储体中分布必然发生改变 主要优缺点: 硬件结构简单, 造价低;速度相对较低

并行处理与体系结构

并行处理与体系结构
所设计的结点体系结构允许使用不同 的通信体系结构(例如以太网或HPS)。
通信协议独立于通信硬件:如以太网 或HPS,都允许使用标准IP协议或IBM 专用用户空间协议。
哈尔滨工业大学计算机科学与技术学院
33
例题: MPI及超立方体计算机
消息传递接口(MPl)是使用少量独立(正交)语 言特征的佳例。
随着附加处理器的增多,系统性能会 有多大改进。
哈尔滨工业大学计算机科学与技术学院
14
例如,假定一个有n个处理器的系统, 作数据库服务器用
它拥有美国人口数据库,通常有100位 美国科学家查询,其性能为每秒1000个 事务处理(TPS)。
现在如果我们将处理器数加倍成2n,能 期望速度有多少改进?期望是多少?
所增加的资源中,处理器最为常见; 也可能是存储器容量和I/O容量。
哈尔滨工业大学计算机科学与技术学院
15
(2)问题规模可扩展性
是指系统在处理更大数据量和工作负载的 更大求解问题时其性能如何。
例如: 仍以上述的数据库服务器为例,如果该服
务器上装有中国人口的数据库,则此服务 器的服务质量将会如何? 注意到此数据库的大小已增至原来的5
实际系统总有一个最大存储器容量 的上限。例如:
IBM SP2中的每个结点最多可容纳2GB 存储器;
CrayT3D为64MB。
哈尔滨工业大学计算机科学与技术学院
12
(3)软件可扩展性
包括:
操作系统的一个新版本,它具有更多功 能性,如多线程,从而可支持更多的用 户进程,更大的地址空间以及更高效的 内核功能等。
哈尔滨工业大学计算机科学与技术学院64哈尔滨工业大学计算机科学与技术学院65哈尔滨工业大学计算机科学与技术学院666419哈尔滨工业大学计算机科学与技术学院67哈尔滨工业大学计算机科学与技术学院68例如高位存储器扩充存储器和扩展存储器哈尔滨工业大学计算机科学与技术学院69考虑到代的可扩展性ibmrs6000smp作了过度设计第一代的smp基于powerpc601处理器

计算机系统结构08SIMD计算机(并行处理机)121106

计算机系统结构08SIMD计算机(并行处理机)121106

B6700 内存
B6700 CPU
48
48 BIOM 128
CDC
...
DFS
I/O 总线
256 1024
256
IOS
1024
16
实 时 装 置
1.阵列控制器 阵列控制器CU实际是一台小型计算机。 对阵列处理机单元实行控制和完成标量操作。 标量操作与各PE的数组操作可以重叠执行。 控制器的功能有以下五个方面: (1)对指令进行译码,并执行标量指令; (2)向各PE发出执行数组操作指令的控制信号; (3)产生地址,并向所有处理单元广播公共地址; (4)产生数据,并向所有处理单元广播公共数据; (5)接收和处理PE、I/O操作以及B6700产生的陷 阱中断信号。
25
3.文件存储器 (1)计算任务文件从系统管理机家载到文件 存储器,由控制处理机执行。 (2)文件存储器是在BSP直接控制下的唯一 外围设备。 (3)程序执行过程中所产生的暂存文件和输 出文件,在将它们送给系统管理机输出 给用户之前是存在文件存储器中的。 (4)文件存储器的数据传输率较高,大大地 缓解了I/O受限制问题。
14
8.3.1 lllialv并行处理机
(1)1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Compuer,Simultaneous Operation linked Ordinal Modular Network”. (2)1966年美国国防远景研究规划局ARPR与伊利诺 依大学签定合同。原计划:256PE,运算速度为 1GFLOPS。 (3)Burroughs公司和伊利诺依大学于1972年共同设 计和生产,1975年实际投入运行。用了4倍的经 费,只达到1/20的速度。只实现了8*8=64个PE, 只达到50MFLOPS。 (3)llliaclv的影响非常大。它是并行处理机的典型代 表,也是分布存储器并行处理机的典型代表。 15

《计算机系统的体系结构》课后答案_李学干_清华大学出版社

《计算机系统的体系结构》课后答案_李学干_清华大学出版社

《计算机系统的体系结构》课后答案1-8章第1章计算机系统结构的基本概念1、有一个计算机系统可按功能分成4级,每级的指令互不相同,每一级的指令都比其下一级的指令在效能上强M倍,即第i级的一条指令能完成第i-1级的M条指令的计算量。

现若需第i级的N条指令解释第i+1级的一条指令,而有一段第1级的程序需要运行Ks,问在第2、3和4级上一段等效程序各需要运行多长时间?答:第2级上等效程序需运行:(N/M)*Ks。

第3级上等效程序需运行:(N/M)*(N /M)*Ks。

第4级上等效程序需运行:(N/M)*(N/M)*(N/M)*Ks。

2、硬件和软件在什么意义上是等效的?在什么意义上又是不等效的?试举例说明。

答:软件和硬件在逻辑功能上是等效的,原理上,软件的功能可用硬件或固件完成,硬件的功能也可用软件模拟完成。

只是反映在速度、价格、实现的难易程度上这两者不同。

3、试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与影响。

答:计算机系统结构、计算机组成、计算机实现互不相同,但又相互影响。

(1)计算机的系统结构相同,但可采用不同的组成。

如IBM370系列有115、1 25、135、158、168等由低档到高档的多种型号机器。

从汇编语言、机器语言程序设计者看到的概念性结构相同,均是由中央处理机/主存,通道、设备控制器,外设4级构成。

其中,中央处理机都有相同的机器指令和汇编指令系统,只是指令的分析、执行在低档机上采用顺序进行,在高档机上采用重叠、流水或其它并行处理方式。

(2)相同的组成可有多种不同的实现。

如主存器件可用双极型的,也可用MO S型的;可用VLSI单片,也可用多片小规模集成电路组搭。

(3)计算机的系统结构不同,会使采用的组成技术不同,反之组成也会影响结构。

如为实现A:=B+CD:=E*F,可采用面向寄存器的系统结构,也可采用面向主存的三地址寻址方式的系统结构。

要提高运行速度,可让相加与相乘并行,为此这两种结构在组成上都要求设置独立的加法器和乘法器。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 分布式存储器并行处理机的结构框图
CU LM 0 PE 0 LM 1 PE 1 互连网络
…… ……
IOP LM n-1 PE n-1
8.2.3 共享存储器并行处理机
共享多体并行存储器SM通过互连网络与各处理 单元PE相连。 存储模块的数目等于或略大于处理单元的数目。 为了实现无冲突访问,存储模块的个数为质 数。 在存储模块之间合理分配数据,通过灵活、高 速的互连网络,使存储器与处理单元之间的 数据传送在大多数向量运算中都能以存储器 的最高频率进行,而最少受存储器冲突的影 响。
1. 并行处理机
17个存储模块,每个模块512K字,周期160ns 5级流水线: 级流水线: 级流水线 (1)从17个存储模块中读出数据 (2)通过输出对准网络把数据送入16个并行 处理部件 (3)16个并行处理部件并行处理机数据 (4)通过输入对准网络把数据从并行处理部 件送到并行存储器 (5)把接收到的数据写入并行存储器 时钟周期160ns,向量运算速度 向量运算速度50MFLOPS。 向量运算速度
PU15 23 31 39 47 55 PU63 PU7
PU16
PU55
PU56 PU0
58 59 60 61 62
PU0
例如:从PU0到PU36,采用环行网格必须8步:
PU0→PU1→PU2→PU3→PU4→PU12→PU20→PU28→PU36 或 PU0→PU8→PU16→PU24→PU32→PU33→PU34→PU35→PU36
或 … 如果采用闭合螺旋线,只需要7 如果采用闭合螺旋线,只需要7步: PU0→PU63→PU62→PU61→PU60→PU52→PU44→PU36 或 PU0→PU63→PU55→PU47→PU39→PU38→PU37→PU36 或 …… 对于n×n个单元的阵列,网络直径为n-1。 n
二维闭合螺旋线网格网 结点度为4,网络直径为n-1。
PU56
PU57
PU63
PU63
PU0
PU1
2
3
4
5
6
PU7
PU8
PU8
PU8 16 24 32 40 48
PU9 17 25 33 41 49 PU57 PU1
10 11 12 13 14 18 26 34 42 50 19 27 35 43 51 20 28 36 44 52 21 29 37 45 53 22 30 38 46 54
APPA 网网网
B6700 外围设备
B6700 多路开关
激光 存储器
B6700 内存
48
B6700 CPU
48
48 BIOM 128
CDC
PE0 PE63
控控总
...
DFS
256 1024

1. 阵列控制器
阵列控制器CU实际上是一台小型计算机。 对阵列处理单元实行控制和完成标量操作。 对阵列处理单元实行控制和完成标量操作。 标量操作与各PE的数组操作可以重叠执行 的数组操作可以重叠执行。 标量操作与各 的数组操作可以重叠执行。 控制器的功能有以下五个方面: (1)对指令进行译码,并执行标量指令; (2)向各PE发出执行数组操作指令的控制信号; (3)产生并向所有处理单元广播公共的地址; (4)产生并向所有处理单元广播公共的数据; (5)接收和处理PE、I/O操作以及B6700产生的陷阱 中断信号。
CU PE0 PE1 互连网络 SM
0
PEn
SM
1
SM
k
IO P
8.2.4 并行处理机的特点
并行处理机的主要特点如下: 并行处理机的主要特点如下:
1. 速度快,而且潜力大 速度快, 2. 模块性好,生产和维护方便 模块性好, 3. 可靠性高,容易实现容错和重构 可靠性高, 4. 效率低
与流水线处理机、向量处理机等比较。 依靠的是资源重复,而不是时间重叠,它的 每个处理单元要担负多种处理功能,其效率 要低一些。
8.3 并行处理机实例 IlliacIV 是最先采用SIMD结构的并行处理机。 随后一个方向是用位片PE制造的并行处理机, 如Goodyear MPP、AMT/DAP610和TMC/CM-2 CM-5是以SIMD模式运行的同步MIMD计算机 另一方向是字宽运算PE的中粒度SIMD计算机 并行处理机的两个发展方向: 保留阵列结构,但每个处理单元的规模减小,如一 保留阵列结构,但每个处理单元的规模减小 个bit。 去掉阵列结构和分布存储器。Burroughs公司的BSP 去掉阵列结构和分布存储器 是代表。
8.2.2 分布存储器并行处理机 目前的大部分并行处理机属于基于分布式存储器模型。 分布式存储器并行处理机比较容易构成MPP(Massively Parallel Processor),可以有几十万个处理部件PE。 CU是控制部件。对于标量指令,在CU中直接执行; 对于向量指令,CU把它广播到各个PE中去执行。 在CU中通常有一个较大容量的存储器,用来存放程序 和共享数据。
共享存储器模型的处理单元数目一般不多,几 个至几十个。 Burroughs Scientific Processor(BSP)采用了这种 结构。16个PE通过一个16×17的对准互连 网络访问17个共享存储器模块。 存储器模块数与PE数互质可以实现无冲突并行 访问存储器。 对互连网络的要求很高。
• 共享存储器并行处理机的结构框图
第8章 并行处理机 章
8.1 并行处理机模型 8.2 并行处理机结构 8.3 并行处理机实例 8.4 并行处理机算法举例
8.1 并行处理机模型
两种并行性概念: 两种并行性概念: (1)同时性并行Simultaneity:两个或两个以上事 件在同一时刻发生。 (2) (2)并发性并行Concurrency:两个或两个以上事 Concurrency 件在同一时间间隔内发生。 三条技术途径: 三条技术途径: (1)资源重复:重复设置多个部件来提高速度。 (2)时间重叠:流水线 (3)资源共享:分时系统,分布式系统
1. 并行处理机的定义: 并行处理机的定义:
多个处理部件PU按照一定方式互连, 多个处理部件 按照一定方式互连,在同 按照一定方式互连 一个控制部件CU控制下 控制下, 一个控制部件 控制下,对各自的数据完成 同一条指令规定的操作。从CU看,指令是串 同一条指令规定的操作。 看 行执行的, 行执行的,从PU看,数据是并行处理的。 看 数据是并行处理的。 并行处理机也称为阵列处理机,按照按照佛林 分类法,它属于SIMD处理机。
5. 潜力大
主要依靠增加PE个数,与流水线处理机主要 依靠缩短时钟周期相比,其提高速度的潜力 要大得多。
6. 依赖于互连网络和并行算法
互连网络决定了PE之间的连接模式,也决定 了并行处理机能够适应的算法。
7. 需要有一台高性能的标量处理机
如果一台机器的向量处理速度极高,但标量 处理速度只是每秒一百万次,那么对于标量 运算占10%的题目来说,总的有效速度就不 过是每秒一千万次。
2. 并行处理机的主要应用领域: 并行处理机的主要应用领域:
用于高速向量或矩阵运算。
3. 并行处理机的操作模型可用五元组来表示: 并行处理机的操作模型可用五元组来表示:
M=(N,C,I,M,R), 其中: = , ,, , N为PE个数 为 个数。如IlliacIV有64个PE。 个数 C为控制部件 执行的指令集 为控制部件CU执行的指令集 为控制部件 执行的指令集,包括标量指令 和程序控制指令。 I为所有 并行执行的指令集 为所有PE并行执行的指令集 为所有 并行执行的指令集,包括ALU、数据 传送等操作 M为屏蔽操作集 为屏蔽操作集,将PE划分为允许操作和禁止 为屏蔽操作集 操作两个子集 R是数据寻径集 是数据寻径集,互连网络中PE间通信所需要的 是数据寻径集 各种模式
8.2.1 并行处理机的基本结构
一台并行处理机由五个部分组成: 一台并行处理机由五个部分组成: 多个处理单元PE PE, 多个处理单元PE, 多个存储器模块M 多个存储器模块M, 一个控制器CU CU, 一个控制器CU, 一个互连网络ICN ICN, 一个互连网络ICN, 一台输入输出处理机IOP IOP。 一台输入输出处理机IOP。 并行处理机有两种典型结构: 并行处理机有两种典型结构: 分布存储器并行处理机, 分布存储器并行处理机, 共享存储器并行处理机。 共享存储器并行处理机。
2. 输入输出系统
IlliacIV的输入输出系统包括: 磁盘文件系统DFS, I/O分系统, 一台B6700处理机组成。 I/O分系统由三个部分组成: 输入输出开关IOS, 控制描述字控制器CDC, 输入输出缓冲存储器BIOM。
3. IlliacIV处理阵列 处理阵列
IlliacIV处理阵列由8×8=64个PU组成。每个PU由处 理部件PE和它的局部存储器PEM组成。 每一个PUi只和它的东、西、南、北四个近邻: PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64直接连接。 南北方向同一列PU连成一个环, 东西方向构成一个闭合螺线。 闭合螺线网络直径为7步 闭合螺线网络直径为 步, 环形网格的直径为8步 环形网格的直径为 步。
外围设备 与终端
系统管理机 B 7700/B 7800
文件存储 器 系统 FM) (FM)
2. 控制处理机
控制处理机主要用来控制并行处理机。 控制处理机主要用来控制并行处理机。 提供与系统管理机相连的接口。 执行存放在控制存储器中的操作系统和用户程 序的标量部分。 序的标量部分。 把全部的向量指令及成组的标量指令送给并行 处理机。 控制维护单元是系统管理机与控制处理机之间 的接口,用来进行初始化、监控命令通信 和维护。
4. H.J.Siegel提出的并行处理机模型 提出的并行处理机模型
控制器
PE0 PE1 PE2 PE2 ……
相关文档
最新文档