阵列处理机和相联处理机共67页
并行处理机获奖课件

111 111
111
Cube0
Cube1
Cube2
扩展成超立方体:
有n=log2N个互连函数; Cubei=(bn-1…bi…b0); 最大连接度=log2N; 结点最大间距=log2N。 应用:几种互连函数反复调用,任意结点间可连接。
2.PM2I单级网络(循环移数网络)
出端编码与连接旳入端结点编码相差2i。
2 2[log2(N+1)-1]
3 log2N
1
动态:没有源开关,借助控制信号重新组合。
单级循环网、多种多级互连网络。
4.设计思绪
根据应用需要(互连网络属性),选择合 理旳特征方式,考虑互连网络旳性能原因, 综合加以合理组合。
目的:低成本、高灵活性、高连接度、低延时、适 合VLSI。
5.互连网络表达
以STARAN网络为例简介。
互换开关:二功能(直通和互换)
拓扑构造:第i级为Cubei; 为何只有三级?
(1)互换功能
入端
控制:级控制(开关为1时互换功能,不然为直通)
0 1 2 3 4 5 6 7
功 能
级控制信号(k2k1k0)
000 001 010 011 100 101 110 111
0
1
2
应用: 屡次调用混洗互换互连函数,可实现任意结点间
旳连接。
4.总结 (1)单级互连网络特征
任一单级互连网络均可表达成N入
N出旳过程。
任一单级互连网络可实现部分结点(一对或几对) 间旳连接,不能实现任意多对结点间旳同步连接。
单级互连网络含义:某些连接措施或拓扑构造。 (2)单级互连网络应用
利用单级互连网络旳特征作为实际IN旳拓扑构造; 经过互换开关作为IN旳可变原因; 经过互换开关屡次控制实现IN旳结点间任意互连。
系统结构——阵列处理机和相联处理机

级5
作业级(程序)
任务级(过程或程 级4 序段)
通信需求与
调度开销
级3
子任务级(例行程 序或子程序)
粗粒度
中粒度
并行程度
级2
循环或迭代
级1
指令或语句
现代计算机程序运行并行性级别
细粒度
五种程序执行级别体现了不同的 算法粒度规模以及通信和控制要求 的变化。级别越低,软件进程的粒 度越细。一般情况,程序可在这些 级别的组合状态下运行。
指令、任务、作业并行----较高级并行,属于MIMD计算机。
3. 程序划分和粒度
并行性的开发还可以按程序大小划分不同粒度的开发方式。 并行粒度(granularity)或颗粒规模(grain size)---- 衡量 软件进程所含计算量的尺度。测量方法是数一下颗粒并行处理的 基本程序段。 并行性粒度:每次并行处理的规模大小。用字母G表示
同时性(simultaneity):指两个或多个事件在同一时 刻发生在多个资源中。 并发性(concurrency):指两个或多个事件在同一时 间间隔内发生在多个资源中。
二. 并行的等级和分类
1.从计算机系统处理数据的并行性来看,并行性等级从低到 高可分: 位串字串-----通常指传统的串行单处理机。 位并字串-----通常指传统的并行单处理机。 字并位串-----同时对多个字的同一位(称位片)进行处理 ,开始进入并行处理领域。 全并行--------同时对多个字的全部或部分位组进行处理。
多存储体 多操作部件
相联处理机 并行处理机
同构型多处理机 系统
可重构,容错多处 理机
紧密耦合 系统 多机互连
多计算机 系统
并行处理技术发展
时间重叠
先行控制 高速缓存
第6章阵列处理机

第 6 章 并行处理机和相联处理机
第6章 阵列处理机
6.1 阵列处理机的原理
第 6 章 并行处理机和相联处理机
6.1.2 ILLIACⅣ的处理单元阵列结构 由于阵列处理机上的并行算法的研究是与结构紧密联系 在一起的,因此,下面先介绍一下ILLIACⅣ阵列机上处理单 元的互连结构。ILLIACⅣ是采用如图6-1所示的分布存储器构 形,其处理单元阵列结构如图6-3所示。其中,PUi 为处理部 件,包含64位的算术处理单元PEi、所带的局部存储器PEMi和
用到下面的累加和并行算法。即使如此,就K的并行来说,
速度的提高也不是8倍,而只是8/log28,接近于2.7倍。
第 6 章 并行处理机和相联处理机
3.累加和 这是一个将N个数的顺序相加转为并行相加的问题。为 得到各项累加的部分和与最后的总和,要用到处理单元中的 活跃标志位。只有处于活跃状态的处理单元才能执行相应的 操作。为叙述方便取N=8,即有8个数A(I)顺序累加,其中 0≤I≤7。 在SISD计算机上可以写成下列FORTRAN程序: C=0
PEM内,且在全部64个PEM中,让A、B和C的各分量地址
均对应取相同的地址α、α+1和α+2,如图6-4所示。这样, 实现矩阵加只需用下列三条ILLIACⅣ汇编指令:
第 6 章 并行处理机和相联处理机
LDA ADRN
Hale Waihona Puke ALPHA ;全部(α)由PEMi送PEi的累加器RGAi ALPHA+1 ;全部(α+1)与(RGAi)浮点加,结果送 RGAi
02325计算机系统结构复习资料

第一章计算机系统结构的基本概念从处理数据的角度看,并行级别有位串字串,位并字串,位片串字并,全并行。
位串字串和位并字串基本上构成了SIMD。
位片串字并的例子有:相联处理机STARAN,MPP。
全并行的例子有:阵列处理机ILLIACIV。
从加工信息的角度看,并行级别有存储器操作并行,处理器操作步骤并行,处理器操作并行,指令、任务、作业并行。
存储器操作并行是指可以在一个存储周期内并行读出多个CPU字的,采用单体多字、多体单字或多体多字的交叉访问主存系统,进而采用按内容访问方式,位片串字并或全并行方式,在一个主存周期内实现对存储器中大量字的高速并行操作。
例子有并行存储器系统,以相联存储器为核心构成的相联处理机。
处理器操作步骤并行是指在并行性概念中引入时间因素,让多个处理过程在时间上错开,轮流重复地执行使用同一套设备的各个部分,加快硬件周转来赢得速度。
例子有流水线处理机。
处理器操作并行是指一个指令部件同时控制多个处理单元,实现一条指令对多个数据的操作。
擅长对向量、数组进行处理。
例子有阵列处理机。
指令、任务、作业并行是指多个独立的处理机分别执行各自的指令、任务、作业。
例子有多处理机,计算机网络,分布处理系统。
并行性的开发途径有时间重叠(Time Interl eaving ),资源重复(Resou rceReplication),资源共享(ResourceSharing)。
时间重叠是指在并行性概念中引入时间因素,让多个处理过程在时间上错开,轮流重复地执行使用同一套设备的各个部分,加快硬件周转来赢得速度。
例子有流水线处理机。
资源重复是指一个指令部件同时控制多个处理单元,实现一条指令对多个数据的操作。
例子有阵列处理机,相联处理机。
资源共享是指用软件方法让多个用户按一定时间顺序轮流使用同一套资源以提高资源的利用率,从而提高系统性能。
例子有多处理机,计算机网络,分布处理系统。
SISD:一个指令部件控制一个操作部件,实现一条指令对一个数据的操作。
《计算机组成与系统结构》课件第9章

2) 多级互连网络 另一种组织与控制更为有效的交换网络是基于a×b交换 开关构造而成的。2×2交换开关是一种最常用的二元开关, 如图9.13(a)所示,它有两个输入和两个输出,从任意输入 线到达的消息都可以交换到任意的输出线上。
图 9.13 2×2的交换开关
图 9.14 Omega网络
多级互连网络设计的关键是: (1) 选择何种交换开关; (2) 交换开关之间采用何种拓扑连接; (3) 对交换开关采用何种控制方式。
图 9.3 计算机分类
9.3 阵列处理机和向量处理机
9.3.1 阵列处理机 阵列处理机属于分布式内存SIMD(DM-SIMD)系统,它
由许多在不同数据集合上执行同样指令序列、完成同样功能 的完全相同的处理器组成。阵列处理机中的处理器共享一 个控制器(所以它不是通常意义上的独立CPU),控制器发布 指令,指令由处理器阵列中的处理器执行。因为阵列机中的 所有处理器是以步调一致的方式工作的,所以处理器之间不 需要同步,这就大大简化了这种系统的设计。
向量-寄存器处理器的基本组成如图9.5所示,它是以 Cray-1为基础的一个模型,标量部分是MIPS,向量部分是 MIPS的逻辑向量扩展,其主要模块功能如下:
(1) 向量寄存器组。 (2) 向量功能单元。 (3) 向量Load-Store部件。 (4) 标量寄存器组。
图 9.5 基本的向量-寄存器体系结构
9.4 互 连 网 络
9.4.1 基本概念 互连网络(Interconnection Network)是一种由开关元件按
照一定的拓扑结构和控制方式构成的网络,用于实现计算机 系统中部件之间、处理器之间、部件与处理器之间甚至计 算机之间的相互连接,
根据连接的设备数和设备的接近程度,可以将互连网络 分为以下四类:
自考《计算机系统结构》第9章精讲

第九章并⾏处理技术 本章讲述的重点内容就是阵列处理机和多处理机,对阵列机的基本结构、主要特点、以及阵列机的互连络和并⾏存储器的⽆冲突访问等内容要加强理解。
本章应掌握的概念有:阵列处理机、络拓扑结构、单级⽴⽅体络、多级⽴⽅体等。
⼀、并⾏处理技术(识记): 并⾏性主要是指同时性或并发性,并⾏处理是指对⼀种相对于串⾏处理的处理⽅式,它着重开发计算过程中存在的并发事件。
并⾏性通常划分为作业级、任务级、例⾏程序或⼦程序级、循环和迭代级以及语句和指令级。
作业级的层次⾼,并⾏处理粒度粗。
粗粒度开并⾏性开发主要采⽤MIMD⽅式,⽽细粒度并⾏性开发则主要采⽤SIMD⽅式。
开发计算机并⾏性的⽅法主要有:资源重复、时间重叠和资源共享三种⽅法。
⼆、SIMD并⾏计算机(阵列处理机) 阵列机也称并⾏处理机。
它将⼤量重复设置的处理单元按⼀定⽅式互连成阵列,在单⼀控制部件CU(Contrul Unit)控制下对各⾃所分配的不同数据并⾏执⾏同⼀指令规定的操作,是操作并⾏的SIMD计算机。
它采⽤资源重复的措施开发并⾏性。
是以SIMD(单指令流多数据流)⽅式⼯作的。
1、阵列机的基本结构(识记) 阵列机通常由⼀个控制器CU、N个处理器单元PE(Processing Element)、M个存储模块以及⼀个互连络部件(IN)组成。
根据其中存储器模块的分布⽅式,阵列机可分为两种基本结构:分布式存储器的阵列机和共享存储器的阵列机(理解⼆者不同之处)。
阵列机的主要特点: 它采⽤资源重复的⽅法引⼊空间因素,这与利⽤时间重叠的流⽔线处理机是不⼀样的。
它是利⽤并⾏性中的同时性⽽不是并发性,所有的处理单元必须同时进⾏相同操作(资源重复同时性)(我们想象⼀下亚运会的开幕式⼤型团体操表演,每个⼈就是⼀个PE,他们听从⼀个总指挥的指令,同时进⾏⾃⼰的操作,很快地就能"计算"出⼀个结果(队形)来。
) 它是以某类算法为背景的专⽤计算机,基本上是专⽤于向量处理的计算机(某类算法专⽤机)。
阵列处理机

阵列处理机的特点
背景----科学计算
有限差分、矩阵、信号处理、线性规划 数组、向量处理
资源重复,利用并行性中的同时性 简单而规整的互联网络---设计重点 专用机 与并行算法紧密相联
阵列处理机
阵列处理机实质上是由
专门对付数组运算的处理单元阵列组成的处 理机 专门从事处理单元阵列的控制及标量处理的 处理机 专门从事系统输入输出及操作系统管理的处 理机
65536 个 PE 排 成 10 维超立方体, 每个 Thinking PE 可 有 1M 位 存 储 Machines公 器 , 32 个 PE 共 享 司CM-2 FPU 选 件 , 峰 值 速 度28 Gflops和持续 速度5.6 Gflops 1K位/PE方形网格 Active 互连成4096PE的细 Memory 粒 、 位 片 SIMD 阵 Technology 列,正交4-邻位链 DAP600 接 , 20GIPS 和 系列 560Mflops 峰 值 性 能
阵列处理机的构形与特点
分布式存储器的阵列处理机构形 集中式共享存储器的阵列处理机构形 一台阵列处理机由五个部分组成
多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP
分布式存储器的阵列处理机
各处理单元设有局部存储器PEM(Processing Element Memory),存放被分布的数据;只能 被本处理单元直接访问 控制部件CU设有存放程序和数据的主存储器 整个系统在CU控制下运行用户程序和部分系统 程序 处理单元之间可通过互联网络ICN (Interconnection Network) 目前的大部分阵列处理机是基于分布式存储器 模型的系统
CU …… ……
IOP
脉动阵列处理机

Two Communication Styles
Systolic communication
CPU
CPU
CPU
Local Memory
Local Memory
Local Memory
Memory communication
CPU
CPU
CPU
Local Memory
Local Memory
Local Memory
Different from pipelining
Nonlinear array structure, multidirection data flow, each PE may have (small) local instruction and data memory
Different from SIMD
Each PE may do something different
Initial motivation
VLSI enables inexpensive special-purpose chips Represent algorithms directly by chips connected in regular
Systolic Method
This will run in O(n) time! To run in N time we need N x N processing units, in this case we need 9.
P1 P2 P3
P4 P5 P6
P7 P8 P9
We need to modify the input data, like so:
342
342
23 36 28