第6章__阵列处理机分析

合集下载

08系统结构练习题

08系统结构练习题

第一章、概论1、在计算机系统的层次结构中,从低层到高层,各层相对顺序正确的是( )。

A .汇编语言机器级——操作系统机器级——高级语言机器级B .微程序机器级——传统机器语言机器级——汇编语言机器级C .传统机器语言机器级——高级语言机器级——汇编语言机器级D .汇编语言机器级——应用语言机器级——高级语言机器级2、直接执行微指令的是( )。

A .汇编程序B .编译程序C .硬件D .微指令程序3、在计算机的系统结构设计中,提高硬件功能实现的比例会( )。

A .提高硬件利用率B .提高系统的运行速度C .减少需要的存储器量D .提高系统的性能价格比4、在计算机的系统结构设计中,提高软件功能实现的比例会( )。

A .提高解题速度B .减少需要的存储器量C .提高系统的灵活性D .提高系统的性能价格比5、在CISC 中,各种指令的使用频度相差悬殊,大致有以下的结果。

大约有 (比例)的指令使用频度较高,占据了 (比例)的处理机时间。

名词解释:CPI 、 Amdahl 定律、局部性原理、透明性1、 计算机系统的Flynn 分类法是按什么来分类的,共分为哪几类,简要说明各类的特征。

2、如有一个经解释实现的计算机,可以按功能划分成4级。

每一级为了执行一条指令需要下一级的N 条指令解释。

若执行第一级的一条指令需K ns 时间,那么执行第2、3、4级的一条指令各需用多少时间。

4、用一台40MHZ 处理机执行标准测试程序,它含的混合指令数和相应所需的时钟周期数如下:求有效CPI 、MIPS 速率和程序的执行时间。

5、假设高速缓存Cache 的工作速度为主存的5倍,且Cache 被访问命中的概率为90%,那么采用Cache 后能使整个存储系统获得多高的加速币?6、如果某计算机系统有3个部件可以改进,则这三个部件经改进后的加速比分别为:S1=30,S2=20,S3=10。

(1)如果部件1和部件2改进前的执行时间占整个系统执行时间的比例都为30%,那么,部件3改进前的执行时间占整个系统执行时间的比例为多少,才能使3个部件都改进后的整个系统的加速比Sn 达到10?36%(2)如果3个部件改进前执行时间占整个系统执行时间的比例分别为30%、30%和20%,那么,3个部件都改进后系统的加速比是多少?未改进部件执行时间在改进后的系统执行时间中占的比例是多少?4.1,0.82指令类型 指令数 时钟周期数 整数运算 45000 1 数据传送 32000 2 浮点 15000 2 控制传送 8000 21、RISC思想的精华是。

阵列信号处理的基本知识分析

阵列信号处理的基本知识分析
l m m
加性噪声。
将整个阵列的输出信号写成矩阵形式为:
x(t ) As(t ) n(t )
A [a( ),, a( )] 为阵列流行矩阵、空间信 号方向矢量、阵列响应矩阵。
1 P
a( ) [1 e
1 P
j 2 d sin /
,, e
j 2 ( M 1 ) d sin /
式中L为阵列最大口径,F和 为信号中心频率 和该频率对应的波长。 远场假设 即辐射源到阵列的距离远大于阵列的最大口 径,从而入射到阵列的信号波前可近似为平 面波前(d ).
L2


入射信号统计特性 空间入射信号平稳且各态历经,可以用时 间平均代替集合平均。一般还假定各入射 信号统计独立。 E{s(t ) s (t )} diag{ ,, } 噪声统计特性 空时白高斯噪声;色噪声环境下需要稳健 的算法。 E{n(t )n (t )} I

阵元之间的互藕 有关因素:阵元之间的间距大小,系统工作 频段,采用的传感器类型等。 设所有阵元之间的藕合系数矩阵为C,则考 虑到阵元间互藕的阵列输出信号模型为:
x(t ) CAs (t ) n(t )

阵元位置 阵元测向的关键信息是空间信号入射到各阵 元的相对延迟相位,而这一相位依赖于阵元 之间的空间位置,阵元位置误差直接导致延 迟相位估计误差,从而影响信号参数估计。 阵列模糊 阵元间距大于 / 2 时,影响空间信号到达角 的可辨识性和确定性,需要解决阵列模糊问 题。
H 2 2 s1 sP
H 2

信号数目 属于信号检测问题(AIC,MDL,etc),一般 假定先验已知。
二、阵列信号处理的主要内容

信号参数估计(DOA,频率,极化参数,距离, 时延等): 谱估计方法(子空间方法,波束形成 方法),参数化方法(最大似然,基于子空间逼 近方法)。

第六章 阵列计算机

第六章  阵列计算机
• 阵列处理机由于存储器的组成方式不同,分为两种基本结构:分布式存储器的阵列机和集 中式共享存储器的阵列机。
前端机 CU
PE PE LM PE LM PE … LM SM
前端机 CU PE … 互连网络 SM PE
互连网络
分布式存储器的阵列机

SM
共享存储器的阵列机
• 分布式存储器的阵列机
在此类处理机中,每个PE都有自己的局部存储器LM,LM中存放着为本PE 直接访问的数据。运算中,处理单元间可通过互连网络ICN来进行数据交换。 现在出现的SIMD计算机几乎都是基于分布式存储器模型的系统。各种系 统之间的主要差别在于采用了不同的互连网络。
ILLIAC-Ⅳ的处理单元互连图
PU56 PU63 PU07 PU00 PU08 PU57 PU01 PU09 PU58 PU07 PU15
PU08 PU16
PU55
PU56 PU00
PU57 PU01
PU63 PU07
PU00
在这个阵列中,步距不等于±1或±8的任意单元之间可以用软件寻找最 短路径进行通信,其最短距离不超过7步。例如,信息由PU63送PU10 ,可经 PU63→PU7→PU8→PU9→PU104步实现,信息由PU9送PU45可经 PU9→PU1→PU57→PU56→PU48→PU47→PU46→PU457步实现。普遍来讲, N N N 个处理单元组成的阵列中,任意两个处理单元之间的最短距离不超过
(1)直连—i入连i出,j入连j出
(2)交换—i入连j出,j入连i出 (3)上播—i入连i出和j出,j入 (4)下播—j入连i出和j出,i入悬空。 只有前两种功能的称二功能交换单元,有全部四种功能的称四功能交换单元。
• 拓扑结构

02325计算机系统结构

02325计算机系统结构

02325计算机系统结构计算机系统结构第1章计算机系统结构的基本概念1.1计算机系统的多级层次结构计算机系统的多级层次结构 1.2计算机系统结构、组成与实现1.2.1结构、组成、实现的定义与内涵内涵1.2.2计算机系统结构、组成和实现三者的相互影响现三者的相互影响1.3软硬件取舍与计算机系统设计思路思路1.3.1软硬件取舍的基本原则软硬件取舍的基本原则1.3.2计算机系统的设计思路计算机系统的设计思路1.4结构设计要解决好软件的可移植性植性1.4.1统一高级语言统一高级语言1.4.2采用系列机采用系列机1.4.3模拟与仿真模拟与仿真1.5应用与器件的发展对系统结构的影响的影响1.5.1应用的发展对系统结构的影响1.5.2器件的发展对系统结构的影响1.6系统结构中的并行性发展及计算机系统的分类算机系统的分类1.6.1并行性概念并行性概念1.6.2并行处理系统的结构与多机系统的耦合度系统的耦合度1.6.3计算机系统的分类计算机系统的分类第2章数据表示与指令系统章数据表示与指令系统2.1数据表示数据表示2.1.1数据表示与数据结构数据表示与数据结构2.1.2高级数据表示高级数据表示2.1.3引入数据表示的原则引入数据表示的原则2.1.4浮点数尾数基值大小和下溢处理方法的选择处理方法的选择2.2寻址方式寻址方式2.2.1寻址方式分析寻址方式分析2.2.2逻辑地址与主存物理地址逻辑地址与主存物理地址 2.3指令格式的优化设计指令格式的优化设计2.3.1操作码的优化操作码的优化2.3.2指令字格式的优化指令字格式的优化2.4按CISC方向发展与改进指令系统系统2.4.1面向目标程序优化实现改进2.4.2面向高级语言优化实现改进2.4.3面向操作系统优化实现改进2.5按RISC方向发展与改进指令系统系统2.5.1 RISC的提出的提出2.5.2设计RISC的原则的原则2.5.3设计RISC结构用的基本技术2.5.4 RISC技术的发展技术的发展第3章总线、中断与输入输出系统中断与输入输出系统 3.1输入输出系统的基本概念输入输出系统的基本概念3.2总线设计总线设计3.2.1总线的类型总线的类型3.2.2总线的控制方式总线的控制方式3.2.3总线的通讯技术总线的通讯技术3.2.4数据宽度与总线线数数据宽度与总线线数3.3中断系统中断系统3.3.1中断的分类和分级中断的分类和分级3.3.2中断系统的软硬件功能分配3.4通道处理机通道处理机 3.4.1工作原理工作原理3.4.2通道流量的分析通道流量的分析第4章存储体系章存储体系4.1存储体系概念与并行主存系统4.1.1发展存储体系的必要性发展存储体系的必要性4.1.2并行主存系统频宽的分析并行主存系统频宽的分析4.1.3存储体系的形成与分支存储体系的形成与分支4.1.4存储体系的性能参数存储体系的性能参数4.2虚拟存储器虚拟存储器4.2.1不同的虚拟存储管理方式不同的虚拟存储管理方式4.2.2页式虚拟存储器的构成页式虚拟存储器的构成4.2.3页式虚拟存储器实现中的问题4.3高速缓冲高速缓冲(Cache)(Cache)(Cache)存储器存储器存储器4.3.1基本结构基本结构4.3.2地址的映象与变换地址的映象与变换4.3.3替换算法的实现替换算法的实现4.3.4 Cache存储器的透明性及性能分析性能分析第5章重叠、流水和向量处理机章重叠、流水和向量处理机5.1重叠方式重叠方式5.1.1基本思想和一次重叠基本思想和一次重叠5.1.2相关处理相关处理5.2流水方式流水方式5.2.1基本概念基本概念5.2.2流水线处理机的主要性能流水线处理机的主要性能5.2.3流水机器的相关处理和控制机构机构5.3向量的流水处理与向量流水处理机理机5.3.1向量的流水处理向量的流水处理5.3.2向量流水处理机向量流水处理机5.4指令级高度并行的超级处理机5.4.1超标量处理机超标量处理机5.4.2超长指令字超长指令字(VLIW)(VLIW)(VLIW)处理机处理机处理机5.4.3超流水线处理机超流水线处理机第6章阵列处理机章阵列处理机6.1阵列处理机原理阵列处理机原理6.1.1阵列处理机的基本构形阵列处理机的基本构形6.1.2阵列处理机的特点阵列处理机的特点6.2阵列处理机的并行算法阵列处理机的并行算法6.2.1 ILLIACⅣ的处理单元阵列结构结构6.2.2阵列处理机的并行算法举例6.3 SIMD计算机的互连网络计算机的互连网络6.3.1互连网络的设计目标及互连函数函数6.3.2基本的单级互连网络基本的单级互连网络6.3.3多级互连网络多级互连网络6.4并行存储器的无冲突访问并行存储器的无冲突访问6.5并行处理机举例并行处理机举例6.5.1 MPP位平面阵列处理机位平面阵列处理机6.5.2 CM连接机连接机第7章多处理机章多处理机7.1多处理机的特点及主要技术问题7.2多处理机的硬件结构多处理机的硬件结构7.2.1紧耦合和松耦合紧耦合和松耦合7.2.2机间互连形式机间互连形式7.3程序并行性程序并行性7.3.1并行算法并行算法7.3.2程序并行性的分析程序并行性的分析7.3.3并行程序设计语言并行程序设计语言7.4多处理机的性能多处理机的性能7.4.1任务粒度与系统性能任务粒度与系统性能7.4.2性能模型与分析性能模型与分析7.5多处理机的操作系统多处理机的操作系统7.5.1主从型操作系统主从型操作系统7.5.2各自独立型操作系统各自独立型操作系统7.5.3浮动型操作系统浮动型操作系统第8章其它计算机结构章其它计算机结构8.1脉动阵列机脉动阵列机8.1.1脉动阵列结构的原理和特点8.1.2通用的脉动阵列结构通用的脉动阵列结构8.2大规模并行处理机MPP与机群系统系统8.2.1大规模并行处理机MPP8.2.2机群系统机群系统8.3数据流机数据流机8.3.1数据驱动的概念数据驱动的概念8.3.2数据流程序图和语言数据流程序图和语言8.3.3数据流计算机的结构数据流计算机的结构8.3.4数据流机器存在的问题数据流机器存在的问题8.4归约机归约机8.5智能机智能机8.5.1智能信息处理与智能机智能信息处理与智能机8.5.2智能机的结构和机器语言智能机的结构和机器语言★翻译和解释的区别和联系?区别:区别:翻译是整个程序转换,翻译是整个程序转换,翻译是整个程序转换,解释解释是低级机器的一串语句仿真高级机器的一条语句。

第6章阵列处理机

第6章阵列处理机
第6章并行处理机和相联处理机图61具有分布式存储器的阵列处理机构形第6章并行处理机和相联处理机为了高速有效地处理向量数据这种构形要求能把数据合理地预分配到各个处理单元的局部存储器中使各处理单元pei主要用自己的局存pemi中的数据运算
第 6 章 并行处理机和相联处理机
第6章 阵列处理机
6.1 阵列处理机的原理
第 6 章 并行处理机和相联处理机
6.1.2 ILLIACⅣ的处理单元阵列结构 由于阵列处理机上的并行算法的研究是与结构紧密联系 在一起的,因此,下面先介绍一下ILLIACⅣ阵列机上处理单 元的互连结构。ILLIACⅣ是采用如图6-1所示的分布存储器构 形,其处理单元阵列结构如图6-3所示。其中,PUi 为处理部 件,包含64位的算术处理单元PEi、所带的局部存储器PEMi和
用到下面的累加和并行算法。即使如此,就K的并行来说,
速度的提高也不是8倍,而只是8/log28,接近于2.7倍。
第 6 章 并行处理机和相联处理机
3.累加和 这是一个将N个数的顺序相加转为并行相加的问题。为 得到各项累加的部分和与最后的总和,要用到处理单元中的 活跃标志位。只有处于活跃状态的处理单元才能执行相应的 操作。为叙述方便取N=8,即有8个数A(I)顺序累加,其中 0≤I≤7。 在SISD计算机上可以写成下列FORTRAN程序: C=0
PEM内,且在全部64个PEM中,让A、B和C的各分量地址
均对应取相同的地址α、α+1和α+2,如图6-4所示。这样, 实现矩阵加只需用下列三条ILLIACⅣ汇编指令:
第 6 章 并行处理机和相联处理机
LDA ADRN
Hale Waihona Puke ALPHA ;全部(α)由PEMi送PEi的累加器RGAi ALPHA+1 ;全部(α+1)与(RGAi)浮点加,结果送 RGAi

系统结构题库(含答案) (6)

系统结构题库(含答案) (6)

第一章计算机系统结构的基本概念知识点汇总计算机系统的层次结构、虚拟机、解释/翻译、计算机系统结构/组成/实现、冯氏分类法、Flynn分类法、以经常性事件为重点原理、Amdahl定律、CPU性能公式、程序局部性原理、计算机系统性能评测指标(执行时间、吞吐率)、基准测试程序、冯诺依曼结构、冯诺依曼结构特点及改进、软件可移植性、系列机、软件兼容(向上、向下、向前、向后)、兼容机、模拟、仿真、并行性含义、并行性等级、提高并行性的途径(包括时间重叠、资源重复、资源共享)、单机系统中的并行性发展、多机系统中的并行性发展、耦合度、松散耦合、紧密耦合简答题1.简述计算机系统的层次结构。

(知识点:计算机系统的层次结构)答:从下到上分成微程序机器级、机器语言、操作系统虚拟机、汇编语言虚拟机、高级语言虚拟机、应用语言虚拟机2.什么是翻译?什么是解释?(知识点:翻译、解释)答:翻译是将L+1级程序全部转成L级程序后,再执行产生的L级程序;解释是每当一条L+1级程序被译码后执行,再解释下一条L+1级指令。

3.计算机系统结构、计算机组成和计算机实现三者之间的关系,并举例说明。

(知识点:计算机系统结构/组成/实现)答:计算机系统结构是指计算机的软硬界面,即机器语言程序员看到的传统机器具有的属性。

计算机组成是计算机系统结构的逻辑实现。

计算机实现是计算机组成的物理实现。

如,确定指令集中是否有乘法指令属于计算机系统结构内容,乘法指令是否由专门的乘法部件实现是计算机组成,乘法器的物理实现是计算机实现。

4.Flynn分类法将计算机系统结构分成哪四类?请简述。

答:SISD,SIMD,MISD,MIMD5.请简述程序局部性原理。

(知识点:程序局部性原理)答:包括时间局部性和空间局部性。

时间局部性是指:程序即将用到的信息很可能就是目前正在使用的信息;程序的空间局部性是指,程序即将用到的信息很可能与目前正在使用的信息空间上临近。

6.简述Amdahl定律。

阵列处理机

阵列处理机

阵列处理机的特点
背景----科学计算
有限差分、矩阵、信号处理、线性规划 数组、向量处理
资源重复,利用并行性中的同时性 简单而规整的互联网络---设计重点 专用机 与并行算法紧密相联
阵列处理机
阵列处理机实质上是由
专门对付数组运算的处理单元阵列组成的处 理机 专门从事处理单元阵列的控制及标量处理的 处理机 专门从事系统输入输出及操作系统管理的处 理机
65536 个 PE 排 成 10 维超立方体, 每个 Thinking PE 可 有 1M 位 存 储 Machines公 器 , 32 个 PE 共 享 司CM-2 FPU 选 件 , 峰 值 速 度28 Gflops和持续 速度5.6 Gflops 1K位/PE方形网格 Active 互连成4096PE的细 Memory 粒 、 位 片 SIMD 阵 Technology 列,正交4-邻位链 DAP600 接 , 20GIPS 和 系列 560Mflops 峰 值 性 能
阵列处理机的构形与特点
分布式存储器的阵列处理机构形 集中式共享存储器的阵列处理机构形 一台阵列处理机由五个部分组成
多个处理单元PE 多个存储器模块M 一个控制器CU 一个互连网络ICN 一台输入输出处理机IOP
分布式存储器的阵列处理机
各处理单元设有局部存储器PEM(Processing Element Memory),存放被分布的数据;只能 被本处理单元直接访问 控制部件CU设有存放程序和数据的主存储器 整个系统在CU控制下运行用户程序和部分系统 程序 处理单元之间可通过互联网络ICN (Interconnection Network) 目前的大部分阵列处理机是基于分布式存储器 模型的系统
CU …… ……
IOP

阵列信号处理的基本知识分析

阵列信号处理的基本知识分析

diag{g ej1 ,, g e } jM
1
M
阵元之间的互藕 有关因素:阵元之间的间距大小,系统工作 频段,采用的传感器类型等。 设所有阵元之间的藕合系数矩阵为C,则考 虑到阵元间互藕的阵列输出信号模型为:
x(t) CAs(t) n(t)
阵元位置 阵元测向的关键信息是空间信号入射到各阵 元的相对延迟相位,而这一相位依赖于阵元 之间的空间位置,阵元位置误差直接导致延 迟相位估计误差,从而影响信号参数估计。
信号参数估计(DOA,频率,极化参数,距离, 时延等): 谱估计方法(子空间方法,波束形成 方法),参数化方法(最大似然,基于子空间逼 近方法)。
Ref[1] H.krim and M.Viberg, Two decdees of array processing research: the parametric approach, IEEE signal processing Magazine, Vol.13, Vol.4, 1996. Ref.[2] D.H.Johnson, D.E.Dudgeon, Array signal processing, Prentice-Hall,1993. Ref.[3] IEE Proc. 1991. Ref.[4] Vaccaro, R.J, The past, present, and the future of underwater acoustic signal processing, IEEE Signal Processing Magazine, Vol.15 , No.4 , 1998.
-25
-30
-35
-40
-45
-50
-80 -60 -40 -20
0
20
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、分布式存储器的阵列处理机构形 各处理单元有局部存储器PEM(Processing Element Memory)存放被分布的数据,只能被 本处理单元直接访问。在控制部件CU上有一 主存可传播给各个处理单元,运算中可通过 互连网络ICN交换数据。 在执行主存中的用户程序时,所有指令都 在控制部件中进行译码,把只适合串行处理 的标量或控制类指令留给控制部件CU自己执 行,而把适合于并行处理的向量类指令“播 送”给各个PE,控制处于“活跃”的那些PE 并行执行。下图是采用分布式存储器的阵列 处理机构形。
·
PE0 PE1
MM0 MM1
CU ……
SC
PEN-1
ICN互连网络
··
……
MMk-1
I/O-CH
I/O SM 具有集中式共享存储器的阵列处理机构形
各处理单元在访主存时,为避免发生分体冲 突,也要求有合适的算法能将数据合理地分配到 各个存储体中。 互连网络ICN是用于在处理单元与存储器分 体之间进行转接构成数据通路,使各处理单元能 高速灵活地动态与不同的存储体相连,使尽可能 多的PE能无冲突地访问共享的主存模块。 集中式共享存储器的阵列处理机主要特点是 将资源重复和时间重复结合起来开发并行性。 采用这种构形的典型机器有BSP。
ቤተ መጻሕፍቲ ባይዱ
6.1.2
阵列处理机的特点
1、利用资源重复而不是时间重叠;利用并行性中的同 时性而不是并发性。 2、资源利用率不如流水线高,但提高速度的潜
力比流水线处理机大。(阵列处理机主要是 靠增大处理单元数提高速度,向量流水处理 机主要靠缩短时钟周期提高速度)。 3、阵列处理机使用简单规整的互连网络来确定处 理单元间的连接,因此,互连网络设计很重要。 4、它是以某类算法为背景的专用计算机,基本上 是专用于向量处理的计算机(某类算法专用机), 故阵列处理机专用性强。
•本章难点:
并行算法和多级互连网络。
6.1 阵列处理机原理
6.1.1 阵列处理机的基本构形
阵列处理机(Array Processor),也称为并 行处理机(Parallel Processor)主要用于对大 量向量、数组要求高速运算的场合。 阵列处理机是重复设置处理单元按一定方 式连成阵列在单一控制部件控制下对各自分配 的数据执行同一指令规定的操作,是操作级并 行的SIMD的计算机。 由于存储器的组成方式不同,阵列处理机 有两种不同的基本构形。
如果采用闭合螺旋线,只需要7步: PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36
普通网格必须8步: PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36 或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36 或 …… 闭合螺旋线只要7步: PU0 PU63 PU62 PU61 PU60 PU52 PU44 PU36 或 PU0 PU63 PU55 PU47 PU39 PU38 PU37 PU36 或 ……
PU56 PU63
PU57 2 3 4 5 6
PU 63 PU 8
PU0 PU8 16 24 32 40 48
PU1 PU9 17 25 33 41 49 PU57 PU1
PU7
PU8
10 11 12 13 14 18 26 34 42 50 19 27 35 43 51 20 28 36 44 52 21 29 37 45 53 22 30 38 46 54
5、阵列机的研究必须与并行算法研究密切结
合,以使它的求解算法适应性更强一些,应 用面更广一些(与并行算法结合研究)。
阵列处理机实质上是由专门对付数 组运算的处理单元阵列组成的处理机、 专门从事处理单元阵列的控制及标量处 理的处理机和专门从事系统输入输出及 操作系统管理的处理机组成的一个异构 型多处理机系统。
PU15 23 31 39 47 55 PU63 PU 7
PU16
PU55
PU56 PU0
58 59 60 61 62
PU0
• 采用闭合螺线最短距离不超过7步。而普通网格 最短距离不超过8步。这种阵列中,任意两个单 元之间的最短距离不超过 N 1步。 • 例如:从PU0到PU36的距离:采用普通网格必须 8步:PU0 PU1 PU2 PU3 PU4 PU12 PU20 PU28 PU36 或 PU0 PU8 PU16 PU24 PU32 PU33 PU34 PU35 PU36 或 ……(等于8步的很多,大于8步的更多)
6.2 阵列处理机的并行算法
6.2.1 ILLIAC Ⅳ的处理单元阵列结构
ILLIAC IV处理阵列由88=64个PU组成。 每个PU由处理部件PE和它的局部存储器PEM组 成。 每一个PUi只和它的上、下、左、右四个 近邻直接连接。{PUi+1 mod 64、PUi-1 mod 64、 PUi+8 mod 64、PUi-8 mod 64} 上下方向上同一列的PU连成一个环,左右 方向上构成一个闭合螺线。
控制
SC I/O 接口 D
控 制
PEM0
PE0
· · · · ·
数据总线
CU CUM
PEM1
…… PEMN-1
PE1
……
PEN-1
控制总线
ICN互连网络
具有分布式存储器的阵列处理机构形
为了有效高速地处理向量数据,这种构形要 求能把数据合理地预分配到各个处理单元的局 部存储器中,使各处理单元PEi主要用自己的局 存PEMi中的数据运算。 采用这种构形的阵列处理机是SIMD的主流。 典型机器有ILLIAC Ⅳ 、MPP、 DAP、CM-2、 MP-1、DAP600系列等。 2、集中式共享存储器的阵列处理机构形 系统存储器由K个存储体集中组成,并经 ICN为全部N个处理单元所共享。 为使各处理单元对长度为N的向量中各个元 素都能同时并行处理,存储体体数K应等于或多 于处理单元数N。
第6章
6.1 6.2 6.3 6.4 6.5
阵列处理机
阵列处理机原理 阵列处理机的并行算法 SIMD计算机的网络互连 并行存储器的无冲突访问 并行处理机举例
•本章重点:
总的要求是理解阵列处理机的结构和工作原 理。了解与流水处理机的差别。理解在阵列处 理机解题时对并行算法及存储单元分配规则、 互连网络等的特殊要求。熟练掌握基本的单级 网络及其互连函数表示。理解循环互连网络的 实现。熟练掌握多级网络、全排列网络的画法。 理解解决并行存储器无冲突访问的办法。 互连函数和多级互连网络。
相关文档
最新文档