第4章 向量处理机
信息系统工程概论课件2

存储器
•
存储器是计算机系统内最主要的记忆装置,能够把大量 计算机程序和数据存储起来,称为可写,此外也能从其中取 出数据或程序,称为可读。存储器按功能可分为主存储器和 辅助存储器。主存储器,也称为内存储器(内存),有随机 存取存储器(简称RAM)和只读存储器(简称ROM)两种, 它读写速度快,直接与CPU交换数据,一般当前运行的程序 与使用的数据存放在内存中。RAM能够随时由CPU进行读写, 但断电后其中的信息会消失。ROM是只能读出而不能随意写 入信息的存储器,断电后其中的信息不会丢失。 辅助存储器也称为外存储器(外存),计算机执行程序 和加工处理数据时,外存信息送入内存后才能使用,它读写 速度相对较慢,但容量可以很大。常用的外存是软磁盘(简 称软盘)、硬磁盘(简称硬盘)和光盘等。
(1)ST506 (2)ESDI (3)IDE (4)SCSI (5)PCMCIA (6)P1394 (7)USB
计算机存储体系
•
1.内存编址 2.高速缓冲存储器(Cache) 3.廉价磁盘冗余阵列RAID (1)RAID0级(无冗余和无校验的数据分块) (2)RAID1级(磁盘镜像阵列) (3)RAID2级(采用纠错海明码的磁盘阵列) (4)RAID3级和RAID4级(采用奇偶校验码的磁盘阵列) (5)RAID5级(无独立校验盘的奇偶校验码磁盘阵列) (6)RAID6级(具有独立的数据硬盘与两个独立的分布式校验 方案) (7)RAID7级(具有最优化的异步高I/O速率和高数据传输率 的磁盘阵列)
信息系统工程概论(2)符长青博士第2 章 Nhomakorabea•
计算机系统的基本结构
计算机系统包括硬件系统和软件系统两大部分,硬 件部分是指计算机系统的物理设备。只有硬件系统的 计算机叫裸机,裸机是无法运行的,需要软件的支持。 硬件是基础,而软件则是指挥中枢,硬件和软件两者 的功能与质量决定了计算机系统的功能和性能。 计算机的硬件系统是计算机系统中各种物理设备 的总称,主要由主机和外设构成。主机包括中央处理 机(CPU)、主板、存储器,外设有输入设备、输出 设备等组成
第 7 章 并行处理技术

阵列机特征的形式化表示
• SIMD计算机的操作模型可用五元组表示: • C=<N,C,I,M,R> • 式中: (1) N为机器的处理单元(PE)数。 例如,Illiac IV有64个PE。而连接机 (Connection Machine) CM-2采用65536个PE。 (2) C为由控制部件(CU)直接执行的指令集, 包括标量和程序流控制指令。
• 粗粒度-MIMD方式 (G↗) • 细粒度-SIMD方式 (G↘)
2014-4-22 7
7.2
阵列处理机(SIMD并行计算机)
• 并行计算机的定义 • 并行计算机就是由多个处理单元PE(以下也 称为处理器,或简称为CPU)组成的计算机 系统,这些处理单元相互通信和协作能快 速、高效的求解大型复杂问题。 • 下图给出了从标量到向量和并行计算机的 演变 。
2014-4-22 5
(3)子任务级:属于中粒度。子程序是在单处理机 或多处理机的多道程序设计这一级进行的。这一 级并行性由算法设计者或程序员开发而非用编译 器开发。 (4)任务级:这是与任务、过程、程序段、协同程 序级相对应的中粒度或粗粒度规模。典型粒度包 含的指令几千条,检测本级的并行性比细粒度级 困难得多,需要更多地涉及过程间的相关性分析。 需编译器支持。
2014-4-22
26
7.2.4 典型SIMD计算机举例
• 一、Illiac-IV SIMD阵列机 • 它是由Burroughs公司和Illinois大学1965年开始 制、并于1972年完成的。Illiac-IV是SIMD阵列处 理机的典型代表,其结构框图如下图所示,共有64 个PE,统一由CU控制。B6500作为前端机进行系统 管理。每个PE有自己的局存PEM,容量为2K字,字 长64位,同时每个PE拥有4个64位的寄存器,分别 用作累加器、操作数寄存器、数据路由寄存器和 通用寄存器。此外,尚有1个16位变址器和1 个8 位的方式寄存器,用于存放PE的屏蔽信息。
计算机系统结构试题及答案

计算机系统结构参考资料一、判断题(本大题共 0 分,共 50 小题,每小题 0 分)1.对于 Cache 中的副本与主存储器中的内容能否保持一致,是 Cache 能否可靠工作的一个关键问题。
2.通信开销的线性增加模型中,通信开销与处理机数量之间存在一定的函数关系。
3.为了能够在流水线中顺利执行指令的所有可能组合,而不发生结构相关,通常需要采用流水化功能单元的方法或资源重复的方法。
4.基本程序块是指一段除了入口和出口以外不包含其他分支的线性代码段。
5.通道的主要功能包括接受 CPU 的指令,按指令要求与指定的外围设备进行通信。
6.多核处理器的思想是将大规模并行处理器的处理器集成到同一个芯片内,由各个处理器并行执行不同的进程。
7.在编译时对分支准确预测有助于对数据冲突的调度。
8.提高并行性的途径包括数据重复。
9.流水线技术属于时间重叠的并行途径,是一种在单机和多机系统中采用的提高并行性的基本技术。
10.字节编址是指以 1 个字节作为编址单位。
11.MPP 系统节点之间的消息传送相对于集群系统具有更长的延迟,系统性能更弱。
12.出现了指令因为等待前面结果,使得后面指令无法继续执行下去的现象,即相关。
13.指令级并行是指在源代码或靠近源代码的层次进行并行分析。
14.MPP 的每个计算单元也是相对独立,拥有自己的资源以及系统。
15.按照计算机的性能和应用特征,现代的计算机主要可分为桌面计算机、服务器型计算机和嵌入式计算机三种类型。
16.以互连特性为特征,可以把互连网络分为静态互连网络和动态互连网络两类。
17.在多数计算机中,编译器在对一个源程序或源程序段进行编译是不能确定程序在主存中的实际位置的。
18.动态分支预测技术能够根据近期转移是否成功的历史记录来预测下一次转移的方向。
19.一条指令是由操作码和地址码两部分组成的。
20.根据使用使用目的和系统设计的不同,总线的连接方式可以分为 4 种。
21.反映外设可靠性能的参数有:可靠性(reliability)、可用性(availability)和可信性(dependability)。
第八章SIMD计算机

集中式共享存储器结构的阵列处理机
标量处理机
大容量存储器
标量指令 指令 控制部件存储器 阵列控制 部件 (程序与数据) 向量指令 广播总线 网 络 控 制
PE0 PE1 PEN-1
主机
I/O 用 户
互连网络
数 据 总 线
SM0
SM1
SMN-1
特点: 1)典型例子:Burroughs公司和依里诺大学联合研制的BSP(Burroughs Scientific Processor),16个PE,17个存储体,16×17对准网络。 2)由多个存储体组成的多体交叉存储器经互连网络为全部处理单元所共享。 3)共享存储器采用多模块交叉存储器,并且,为了避免发生PE访问共享存 储器冲突,PE数与存储器数应互质,而且, “处理单元数<=共享存储器数”。 4)适用于处理单元数目不大的情况,否则,解决存储器访问冲突将耗费大 量的系统资源,大大降低系统的性能价格比。
ቤተ መጻሕፍቲ ባይዱ
8)并行处理机是以某一类算法为背景的专用计算机。这是由于并行处理机 中通常采用简单、规整的互连网络实现处理单元之间的连接操作,从而限 定了它所适用的求解算法类别。 9)并行处理机的研究必须与并行算法研究密切结合,以使它的求解算法的 适应性更强些,应用面更广些。 10)并行处理机的五个部分组成: ▉ 处理单元PE阵列 ▉ 标量处理机 ▉ 阵列控制部件 ▉ 互连网络 ▉ 输入输出处理主机
DFS PE M63 256 1024 256
I/O 总 线
IOS
1024
实 时 装 置
ILLiac IV阵列
PE0
PE1
PE7
PE8
PE9 i-8 i-1 i i+8 i+1
计算机组成原理第六章(并行处理技术和多处理机)共51页

3. 程序划分和粒度 并行性的开发还可以按程序大小划分不同粒度的开发方式。 并行性的开发还可以按程序大小划分不同粒度的开发方式。 我们先来介绍两个概念: 我们先来介绍两个概念: 颗粒规模( size)或粒度(granularity) 颗粒规模 ( grain size)或粒度 ( granularity)---- 是衡量 软件进程所含计算量的尺度。测量方法是数一下颗粒( 软件进程所含计算量的尺度。测量方法是数一下颗粒(程序段 )中的指令数目。一般用细、中、粗来描述, 中的指令数目。一般用细、 粗来描述, 时延是机器各子系统间通信开销的时间量度。 时延-(TC )是机器各子系统间通信开销的时间量度。如:存 贮时延是处理机访问存贮器所需时间; 贮时延是处理机访问存贮器所需时间;同步时延是两台处理机 互相同步所需的时间。 互相同步所需的时间。 并行性粒度:每次并行处理的规模大小。用字母G表示 并行性粒度:每次并行处理的规模大小。用字母G G=TW/TC TW:所有处理器进行计算的时间总和; TW:所有处理器进行计算的时间总和; TC:所有处理器进行通信的时间总和。(设系统共有P 。(设系统共有 TC:所有处理器进行通信的时间总和。(设系统共有P个处理 器) 当TC较大时,通信量大,则G 较小处理粒度较细。反之对于 TC较大时,通信量大, 较小处理粒度较细。 较大时 粗粒度的并行,通信量较小。 粗粒度的并行,通信量较小。
( 1)指令级:并行性发生在指令内部微操作之间或指令之间。 ) 指令级: 并行性发生在指令内部微操作之间或指令之间。 取决于程序的具体情况。 取决于程序的具体情况。可借助于优化编译器开发细粒度并行 性,它能自动检测并行性并将源代码换成运行时系统能识别的 并行形式。 并行形式。 ( 2)循环级 : 相当于迭代循环操作 , 典型循环包含的指令大 ) 循环级:相当于迭代循环操作, 约几百条, 约几百条,循环级并行性是并行机或向量计算机上运行的最优 程序结构,并行处理主要由编译器在循环级中进行开发。 程序结构,并行处理主要由编译器在循环级中进行开发。 ( 3)子任务级 : 属于中粒度 。 子程序是在单处理机或多处理 ) 子任务级:属于中粒度。 机的多道程序设计这一级进行的。 机的多道程序设计这一级进行的。这一级并行性由算法设计者 或程序员开发而非用编译器开发。 或程序员开发而非用编译器开发。 ( 4)任务级 : 这是与任务 、 过程 、 程序段 、 协同程序级相对 ) 任务级:这是与任务、过程、程序段、 应的中粒度或粗粒度规模。典型粒度包含的指令几千条, 应的中粒度或粗粒度规模。典型粒度包含的指令几千条,检测 本级的并行性比细粒度级困难得多, 本级的并行性比细粒度级困难得多,需要更多地涉及过程间的 相关性分析。需编译器支持。 相关性分析。需编译器支持。 (5)作业(程序)级:对于少量几台高性能处理机构成的超 )作业(程序) 级计算机开发这种粗粒度并行性切实可行。 级计算机开发这种粗粒度并行性切实可行。
第八章 SIMD计算机

地 α 址 +0: 7,0 A 存 器 地 α 储 址 +1: 7,0 B C 地 α 址 +2: 7,0
8.4 SIMD的典型算法(P483)
•非数组问题的向量化算法(P486) 非数组问题的向量化算法( 486) 非数组问题的向量化算法 相关——找尽可能多无关操作;因多PE,还需考虑数据传输问题 找尽可能多无关操作; PE, 相关 找尽可能多无关操作 因多PE 处理单元的活动标志
8.2 SIMD的两种结构类型(P453~P454)
(1)分布存储结构 P453图8.2 (2)共享存储结构 P454图8.3
8.2 SIMD的两种结构类型(P453~P454)
(1)分布存储结构 P453图8.2。此结构PE对本地存储体存取数据非常方便,但对其它存储 体进行交叉存取则无法实现,必须通过在各存储体之间进行置换操作,将 数据转换为本地存取才能访问;
PUi-8 来 ICN PUi-1 来 PUi+8 来 PUi+1 来 去PUi-1 去PUi+8
去PUi-8 去PUi+1
8.4 SIMD的典型算法(P483)
矩阵加、 484) 8.4.1 矩阵加、减(P484)
A A
累 器 加 :
A
A0,0 B0,0 C0,0 A
A0,7 B0,7 C0,7 A7,7 B7,7 C7,7
每个PEi的组成
PEi
PUi
A累 器 6 ) 加 (4位 B操 数 存 (4位 作寄器6 ) S通 寄 器 6 ) 用 存 (4位 R寻 寄 器 6 ) 径 存 (4位 M模 寄 器 8位 式存( ) X变 寄 器 1 ) 址 存 (6位
0号 元 6 ) 单 (4位
体系结构概念总结

第1章计算机系统结构的基本概念层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。
这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。
翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。
解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。
执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。
计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。
透明性:在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。
计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。
计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。
系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。
Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。
大概率事件优先原则的基本思想是:对于大概率事件(最常见的事件),赋予它优先的处理权和资源使用权,以获得全局的最优结果。
程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。
包括时间局部性和空间局部性。
CPI:每条指令执行的平均时钟周期数。
CPI=执行程序所需的时钟周期数/所执行的指令条数CPU性能公式:CPU时间=执行程序所需的时钟周期数×时钟周期时间CPU时间=IC×CPI×时钟周期时间,IC为所执行的指令条数并行性:计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作。
并行计算机的比较分析

但 是这 种 系统 通常 不使 用 高速缓 存 , 而是
使 川 夫 量 向量 寄 仔 及 指 令 缓 存 , 使 得 该 系 统 对 程 序 编 制 的 这 要求 变得 较 高 。 只有 那 些 充 分 考 虑 了 向 量 处 理 特 点 的 程 序 才 能 该 系 统 L获 得 较 好 的 性 能 。 外 , 于 价 格 昂 贵 、 于 管 理 等 另 由 难
『 下特 ^ :i MP系统 一 帔他 用商 品 化 微处 理 器 , 有 片上或 』 [ 1 (S ) 一 具 外置 高述 仃 , 由高速 总 线 ( 经 或 义 升 天) 向 连 仔储器:
缚个 处 理 器 【等 M 地 川 ‘ 储 器 、 ( f 谍 _ 系 统 服 ] j ‘ 仃 1 )没 / 1 , I 1 垮 ( , : 单 …搽 作 系 统 映 像 , 系 统 有 一 个 操 作 系 L MA ) 全
文 献标 识码 : A
文 章 编 号 :6 2 7 0 (0 0 0 — 0 3 0 1 7 — 8 0 2 1 )6 0 0 — 2
统 驻 留 在 共 享 存 储 器 中 , 根 据 各 个 处 理 器 的 负 载 情 况 , 念 它 动
O 引 言
为并 行处 理所 设 计的 计算 机统 称之 为并 行计 算 机 , 在并 行
工作 站机 群 ( O 、 C W) 分布 式 共享 存储 处理 机 ( S 。这 5类计 算机 各有 优缺 点 , 这 5类计 算机 进 行 了舟绍 和 比较 。 D M) 就
关键 词 : 行 向量 处理机 : 称 多 处理机 ; 布 式共 享存 储 处理机 并 对 分
中 图分类 号 :P0 . T 31 4
汁算 机 上 求 解 问 题 称 之 为 并 行 计 算 . 并 行 计 算 机 上 实 现 求 解 在 问 题 的算 法 可 称 之 为 并 行 算 法 。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▲
1/72
4.1 4.2 4.3 4.4 4.5
向量的处理方式 向量处理机的结构 提高向量处理机性能的常用技术 向量处理机的性能评价 向量处理机实例
▲
2/72
向量由一组有序、具有相同类型和位数的元素组成。
在流水线处理机中,设置向量数据表示和相应的向量
指令,称为向量处理机。
▲
20/72
4.3 提高向量处理机性能的常用技术
提高向量处理机性能的方法
设置多个功能部件,使它们并行工作; 采用链接技术,加快一串向量指令的执行; 采用循环开采技术,加快循环的处理; 采用多处理机系统,进一步提高性能。
▲
21/72
4.3 提高向量处理机性能的常用技术
4.3.1 设置多个功能部件
…
a b c d e f g h i j k l
▲
30/72
4.3 提高向量处理机性能的常用技术
a:存储字到“读功能部件”的传送时间 b:存储字经过“读功能部件”的通过时间 c:存储字从“读功能部件”到V0分量的传送时间 d:V0和V1中操作数到整数加功能部件的传送时间 e:整数加功能部件的通过时间 f:和从整数加功能部件到V2分量的传送时间 g:V2中的操作数分量到移位功能部件的传送时间 h:移位功能部件的通过时间 i:结果从移位功能部件到V3分量的传送时间 j:V3和V4中的操作数分量到逻辑部件的传送时间 k:逻辑功能部件的通过时间
24/72
▲
4.3 提高向量处理机性能的常用技术
结果寄存器冲突
两条向量指令使用了相同的结果向量寄存器。
例如:V4←V1+V2 V4←V3*V5
这两条指令都要访问目的寄存器V4。由于第一条指 令在先,所以它先占用V4直到运算完成,然后再流 出后一条指令。
2. 当前一条指令的结果寄存器是后一条指令的源寄存器、 且不存在任何其他冲突时,就可以用链接技术来提高 性能。
qN←bN-cN
dN←qN×aN
表示成向量指令:
Q=B-C D=Q×A
两条向量指令之间: 数据相关:1次 功能切换:1次
▲
6/72
4.1 向量的处理方式
3. 纵横 (分组)处理方式
又称为分组处理方式。 把向量分成若干组,组内按纵向方式处理,依次
处理各组。
对于上述的例子,设:
N=S×n+r
每个向量寄存器Vi都有连到6个向量功能部件的单
独总线。
每个向量功能部件也都有把运算结果送回向量寄
存器组的总线。
▲
18/72
4.2 向量处理机的结构
只要不出现Vi冲突和功能部件冲突,各Vi之间和各
功能部件之间都能并行工作,大大加快了向量指 令的处理。
Vi冲突:并行工作的各向量指令的源向量或结果向量 使用了相同的Vi。
3/72
4.1 向量的处理方式
以计算表达式 D=A×(B-C)为例
A、B、C、D ── 长度为 N 的向量
▲
4/72
4.1 向量的处理方式
1. 横向(水平)处理方式
向量计算是按行的方式从左到右横向地进行。
先计算: 再计算:
d1←a1×(b1-c1) d2←a2×(b2-c2) „„
画出链接示意图,并求该链接流水线的通过时间。如果向量长 度为64,则需要多少拍才能得到全部结果。 解 对这4条指令进行分析可知:它们既没有部件冲突,也没有
寄存器冲突,相邻两条指令之间都存在先写后读相关,因而可以把
访存流水线、向量加流水线、向量移位流水线以及向量逻辑运算流 水线链接成一个较长的流水线。
纵向处理方式采用 寄存器-寄存器型结构 分组处理方式采用
▲
9/72
4.2 向量处理机的结构
4.2.1 “存储器-存储器”结构
1. 采用纵向处理方式的向量处理机对处理机结构的要求: 存储器-存储器结构
向量指令的源向量和目的向量都是存放在存储器
中,运算的中间结果需要送回存储器。
流水线运算部件的输入和输出端都直接(或经过
典型的寄存器-寄存器结构的向量处理机 美国的CRAY-1、我国的YH-1巨型机
▲
13/72
4.2 向量处理机的结构
以CRAY-1机为例
美国CRAY公司
1976年 每秒1亿次浮点运算 时钟周期:12.5ns
1. CRAY-1的基本结构
功能部件
共有12条可并行工作的单功能流水线,可分别流
地址运算部件:整数加,整数乘
▲
22/72
4.3 提高向量处理机性能的常用技术
4.3.2 链接技术
1. 两条向量指令占用功能流水线和向量寄存器的4种情况
指令不相关
例如:V0←V1+V2 V6←V4*V5
这两条指令分别使用各自所需的流水线和向量寄存器, 可以并行执行。
功能部件冲突
例如:V3←V1+V2
冲。
标量寄存器S和快速暂存器T
64位
快速暂存器T用于在标量寄存器和存储器之间提供缓
▲
17/72
4.2 向量处理机的结构
向量屏蔽寄存器VM
64位,每一位对应于向量寄存器的一个单元。
作用:用于向量的归并、压缩、还原和测试操作、 对向量某些元素的单独运算等。
2. CRAY-1向量处理的一个显著特点
例如:V3←V1+V2 V6←V3*V4
▲ 25/72
4.3 提高向量处理机性能的常用技术
向量流水线链接:具有先写后读相关的两条指令,
在不出现功能部件冲突和源向量冲突的情况下,
可以把功能部件链接起来进行流水处理,以达到 加快执行的目的。
Cray-1向量处理的一个显著特点
链接特性的实质 把流水线定向的思想引入到向量执行过程的结果。
▲
16/72
4.2 向量处理机的结构
向量寄存组V
由512个64位的寄存器组成,分成8块。 编号:V0~V7 每一个块称为一个向量寄存器,可存放一个长度 (即元素个数)不超过64的向量。
每个向量寄存器可以每拍向功能部件提供一个数据元 素,或者每拍接收一个从功能部件来的结果元素。 标量寄存器有8个:S0~S7
缓冲器)与存储器相联,从而构成存储器-存储 器型操作的运算流水线。
例如:STAR-100、CYBER-205
▲
10/72
4.2 向量处理机的结构
存 储 系 统
缓冲器
流水处理部件
缓冲器
“存储器-存储器”型操作的运算流水线
▲
11/72
4.2 向量处理机的结构
2. 要充分发挥这种结构的流水线效率,存储器要不断地 提供源操作数,并不断地从运算部件接收结果。
▲
12/72
4.2 向量处理机的结构
4.2.2 “寄存器-寄存器”结构
在向量的分组处理方式中,对向量长度N没有限 制,但组的长度n却是固定不变的。
对处理机结构的要求:寄存器-寄存器结构 设置能快速访问的向量寄存器,用于存放源向量、
目的向量及中间结果。让运算部件的输入、输出 端都与向量寄存器相联,就构成了“寄存器-寄 存器”型操作的运算流水线。
设置多个独立的功能部件。这些部件能并行工作,
并各自按流水方式工作,从而形成了多条并行工 作的运算操作流水线。
例如:CRAY-1向量处理机有4组12个单功能流水部件:
向量部件:向量加,移位,逻辑运算 浮点部件:浮点加,浮点乘,浮点求倒数 标量部件:标量加,移位,逻辑运算, 数“1”/计数
例如:源向量相同
V3←V1+V2
V5←V4∧V1
功能部件冲突:并行工作的各向量指令要使用同一 个功能部件。 V3←V1×V2 V5←V4×V6
例如:都需使用乘法功能部件
▲
19/72
4.2 向量处理机的结构
3. CRAY-1向量指令类型
Vk ← Vi op Vj Vk ← Si op Vj Vk ← 主存 主存 ← Vi
其中N为向量长度,S为组数,n为每组的长度,r为 余数。 若余下的r个数也作为一组处理,则共有S+1组。
运算过程为:
▲
7/72
4.1 向量的处理方式
先算第1组:
Q1~n←B1~n-C1~n
D1~n←Q1~n×A1~n
再算第2组:
Q(n+1)~2n←B(n+1)~2n-C(n+1)~2n
▲
26/72
4.3 提高向量处理机性能的常用技术
链接时,Cray-1中把向量数据元素送往向量功能
部件以及把结果存入向量寄存器都需要一拍时间, 从存储器中把数据送入访存功能部件也需要一拍 时间。
(同步的要求)
▲
27/72
4.3 提高向量处理机性能的常用技术
例4.1 考虑在Cray-1上利用链接技术执行以下4条指令: V0←存储器 V2←V0+V1 V3←V2<A3 V5←V3∧V4 // 访存取向量:7拍 // 向量加:3拍 // 按(A3)左移:4拍 // 与操作:2拍
最后计算: dN←aN×(bN-cN) qi←bi-ci
组成循环程序进行处理。
di←qi×ai
数据相关:N次
功能切换:2N次
不适合于向量处理机的并行处理。
▲
5/72
4.1 向量的处理方式
2. 纵向 (垂直)处理方式
向量计算是按列的方式从上到下纵向地进行。
q1←b1-c1 先计算 „„ 再计算 d1←q1×a1 „„
▲