第11章__并行计算机体系结构简介
计算机体系结构与并行处理

计算机体系结构与并行处理计算机体系结构与并行处理是计算机科学领域中的重要概念。
本文将介绍计算机体系结构的基本原理、并行处理的概念及其应用,并附带题库类型的相关问题及解析。
一、计算机体系结构基本原理计算机体系结构是指计算机系统中各个硬件组件之间的结构关系和工作原理。
它包括计算机的各个层次结构,以及指令系统设计、存储器层次结构和总线结构等内容。
1. 数据通路与控制单元计算机体系结构中,数据通路用于处理和传输数据,控制单元则负责指导和协调各个硬件组件的工作。
数据通路包括算术逻辑单元(ALU)、寄存器、数据缓冲器等,而控制单元则由指令寄存器(IR)、程序计数器(PC)和控制逻辑组成。
2. 存储器层次结构存储器层次结构包括寄存器、高速缓存、主存和辅助存储器等。
其中,寄存器是CPU内部用于保存数据和指令的最快速的存储器。
高速缓存则位于CPU与主存之间,用于加速数据的读写。
主存是计算机中用于存储程序和数据的主要存储设备。
而辅助存储器则用于长期存储数据和程序。
3. 指令系统设计指令系统是计算机体系结构的核心部分,它规定了计算机所能执行的指令集和执行方式。
指令集包括数据传输指令、算术逻辑指令、控制转移指令等。
指令系统设计的关键是平衡指令的功能和数量,以满足计算机的多样化需求。
4. 总线结构总线是计算机中用于数据传输的公共通道。
总线结构包括数据总线、地址总线和控制总线等。
数据总线用于传输数据,地址总线用于定位数据在存储器中的位置,而控制总线则用于传输控制信号。
二、并行处理的概念及应用并行处理是指多个处理器同时执行多个任务或同一任务的不同部分,以提高计算机系统的性能和效率。
它可以分为粗粒度并行和细粒度并行。
1. 粗粒度并行粗粒度并行是指将一个任务分成多个子任务,由多个处理器分别执行。
每个处理器独立地处理自己的子任务,最后将结果合并。
粗粒度并行适用于需要处理的数据量大、计算复杂度高的任务,如科学计算和大规模数据处理。
2. 细粒度并行细粒度并行是指将一个任务分成多个子任务,并行执行它们的不同部分。
设计高性能并行计算机体系结构

设计高性能并行计算机体系结构高性能并行计算机体系结构是现代科学计算、数据处理和人工智能等领域的核心技术之一。
在大规模计算和高度并行的应用场景下,设计一个高性能的并行计算机体系结构至关重要。
本文将介绍何为高性能并行计算机体系结构,并提出一种设计思路,以实现高性能并行计算。
高性能并行计算机体系结构是指在硬件层面上如何组织计算单元、内存和互联网络等组件,以实现各处理单元之间的高效通信和并行计算能力。
一种常见的高性能并行计算机体系结构是多核处理器集群。
多核处理器集群由多个处理器核心组成,每个核心可以同时处理不同的指令,从而实现并行计算。
每个处理器核心拥有自己的缓存和寄存器,通过共享内存或者消息传递机制进行通信。
通过合理地设计处理器核心的数量和互连网络的结构,可以实现高性能的并行计算。
在设计高性能并行计算机体系结构时,需要考虑以下几个关键因素:首先是处理器核心的设计。
处理器核心是计算机的计算和控制单元,其性能直接决定了并行计算机的性能。
为了实现高性能的并行计算,处理器核心需要具备高性能的浮点计算单元、多级缓存、乱序执行和分支预测等特性。
此外,处理器核心的设计也需要考虑功耗和散热等问题,以保证在高负载下仍能保持良好的性能。
其次是内存子系统的设计。
内存的访问延迟和带宽是限制高性能并行计算的重要因素。
为了减少内存访问的延迟和提高带宽,可以采用多级缓存、高速内存和内存一致性机制等技术手段。
此外,还可以通过将数据和任务分布到不同的内存节点上,以实现更好的负载均衡和并行计算效率。
第三是互连网络的设计。
互连网络负责连接处理器核心和内存节点,为它们提供高效的通信通道。
在设计互连网络时,需要考虑带宽、延迟、拓扑结构和路由算法等因素。
常用的互连网络拓扑结构包括全互连、多维互连和树状互连等,而路由算法则需要根据具体的应用场景和计算需求来选择。
最后是编程模型和软件支持。
并行计算机体系结构需要与相应的软件开发环境相匹配,以提供方便快捷的并行编程接口和工具。
计算机系统结构与并行处理

计算机系统结构与并行处理计算机系统结构是指计算机硬件和软件组成的总体结构,包括计算机的层次结构、功能单元的组织和连接方式、寄存器组织和指令集等。
并行处理则是指使用多个处理器同时处理任务,以提高计算机系统的性能和效率。
一、计算机系统结构的基本概念计算机系统结构是计算机硬件和软件相互配合的总体组织方式,它决定了计算机的性能、可靠性和可扩展性。
计算机系统结构的基本概念包括:1. 指令集体系结构(Instruction Set Architecture,ISA):指导计算机硬件执行操作的规范,包括指令集合、寄存器、存储器和I/O设备等。
2. 存储器层次结构:计算机系统中不同速度和容量的存储器层次,包括高速缓存、主存储器和辅助存储器等。
3. 控制器结构:控制计算机硬件执行指令的组织方式,包括指令流水线、分支预测和异常处理等。
4. 总线结构:连接计算机硬件各个部件的通信介质,包括数据总线、地址总线和控制总线等。
二、并行处理的概念与分类并行处理是指将任务分解为多个子任务,由多个处理器同时执行,以提高计算机系统的性能和效率。
根据任务的分解方式,可以将并行处理分为以下几类:1. 任务并行:将任务分解为多个子任务,由多个处理器同时执行,每个处理器负责一个子任务的处理,最后将结果进行合并。
2. 数据并行:将数据分成多个部分,由多个处理器分别处理,最后将处理结果进行合并,适用于数据量较大的计算。
3. 流水线并行:将指令执行过程分为多个阶段,由多个处理器分别执行不同阶段的指令,以提高指令执行速度。
4. 任务流并行:将任务按照依赖关系划分为多个任务流,每个任务流由一个处理器执行,可以提高任务的并行度。
三、并行处理的应用领域并行处理广泛应用于科学计算、大数据处理和人工智能等领域,以满足对计算效率和性能的要求。
1. 科学计算:并行处理可用于模拟天气预测、地震模拟等科学计算,以提高计算速度和精度。
2. 大数据处理:并行处理可以对大规模数据进行分布式处理,包括数据存储、数据分析和数据挖掘等,以实现高效的大数据处理。
并行多核体系结构基础

并行多核体系结构基础1. 引言并行多核体系结构是指在一个计算机系统中,使用多个处理器核心来同时执行多个任务或处理多个线程。
这种体系结构的设计旨在提高计算机系统的性能和吞吐量,使得计算任务可以更加高效地完成。
2. 多核体系结构的发展历程多核体系结构的发展可以追溯到20世纪60年代,当时人们开始研究如何将多个处理器集成到一个芯片上。
随着技术的进步,芯片上集成的处理器数量逐渐增加,从最初的双核、四核到现在的八核、十六核甚至更多。
3. 多核体系结构的优势3.1 提高系统性能通过利用并行计算,多核体系结构可以同时执行多个任务或处理多个线程,从而提高系统的整体性能。
每个处理器核心都可以独立地执行指令,并访问自己的缓存和寄存器文件,避免了单一处理器可能遇到的瓶颈问题。
3.2 增加系统吞吐量由于每个处理器核心都可以同时执行任务,多核体系结构可以实现更高的系统吞吐量。
多个任务可以并行执行,而不会相互干扰,从而提高了整体的处理能力。
3.3 提高能源效率相比于传统的单核体系结构,在多核体系结构中,每个处理器核心可以根据任务的需求进行动态调整频率和电压。
这样可以更好地平衡性能和功耗之间的关系,提高能源效率。
4. 多核体系结构的挑战4.1 线程同步与通信在多核体系结构中,不同的处理器核心可能同时执行不同的线程或任务。
为了保证数据一致性和正确性,需要进行线程同步和通信操作。
这对程序员来说是一个挑战,需要仔细设计并发算法和数据结构。
4.2 热点问题由于多个处理器核心共享同一片内存区域,可能会导致热点问题。
当多个处理器核心同时访问同一片内存区域时,会引起竞争条件和缓存一致性问题。
有效地解决热点问题是一个复杂而重要的任务。
4.3 调度与负载均衡在多核体系结构中,如何合理地调度任务和实现负载均衡是一个挑战。
由于不同的任务可能具有不同的特性和需求,需要设计合适的调度算法和负载均衡策略。
5. 多核体系结构的应用领域多核体系结构已经广泛应用于各个领域,包括科学计算、人工智能、图像处理等。
并行计算体系结构

8
最新的TOP500计算机
12:12
9
最新的TOP500计算机
12:12
10
来自Cray的美洲豹“Jaguar”,凭借1.75 PFlop/s(每秒1750万亿 次)的计算能力傲视群雄。“Jaguar”采用了224162个处理器核 心
12:12
2
结构模型
共享内存/对称多处理机系统(SMP)
PVP:并行向量机
单地址空间 共享存ess) SMP:共享内存并行机( Shared Memory Processors )。多个处理器通过交叉开关 (Crossbar)或总线与共享内存互连。
来自中国的曙光“星云”系统以1271万亿次/s的峰值速度名列 第二
• 采用了自主设计的HPP体系结构、高效异构协同计算技术
• 处理器是32nm工艺的六核至强X5650,并且采用了Nvidia Tesla C2050 GPU做协处理的用户编程环境;
异构体系结构 专用 通用
TOP500中85%的系统采用了四核处理器,而有5%的系统已经使
12:12
6
Cluster:机群系统
Cluster(Now,Cow): 群集系统。将单个节点,用商业网 络 :Ethernet,Myrinet,Quadrics, Infiniband,Switch等连结起来形成群 集系统。
• 每个节点都是一个完整的计算机 (SMP或DSM),有自己磁盘和操 作系统
系统在物理上分布、逻辑上共享。各结点有
自己独立的寻址空间。
• 单地址空间 、分布共享
• NUMA( Nonuniform Memory Access )
02_2并行计算机(系统结构)

P
M
P M
P M
...
P M
2019/2/23
23
构建并行机系统的不同存储结构
PVP (Cray
中央存储器 T90)
UMA SMP SGI
多处理机 ( 单地址 空间 共享 存储器 ) (Intel SHV,SunFire,DEC 8400, PowerChallenge,IBMR60,etc.) (KSR-1,DDM) (Stanford Dash, SGI Origin 2000,Sequent NUMA-Q, HP/Convex Exemplar) (Cray T3E)
2019/2/23 10
MPP(Massively Parallel Processor)
处理节点采用微处理器 系统中有物理上的分布式存储器 采用高通信带宽和低延迟的互连网络(专门设 计和定制的) 能扩展至成百上千乃至上万个处理器 异步MIMD,构成程序的多个进程有自己的地 址空间,进程间通信消息传递相互作用
16
Origin3000 与 Altix3000
Origin3000
2019/2/23
Altix3000
17
并行计算机内存访问模型
UMA / NUMA / COMA / CC-NUMA / NORMA
2019/2/23
18
并行计算机访存模型(1)
UMA(Uniform Memory Access)模型是均匀存储访问模型的 简称。其特点是:
节 点1 P / C 节 点N M e m P / C
… P/C
交 叉 开 关 总 线 或
…
I / O
…P/C
开 关 总 线 或 交 叉
计算机专业的计算机体系结构

计算机专业的计算机体系结构计算机体系结构是计算机科学与技术中一个重要的领域,它研究计算机的组成、架构和设计原理。
计算机体系结构与计算机组成原理有密切关系,是计算机硬件设计的核心内容之一。
本文将从计算机体系结构的定义、基本原理以及实际应用等方面进行论述。
一、计算机体系结构的定义和目标计算机体系结构是指计算机的硬件和软件组成的总体结构,它包括计算机的处理器、存储器、I/O设备等各个组件以及它们之间的连接方式和控制方式。
计算机体系结构的目标是提供一种满足用户需求的高性能、可靠、可扩展和可移植的计算机系统。
二、计算机体系结构的基本原理1.冯·诺依曼体系结构冯·诺依曼体系结构是计算机体系结构的基本原理之一。
它采用存储程序的概念,将数据和指令存储在同一存储器中,通过控制器和运算器对数据进行处理。
这种体系结构具有指令流和数据流的特点,简化了计算机的设计和程序的编写。
2.并行处理并行处理是指利用多个处理器同时处理多个任务或多个部分任务的技术。
并行处理可以提高计算机的性能和吞吐量,实现更快的数据处理和更高的效率。
常见的并行处理方式包括向量处理、流水线处理和多核处理等。
3.存储器层次结构存储器层次结构是计算机体系结构中的一个重要概念。
它通过不同速度和容量的存储器层次来提供高速缓存和大容量存储器的组合,以满足计算机系统对数据存取的要求。
存储器层次结构的设计需要权衡存储器性能、成本和功耗等因素。
三、计算机体系结构的实际应用1.超级计算机超级计算机是计算机体系结构中性能最高的一类计算机。
它通常由多个处理器、大容量存储器和高性能的I/O设备构成,用于处理科学计算、工程分析和大规模数据处理等高性能计算任务。
2.嵌入式系统嵌入式系统是计算机体系结构中应用广泛的一类系统。
它将计算机技术与各种工程技术相结合,嵌入到各种设备和系统中,具有实时性、稳定性和低功耗的特点。
嵌入式系统广泛应用于智能手机、汽车、医疗设备等领域。
第11章 并行计算机体系结构

向量寄存器/ 向量缓冲器
向量处理机
*向量功能部件:向量的各分量采用流水操作方式; *向量存取部件:采用多级中间寄存器完成向量快速存取;
转上页
3、提高向量处理性能的方法 (1)多个功能部件并行操作技术 *向量指令并行执行的条件: a)不存在向量寄存器使用冲突; b)不存在功能部件使用冲突。 (2)链接技术 采用“相关专用通路”思想,解决指令中向量寄存器的RAW 相 (3)条件语句和稀疏矩阵的处理技术 关,实现向量指令串的“并行”执行。 利用向量屏蔽控制技术将标量语句循环→向量语句;
1.2
一、向量处理机
并行计算机系统简介
1、向量处理方式 (课本P334) 有横向处理、纵向处理、纵横处理三种。 *横向处理:每次处理完向量的一个分量。
例: D=A×(B+C),N次处理di=ai×(bi+ci)
*纵向处理:每次处理完向量的一个子操作; 例: D=A×(B+C) 两次处理 E=B+C 则 D=A×E
利用位向量+压缩向量技术实现稀疏矩阵,减少带宽需求。 (4)向量规约技术 对向量寄存器的分量计数器进行控制实现复杂功能。
4、并行向量处理机(PVP)
*定义:由多个向量处理器(VP)构成的能够并行处理多个向 量的向量多处理机,又称多向量机。
VP VP
„
VP
互连网络(纵横交叉开关)
SM
SM
„
SM
并行向量处理机PVP
按系统结构分类 Flynn分类法 按通信方式分类 按并行度分类
1) 按系统结构分类:
• • • • • • 层次结构的并行处理系统 非层次结构的并行处理系统 重复结构的并行处理系统 可变结构的并行处理系统 共享存储器型多处理机系统 分布存储器型多处理机系统
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
集群机系统的主要生命力来自其经济有效性, 它采用高性能的普通日用品IA芯片、公开系统 的主板、免费的公开源码操作系统与并行编程 接口,使超级计算机系统的造价告别了天文数 字,让具有一般规模的公司都用的起。基于集 群机特点,它的规模可大可小。
2. Linux集群的特点 集群机根据采用的操作系统不同而称为某某集 群,例如采用Linux就称为Linux集群,采用 UNIX就称为UNIX集群。下面介绍Linux集群的 特点。
1. UMA多处理器系统 UMA计算机的特点是CPU访问所有的内存模块 的时间都相同,即读取每个内存字的时间是相等 的。访问速度按最慢内存模块为准。程序员不会 感觉有速度问题存在,这就是一致的含义。这种 一致性可以保证系统的性能可以预测,也有利于 程序员编写高效率代码。 如图11-5所示
图11-5 基于总线的多处理器系统
CSM 包含多种组件,使 Linux 群集的管理更加 容易: · 分布式管理服务器 · 事件应答资源管理器。 · 远程硬件控制 · 配置文件管理 · 分布式 Shell:能够在群集的所有节点上远程运 行命令和脚本,并可以选择组合多个服务器的输 出结果。
11.4 第六代超级计算机概念
• 这是一个比较超前的概念,目前并没有得到普 遍认可,本书把两位专家的见解供读者阅读, 这两位专家是李晓渝和邓越凡。李晓渝——巨 星超级计算技术有限公司总裁,曾任斯坦福大 学的首席系统设计师;邓越凡——南开大学计 算研究所所长,美国纽约州立大学石溪分校教 授。
Linux集群可分为三类: 第一类是高可用性集群,运行于两个或多个节 点上,目的是在系统出现某些故障的情况下, 仍能继续对外提供服务。 第二类是负载均衡集群,目的是提供和节点个 数成正比的负载能力,这种集群很适合提供大 访问量的Web服务。 第三类是超级计算集群,按照计算关联程度的 不同,又可以分为两种。一种是任务片方式, 要把计算任务分成任务片,再把任务片分配给 各节点,在各节点上分别计算后再把结果汇总, 生成最终计算结果。另一种是并行计算方式, 节点之间在计算过程中大量地交换数据,可以 进行具有强耦合关系的计算。
MESI协议是一种比较常用的写回Cache一致性协议,它 是用协议中用到的四种状态的首字母(M、E、S、I) 来命名的。目前,Pentium 4和许多其他的CPU都使用了 MESI协议来监听总线。每个Cache项都处于下面四种状 态之一: (1)无效(Invalid)——该Cache项包含的数据无效。 (2)共享(Shared)——多个Cache中都有这块数据,内 存中的数据是最新的。 (3)独占(Exclusive)——没有其他Cache包括这块数据, 内存中的数据是最新的。 (4)修改(Modified)——该项的数据是有效的,内存 中的数据是无效的,而且在其他Cache中没有该数据项 的拷贝。
2. COW工作站集群(Cluster of Workstation) 它是另一种多计算机系统,也被称为工作站网络。 COW系统是由数百台PC机或者工作站通过商用 网络连接在一起构成的。 COW系统主要有两种:集中式和分散式 集中式的COW是装在一个大机架上的工作站或 者PC机的集群,这些计算机都是同构的,而且 除了网卡和磁盘之外没有其他的外设。这是当今 第五代计算机的模型。
向量运算举例
• 假定有一个向量运算:D=A×(B+C) • 式中A,B,C,D都是长度为N的向量。 若按常规处理,则流水线不能连续流动。 • D1=A1×(B1+C1) • D2=A2×(B2+C2) D2=A2 B2+C2
⋮
• DN=AN×(BN+CN) • 计算这个向量流水线要反复进行加法 和乘法的切换,即流水线功能切换。
11.3 MIMD并行计算机
• MIMD系统可以分为多处理器系统和多计算机系统两 大类。 • 多处理器系统特点:所有CPU共享同一个物理内存, 每个CPU不带自己的内存或少量带有,由统一操作系 统管理,整个物理内存空间由许多内存模块组成。 • 多计算机系统特点:每个CPU都有自己的内存,即自 己独立的物理地址空间;执行自己的操作系统,再加 上对外通信的通信处理器。 • 图11-4a和图11-4b分别说明了多处理器系统与多计 算机系统的区别。
每个CPU都带有Cache,当同时操作内存中某 一块数据时,会出现Cache一致性问题。例如, CPU1与CPU2同时读取内存中一块数据到自己的 Cache中,CPU1先对Cache内容进行了修改,此 后CPU2读自己Cache中数据就已成为旧内容,因 为CPU1修改自己的Cache后还没有写回内存,而 CPU2 CPU2读的数据相对CPU1来讲是旧数据。解决 CPU1 Cache一致性问题有两种方法,一种是监听型的 Cache(本书不再详述,请查阅有关书籍),另 一种是“MESI”Cache一致性协议。
MPP有三大特点,第一为它使用了高性能的私 用的互连网络,可以在低时延和高带宽的条件 下传递消息。 另一特点是它们具有强大的输入输出能力。 第三个特点是如何进行容错。在使用数千个 CPU的情况下,每星期有若干CPU失效是常见的 事情。如果,因一个CPU失效,而导致运行一天 的任务被中止是不能容忍的。 MPP系统还需要使用大量定制的软件和库。
11.3.1 多处理器系统
根据共享内存的实现方式可以把多处理器系统 分成三类: 分别是一致性内存访问(Uniform Memory Access, UMA) 非一致性内存访问(Non Uniform Memory Access, NUMA) 基于cache的内存访问(Cache Only Memory Access, COMA)
图11-1 并行计算机分类
11.2 SIMD并行计算机
SIMD计算机:用于解决使用向量和阵列这样 比较规整的数据结构的复杂的科学计算和工程 计算问题。 这种计算机特点:只有一个控制单元,每次 只能执行一条指令,但是每一条指令可同时对 多个数据进行操作。 SIMD分为:阵列处理机和向量处理机。
1. 阵列处理机(array processor) 特点: 一个单一的控制单元提供信号驱动 多个处理单元同时运行,如图11-2所示。 组成:PU由1个处理单元PE同它的局部存储 器组成。 控制部件方式:向全体PE“播送”控制信号, 所有PE在同一个总的时钟信号下同步工作。 PE组成:可以简单到每个PE由1位ALU组成, 也可大到32位ALU,或者带浮点计算能力的 ALU。
NUMA计算机也存在Cache一致性问题,除前 面介绍过的MESI协议外,还有一个SCI (Scalable Coherent Interface,可伸缩的一致性接 口)的Cache一致性协议。
3. COMA多处理器系统 在COMA系统中,把每个CPU的主存看成Cache 来处理,物理地址空间被划分成Cache块,这些 块根据需要在系统中来回移动,Cache块不再有 宿主计算机了。 它要解决的新问题:如何对Cache块进行寻址和 Cache块丢弃了最后一个拷贝怎么办。 COMA系统号称比NUMA有更好的性能,但 实际建造的COMA系统很少。
多处理器系统特点:软件设计简单,易 实现,硬件设计比较复杂。 多计算机系统特点:正好相反。
图11-4a 多处理器系统
图11-4b 多计算机系统
MIMD并行计算机设计中的互 连网络问题
• MIMD并行计算机设计中面临的问题之 一:互连网络。 • 多计算机系统中用互连网络把多个计算 机连接是显而易见的,多处理器系统同 样存在这个问题。
第三代计算机(MPP)与第五代计算机: 相同:(Cluster)在体系结构上是同构的,同属 于分布式内存处理方式(DMP—Distributed Memory Processing) 差别:是否采用物美价廉的普通商品组件。MPP 与Cluster从互连角度看,区别在于MPP使用专 用高性能互连网络,而Cluster使用商用网络。 从CPU角度看MPP要用单独设计的高性能处理 器,而Cluster采用高性能成品处理器,从价格 方面看,MPP比Cluster要贵的多。
图11-6 多计算机系统结构
多计算机系统一般分成两大类:MPP和COW。 1. MPP 大 规 模 并 行 处 理 机 ( Massively Parallel Processor) 这是一种价值数百万到上亿美元的超级计算机 系统。MPP系统已取代了原有SIMD计算机、向 量超级计算机和阵列处理机,成为当今大型机、 巨型机的主流。 大多数的MPP系统都使用标准的CPU作为它们 的处理器。 大的系统都使用几百片以上的CPU集合而成,巨 型机使用几千片CPU。
如改变处理顺序,先对所有元素执行加法运算 (N个加法),然后对所有元素执行乘法运算 (N个乘法),其顺序如下: Bi + Ci → Di (i从1到N) Di×Ai → Di (i从1到N) 这样就能保证流水线畅通。 Cray-1的体系结构与后来的RISC体系结构 类似,它成为了很好的研究范例,许多现代 的向量超级计算机都受到它的影响。
2. NUMA多处理器系统 NUMA系统也为所有CPU提供单一的地址空 间,与UMA不同处是靠近CPU的内存模块的 访问速度比其他的内存模块快得多。 NUMA计算机的主要特点: (1)所有的CPU都看到一个单一的地址空间。 (2)使用LOAD和STORE指令访问远程内存。 (3)访问远程内存比访问本地内存慢。
图11-2 阵列处理机组成图
• 2. 向量处理机 • SIMD计算机中另一类是向量处理机(vector processor)。 • 70年代前后,为了处理向量计算研发两种类 型的巨型计算机系统:流水线处理机和并行处 理机。 • 两者比较优缺点:并行处理机的结构复杂, 成本高,因而流水线处理机发展很快。它是处 理向量计算的主要手段,因此已把它称为向量 处理机。 •
11.3.3 集群机系统Cluster
1. Cluster简介 计算机体系结构的研究就是当时的超级计 算机的研究,超级计算机共经历了五代。第 一代为早期的单芯片系统,第二代为向量处 理系统,第三代为大规模并行处理系统,第 四代为共享内存处理系统。