第11章__并行计算机体系结构简介

合集下载

计算机体系结构与并行处理

计算机体系结构与并行处理计算机体系结构与并行处理是计算机科学领域中的重要概念。

本文将介绍计算机体系结构的基本原理、并行处理的概念及其应用，并附带题库类型的相关问题及解析。

一、计算机体系结构基本原理计算机体系结构是指计算机系统中各个硬件组件之间的结构关系和工作原理。

它包括计算机的各个层次结构，以及指令系统设计、存储器层次结构和总线结构等内容。

1. 数据通路与控制单元计算机体系结构中，数据通路用于处理和传输数据，控制单元则负责指导和协调各个硬件组件的工作。

数据通路包括算术逻辑单元(ALU)、寄存器、数据缓冲器等，而控制单元则由指令寄存器(IR)、程序计数器(PC)和控制逻辑组成。

2. 存储器层次结构存储器层次结构包括寄存器、高速缓存、主存和辅助存储器等。

其中，寄存器是CPU内部用于保存数据和指令的最快速的存储器。

高速缓存则位于CPU与主存之间，用于加速数据的读写。

主存是计算机中用于存储程序和数据的主要存储设备。

而辅助存储器则用于长期存储数据和程序。

3. 指令系统设计指令系统是计算机体系结构的核心部分，它规定了计算机所能执行的指令集和执行方式。

指令集包括数据传输指令、算术逻辑指令、控制转移指令等。

指令系统设计的关键是平衡指令的功能和数量，以满足计算机的多样化需求。

4. 总线结构总线是计算机中用于数据传输的公共通道。

总线结构包括数据总线、地址总线和控制总线等。

数据总线用于传输数据，地址总线用于定位数据在存储器中的位置，而控制总线则用于传输控制信号。

二、并行处理的概念及应用并行处理是指多个处理器同时执行多个任务或同一任务的不同部分，以提高计算机系统的性能和效率。

它可以分为粗粒度并行和细粒度并行。

1. 粗粒度并行粗粒度并行是指将一个任务分成多个子任务，由多个处理器分别执行。

每个处理器独立地处理自己的子任务，最后将结果合并。

粗粒度并行适用于需要处理的数据量大、计算复杂度高的任务，如科学计算和大规模数据处理。

2. 细粒度并行细粒度并行是指将一个任务分成多个子任务，并行执行它们的不同部分。

设计高性能并行计算机体系结构

设计高性能并行计算机体系结构高性能并行计算机体系结构是现代科学计算、数据处理和人工智能等领域的核心技术之一。

在大规模计算和高度并行的应用场景下，设计一个高性能的并行计算机体系结构至关重要。

本文将介绍何为高性能并行计算机体系结构，并提出一种设计思路，以实现高性能并行计算。

高性能并行计算机体系结构是指在硬件层面上如何组织计算单元、内存和互联网络等组件，以实现各处理单元之间的高效通信和并行计算能力。

一种常见的高性能并行计算机体系结构是多核处理器集群。

多核处理器集群由多个处理器核心组成，每个核心可以同时处理不同的指令，从而实现并行计算。

每个处理器核心拥有自己的缓存和寄存器，通过共享内存或者消息传递机制进行通信。

通过合理地设计处理器核心的数量和互连网络的结构，可以实现高性能的并行计算。

在设计高性能并行计算机体系结构时，需要考虑以下几个关键因素：首先是处理器核心的设计。

处理器核心是计算机的计算和控制单元，其性能直接决定了并行计算机的性能。

为了实现高性能的并行计算，处理器核心需要具备高性能的浮点计算单元、多级缓存、乱序执行和分支预测等特性。

此外，处理器核心的设计也需要考虑功耗和散热等问题，以保证在高负载下仍能保持良好的性能。

其次是内存子系统的设计。

内存的访问延迟和带宽是限制高性能并行计算的重要因素。

为了减少内存访问的延迟和提高带宽，可以采用多级缓存、高速内存和内存一致性机制等技术手段。

此外，还可以通过将数据和任务分布到不同的内存节点上，以实现更好的负载均衡和并行计算效率。

第三是互连网络的设计。

互连网络负责连接处理器核心和内存节点，为它们提供高效的通信通道。

在设计互连网络时，需要考虑带宽、延迟、拓扑结构和路由算法等因素。

常用的互连网络拓扑结构包括全互连、多维互连和树状互连等，而路由算法则需要根据具体的应用场景和计算需求来选择。

最后是编程模型和软件支持。

并行计算机体系结构需要与相应的软件开发环境相匹配，以提供方便快捷的并行编程接口和工具。

计算机系统结构与并行处理

计算机系统结构与并行处理计算机系统结构是指计算机硬件和软件组成的总体结构，包括计算机的层次结构、功能单元的组织和连接方式、寄存器组织和指令集等。

并行处理则是指使用多个处理器同时处理任务，以提高计算机系统的性能和效率。

一、计算机系统结构的基本概念计算机系统结构是计算机硬件和软件相互配合的总体组织方式，它决定了计算机的性能、可靠性和可扩展性。

计算机系统结构的基本概念包括：1. 指令集体系结构（Instruction Set Architecture，ISA）：指导计算机硬件执行操作的规范，包括指令集合、寄存器、存储器和I/O设备等。

2. 存储器层次结构：计算机系统中不同速度和容量的存储器层次，包括高速缓存、主存储器和辅助存储器等。

3. 控制器结构：控制计算机硬件执行指令的组织方式，包括指令流水线、分支预测和异常处理等。

4. 总线结构：连接计算机硬件各个部件的通信介质，包括数据总线、地址总线和控制总线等。

二、并行处理的概念与分类并行处理是指将任务分解为多个子任务，由多个处理器同时执行，以提高计算机系统的性能和效率。

根据任务的分解方式，可以将并行处理分为以下几类：1. 任务并行：将任务分解为多个子任务，由多个处理器同时执行，每个处理器负责一个子任务的处理，最后将结果进行合并。

2. 数据并行：将数据分成多个部分，由多个处理器分别处理，最后将处理结果进行合并，适用于数据量较大的计算。

3. 流水线并行：将指令执行过程分为多个阶段，由多个处理器分别执行不同阶段的指令，以提高指令执行速度。

4. 任务流并行：将任务按照依赖关系划分为多个任务流，每个任务流由一个处理器执行，可以提高任务的并行度。

三、并行处理的应用领域并行处理广泛应用于科学计算、大数据处理和人工智能等领域，以满足对计算效率和性能的要求。

1. 科学计算：并行处理可用于模拟天气预测、地震模拟等科学计算，以提高计算速度和精度。

2. 大数据处理：并行处理可以对大规模数据进行分布式处理，包括数据存储、数据分析和数据挖掘等，以实现高效的大数据处理。

并行多核体系结构基础

并行多核体系结构基础1. 引言并行多核体系结构是指在一个计算机系统中，使用多个处理器核心来同时执行多个任务或处理多个线程。

这种体系结构的设计旨在提高计算机系统的性能和吞吐量，使得计算任务可以更加高效地完成。

2. 多核体系结构的发展历程多核体系结构的发展可以追溯到20世纪60年代，当时人们开始研究如何将多个处理器集成到一个芯片上。

随着技术的进步，芯片上集成的处理器数量逐渐增加，从最初的双核、四核到现在的八核、十六核甚至更多。

3. 多核体系结构的优势3.1 提高系统性能通过利用并行计算，多核体系结构可以同时执行多个任务或处理多个线程，从而提高系统的整体性能。

每个处理器核心都可以独立地执行指令，并访问自己的缓存和寄存器文件，避免了单一处理器可能遇到的瓶颈问题。

3.2 增加系统吞吐量由于每个处理器核心都可以同时执行任务，多核体系结构可以实现更高的系统吞吐量。

多个任务可以并行执行，而不会相互干扰，从而提高了整体的处理能力。

3.3 提高能源效率相比于传统的单核体系结构，在多核体系结构中，每个处理器核心可以根据任务的需求进行动态调整频率和电压。

这样可以更好地平衡性能和功耗之间的关系，提高能源效率。

4. 多核体系结构的挑战4.1 线程同步与通信在多核体系结构中，不同的处理器核心可能同时执行不同的线程或任务。

为了保证数据一致性和正确性，需要进行线程同步和通信操作。

这对程序员来说是一个挑战，需要仔细设计并发算法和数据结构。

4.2 热点问题由于多个处理器核心共享同一片内存区域，可能会导致热点问题。

当多个处理器核心同时访问同一片内存区域时，会引起竞争条件和缓存一致性问题。

有效地解决热点问题是一个复杂而重要的任务。

4.3 调度与负载均衡在多核体系结构中，如何合理地调度任务和实现负载均衡是一个挑战。

由于不同的任务可能具有不同的特性和需求，需要设计合适的调度算法和负载均衡策略。

5. 多核体系结构的应用领域多核体系结构已经广泛应用于各个领域，包括科学计算、人工智能、图像处理等。

并行计算体系结构

多计算机（多地址空间非共享存储器） NORMA:No-Remote Memory Access
8
最新的TOP500计算机
12:12
9
最新的TOP500计算机
12:12
10
来自Cray的美洲豹“Jaguar”，凭借1.75 PFlop/s(每秒1750万亿次)的计算能力傲视群雄。“Jaguar”采用了224162个处理器核心
12:12
2
结构模型
共享内存/对称多处理机系统(SMP)
PVP：并行向量机
单地址空间共享存ess) SMP：共享内存并行机（ Shared Memory Processors ）。多个处理器通过交叉开关（Crossbar）或总线与共享内存互连。
来自中国的曙光“星云”系统以1271万亿次/s的峰值速度名列第二
• 采用了自主设计的HPP体系结构、高效异构协同计算技术
• 处理器是32nm工艺的六核至强X5650，并且采用了Nvidia Tesla C2050 GPU做协处理的用户编程环境；
异构体系结构专用通用
TOP500中85%的系统采用了四核处理器，而有5%的系统已经使
12:12
6
Cluster：机群系统
Cluster(Now,Cow)：群集系统。将单个节点，用商业网络：Ethernet，Myrinet，Quadrics， Infiniband，Switch等连结起来形成群集系统。
• 每个节点都是一个完整的计算机（SMP或DSM），有自己磁盘和操作系统
系统在物理上分布、逻辑上共享。各结点有
自己独立的寻址空间。
• 单地址空间、分布共享
• NUMA（ Nonuniform Memory Access ）

02_2并行计算机(系统结构)

P
M
P M
P M
...
P M
2019/2/23
23
构建并行机系统的不同存储结构
PVP (Cray
中央存储器 T90)
UMA SMP SGI
多处理机（单地址空间共享存储器） (Intel SHV,SunFire,DEC 8400, PowerChallenge,IBMR60,etc.) (KSR-1,DDM) (Stanford Dash, SGI Origin 2000,Sequent NUMA-Q, HP/Convex Exemplar) (Cray T3E)
2019/2/23 10
MPP（Massively Parallel Processor）

处理节点采用微处理器系统中有物理上的分布式存储器采用高通信带宽和低延迟的互连网络（专门设计和定制的）能扩展至成百上千乃至上万个处理器异步MIMD，构成程序的多个进程有自己的地址空间，进程间通信消息传递相互作用
16
Origin3000 与 Altix3000
Origin3000
2019/2/23
Altix3000
17
并行计算机内存访问模型

UMA / NUMA / COMA / CC-NUMA / NORMA
2019/2/23
18
并行计算机访存模型（1）

UMA（Uniform Memory Access）模型是均匀存储访问模型的简称。其特点是：
节点1 P / C 节点N M e m P / C
… P/C
交叉开关总线或
…
I / O
…P/C
开关总线或交叉

计算机专业的计算机体系结构

计算机专业的计算机体系结构计算机体系结构是计算机科学与技术中一个重要的领域，它研究计算机的组成、架构和设计原理。

计算机体系结构与计算机组成原理有密切关系，是计算机硬件设计的核心内容之一。

本文将从计算机体系结构的定义、基本原理以及实际应用等方面进行论述。

一、计算机体系结构的定义和目标计算机体系结构是指计算机的硬件和软件组成的总体结构，它包括计算机的处理器、存储器、I/O设备等各个组件以及它们之间的连接方式和控制方式。

计算机体系结构的目标是提供一种满足用户需求的高性能、可靠、可扩展和可移植的计算机系统。

二、计算机体系结构的基本原理1.冯·诺依曼体系结构冯·诺依曼体系结构是计算机体系结构的基本原理之一。

它采用存储程序的概念，将数据和指令存储在同一存储器中，通过控制器和运算器对数据进行处理。

这种体系结构具有指令流和数据流的特点，简化了计算机的设计和程序的编写。

2.并行处理并行处理是指利用多个处理器同时处理多个任务或多个部分任务的技术。

并行处理可以提高计算机的性能和吞吐量，实现更快的数据处理和更高的效率。

常见的并行处理方式包括向量处理、流水线处理和多核处理等。

3.存储器层次结构存储器层次结构是计算机体系结构中的一个重要概念。

它通过不同速度和容量的存储器层次来提供高速缓存和大容量存储器的组合，以满足计算机系统对数据存取的要求。

存储器层次结构的设计需要权衡存储器性能、成本和功耗等因素。

三、计算机体系结构的实际应用1.超级计算机超级计算机是计算机体系结构中性能最高的一类计算机。

它通常由多个处理器、大容量存储器和高性能的I/O设备构成，用于处理科学计算、工程分析和大规模数据处理等高性能计算任务。

2.嵌入式系统嵌入式系统是计算机体系结构中应用广泛的一类系统。

它将计算机技术与各种工程技术相结合，嵌入到各种设备和系统中，具有实时性、稳定性和低功耗的特点。

嵌入式系统广泛应用于智能手机、汽车、医疗设备等领域。

第11章并行计算机体系结构

向量寄存器/ 向量缓冲器
向量处理机
*向量功能部件：向量的各分量采用流水操作方式； *向量存取部件：采用多级中间寄存器完成向量快速存取；
转上页
3、提高向量处理性能的方法 (1)多个功能部件并行操作技术 *向量指令并行执行的条件： a)不存在向量寄存器使用冲突； b)不存在功能部件使用冲突。 (2)链接技术采用“相关专用通路”思想，解决指令中向量寄存器的RAW 相 (3)条件语句和稀疏矩阵的处理技术关，实现向量指令串的“并行”执行。利用向量屏蔽控制技术将标量语句循环→向量语句；
1.2
一、向量处理机
并行计算机系统简介
1、向量处理方式 (课本P334) 有横向处理、纵向处理、纵横处理三种。 *横向处理：每次处理完向量的一个分量。
例: D=A×(B+C)，N次处理di=ai×(bi+ci)
*纵向处理：每次处理完向量的一个子操作；例: D=A×(B+C) 两次处理 E=B+C 则 D=A×E
利用位向量+压缩向量技术实现稀疏矩阵，减少带宽需求。 (4)向量规约技术对向量寄存器的分量计数器进行控制实现复杂功能。
4、并行向量处理机(PVP)
*定义：由多个向量处理器(VP)构成的能够并行处理多个向量的向量多处理机，又称多向量机。
VP VP
„
VP
互连网络(纵横交叉开关)
SM
SM
„
SM
并行向量处理机PVP
按系统结构分类 Flynn分类法按通信方式分类按并行度分类

1) 按系统结构分类：
• • • • • • 层次结构的并行处理系统非层次结构的并行处理系统重复结构的并行处理系统可变结构的并行处理系统共享存储器型多处理机系统分布存储器型多处理机系统

计算机系统体系结构

计算机系统体系结构计算机系统体系结构是指计算机硬件和软件之间的组织结构，它是计算机系统的基础。

计算机系统体系结构包括计算机的组成部分、它们之间的连接方式、数据传输方式、指令集和操作系统等。

计算机系统体系结构的设计和实现对计算机的性能、可靠性、安全性和可维护性等方面都有着重要的影响。

计算机系统体系结构的组成部分包括中央处理器（CPU）、内存、输入输出设备（I/O设备）和总线等。

中央处理器是计算机系统的核心部件，它负责执行指令、控制计算机的运行和处理数据。

内存是计算机系统中存储数据和程序的地方，它是计算机系统的重要组成部分。

输入输出设备是计算机系统与外部世界交互的方式，它包括键盘、鼠标、显示器、打印机等。

总线是计算机系统中各个组成部分之间传输数据和指令的通道，它是计算机系统的重要组成部分。

计算机系统体系结构的连接方式包括并行连接和串行连接。

并行连接是指多个设备同时连接到计算机系统中，它可以提高计算机系统的处理速度和效率。

串行连接是指一个设备连接到计算机系统中，它可以减少计算机系统的复杂度和成本。

计算机系统体系结构的数据传输方式包括同步传输和异步传输。

同步传输是指数据在固定的时间间隔内传输，它可以提高数据传输的稳定性和可靠性。

异步传输是指数据在不固定的时间间隔内传输，它可以提高数据传输的灵活性和效率。

计算机系统体系结构的指令集是计算机系统中的指令集合，它是计算机系统的重要组成部分。

指令集包括操作码和操作数，它可以控制计算机系统的运行和处理数据。

指令集的设计和实现对计算机系统的性能、可靠性和安全性等方面都有着重要的影响。

计算机系统体系结构的操作系统是计算机系统中的软件系统，它是计算机系统的重要组成部分。

操作系统可以管理计算机系统的资源，控制计算机系统的运行和处理数据。

操作系统的设计和实现对计算机系统的性能、可靠性和安全性等方面都有着重要的影响。

计算机系统体系结构是计算机系统的基础，它对计算机系统的性能、可靠性、安全性和可维护性等方面都有着重要的影响。

计算机体系结构(计算机软、硬件的系统结构)

在支持多线程并行应用方面，未来多核处理器应该从如下两个方向加以考虑。第一是引入新的能够更好的能够表示并行性的编程模型。由于新的编程模型支持编程者明确表示程序的并行性，因此可以极大的提升性能。比如Cell处理器提供不同的编程模型用于支持不同的应用。其难点在于如何有效推广该编程模型以及如何解决兼容性的问题。第二类方向是提供更好的硬件支持以减少并行编程的复杂性。并行程序往往需要利用锁机制实现对临界资源的同步、互斥操作，编程者必须慎重确定加锁的位置，因为保守的加锁策略限制了程序的性能，而精确的加锁策略大大增加了编程的复杂度。一些研究在此方面做了有效的探索。比如，Speculative Lock Elision机制允许在没有冲突的情况下忽略程序执行的锁操作，因而在降低编程复杂度的同时兼顾了并行程序执行的性能。这样的机制使得编程者集中精力考虑程序的正确性问题，而无须过多地考虑程序的执行性能。
计算机体系结构发展的第四代从20世纪80年代中期开始，一直持续到现在。这个阶段，人们感受到的是硬件和软件的综合效果。由复杂操作系统控制的强大的桌面机及局域网和广域网，与先进的应用软件相配合，已经成为当前的主流。计算机体系结构已迅速地从集中的主机环境转变成分布的客户机/服务器(或浏览器/服务器)环境。世界范围的信息网为人们进行广泛交流和资源的充分共享提供了条件。软件产业在世界经济中已经占有举足轻重的地位。随着时代的前进，新的技术也不断地涌现出来。面向对象技术已经在许多领域迅速地取代了传统的软件开发方法。
概念性结构与功能特性，这是从程序设计者角度所看到的计算机属性。它包括机器内的数据表示、寻址方式以及对这些数据的运算和控制这些运算的执行等(即指令系统)。对于通用型机器，一般包括数据表示、寻址方式、寄存器定义、指令系统、中断机构、机器工作状态的定义和状态切换、机器级的输入、输出结构以及对信息保护的支持等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

集群机系统的主要生命力来自其经济有效性，它采用高性能的普通日用品IA芯片、公开系统的主板、免费的公开源码操作系统与并行编程接口，使超级计算机系统的造价告别了天文数字，让具有一般规模的公司都用的起。基于集群机特点，它的规模可大可小。
2. Linux集群的特点集群机根据采用的操作系统不同而称为某某集群，例如采用Linux就称为Linux集群，采用 UNIX就称为UNIX集群。下面介绍Linux集群的特点。
1. UMA多处理器系统 UMA计算机的特点是CPU访问所有的内存模块的时间都相同，即读取每个内存字的时间是相等的。访问速度按最慢内存模块为准。程序员不会感觉有速度问题存在，这就是一致的含义。这种一致性可以保证系统的性能可以预测，也有利于程序员编写高效率代码。如图11－5所示
图11－5 基于总线的多处理器系统
CSM 包含多种组件，使 Linux 群集的管理更加容易： · 分布式管理服务器 · 事件应答资源管理器。 · 远程硬件控制 · 配置文件管理 · 分布式 Shell：能够在群集的所有节点上远程运行命令和脚本，并可以选择组合多个服务器的输出结果。
11.4 第六代超级计算机概念
• 这是一个比较超前的概念，目前并没有得到普遍认可，本书把两位专家的见解供读者阅读，这两位专家是李晓渝和邓越凡。李晓渝——巨星超级计算技术有限公司总裁，曾任斯坦福大学的首席系统设计师；邓越凡——南开大学计算研究所所长，美国纽约州立大学石溪分校教授。
Linux集群可分为三类：第一类是高可用性集群，运行于两个或多个节点上，目的是在系统出现某些故障的情况下，仍能继续对外提供服务。第二类是负载均衡集群，目的是提供和节点个数成正比的负载能力，这种集群很适合提供大访问量的Web服务。第三类是超级计算集群，按照计算关联程度的不同，又可以分为两种。一种是任务片方式，要把计算任务分成任务片，再把任务片分配给各节点，在各节点上分别计算后再把结果汇总，生成最终计算结果。另一种是并行计算方式，节点之间在计算过程中大量地交换数据，可以进行具有强耦合关系的计算。
MESI协议是一种比较常用的写回Cache一致性协议，它是用协议中用到的四种状态的首字母（M、E、S、I）来命名的。目前，Pentium 4和许多其他的CPU都使用了 MESI协议来监听总线。每个Cache项都处于下面四种状态之一：（1）无效（Invalid）——该Cache项包含的数据无效。（2）共享（Shared）——多个Cache中都有这块数据，内存中的数据是最新的。（3）独占（Exclusive）——没有其他Cache包括这块数据，内存中的数据是最新的。（4）修改（Modified）——该项的数据是有效的，内存中的数据是无效的，而且在其他Cache中没有该数据项的拷贝。
2. COW工作站集群（Cluster of Workstation）它是另一种多计算机系统，也被称为工作站网络。 COW系统是由数百台PC机或者工作站通过商用网络连接在一起构成的。 COW系统主要有两种：集中式和分散式集中式的COW是装在一个大机架上的工作站或者PC机的集群，这些计算机都是同构的，而且除了网卡和磁盘之外没有其他的外设。这是当今第五代计算机的模型。
向量运算举例
• 假定有一个向量运算：D=A×（B+C） • 式中A，B，C，D都是长度为N的向量。若按常规处理，则流水线不能连续流动。 • D1=A1×（B1+C1） • D2=A2×（B2+C2） D2=A2 B2+C2
⋮
• DN=AN×（BN+CN） • 计算这个向量流水线要反复进行加法和乘法的切换，即流水线功能切换。
11.3 MIMD并行计算机
• MIMD系统可以分为多处理器系统和多计算机系统两大类。 • 多处理器系统特点：所有CPU共享同一个物理内存，每个CPU不带自己的内存或少量带有，由统一操作系统管理，整个物理内存空间由许多内存模块组成。 • 多计算机系统特点：每个CPU都有自己的内存，即自己独立的物理地址空间；执行自己的操作系统，再加上对外通信的通信处理器。 • 图11－4a和图11－4b分别说明了多处理器系统与多计算机系统的区别。
每个CPU都带有Cache，当同时操作内存中某一块数据时，会出现Cache一致性问题。例如， CPU1与CPU2同时读取内存中一块数据到自己的 Cache中，CPU1先对Cache内容进行了修改，此后CPU2读自己Cache中数据就已成为旧内容，因为CPU1修改自己的Cache后还没有写回内存，而 CPU2 CPU2读的数据相对CPU1来讲是旧数据。解决 CPU1 Cache一致性问题有两种方法，一种是监听型的 Cache（本书不再详述，请查阅有关书籍），另一种是“MESI”Cache一致性协议。
MPP有三大特点，第一为它使用了高性能的私用的互连网络，可以在低时延和高带宽的条件下传递消息。另一特点是它们具有强大的输入输出能力。第三个特点是如何进行容错。在使用数千个 CPU的情况下，每星期有若干CPU失效是常见的事情。如果，因一个CPU失效，而导致运行一天的任务被中止是不能容忍的。 MPP系统还需要使用大量定制的软件和库。
11.3.1 多处理器系统
根据共享内存的实现方式可以把多处理器系统分成三类：分别是一致性内存访问（Uniform Memory Access, UMA）非一致性内存访问（Non Uniform Memory Access, NUMA）基于cache的内存访问（Cache Only Memory Access, COMA）
图11－1 并行计算机分类
11.2 SIMD并行计算机
SIMD计算机：用于解决使用向量和阵列这样比较规整的数据结构的复杂的科学计算和工程计算问题。这种计算机特点：只有一个控制单元，每次只能执行一条指令，但是每一条指令可同时对多个数据进行操作。 SIMD分为：阵列处理机和向量处理机。
1. 阵列处理机（array processor）特点：一个单一的控制单元提供信号驱动多个处理单元同时运行，如图11－2所示。组成：PU由1个处理单元PE同它的局部存储器组成。控制部件方式：向全体PE“播送”控制信号，所有PE在同一个总的时钟信号下同步工作。 PE组成：可以简单到每个PE由1位ALU组成，也可大到32位ALU，或者带浮点计算能力的 ALU。
NUMA计算机也存在Cache一致性问题，除前面介绍过的MESI协议外，还有一个SCI （Scalable Coherent Interface，可伸缩的一致性接口）的Cache一致性协议。
3. COMA多处理器系统在COMA系统中，把每个CPU的主存看成Cache 来处理，物理地址空间被划分成Cache块，这些块根据需要在系统中来回移动，Cache块不再有宿主计算机了。它要解决的新问题:如何对Cache块进行寻址和 Cache块丢弃了最后一个拷贝怎么办。 COMA系统号称比NUMA有更好的性能，但实际建造的COMA系统很少。
多处理器系统特点：软件设计简单，易实现，硬件设计比较复杂。多计算机系统特点：正好相反。
图11－4a 多处理器系统
图11－4b 多计算机系统
MIMD并行计算机设计中的互连网络问题
• MIMD并行计算机设计中面临的问题之一：互连网络。 • 多计算机系统中用互连网络把多个计算机连接是显而易见的，多处理器系统同样存在这个问题。
第三代计算机（MPP）与第五代计算机: 相同：（Cluster）在体系结构上是同构的，同属于分布式内存处理方式（DMP—Distributed Memory Processing）差别：是否采用物美价廉的普通商品组件。MPP 与Cluster从互连角度看，区别在于MPP使用专用高性能互连网络，而Cluster使用商用网络。从CPU角度看MPP要用单独设计的高性能处理器，而Cluster采用高性能成品处理器，从价格方面看，MPP比Cluster要贵的多。
图11－6 多计算机系统结构
多计算机系统一般分成两大类：MPP和COW。 1. MPP 大规模并行处理机（ Massively Parallel Processor）这是一种价值数百万到上亿美元的超级计算机系统。MPP系统已取代了原有SIMD计算机、向量超级计算机和阵列处理机，成为当今大型机、巨型机的主流。大多数的MPP系统都使用标准的CPU作为它们的处理器。大的系统都使用几百片以上的CPU集合而成，巨型机使用几千片CPU。
如改变处理顺序，先对所有元素执行加法运算（N个加法），然后对所有元素执行乘法运算（N个乘法），其顺序如下: Bi + Ci → Di （i从1到N） Di×Ai → Di （i从1到N）这样就能保证流水线畅通。 Cray－1的体系结构与后来的RISC体系结构类似，它成为了很好的研究范例，许多现代的向量超级计算机都受到它的影响。
2. NUMA多处理器系统 NUMA系统也为所有CPU提供单一的地址空间，与UMA不同处是靠近CPU的内存模块的访问速度比其他的内存模块快得多。 NUMA计算机的主要特点：（1）所有的CPU都看到一个单一的地址空间。（2）使用LOAD和STORE指令访问远程内存。（3）访问远程内存比访问本地内存慢。
图11－2 阵列处理机组成图
• 2. 向量处理机 • SIMD计算机中另一类是向量处理机（vector processor）。 • 70年代前后，为了处理向量计算研发两种类型的巨型计算机系统：流水线处理机和并行处理机。 • 两者比较优缺点：并行处理机的结构复杂，成本高，因而流水线处理机发展很快。它是处理向量计算的主要手段，因此已把它称为向量处理机。 •
11.3.3 集群机系统Cluster
1. Cluster简介计算机体系结构的研究就是当时的超级计算机的研究，超级计算机共经历了五代。第一代为早期的单芯片系统，第二代为向量处理系统，第三代为大规模并行处理系统，第四代为共享内存处理系统。