中科大-并行计算讲义-并行计算机系统与结构模型
并行计算讲义

燕山大学课程讲义并行计算导论授课人:郭栋梁学时:32学时其中实验课:8学时三级项目:16学时第1章引言概述单处理器计算机即将成为过时的概念.我们需要考虑如下因素来着手改进提高计算机的性能:(1)单纯依靠单处理器很难提升现有计算机的性能.即使有一个性能十分强大的单处理器,其功耗也让人无法接受.想要提升计算机的性能,更加可行的方法是同时使用多个简单处理器,它所能达到的性能可能是现有单处理器计算机性能的几千倍。
(2)观察结果显示,除非使用并行处理技术,一个程序在一台型号更新的单处理器计算机上的运行速度,可能比在旧的计算机上的运行速度更慢。
能依照给定算法检测出程序中的并行结构的编程工具还有待开发。
此算法需要能够检测出变ja之间的依赖关系是否规则;而且不管这些依赖是否规则,此算法都能在保证程序正确性的前提下,通过将程序中的一些子任务并行化来加速程序的执行。
(3)提升未来的计算机性能的关键就在于并行程序的开发,这涉及各个层面的工作:算法、程序开发、操作系统、编译器及硬件设备。
(4)并行计算除了要考虑到参与并行计算的处理器的数量,还应该考虑处理器与处理器、处理器与内存之间的通信。
最终计算性能的提升既依赖于算法能够提升的空间,更依赖于处理器执行算法的效率。
而通信性能的提升则依赖于处理器对数据的供应和提取的速度。
(5)内存系统的速度始终比处理器慢,而且由于一次只能进行单个字的读写操作,内存系统的带宽也有限制。
(6)内存系统的速度始终比处理器慢,而且由于一次只能进行单个字的读写操作,内存系统的带宽也有限制。
本书内容主要涉及并行算法与为了实现这些算法而设计的硬件结构。
硬件和软件是相互影响的,任何软件的最终运行环境是由处理器组成的底层硬件设备和相应的操作系统组成.我们在本章开始的部分会介绍一些概念,之后再来讨论为了实现这些概念有哪些方法和限制.自动并行编程对于算法在软件中的实现过程我们都很熟悉。
在编程并不需要了解目标计算机系统的具体细节,因为编译器会处理这些细节.但是在编程和调试时依旧沿用着在单一央处理器(CPU)上顺序处理的模式.从另一方面讲,为了实现并行算法,硬件和软件之间的相互联系需要比我们想象的更加密切。
计算机体系结构并行计算基础知识

计算机体系结构并行计算基础知识计算机体系结构是计算机硬件和软件的结构和组织方式。
而并行计算指的是在计算机中同时执行多个任务或指令的能力。
在本文中,我们将探讨计算机体系结构中的并行计算的基础知识。
一、并行计算的概念和原理并行计算是指同时使用多个处理器或计算单元来执行任务或指令。
与串行计算相比,它能够加快计算速度,提高系统的整体性能。
并行计算的原理是将一个大任务或指令分解成多个小任务或指令,并利用多个处理器或计算单元同时执行这些小任务或指令。
这样可以充分利用计算资源,提高系统的运行效率。
二、并行计算的分类并行计算可以按照不同的标准进行分类。
下面是几种常见的分类方式:1.按照并行计算的粒度,可以分为指令级并行、线程级并行、过程级并行、任务级并行等。
指令级并行是指同时执行多条指令,线程级并行是指同时执行多个线程,过程级并行是指同时执行多个独立的过程,任务级并行是指将一个大任务分解成多个小任务,并同时执行这些小任务。
2.按照并行计算的结构,可以分为共享内存并行计算和分布式并行计算。
共享内存并行计算是指多个处理器共享同一块内存,分布式并行计算是指每个处理器都有自己的内存,通过网络进行通信和协调。
3.按照并行计算的拓扑结构,可以分为串行结构、对称多处理结构、集群结构等。
串行结构是指只有一个处理器的结构,对称多处理结构是指多个处理器之间没有主从关系,集群结构是指多个处理器通过网络连接起来,具有主从关系。
三、并行计算的优势和应用并行计算具有以下优势:1.提高计算速度:通过同时执行多个任务或指令,可以加快计算速度,提高系统的整体性能。
2.提高系统的可靠性:当一个处理器出现故障时,其他处理器可以继续工作,保证系统的正常运行。
3.节省成本:通过并行计算,可以充分利用计算资源,减少计算机的数量和成本。
并行计算的应用非常广泛,包括科学计算、人工智能、图像处理、数据挖掘等领域。
在科学计算中,通过并行计算可以加快模拟和分析的速度;在人工智能中,通过并行计算可以提高机器学习和深度学习的效率;在图像处理和数据挖掘中,通过并行计算可以快速处理大量的数据。
第1章并行计算机系统及其结构模型(下)

计算机学院计算机科学与技术系 主讲: 主讲:陈 蕾 E-mail: chenleijx@
1
第一章 并行计算机连及其结构模型
1.2.1 系统互连 1.2.2 静态互联网络 1.2.3 标准互联网络 1.2.4 并行计算机系统模型
35属性pvpsmpmppdsmcow结构类型mimdmimdmimdmimdmimd处理器类专用定制商用商用商用商用互连网络定制交叉开关总线交叉开关定制网络定制网络商用网络以太atm通信机制共享变量共享变量消息传递共享变量消息传递地址空间单地址空间单地址空间多地址空间单地址空间多地址空间系统存储集中共享集中共享分布非共享分布共享分布非共享访存模型umaumanormanumanorma代表机器crayc90crayt90银河1号ibmr50sgipowerchallenge曙光1号intelparagonibmsp2曙光10002000stanforddashcray3dberkeleynowalphafarm
(a)3-立 方
(b)4-立 方
(c)顶 点 代 之 以 环
(d)3-立 方 环
10
标准互联网络( ) 标准互联网络(1)
Myrinet:
Myrinet是由Myricom公司设计的千兆位包交换网络,其目的是 为了构筑计算机机群,使系统互连成为一种商业产品。 Myrinet是基于加州理工学院开发的多计算机和VLSI技术以及 在南加州大学开发的ATOMIC/LAN技术。Myrinet能假设任意拓 扑结构,不必限定为开关网孔或任何规则的结构。 Myrinet网使用全双工 网使用全双工SAN链路,最长可达 米,峰值速率为 链路, 网使用全双工 链路 最长可达3米 (1.28+1.28)Gbps(目前有 + ) (目前有2.56+2.56) Myrinet主机接口 : 32位的称作LANai芯片的用户定制的VLSI处 理器,它带有Myrinet接口、包接口、DMA引擎和快速静态随 机存取存储器SRAM。 140 of the November 2002 TOP500 use Myrinet, including 15 of the top 100
中科大-并行计算讲义第二讲-PC机群的搭建

重要特征
机群的各节点都是一个完整的系统,节点可以是工作站, 也可以是PC机或SMP机器; 互连网络通常使用商品化网络,如以太网、FDDI、光 通道等,部分商用机群也采用专用网络互连; 网络接口与节点的I/O总线松耦合相连; 各节点有一个本地磁盘; 各节点有自己的完整的操作系统。
这几行的意思是将服务器上的/home和/Cluster目录进行共享, 设置节点node1到node63可以访问,rw表示允许读和写(缺省为 只读)。这里要注意的一点是所有用到的主机名必须在文件 /etc/hosts中给出ip地址,例如: 192.168.0.11 node1
国家高性能计算中心(合肥) 2014-7-15 23
国家高性能计算中心(合肥)
2014-7-15
22
单一文件管理
(2) 设置共享目录:首先,在根目录下建立目录/home和/Cluster。
[node0]# mkdir home [node0]# mkdir Cluster
然后,在文件/etc/exports当中增加以下几行。
/home /Cluster …… /home /Cluster node1 (rw) node1 (rw) node63 (rw) node63 (rw)
国家高性能计算中心(合肥)
2014-7-15
5
分类
根据不同的标准,可有多种分类方式
针对机群系统的使用目的可将其分为三 类: 1. 高性能计算机群 2. 负载均衡机群 3. 高可用性机群
国家高性能计算中心(合肥)
2014-7-15
6
典型机群系统
Berkeley NOW Beowulf
并行计算讲义

并行计算讲义燕山大学课程讲义并行计算导论授课人:郭栋梁学时:32学时其中实验课:8学时三级项目:16学时第1章引言1.1概述单处理器计算机即将成为过时的概念.我们需要考虑如下因素来着手改进提高计算机的性能:(1)单纯依靠单处理器很难提升现有计算机的性能.即使有一个性能十分强大的单处理器,其功耗也让人无法接受.想要提升计算机的性能,更加可行的方法是同时使用多个简单处理器,它所能达到的性能可能是现有单处理器计算机性能的几千倍。
(2)观察结果显示,除非使用并行处理技术,一个程序在一台型号更新的单处理器计算机上的运行速度,可能比在旧的计算机上的运行速度更慢。
能依照给定算法检测出程序中的并行结构的编程工具还有待开发。
此算法需要能够检测出变ja之间的依赖关系是否规则;而且不管这些依赖是否规则,此算法都能在保证程序正确性的前提下,通过将程序中的一些子任务并行化来加速程序的执行。
(3)提升未来的计算机性能的关键就在于并行程序的开发,这涉及各个层面的工作:算法、程序开发、操作系统、编译器及硬件设备。
(4)并行计算除了要考虑到参与并行计算的处理器的数量,还应该考虑处理器与处理器、处理器与内存之间的通信。
最终计算性能的提升既依赖于算法能够提升的空间,更依赖于处理器执行算法的效率。
而通信性能的提升则依赖于处理器对数据的供应和提取的速度。
(5)内存系统的速度始终比处理器慢,而且由于一次只能进行单个字的读写操作,内存系统的带宽也有限制。
(6)内存系统的速度始终比处理器慢,而且由于一次只能进行单个字的读写操作,内存系统的带宽也有限制。
本书内容主要涉及并行算法与为了实现这些算法而设计的硬件结构。
硬件和软件是相互影响的,任何软件的最终运行环境是由处理器组成的底层硬件设备和相应的操作系统组成.我们在本章开始的部分会介绍一些概念,之后再来讨论为了实现这些概念有哪些方法和限制.1.2自动并行编程对于算法在软件中的实现过程我们都很熟悉。
并行算法讲义

中科院数学与系统科学研究院“并行计算” 课程讲义(草稿)”张林波计算数学与科学工程计算研究所科学与工程计算国家重点实验室2003 年1月29目录第一部分MPI消息传递编程第一章预备知识§1.1 高性能并行计算机系统简介§1.1.1 微处理器的存储结构§1.1.2 Cache 结构对程序性能的影响§1.1.3 共享内存SMP 型并行计算机§1.1.4 分布式内存MP P 型并行计算机§1.1.5 DSM 型并行计算机§1.1.6 SMP/D SM 机群§1.1.7 微机/1.4.作站机群§1.1.8 TOP500§1.2 并行编程模式§1.2.1 自动并行与手1.4.并行§1.2.2 0penMP§1.2.3 DSM 编程模式§1.2.4 高性能Fortran: HPF§1.2.5 消息传递并行编程模式§l.3 Unix 程序开发简介§l.3.1 Unix中常用的编译系统§1.3.2 实用1.4.具make§1.4 消息传递编程平台MPI§1.4.1 MPI 程序的编译与运行§1.4.2 利用MPICH 建立MPI 程序开发与调试环境第二章MPI 基础知识§2.1 下载MPI标准的PS 文档§2.2 一些名词与概念§2.3 编程模式§2.4 MPI 函数的一般形式§2.5 MPI 的原始数据类型§2.5.1 Fortran 77 原始数据类型§2.5.2 C 原始数据类型§2.6 MPI 的几个基本函数§2.6.1 初始化MPI 系统§2.6.2 检测MPI 系统是否已经初始化§2.6.3 得到通信器的进程数及进程在通信器中的序号§2.6.4 退出MPI 系统§2.6.5 异常终止MPI 程序的执行§2.6.6 查询处理器名称§2.6.7 莸取墙上时间及时钟精度§2.7 MPI 程序的基本结构§2.7.1 Fortran 77 程序§2.7.2 C 程序第三章点对点通信§3.1 标准阻塞型点对点通信函数§3.1.1 标准阻塞发送§3.1.2 阻塞接收§3.1.3 阻塞型消息传递实例§3.1.4 其它一些阻塞型消息传递函数§3.2 消息发送模式§3.2.1 阻塞型缓冲模式消息发送函数§3.3 阻塞型与非阻塞型函数§3.4 非阻塞型点对点通信函数§3.4.1 非阻塞发送§3.4.2 非阻塞接收§3.4.3 通信请求的完成与检测§3.4.4 通信请求的释放§3.5 消息探测与通信请求的取消§3.5.1 消息探测§3.5.2 通信请求的取消§3.6 点对点通信函数汇总§3.7 持久通信请求§3.7.1 创建持久消息发送请求§3.7.2 创建持久消息接收请求§3.7.3 开始基于持久通信请求的通信§3.7.4 持久通信请求的完成与释放第四章数据类型§4.1 与数据类型有关的一些定义§4.1.1 数据类型定义§4.1.2 数据类型的大小§4.1.3 数据类型的下界、上界与域§4.1.4 MPI_LB 和MPI_UB§4.1.5 数据类型查询函数§4.2 数据类型创建函数§4.2.1 MPI_Type_contiguous§4.2.2 MPI_Type_vector§4.2.3 MPI_Type_hvector§4.2.4 MPI_Type_indexed§4.2.5 MPI_Type_hindexed§4.2.6 MPI_Type_struct§4.2.7 地址函数MPI_Address§4.3 数据类型的使用§4.3.1 数据类型的提交§4.3.2 数据类型的释放§4.3.3 MPI_Get_elements§4.4 数据的打包与拆包§4.4.1 数据打包§4.4.2 数据拆包§4.4.3 得到打包后的数据大小§4.5 MPI l.l 中位移与数据大小的限制第五章聚含通信(Collective Communications)§5.1 障碍同步§5.2 广播§5.3 数据收集§5.3.1 收集相同长度数据块MPI_Gather§5.3.2 收集不同长度数据块MPI_Gatherv§5.3.3 全收集MPI_Allgather§5.3.4 不同长度数据块的全收集MPI_Allgatherv §5.4 数据散发§5.4.1 散发相同长度数据块MPI_Scatter§5.4.2 散发不同长度数据块MPI_Scatterv§5.5 全部进程对全部进程的数据散发收集§5.5.1 相同数据长度的全收集散发MPI_Alltoall§5.5.2 不同数据长度的全收集散发MPI_Alltoallv §5.6 归约§5.6.1 归约函数MPI_Reduce§5.6.2 全归约MPI_Allreduce§5.6.3 归约散发MPI_Reduce_scatter§5.6.4 前缀归约MPI_Scan§5.6.5 归约与前缀归约中用户自定义的运算§5.7 两个程序实例§5.7.1 π值计算§5.7.2 Jacobi 迭代求解二维Poisson 方程第六章进程组与通信器§6.1 基本概念§6.1.1 进程组§6.1.2 上下文(Context)§6.1.3 域内通信器(Intracommunicator)§6.1.4 域间通信器(Intercommunicator)§6.2 进程组操作函数§6.2.1 查询进程组大小和进程在组中的序号§6.2.2 两个进程组间进程序号的映射§6.2.3 比较两个进程组§6.2.4 进程组的创建与释放§6.3 域内通信器操作函数§6.3.1 比较两个通信器§6.3.2 通信器的创建与释放§6.4 通信器的附加属性(Caching)§6.5 域间通信器(Intercommunicator)§6.6 进程拓扑结构§6.6.1 迪卡尔拓扑结构§6.6.2 一般拓扑结构§6.6.3 底层支持函数第七章文件输入输出§7.1 基本术语§7.2 基本文件操作§7.2.1 打开MPI 文件§7.2.2 关闭MPI 文件§7.2.3 删除文件§7.2.4 设定文件长度§7.2.5 为文件预留空间§7.2.6 查询文件长度§7.3 查询文件参数§7.3.1 查询打开文件的进程组§7.3.2 查询文件访问模式§7.4 设定文件视窗§7.4.1 文件中的数据表示格式§7.4.2 可移植数据类型§7.4.3 查询数据类型相应于文件数据表示格式的域§7.5 文件读写操作§7.5.1 使用显式位移的阻塞型文件读写§7.5.2 使用独立文件指针的阻塞型文件读写§7.5.3 使用共享文件指针的阻塞型文件读写§7.5.4 非阻塞型文件读写函数§7.5.5 分裂型文件读写函数§7.6 文件指针操作§7.6.1 独立文件指针操作§7.6.2 共享文件指针操作§7.6.3 文件位移在文件中的绝对地址§7.7 不同进程对同一文件读写操作的相容性§7.7.1 设定文件访问的原子性§7.7.2 查询atomicity 的当前值§7.7.3 文件读写与存储设备间的同步§7.8 子数组数据类型创建函数本讲义仅供课程学员及其他感兴趣者个人参考用,尚处于逐步修改完善的过程中,许多内容代表的是作者的个人观点。
中国科技大学并行计算算法实践课程精讲PDF讲义合辑(共523页)

国家高性能计算中心(合肥)
2013/7/24 Wednesday
12
并行计算机体系结构
单指令多数据流机SIMD(Single-Instruction MultipleData); 并行向量处理机PVP(Parallel Vector Processor); 对称多处理机SMP(Symmetric Multiprocessor); 大规模并行处理机MPP(Massively Parallel Processor); 工作站机群COW(Cluster of Workstation) 分布式共享存储DSM(Distributed Shared Memory)多处 理机。
国家高性能计算中心(合肥)
2013/7/24 Wednesday
13
并行计算机体系结构模型
MB VP VP
MB P/C LM NIC
…
SM
VP
P/C
P/C
…
SM
P/C P/C LM NIC I/O
…
交叉开关 SM SM SM
总线或交叉开关
(a)PVP
(b)SMP
定制网络
(c)MPP
MB MB MB P/C M Bridge LD IOB NIC 定制网络 MB P/C M Bridge LD IOB NIC
19
工作站机群COW
分布式存储,MIMD,工作站+商用互连网络,每个节点是一个完整的计 算机,有自己的磁盘和操作系统,而MPP中只有微内核 优点:
并行计算系统体系结构概述

• 30% per year
1/15/2020
11
Transistor Count Growth Rate (Intel family)
• Transistor count grows much faster than clock rate
- 40% per year, order of magnitude more contribution in 2 decades
• Moore’s law: xtors per chip = 1.59year-1959 (originally 2year-1959) • Huge investment per generation is carried by huge commodity market
1/15/2020
10
Clock Frequency Growth Rate (Intel family)
§ Verifiable global ecosystem and epidemic models § Integration of macro-effects with localized and then micro-effects § Predictive effects of human activities on earth’s life support systems § Understanding earth’s life support systems
§ Larger memories are slower, while processors get faster
§ Need to transfer more data in parallel
§ Need deeper cache hierarchies
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Intel Paragon系统框图
I/O部分
SCSI
计算
节点
节点
计算部分
计算 节点
……
服务部分 I/O部分
计算
服务
SCSI
节点
节点
节点
以太网
HIPPI 节点
计算 节点
计算 节点
……
计算 节点
服务 节点
SCSI 节点
FDDI
VME 节点
用户I/O
磁带
HIPPI 节点
计算 节点
计算 节点
……
计算 节点
CU
PE0
PE1
…
P E n-1
IN
M0
M1
…
M m-1
(b)共享存储阵列机
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
6
阵列处理机的特点
• SIMD-单指令多数据流机
• 利用资源重复开拓计算空间的并行
• 同步计算--所有PE执行相同操作
• 适于特定问题(如有限差分、矩阵运算等) 求解
2021/1/21
10
Balance同构对称多处理机系统
80386CPU Weitek1167FPU
…
80386CPU Weitek1167FPU
存储器 8MB
…
存储器 8MB
64KB 高速缓存
…
64KB 高速缓存 系统总线
存储控制器
… 存储控制器
总线适配器 以太局域网
磁盘控制器
…
磁盘
磁盘
总线适配器 多总线
• 阵列处理机 分布存储 共享存储 流水线
• 向量处理机 并行向量机
紧耦合多机系统
• 共享存储多处理机同构对称对机系统
DSM/SVM
• 分布存储多计算机
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
5
阵列处理机的两种基本结构
CU
P E n-1
P0
…
P n-1
M0
M n-1
IN
(a)分布存储阵列机
• 大规模并行处理机MPP(Massively Parallel Processor);
• 工作站机群COW(Cluster of Workstation)
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
15
并行计算机体系结构模型
VP
… V P
VP
P/C
… P / C
P/C
MB P/C
• 紧耦合与同构对称方式 中科大-并行计算讲义-并行计算机系统与结构模
型
2021/1/21
9
典型的紧耦合多处理机系统
PPIN
PMp
Pp
…
PM1
P1
… C M 1
CMp
PMIN
M1
…
Mm
PIOIN
…
I/O通 道 D1
Dd
PM: 局 存 CM: 高 速 缓 存 P: 处 理 器 D: 外 部 设 备
中科大-并行计算讲义-并行计算机系统与结构模 型
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
7
Cray-1的向量处理
向量部件 整数加3 移位4 逻辑2
浮点部件 浮点加6 浮点乘7 浮点倒数14
标量部件 整数加3 逻辑1 移位2-3 数“1”/计数3-4
地址运算部件 整数加2 整数乘6
8个向量寄存器,每 个64字,每字64位
• 第一章 并行计算机系统与结构模型 • 第二章 PC机群的搭建 • 第三章 并行程序设计简介
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
3
第一章 并行计算机系统与结构模型
• 1.1 典型并行计算机系统简介
– 1.1.1 阵列处理机
– 1.1.2 向量处理机
– 1.1.3 共享存储多处理机
SCSI
…
I/O
总线适配器 x.25远程网
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
11
分布存储多计算机
• 松散耦合多机系统
• 节点独立(可有局存、IO设备等)
• 易于扩展
• 多地址空间
• 消息传递通信界面
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
12
并行算法实践
上篇 并行程序设计导论
中科大-并行计算讲义-并行计算机系 统与结构模型
并行算法实践 上篇 并行程序设计导论
• 单元I 并行程序设计基础
• 单元II 并行程序编程指南
• 单元III 并行程序开发方法
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
2
单元I 并行程序设计基础
• 易于编程
• 易于扩展
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
14
并行计算机体系结构
• 单指令多数据流机SIMD(Single-Instruction Multiple-Data);
• 并行向量处理机PVP(Parallel Vector Processor);
• 对称多处理机SMP(Symmetric Multiprocessor);
LM
MB P/C
… LM
交叉开关
总线或交叉开关
NIC
NIC
SM
SM
SMb)SMP
定制网络
(c)MPP
MB P/C LM DIR NIC
MB P/C
…
LM
DIR
NIC
定制网络
(d)DSM
中科大-并行计算讲义-并行计算机系统与结构模 型
MB P/C
MB P/C
M
…
Bridge
服务 节点
SCSI 节点
… … … …
… … … … … …
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
13
分布共享存储多处理机
• 分布共享存储DSM-Distributed Shared Memory
将物理上分布的存储系统,通过硬件和软 件的办法,向用户提供一个单一的全局地 址空间
M Bridge
LD
IOB
NIC
LD
IOB
NIC
2021/1/21
商 品 网 络 (以 太 网 , ATM, etc.)
(e)COW 16
对称多处理机SMP(1)
• SMP: 采用商用微处理器,通常有片上和片外Cache,基于总线连接, 集中式共享存储,UMA结构
• 例子:SGI Power Challenge, DEC Alpha Server,Dawning 1
8个标量寄存器
8个地址寄存器 指令处理器
I/O
主存储器
说明:12个功能流水部件 中后面的数字,表示流 水线延迟的时钟周期数
中科大-并行计算讲义-并行计算机系统与结构模 型
2021/1/21
8
共享存储的多处理机
• MIMD-多指令多数据流机
• 单一的共享地址空间
• 易于编程、难于扩展
• 存储访问可成为性能瓶颈
– 1.1.4 分布存储多计算机
– 1.1.5 分布共享存储多处理机
• 1.2 当代并行计算机体系结构
– 1.2.1 并行计算机体系结构模型
– 1.2.2 并行计算机存储结构模型
– 1.2.3 分布式高速缓存与主存体系结构 中科大-并行计算讲义-并行计算机系统与结构模
型
2021/1/21
4
典型并行计算机系统