哈工大并行计算课件第三章

合集下载

《并行计算概述》课件

并行计算的内存模型
并行计算中，多个处理单元之间需要共享数据。有两种常见的内存模型：共享内存模型和分布式内存模型。
并行计算的任务调度
任务调度是将任务分配给不同的处理单元的过程，旨在提高计算的负载均衡和整体性能。
分布式并行
多个处理单元分布在不同的计算机节点上，通过消息传递进行通信和同步。
向量并行
使用向量处理器同时处理多个数据，提高计算效率。
并行计算的优点和局限性
1 优点
大大提高了计算速度和效率，加快解决复杂问题的能力。
2 局限性
需要特定的硬件和软件支持，编程复杂度较高，数据依赖等问题需处理。
并行计算的基本模型
《并行计算概述》PPT课件
并行计算是指同时使用多个计算资源来解决一个问题的计算方式。它利用并行性提高计算速度，已在各个领域得到广泛应用。
什么是并行计算？
并行计算是一种计算方式，利用多个计算资源同时进行工作，来加快问题的解决速度。通过拆分任务，可以将复杂问题分解为多个可并行处理的子问题。
并行计算的发展历程
共享内存模型ቤተ መጻሕፍቲ ባይዱ
多个处理单元共享同一块内存来进行通信和同步。
消息传递模型
通过消息传递实现不同处理单元的通信和同步。
数据并行模型
任务被分解为多个相同的子任务，每个处理单元处理其中一部分。
并行计算的通信机制
在并行计算中，处理单元之间需要进行通信来协调任务的执行和数据的传输。常用的通信机制包括点对点通信和集体通信。
1
1960s - 1980s
研究并行计算的初期阶段，以计算机硬件性能提升为主。
2
1990s - 2010s
并行计算技术逐渐成熟，出现了多种并行计算模型和编程框架。

并行计算.3性能..PPT69页

拉
60、生活的道路一旦选定，就要勇敢地走、获得的成功越大，就越令人高兴。野心是使人勤奋的原因，节制使人枯萎。 12、不问收获，只问耕耘。如同种树，先有根茎，再有枝叶，尔后花实，好好劳动，不要想太多，那样只会使人胆孝懒惰，因为不实践，甚至不接触社会，难道你是野人。(名言网) 13、不怕，不悔(虽然只有四个字，但常看常新。 14、我在心里默默地为每一个人祝福。我爱自己，我用清洁与节制来珍惜我的身体，我用智慧和知识充实我的头脑。 15、这世上的一切都借希望而完成。农夫不会播下一粒玉米，如果他不曾希望它长成种籽；单身汉不会娶妻，如果他不曾希望有小孩；商人或手艺人不会工作，如果他不曾希望因此而有收益。-- 马钉路德。
56、书不仅是生活，而且是现在、过去和未来文化生活的源泉。 ——库法耶夫 57、生命不可能有两次，但许多人连一次也不善于度过。— —吕凯特 58、问渠哪得清如许，为有源头活水来。—— 朱熹 59、我的努力求学没有得到别的好处，只不过是愈来愈发觉自己的无知。 ——笛卡儿

03哈工大操作系统第三章

Dr. GuoJun LIU Operating System Slides-8
Process Elements

While the program is executing, this process can be uniquely characterized by a number of elements
A program in execution An instance of a program running on a computer The entity that can be assigned to and executed on a processor A unit of activity characterized by a single sequential thread of execution, a current state, and an associated set of system resources
A user at a terminal logs on to the system The OS can create a process to perform a function on behalf of a user program, without the user having to wait (e.g., a process to control printing) For purposes of modularity or to exploit parallelism, a user program can dictate the creation of a number of processes
Summary of Earlier Concepts

哈工大威海操作系统课件第3章进程同步

第二章进程管理
算法2：双标志、先检查其中Pi
While(flag[j]); Flag[i]=TRUE; Critical section Flag[i]=FALSE; Remainder section
flag[i]= flag[j]=FALSE
请写出Pj
<> <b>
<a> <b>
While(flag[i]); Flag[j]=TRUE; Critical section Flag[j]=FALSE; Remainder section
执行过程相当于生产一点拿一点, 而不是消费完整的产品
最后counter 的值为4,并且结果不可预见.
解决问题的关键是,把counter作为临界资源来处理,即令生产者和消费者进程互斥访问变量counter.
第二章进程管理
3. 临界区(critical section)
3.1、临界区的定义与进入 • 临界区：把在每个进程中访问临界资源的那段代码称为临界区(critical section)。 • 进入区：在临界区前面增加一段用于进行临界资源检查的代码，称为进入区。 • 退出区：将临界区正被访问的标志恢复为未被访问的标志。 • 剩余区：其余部分。
表示目前缓冲区产品已放满
第二章进程管理
虽然上面的生产者程序和消费者程序，在分别看时都是正确的，而且两者在顺序执行时其结果也会是正确
的，但若并发执行时，就会出现差错，问题就在于这两
个进程共享变量counter。
第二章进程管理
• 生产者对它做加1操作，消费者对它做减1操作，这两个操作在用机器语言实现时，常可用下面的形式描述：

并行计算概述课件

I/O
SCSI 磁盘
桥
系统 I
节点 2
节点 N
SAN(e.g.Myrinet)
I/O总线,系统总线
接口
LAN(e.g.以太网,FDDI)
系统 II
国家高性能计算中心（合肥）
2019/11/17
16
网络性能指标
节点度（Node Degree）：射入或射出一个节点的边数。在单向网络中，入射和出射边之和称为节点度。
CPU
本地外围设备 (SCSI总线)
IOC
存储器板存储器单元
本地总线
高速缓存
IF
存储器总线
IF
MC
系统总线
I/O板
IOP
IF
数据总线
缓冲
IF
(底板上)
通信板
IF
CC
数据总线
缓冲
IF
磁盘和磁带
打印机
国家高性能计算部中件心（合肥）或绘图仪
2019/11/17
网络
(以太网等)
26
动态互连网络（2）
交叉开关（Crossbar）：
N
2
1
N 1
2
（双
2
N / 2向）
4
2( N 1)
N
4
N 1
2N
4
2 N / 2
2N
3 2log N 1
1
非
N 1
是
N
非
2(N N )
非
2N
是
2N
非
N 1
星形
2
N
N 1
超立方
N 2n
n
n
非
N / 2

哈工程DSP专业课课件第三章

8个辅助寄存器(AR7-AR0)提供了灵活多变以及功能强大的间接寻址。使用辅助寄存器中的一个16-bit地址就可访问64K数据存储空间的任意单元。
通过向状态寄存器ST0的一个3-bit辅助寄存器指针(ARP)设置一个从0到7的值，就可以选择所需的辅助寄存器。
设置数值的方法有
MAR指令它只修改辅助寄存器及ARP
存储器)的值相乘
接收乘法器的乘积
在将PREG的值送入 CALU之前，乘积移位
器将对PREG值进行定标操作
3.3.1 乘法器
在一个机器周期内，16-bit * l6-bit硬件乘法器可以产生一个带符号或不带符号的32-bit乘积。
除在无符号乘法(MPYU指令)周期外，被乘的两个数作二进制补码处理。
3.1 概述
本章讲述中央处理单元（CPU）的主要组成
CPU 的三个基本部分（3.2节~3.4节）
包括：输入定标部分、乘法部分、中央算术逻辑部分
辅助寄存器算术单元（ARAU）（3.5节）
状态寄存器ST0和ST1 （3.5节）
ARAU实现对8个辅助寄存器的算术运算。
状态寄存器决定处理器工作方式、寻址指针以及显示不同的处理器状态和算术逻辑
中央算术逻辑单元
3.4.1 中央算术逻辑单元(CALU)
中央算术逻辑单元(CALU)执行一系列的算术和逻辑运算，数字运算是在一个时钟周期内进行。
这些算术和逻辑运算分为四类：
16-bit加法 16-bit减法布尔逻辑运算位测试、移位和循环
鉴于CALU可执行布尔运算，因此可以进行位处理。 CALU使用累加器进行移位和循环。它具有独立的算术单元和辅助寄存器算术单元。

哈工大—并行处理—第三章阵列处理机

PEo Ao 例：现求向量A的前k个分量之 PE1 A1 和S(k)。k从0~到n-1变化。令A=(Ao,A1,…,An-1),要 PE2 A2 计算的是下列n个和： PE3 A3 k S(k)=∑Ai k=0,1,…,n-1 PE4 A4
I=0
0 0,1 1,2 2,3 3,4 4,5 5,6 6,7
第1步
第2步
上述递归求和对于n=8的情况，在N=8个PE的阵列机中用[log2n=?] 步就可实现。K=0,1,…,7 开始： PEMi中的Ai PEi的寄存器Ri中，i=0,1,…,n-1 (n=?) 第一步：选定路径将Ai从Ri送至Ri+1,并与Ai+1加在一起；在Ri+1中得到和Ai+Ai+1。I=0,1,…,6 (箭头表示寻径) 第二步：选定路径将Ri中的中间和传递至Ri+2,与Ri+2中的内容加起来。i=0,1,…,5 第三步：选定路径将Ri中的中间和传递给Ri+4并与其原值加在一起， i=0,1,2,3。这样，在Pek中得到S(k)的最后结果。对数据寻径操作来说，第一步未涉及PE7（？数不传）；第二步未涉及PE7和PE6;第三步未涉及PE7,PE6,PE5,PE4。这些不需要的PE在相应的步中被屏蔽起来。在做加法运算时，第一步PEo是不活动的；第二步PEo和PE1是不活动的；第三步中PEo,PE1,PE2和PE3是受屏蔽的。屏蔽模式在不同的操作周期是不一样的。在向量长度n>N时，屏蔽和寻径操作要复杂得多。
接口
局部总线、I/O总线、SAN和LAN
网络拓扑
静态—PE之间链接是固定的，灵活性差，适应性差。单级—只有有限的几种连接，必经多次循环，实现PE间传递。动态多级—由多个单级网络串联组合而成，实现任两个PE间连接。还可将多级互连网络循环使用，实现复杂的互连。

哈工大张英涛操作系统视频对应课件3_10(全)

进程定义
进程是进程实体的运行过程，是系统进行资源分配和调度的基本单位。
进程和程序的关系
（1）进程是一个动态概念，程序是一个静态概念。（2）进程具有并行特征，程序没有。（3）进程是竞争资源的基本单位（4）一个程序对应多个进程，一个进程为多个程序服务。
进程的三种基本状态
就绪状态执行状态阻塞状态
临界资源
一次仅允许一个进程使用的共享资源如：打印机、磁带机、表格
临界区
在每个进程中访问临界资源的那段程序

进程必须互斥进入临界区
访问临界区的循环进程描述
repeat
进入区临界区
检查临界资源是否能访问
退出区
剩余区
until false;
将临界区标志设为未访问
同步机制遵循的原则
空闲让进 ② 忙则等待 ③ 有限等待 ④ 让权等待
处理机中主要的寄存器：（1）通用寄存器 8-32个，暂存信息用（2）指令计数器要访问的下一条指令地址（3）程序状态字PSW 条件码、执行方式、中断屏蔽标志（4）用户栈指针用户进程拥有的系统栈，存放过程和系统调用参数及调用地址。

进程调度信息
进程状态进程优先级与调度算法有关信息事件如：阻塞原因

进程控制信息

程序和数据地址进程同步和通信机制资源清单：除CPU之外的所需资源与已经分配资源清单链接指针：本进程PCB所在队列的下一个地址。
PCB的组织方式
（1）链接方式把统一状态的PCB，用其中的链接字链接成一个队列。如：就绪队列、阻塞队列（根据不同阻塞原因）、空白队列。（2）索引方式建立就绪索引表、阻塞索引表等。把索引表在内存的首地址放在内存的专用单元中。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

242 187 84 10
0．26 13,333
91 332
16 1200
13
14
3.STREAM
是一个简单的合成基准程序；
由SGl的JohnMcCalpin提出。
测量持续的存储器带宽(以MB／s为单位)和相应的计算速率。
下表中的向量a、b和c均是有二百万个元素的数组，其中每个元素是一个8字节的字。
紧跟其后的是安装在NASAAmes研究中心的SGl构建的Columbia系统，它的实测峰值是 51．87TFlops。
上述两个系统让实测峰值35．86TFlops的日本 NECEarthSimulator连续5次TOP500排名第1名成为历史。
哈尔滨工业大学计算机科学与技术学院
10
该年度在TOP10中还有其他一些明显的变化。安装在 Barcelona超级计算中心的IBMMareNostrum机群以 20．53Tfops排名第四；
第3章性能指标和基准程序
1 系统和应用的基准程序
2 性能和成本 3 基本性能指标 4 并行计算机性能 5 并行程序性能 6 可扩展性和加速比分析
哈尔滨工业大学计算机科学与技术学院
1
1. 如何描述应用和系统的性能特征? 2. 什么是用户对性能和成本要求? 3. 如何测量应用程序的性能? 使用何种
超过1TFlops的系统数量从242提高到399。整个TOP500中所有的系统的性能总和，已经超过
1PetaFIops，从六个月前的813TFlops突破到 1．127PetaFlops。
哈尔滨工业大学计算机科学与技术学院
11
另外从TOP500中可以发现一些变化趋势。从使用的处理器和系统类型来看，有320套系统采用Intel处理器，而六个月前这个数量是287，一年前只有189；
基准程序用来测量和预测计算机系统的性能，并能提示它们的体系结构的弱点和优点。
哈尔滨工业大学计算机科学与技术学院
3
基准程序分类：
（1）按应用类（2）按计算机系统来分基准程序
宏基准程序
宏基准程序测量一个计算机系统的总体性能。
微基准程序两类
微基准程序测量一个计算机系统的某一特定方面性能。
采用Apple Xserve服务器构建的Virginia TechXsystem在六个月前由于主要的硬件更新出现了一些小问题退出TOP10后，现在以12．25TFlops重新回到了 TOP10。
TOP10的系统最低Linpack峰值达到了10TFlops， TOP100的最低Linpack峰值从1．922TFlops升到了 2．026TFlops，TOP500的最低Linpack峰值从6个月前的624．3GFlops提高到850．6GFlops，而最新的 TOP500中最后一名六个月前还列310位
ASCI O - A!ohaServer SC45. 1.25 GHz / 8192 HP
BlueGene/L DD1 Prototvoe (0.5GHz PowerPC 440 w/Custom) / 8192 IBM/LLNL
Tungsten PowerEd~,e 1750, P4 Xeon 3.06 GHz. Myrinet / 2500 Dell
其次是IBM Power处理器(54)，
然后是Hewlett-PackardPA-RISC处理器(48)和 AMD处理器(31)。
结论：
Intel的主导地位还是难以撼动
机群(cluster)系统是主要的系统类型，共有 296套系统是机群
哈尔滨工业大学计算机科学与技术学院
12
2.LMBENCH
其他公司也尝试改进存储器系统性能。
哈尔滨工业大学计算机科学与技术学院
18
哈尔滨工业大学计算机科学与技术学院
19
三、并行计算的基准程序测试分布共享存储器机器数值计算基准程序
斯坦福大学开发的Splash和Splash-2；
B!ueGene/L DD2 Prototvoe (0.7 GHz PowerPC 440) / 4096 IBM/LLNL
Mpp2 hte~ritv rx2600 Itanium2 1.5 GHz. Quadrics / 1936 HP
8655 11469
8633 11616
Shanghai Supercomput er Center
China/2004
Dawning 4000A, Onteron 2.2 GHz_ Mvrinet /2560 Dawning
8061 11264
哈尔滨工业大学计算机科学与技术学院
8
Ran Site
Computer / Processors
k Country/Year
Manufacturer
Rmax Rpak
eServer oSeries 690 (1.9 GHz Power4+l / 2112 IBM
19940 22938
13880 20480
11680 16384
9819 15300
8955 16051
RIKEN Suoer Combined Cluster / 2048 Fuiitqn
8728 12534
哈尔滨工业大学计算机科学与技术学院
4
哈尔滨工业大学计算机科学与技术学院
5
二、微基准程序
包括：3个微基准程序组。
1.LINPACK
从1993起，美国明尼苏达大学和田纳西州立大学的 Jack Dongarra 创作并加以维护。
高性能计算机TOP500项目，收集和维护关于世界上前500名最强大的计算机系统的信息，每年两次给出这些统计信息。
iBM - Rochester United States/2004
NCSA United States/2003
ECMWF United Kingdom/2004
Institute of Physical and Chemical Res. (RIKEN) Japan/2004 IBM - Thomas Watson Research Center United States/2004
beta-Svstem (0.7 GHz PowerPC 440) / 32768
IBM
Columbia SGI A!tix 1.5 GHz, Voltaire Iufiniband / 10160 SGI
Earth-Simulator / 5120 NEC
70720 91750
51870 60960
Pacific Northwest National Laboratory United States/2003
Earth-Simulator / 5120 35860
NEC
40960
Thunder Intel Itanium2 Tieer4 1.4GHz Quadrics / 4096 California Digital Corporation
NCSA United States/2003
Tungsten PowerEd~,e 1750, P4 Xeon 3.06 GHz.
哈尔滨工业大学计Myr算inet 机/ 250科0 D学ell 与技术学院
20530 31363
19940 22938
13880 20480
12250 20240
11680 16384
哈尔滨工业大学计算机科学与技术学院
15
哈尔滨工业大学计算机科学与技术学院
16
McCalpin提出一个机器平衡指标，由下式定义：
哈尔滨工业大学计算机科学与技术学院
17
4.说明（如下表所示）：
许多系统的机器平衡值随年份增长而不断增加，意味着存储器带宽越来越落后于处理器速度。
IBM RS6000各种服务器是个例外，因为IBM公司对其中的存储器系统设计总是给予足够重视。
10310 20019.2
9819
15300
9
2004年11月的最新TOP500的特点
DOE／IBM联合研发的BlueGene／L beta-System 以实测Linpack峰值70．72TFlops位于2004年11 月TOP500排名的第一位。当整个BlueGene／L系统完成时，将安装到DOE(能源部)下的Lawrence Livermore国家实验室。
LMBENCH基准程序组由SGI的 LarryMcVoy 提出，是一个可移植的基准程序。
在各种Unix平台上，用来测量操作系统开销和处理器、高速缓存、存储器、网络及磁盘。
哈尔滨工业大学计算机科学与技术学院
13
由LMBENCH测得的带宽、时延和系统开销
属性
Intel Sun Ultra Alder
Manufacturer
Rpeak
1
2 3 4 5 6 7 8 9 10
Earth Simulator Center
Japan/2002
Lawrence Livermore National ~aboratory United States/2004
Los Alamos National Laboratorv Jnited States/2002
35860 40960
4 5 6 7 8 9
10
Barcelona Suoercomouter Center Spain/2004
MareNostrum eServer B!adeCenter JS20 (PowerPC970 2.2 GHzL Mvrinet / 3564 IBM
Lawrence Livermore National .aboratory United States/2004
BlueGene/L DD1 Prototwe (0.5GHz PowerPC 440 w/Custom} / 8192 IBM/LLNL