第六章并行算法的基本设计技术

合集下载

并行算法综述

并行算法综述摘要：本文主要对并行算法的概念、设计等进行综述。

首先概要的介绍有关并行算法的相关概念，接着详细的介绍并行算法的设计策略、设计方法等，最后对并行算法的前景做简单的分析讨论，并做总结。

关键词：并行算法；算法设计；设计策略；设计方法中图分类号：tp393随着计算机时代的到来，计算机的应用和开发主要延伸到社会的各个领域，无论是国家的经济科技还是生活教育等，都能看到计算机的身影。

而高性能计算机的研究和开发更能直接体现出一个国家的经济科技水平，同时由于信息化国防建设也使得高性能计算机成为国防安全的宠儿。

世界各国都在努力争夺高性能计算机的战略制高点，这也充分说明高性能计算机对于一个国家科技实力的重要性。

计算机的发展迅速，从最初的电子管到现在大规模继承电路技术的应用，计算机的运算速度更快，功能也更加强大。

当然，其关键因素就是并行算法，并行算法直接决定着计算机性能的高低，同时并行算法的发展程度也相当明显的显示出国家计算机科技水平的发达程度，是国家综合国力的一个体现。

1 并行算法1.1 国内外研究现状并行算法研究的高峰期在70、80年代。

这一时期，涌现除了很多优秀的非数值并行算法，它们在整个并行算法研究历史上占据着非常辉煌的一页。

90年代中期以后，并行算法的研究渐渐面向实际，内容也有所扩展。

近年来，并行算法的研究更是趋于实际应用中。

比如：一种基于局部小型分布式存储架构的大规模fock矩阵建设的新的并行算法：rt并行算法；基于共享内存架构的节能性能权衡分析并行算法；在多核心cpu与gpu中基于块三角矩阵求解线性系统的并行算法；同构新的并行划分方法和巨人矩阵转置并行算法，等等。

图像匹配的并行算法；面向异构体系结构的粒子输运并行算法；海量数据拟合并行算法；基于gpu的高性能并行算法；遥感数字影像中提取植被指数的并行算法；fermi架构下超声成像组织运动可视化并行算法；分布式水文模型的并行计算；声纳图像对比度增强的并行算法；大规模稀疏矩阵特征问题求解的并行算法；分布动载荷识别的并行算法，等等。

并行计算概述课件

I/O
SCSI 磁盘
桥
系统 I
节点 2
节点 N
SAN(e.g.Myrinet)
I/O总线,系统总线
接口
LAN(e.g.以太网,FDDI)
系统 II
国家高性能计算中心（合肥）
2019/11/17
16
网络性能指标
节点度（Node Degree）：射入或射出一个节点的边数。在单向网络中，入射和出射边之和称为节点度。
CPU
本地外围设备 (SCSI总线)
IOC
存储器板存储器单元
本地总线
高速缓存
IF
存储器总线
IF
MC
系统总线
I/O板
IOP
IF
数据总线
缓冲
IF
(底板上)
通信板
IF
CC
数据总线
缓冲
IF
磁盘和磁带
打印机
国家高性能计算部中件心（合肥）或绘图仪
2019/11/17
网络
(以太网等)
26
动态互连网络（2）
交叉开关（Crossbar）：
N
2
1
N 1
2
（双
2
N / 2向）
4
2( N 1)
N
4
N 1
2N
4
2 N / 2
2N
3 2log N 1
1
非
N 1
是
N
非
2(N N )
非
2N
是
2N
非
N 1
星形
2
N
N 1
超立方
N 2n
n
n
非
N / 2

计算机科学导论(第4版)习题答案-第5、6章

第5章算法与复杂性习题一、选择题1. B2. D3. C4. A5. B6. B7. D8.B9.C 10.A11.A 12.C 13.A 14.A二、简答题1．什么是算法，算法的特性有哪些？答：“算法(Algorithm)是一组明确的、可以执行的步骤的有序集合，它在有限的时间内终止并产生结果”。

算法的特性有：(1) 有穷性(可终止性)：一个算法必须在有限个操作步骤内以及合理的有限时间内执行完成。

(2) 确定性：算法中的每一个操作步骤都必须有明确的含义，不允许存在二义性。

(3) 有效性(可执行性)：算法中描述的操作步骤都是可执行的，并能最终得到确定的结果。

(4) 输入及输出：一个算法应该有零个或多个输入数据、有1个或多个输出数据。

2．什么是算法的时间复杂度和空间复杂度，如何表示？答：时间复杂度是与求解问题规模、算法输入相关的函数，该函数表示算法运行所花费的时间。

记为，T(n)，其中，n代表求解问题的规模。

算法的空间复杂度(Space complexity)度量算法的空间复杂性、即执行算法的程序在计算机中运行所占用空间的大小。

简单讲，空间复杂度也是与求解问题规模、算法输入相关的函数。

记为，S(n)，其中，n代表求解问题的规模。

时间复杂度和空间复杂度同样，引入符号“O”来表示T(n)、S(n)与求解问题规模n之间的数量级关系。

3．用图示法表示语言处理的过程。

答：语言处理的过程如图所示：4．简述算法设计的策略。

答：作为实现计算机程序实现时解决问题的方法，算法研究的内容是解决问题的方法，而不是计算机程序的本身。

一个优秀的算法可以运行在比较慢的计算机上，但一个劣质的算法在一台性能很强的计算机上也不一定能满足应用的需要，因此，在计算机程序设计中，算法设计往往处于核心地位。

要想充分理解算法并有效地应用于实际问题，关键是对算法的分析。

通常可以利用实验对比分析、数学方法来分析算法。

实验对比分析很简单，两个算法相互比较，它们都能解决同一问题，在相同环境下，一般就会认为哪个算法的速度快这个算法性能更好。

并行算法

并行性条件数据相关性：流相关、反相关、输出相关相关性判别条件输入集合I1,I2, 输出集合U1,U2,
I1Λ U2=Φ ; I2Λ U1=Φ ; U1Λ U2=Φ ;
数据相关
• P1： A＝B+C • P2: D＝A×B
其中变量A是导致P1和P2发生数据相关的原因。
P1和P2不能并行执行
1)可并发执行的任务放在不同的处理器上，增强并行度 2)需要频繁通信的任务置于同一处理器上以提高局部性。 3)采用域分解技术，当分解算法复杂，工作量不一样，通信也许是非结构化的，此时需要负载平衡算法。 4)基于功能分解，会产生一些由短暂任务组成的计算，它们在开始与结束时需与别的任务协调，此时可采用任务调度算法。
假设 F(x)是D R n到D的一个映射, 要求解x* , 使得x*是方程F(x)=0的一个解.记F(x)的Jacobi矩阵为G(x)=F' ( x ), 对给定的初始值x (0) , 则Newton迭代法如下 : x (k+1) x (k) G 1 ( x (k) ) F ( x (k) ), k 0,..........
并行算法简介
解决方案中心高性能计算部姜金良
目录
并行算法基本概念并行算法分类并行化方法并行算法的一般设计方法并行算法的基本设计技术并行算法的一般设计过程并行程序设计方法并行编程模型
并行算法的概念
• 并行算法：是一些可同时执行的诸进程的集合，这些进程相互作
用和协调动作从而达到给定问题的求解。
• 同步和异步并行算法
同步并行算法需要在某一时刻需要与其它的处理机进行数据交换,然后才能继续进行.异步并行算法进行数据交换不需要严格确定在某一时刻,每个处理机按照预定的计算任务持续执行,但通常需要在一定的时候必须进行一次数据交换,以保证算法的正确性例:

(2024年)并行计算第并行算法的设计ppt课件

基因组学
运用并行计算技术加速基因序列的比对和分析，促进生物医学研究的发展。
28
工程仿真领域
01
流体动力学仿真
通过并行算法模拟流体的运动状态，以优化飞行器、汽车等交通工具的设计。
02
03
结构力学仿真
电磁场仿真
利用并行计算技术对建筑物、桥梁等结构进行力学分析和优化，提高工程安全性。
运用并行算法模拟电磁场的分布和传播，以改进电子设备和通信系统的性能。
高速互联网络
用于连接处理器和存储器，提供高带宽和低延迟的数据传输，保证并行计算的效率。
2024/3/26
5
并行计算的软件支持
并行编程模型
包括消息传递模型、数据并行模型和共享内存模型等，为并行计算提供抽象的编程接口。
并行编程语言
如MPI、OpenMP、CUDA等，这些语言提供对并行硬件的直接支持，使程序员能够方便地编写并行程序。
2024/3/26
并行最长公共子序列算法
通过并行处理多个子序列的比较和合并操作，加速最长公共子序列的求解过程。
并行最短编辑距离算法
将编辑距离的计算过程拆分成多个步骤，每个步骤可以在多个处理单元上并行执行，从而加快计算速度。
18
04
现代并行算法设计
2024/3/26
19
分布式并行算法
2024/3/26
11
并行算法的性能评价
加速比
衡量并行算法相对于串行算法的速度提升程度。
效率
衡量并行算法在给定资源下的性能表现。
2024/3/26
12
并行算法的性能评价
• 可扩展性：衡量并行算法在增加处理单元数量时的性能提升能力。

02_6并行算法设计

串行算法的直接并行化

方法描述

发掘和利用现有串行算法中的并行性，直接将串行算法改造为并行算法。由串行算法直接并行化的方法是并行算法设计的最常用方法之一；不是所有的串行算法都可以直接并行化的；一个好的串行算法并不能并行化为一个好的并行算法；许多数值串行算法可以并行化为有效的数值并行算法。
PCAM设计过程
问题划分
通信
组合
映射
划分
方法描述域分解功能分解划分判据

划分方法描述

充分开拓算法的并发性和可扩放性；先进行数据分解(称域分解)，再进行计算功能的分解(称功能分解)；使数据集和计算集互不相交；划分阶段忽略处理器数目和目标机器的体系结构；能分为两类划分：
w w w w 员工 w p p p ppp 经理 w

非集中模式
w
映射判据
采用集中式负载平衡方案，是否存在通讯瓶颈？采用动态负载平衡方案，调度策略的成本如何？

并行语言实现方式与难度
实现难度
提供并行库
扩充语法成分
新语言
CPU 2
h()
q()
r()
s()
2013-8-4
27
任务分解
CPU 1 g()
CPU 0 f()
CPU 2
h()
q()
r()
s()
2013-8-4
28
任务分解
CPU 1 g()
CPU 0 f()
CPU 2
h()
q()
r()
s()
2013-8-4
29
划分判据
划分是否具有灵活性？划分是否避免了冗余计算和存储？划分任务尺寸是否大致相当？任务数与问题尺寸是否成比例？功能分解是一种更深层次的分解，是否合理？

计算机编程并行计算基础知识了解并行计算的概念和并行算法

计算机编程并行计算基础知识了解并行计算的概念和并行算法计算机编程并行计算基础知识：了解并行计算的概念和并行算法计算机编程是一个广泛而深入的领域，而并行计算是其中一个重要的概念。

在本文中，我们将介绍并行计算的基础知识，包括并行计算的概念和并行算法。

一、并行计算的概念并行计算是指在多个处理器或计算机上同时执行多个计算任务的过程。

与之相反的是串行计算，即在单个处理器或计算机上依次执行计算任务。

并行计算可以提高计算速度和效率，特别适用于处理大规模的数据和复杂的计算任务。

并行计算的主要优点包括：1. 提高计算速度：通过同时执行多个计算任务，可以大大缩短计算时间。

2. 提高计算效率：通过充分利用多个处理器或计算机的计算资源，可以更有效地完成计算任务。

3. 处理大规模数据：并行计算可以处理大规模的数据集，例如在科学研究、数据挖掘和机器学习等领域中。

二、并行算法并行算法是一种针对并行计算环境设计的算法，旨在充分利用多个处理器或计算机的计算能力。

并行算法可以分为两种类型：数据并行和任务并行。

1. 数据并行：数据并行是指将数据划分为多个部分，在多个处理器或计算机上同时进行计算。

每个处理器独立计算自己的数据，并通过通信来共享必要的结果。

数据并行常用于矩阵乘法、图像处理和模拟等领域。

2. 任务并行：任务并行是指将计算任务划分为多个子任务，在多个处理器或计算机上同时进行计算。

每个处理器独立执行自己的子任务，并通过通信来协调和共享计算结果。

任务并行常用于解决复杂的问题，如搜索、优化和排序等。

并行算法的设计要考虑以下几个方面：1. 任务划分：将计算任务划分为适当的子任务，以利用并行计算环境的处理能力。

2. 数据通信：在并行计算过程中，不同处理器之间需要及时交换和共享计算结果。

3. 数据同步：在并行计算过程中，确保不同处理器之间的计算步骤能够同步进行，避免数据冲突和错误的计算结果。

三、并行计算的应用并行计算在各个领域都有广泛的应用。

并行计算第六章并行算法基本设计策略

并行计算第六章并行算法基本设计策略并行计算是指多个计算单元同时工作，以更快的速度完成复杂任务的计算机技术。

近年来，并行计算机体系结构不断的发展，使得许多复杂的计算任务可以在更短的时间内完成。

在开发并行计算系统时，第六章的算法设计策略可以帮助开发者设计出更有效的并行计算系统。

其中，最重要的要素是确定算法的合适划分方法，以及在这一划分方法下如何可以有效地处理节点间的通信。

首先，要考虑的是划分算法，也就是如何在不同的节点上实现算法的并行处理。

根据算法的不同性质，划分算法一般可以分为算术划分算法和数据划分算法两类。

算术划分算法是指将算法分解为一系列的步骤，并且可以将这些步骤分布到不同的节点上执行；而数据划分算法是指将输入数据拆分为若干个分片，然后将每个分片分别分发到不同的节点上。

其次，要考虑的是算法的通信策略。

在无线并行计算系统中，节点之间的通信消耗大量的时间和系统资源，因此传输数据的方式要符合算法的要求，以最大限度地减少系统的通信时间。

通常情况下，算法的通信策略可以分为同步模式和异步模式两种。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(p1=2) A2: 9 7
B 1: 2 4 5 6 A1: 1 3*
8(q1=6) B2: 10 12 13(q2=3) (p1=2) ...... ...... ...... ......
B1: 2 4 5* 6 7 8*(q1=6) A11: 1* A11:
B11: 2 3* B12: 4 5 6 7 8 A: B: 1 2 3 4 5 6 7 8 9 10 11
国家高性能计算中心（合肥） 2018/10/12 7
方根划分技术

示例: A={1,3,8,9,11,13,15,16},p=8; B={2,4,5,6,7,10,12,14,17},q=9
(1)(2)
B:
A:
1 2 1 2
3 4 3 4
8* 5* 8* 5*
9 6 9 6
11 7 11 7
13* 10* 13* 10*
输入：双调序列X=(x0,x1,…,xn-1) 输出：非降有序序列Y=(y0,y1,…,yn-1)
国家高性能计算中心（合肥）
2018/10/12
21
第六章并行算法的基本设计技术
6.1 划分设计技术 6.2 分治设计技术 6.3 平衡树设计技术 6.4 倍增设计技术 6.5 流水线设计技术
6.3 平衡树设计技术
国家高性能计算中心（合肥） 2018/10/12 19
双调归并网络
(4,4)双调归并网络
国家高性能计算中心（合肥）
2018/10/12
20
Batcher双调归并算法
双调归并网络
Procedure BITONIC_MERG(x) Begin (1)for i=0 to n/2-1 par-do (1.1) si=min{xi,xi+n/2} (1.2) li=max{xi,xi+n/2} end for (2)Recursive Call: (2.1)BITONIC_MERG(MIN=(s0,…,sn/2-1)) (2.2)BITONIC_MERG(MIN=(l0,…, ln/2-1)) (3)output sequence MIN followed by sequence MAX End

递归调用: 设 A,B 分成若干子段对为(p1,q1), (p2,q2),…… 则∑pi≤p, ∑qi≤q, 由 Cauchy 不等式＝>
pi qi
i i
p q pq k 综上，整个过程可用处理器数 k pq 完成。

pi qi

(2)时间分析
(f) 主元划分： 6 14 15 39 46 48 72 91 93 12 21 36 40 54 61 69 89 97 20 27 32 33 53 58 72 84 97
(g) 全局交换： 6 14 15 12 21 20 27 32 33 39 46 48 36 40 54 61 69 53 58 72 91 93 89 97 72 84 97
12 13
14 15 16
17
国家高性能计算中心（合肥）
2018/10/12
8

算法分析
方根划分技术
q － 1 ） p （ pq ＝k
(1)算法在并行递归过程中所需的处理器数≤ k pq
＝k ；段间比较: p q 比较对数≤ pq
段内比较:
划分方法
方根划分技术
pq
n个元素A[1..n]分成A[(i-1)n^(1/2)+1..in^(1/2)]，i=1~n^(1/2)
示例：SIMD-CREW模型上的 k
Valiant归并(1975年发表) //有序组A[1..p]、B[1..q], (假设p<=q), 处理器数 k pq
(h) 归并排序： 6 12 14 15 20 21 27 32 33 36 39 40 46 48 53 54 58 61 69 72 72 84 89 91 93 97 97
国家高性能计算中心（合肥） 2018/10/12
图6.1
5
6.1 划分设计技术
6.1.1 均匀划分技术 6.1.2 方根划分技术 6.1.3 对数划分技术 6.1.4 功能划分技术
6.2 分治设计技术
6.2.1 并行分治设计步骤 6.2.2 双调归并网络
并行分治设计步骤
将输入划分成若干个规模相等的子问题；同时(并行地)递归求解这些子问题；并行地归并子问题的解，直至得到原问题的解。
国家高性能计算中心（合肥）
2018/10/12
17
6.2 分治设计技术
6.2.1 并行分治设计步骤 6.2.2 双调归并网络
由(1)知算法中其他各步的时间为 O(1), 所以 Valiant 归并算法时间
pq
2018/10/12 9
6.1 划分设计技术
6.1.1 均匀划分技术 6.1.2 方根划分技术 6.1.3 对数划分技术 6.1.4 功能划分技术
划分方法
对数划分技术
n个元素A[1..n]分成A[(i-1)logn+1..ilogn]，i=1~n/logn
Begin (1) 功能划分：将A划分成g=n/m组，每组含m个元素； (2) 局部排序：使用Batcher排序网络将各组并行进行排序； (3) 两两比较：将所排序的各组两两进行比较，从而形成MIN序列； (4) 排序-比较：对各个MIN序列，重复执行第(2)和第(3)步，直至选出m个最小者。 End
2 记λ i 是第 i 次递归后的 A 组最大长度，＝> 0 p , i i 1 p
i

算法在 i 常数C 时终止递归，即 p
tk ( p, q) O(loglog p)
国家高性能计算中心（合肥）
2 i
常数C
＝> i loglog p 常数C1
双调归并网络
双调序列(p149定义6.2)
(1,3,5,7,8,6,4,2,0) (8,7,6,4,2,0,1,3,5) (1,2,3,4,5,6,7,8) 以上都是双调序列
Batcher定理
给定双调序列(x0,x1,…,xn-1), 对于si=min{xi,xi+n/2}和 li=max{xi,xi+n/2}，则小序列(s0,s1,…,sn-1)和大序列(l0,l1,…,ln-1) 仍是双调序列
国家高性能计算中心（合肥） 2018/10/12 11
6.1 划分设计技术
6.1.1 均匀划分技术 6.1.2 方根划分技术 6.1.3 对数划分技术 6.1.4 功能划分技术
划分方法
功能划分技术
n个元素A[1..n]分成等长的p组，每组满足某种特性。示例：(m, n)选择问题(求出n个元素中前m个最小者) 功能划分：要求每组元素个数必须大于m；算法：p148算法6.4 输入：A=(a1,…,an); 输出：前m个最小者；
begin (1)方根划分: A,B分别按 i p 和 j q 分成若干段（ i 1 ~ p 、 j 1 ~ q ）； (2)段间比较: A划分元与B划分元比较(至多 p q 对)，确定A划分元应插入B中的区段； (3)段内比较: A划分元与B相应段内元素进行比较，并插入适当的位置； (4)递归归并: B按插入的A划分元重新分段，与A相应段(A除去原划分元) 构成了成对的段组，对每对段组递归执行(1)~(3)，直至A 组为0时，递归结束; 各组仍按 k pq分配处理器； end.
第二篇并行算法的设计
第四章第五章第六章第七章并行算法的设计基础并行算法的一般设计方法并行算法的基本设计技术并行算法的一般设计过程
第六章并行算法的基本设计技术
6.1 划分设计技术 6.2 分治设计技术 6.3 平衡树设计技术 6.4 倍增设计技术 6.5 流水线设计技术
6.1 划分设计技术
6.1.1 均匀划分技术 6.1.2 方根划分技术 6.1.3 对数划分技术 6.1.4 功能划分技术
划分方法
均匀划分技术
n个元素A[1..n]分成p组，每组A[(i-1)n/p+1..in/p]，i=1~p
示例：MIMD-SM模型上的PSRS排序
begin (1)均匀划分：将n个元素A[1..n]均匀划分成p段，每个pi处理 A[(i-1)n/p+1..in/p] (2)局部排序：pi调用串行排序算法对A[(i-1)n/p+1..in/p]排序 (3)选取样本：pi从其有序子序列A[(i-1)n/p+1..in/p]中选取p个样本元素 (4)样本排序：用一台处理器对p2个样本元素进行串行排序 (5)选择主元：用一台处理器从排好序的样本序列中选取p-1个主元，并播送给其他pi (6)主元划分：pi按主元将有序段A[(i-1)n/p+1..in/p]划分成p段 (7)全局交换：各处理器将其有序段按段号交换到对应的处理器中 (8)归并排序：各处理器对接收到的元素进行归并排序 end.
11
15 12 15 12
16 14 16 14
(p2=2)
（ p 8,
p 3, p 2)
q 3,
17* （q 9,

q 3)
(3)
B:
A:
3
17*
A2: 15 B3: 14 ...... ...... ...... ...... 16 17
A1: 1
求最大值
算法6.8: SIMD-TC(SM)上求最大值算法
Begin
for k=m-1 to 0 do for j=2k to 2k+1-1 par-do A[j]=max{A[2j], A[2j+1]} end for P1 An/4 end for P1 An/2 An P2 An/2+1 An+3 P1 A1