1并行计算模型

合集下载

并行计算习题答案

并行计算——结构.算法.编程陈国良（第3版）2.1 对于一颗K 级二叉树（根为0级，叶为k-1级），共有N=2^k-1个节点，当推广至m-元树时（即每个非叶节点有m 个子节点）时，试写出总节点数N 的表达式。

答：推广至M 元树时，k 级M 元树总结点数N 的表达式为：N=1+m 1+m 2+...+m （k-1）=(1-m k )*1/(1-m);4.11 一个在p 个处理器上运行的并行程序加速比是p-1，根据Amdahl 定律，串行分量为多少?答：p/(1+f(p-1))=p-1, f=1/(p-1)25.5假定开始时P i (1《i 《n)存有数据 d i ，所谓累加求和是指用∑=i j i d 1，来代替中的原始值d i ，算法5.3给出了在PRAM 模型上累加求和算法。

Input: di are kept in Pi, whereOutput: replaces di in processor PiBeginfor j=0 to logn-1 dofor i=2j +1 to n par-do(i) di= d i + d i –2j(ii) Pi=diend forend forEnd(1）试用n=8为例子，按照上述算法逐步计算出累加和。

(2）分析算法的时间复杂度。

6.333215413 33 8240 727.2（1）例:A={1,3,6,8,11,13} p=6;B={2,4,5,7,10,12,14} ,q=7p=3, q=3A={1,3,6*,8,11,13*}B={2,4,5*,7,10 ,12*,14},B’={2,4,5,6*,7,10 12,13*,14}A11={1,3} , A12={8,11} , A13={} B11={2,4,5} , B12={7,10 12} , B13={14} A11={1,3*} , A12={8,11*} ,B11={2,4*,5} , B12={7,10* , 12} ,B11’={2, 3* , 4,5} , B12’={7,10 , 11* , 12} ,A111={1},A112={} A121={8},A122={}B111={2},B112={4,5} B121={7,10 },B122={12}A111={1 *} A121={8 *}B111={2 *} B121={7,10 * }B111’={1 *,2 } B121’={7, 8 *,10 }A1111={}, A1112={} A1211={}, A1212={}B1111={}, B1111={} B1211={7}, A1212={}6.7（1）pat = abaababa(m = 8)WIT[1] = 0，WIT[2] = 1，w=1,j=2,s=2-1+1=2 pat[w] = a pat[s]=bWIT[3] = 2，w=1,j=3,s=3-1+1=3 pat[w] = pat[s]=aw=2,j=3,s=3-1+2=4 pat[w] = b pat[s]=aWIT[4] = 4 w=1,j=4,s=4-1+1=4 pat[w] = pat[s]=aw=2,j=4,s=4-1+2=5 pat[w] = pat[s]=bw=3,j=4,s=4-1+3=6 pat[w] = pat[s]=aw=4,j=4,s=4-1+4=7 pat[w] = a pat[s]=b 为非周期串6.8 (2)p=6,q=9j=q-p+1=9-6+1=4w=wit[j]=wit[4]=4T(q+w-1)=t(9+4-1)=b<>P(4)=awit[q]= wit[9]=w=4duel=p=6。

组合优化问题算法的并行计算研究

组合优化问题算法的并行计算研究随着计算机科学和技术领域的不断发展和进步，人们能够解决的问题变得越来越复杂。

其中，组合优化问题一直是研究重点。

组合优化问题是求解最大或最小化问题的过程，它要求在一个给定的约束集合内找到一个最大值或最小值。

对于大规模的组合优化问题，串行计算是非常耗时的，而并行计算在解决这些问题上具有较好的优势。

一、组合优化问题简介组合优化问题是在一个有限集合内通过选择一个特定的子集或排列来解决问题的一类问题。

具体而言，这些问题被描述为：现有一组对象，如房屋、车辆或工作任务。

这些对象之间有一些限制或偏好条件，例如某些任务需要特定技能或者某些房屋不能够在同一个区域内出租。

组合优化问题的目标是找到最佳的子集或排列，以满足给定的条件。

组合优化问题可以分为两类：一个是独立决策问题，另一个是集合覆盖问题。

独立决策问题涉及到能够独立选择的对象或事项，而集合覆盖问题涉及到全部对象需要被至少一个特定的选择集合所覆盖。

具体而言，组合优化问题可以涉及到排课问题、航线计划问题、医院排班问题等。

二、组合优化问题的难点虽然组合优化问题看起来很简单，但实际上非常困难。

一个很小的问题就可能会有许多不同的解决方案。

一个更大的问题可能会有几百万、甚至数十亿个解决方案，从而使得计算非常困难或者不可行。

此外，组合优化问题还包含复杂性问题。

在计算复杂性理论中，组合优化问题属于 NP 难问题。

这意味着当前的最佳算法可能需要在有效执行时间内寻找可行的解决方案。

然而，这通常是不可能的。

因此，人们一直在寻找更好的算法来处理这些问题。

三、并行计算在组合优化问题中的应用并行计算是将一个大问题分解成多个小问题，并将它们分配到多个处理器上并行计算的过程。

在组合优化问题中，并行计算的应用已经变得越来越流行。

并行计算可以加快计算速度，从而节省时间和成本。

此外，它还允许大型数据集和处理规模变得可能。

在组合优化问题中，有许多方法可以实现并行计算，例如并行贪心算法、并行遗传算法、并行模拟退火算法等。

python多核并行计算示例1（工作太忙，仅仅作为记录）

python多核并⾏计算⽰例1（⼯作太忙，仅仅作为记录）1import math2import datetime3import multiprocessing as mp45# 调⽤ Python ⾃带的多进程库 Multiprocessing, 就可以进⾏多核并⾏计算67# 定义⽬标函数8def train_on_parameter(name, param):9 result = 010for num in param:11 result += math.sqrt(num * math.tanh(num) / math.log2(num) / math.log10(num))12return {name: result}131415if__name__ == '__main__':1617 start_t = datetime.datetime.now()1819# 核⼼数量: cpu_count() 函数可以获得计算机的核⼼数量。

20 num_cores = int(mp.cpu_count())21print("本计算机总共有: " + str(num_cores) + " 核⼼")2223# 进程池: Pool() 函数创建了⼀个进程池类，⽤来管理多进程的⽣命周期和资源分配。

24# 这⾥进程池传⼊的参数是核⼼数量，意思是最多有多少个进程可以进⾏并⾏运算。

25 pool = mp.Pool(num_cores)2627 param_dict = {'task1': list(range(10, 30000000)),28'task2': list(range(30000000, 60000000)),29'task3': list(range(60000000, 90000000)),30'task4': list(range(90000000, 120000000)),31'task5': list(range(120000000, 150000000)),32'task6': list(range(150000000, 180000000)),33'task7': list(range(180000000, 210000000)),34'task8': list(range(210000000, 240000000))}3536# 异步调度: apply_async() 是进程池的⼀个调度函数。

并行计算实验报告一

并行计算实验报告一江苏科技大学计算机科学与工程学院实验报告评定成绩指导教师实验课程:并行计算宋英磊实验名称:Java多线程编程学号: 姓名: 班级: 完成日期:2014年04月22日1.1 实验目的(1) 掌握多线程编程的特点;(2) 了解线程的调度和执行过程;(3) 掌握资源共享访问的实现方法。

1.2 知识要点1.2.1线程的概念(1) 线程是程序中的一个执行流,多线程则指多个执行流;(2) 线程是比进程更小的执行单位,一个进程包括多个线程;(3) Java语言中线程包括3部分:虚拟CPU、该CPU执行的代码及代码所操作的数据。

(4) Java代码可以为不同线程共享，数据也可以为不同线程共享; 1.2.2 线程的创建(1) 方式1:实现Runnable接口Thread类使用一个实现Runnable接口的实例对象作为其构造方法的参数，该对象提供了run方法，启动Thread将执行该run方法;(2) 方式2:继承Thread类重写Thread类的run方法;1.2.3 线程的调度(1) 线程的优先级, 取值范围1,10，在Thread类提供了3个常量，MIN_PRIORITY=1、MAX_ PRIORITY=10、NORM_PRIORITY=5;, 用setPriority()设置线程优先级，用getPriority()获取线程优先级; , 子线程继承父线程的优先级，主线程具有正常优先级。

(2) 线程的调度:采用抢占式调度策略，高优先级的线程优先执行，在Java 中，系统按照优先级的级别设置不同的等待队列。

1.2.4 线程的状态与生命周期说明:新创建的线程处于“新建状态”，必须通过执行start()方法，让其进入到“就绪状态”，处于就绪状态的线程才有机会得到调度执行。

线程在运行时也可能因资源等待或主动睡眠而放弃运行,进入“阻塞状态”,线程执行完毕，或主动执行stop方法将进入“终止状态”。

1.2.5 线程的同步--解决资源访问冲突问题(1) 对象的加锁所有被共享访问的数据及访问代码必须作为临界区，用synchronized加锁。

并行处理与体系结构

所设计的结点体系结构允许使用不同的通信体系结构(例如以太网或HPS)。
通信协议独立于通信硬件：如以太网或HPS，都允许使用标准IP协议或IBM 专用用户空间协议。
哈尔滨工业大学计算机科学与技术学院
33
例题： MPI及超立方体计算机
消息传递接口(MPl)是使用少量独立(正交)语言特征的佳例。
随着附加处理器的增多，系统性能会有多大改进。
哈尔滨工业大学计算机科学与技术学院
14
例如，假定一个有n个处理器的系统，作数据库服务器用
它拥有美国人口数据库，通常有100位美国科学家查询，其性能为每秒1000个事务处理(TPS)。
现在如果我们将处理器数加倍成2n，能期望速度有多少改进?期望是多少？
所增加的资源中，处理器最为常见；也可能是存储器容量和I／O容量。
哈尔滨工业大学计算机科学与技术学院
15
（2）问题规模可扩展性
是指系统在处理更大数据量和工作负载的更大求解问题时其性能如何。
例如：仍以上述的数据库服务器为例，如果该服
务器上装有中国人口的数据库，则此服务器的服务质量将会如何? 注意到此数据库的大小已增至原来的5
实际系统总有一个最大存储器容量的上限。例如：
IBM SP2中的每个结点最多可容纳2GB 存储器；
CrayT3D为64MB。
哈尔滨工业大学计算机科学与技术学院
12
（3）软件可扩展性
包括：
操作系统的一个新版本，它具有更多功能性，如多线程，从而可支持更多的用户进程，更大的地址空间以及更高效的内核功能等。
哈尔滨工业大学计算机科学与技术学院64哈尔滨工业大学计算机科学与技术学院65哈尔滨工业大学计算机科学与技术学院666419哈尔滨工业大学计算机科学与技术学院67哈尔滨工业大学计算机科学与技术学院68例如高位存储器扩充存储器和扩展存储器哈尔滨工业大学计算机科学与技术学院69考虑到代的可扩展性ibmrs6000smp作了过度设计第一代的smp基于powerpc601处理器

并行计算中的数据并行技术分析

并行计算中的数据并行技术分析随着计算机技术的不断发展和进步，人们对处理大规模数据的需求也越来越迫切。

并行计算技术应运而生，成为解决大规模数据处理问题的有效手段之一。

其中，数据并行技术是一种重要的并行计算技术，可以充分利用计算机系统中的多个计算单元，同时处理大规模的数据集。

在并行计算中的数据并行技术中，数据被划分成多个较小的部分，这些部分被同时发送到不同的计算节点上，每个节点负责处理其中的一部分数据。

这种并行处理方式具有以下几个优点。

首先，数据并行技术可以充分利用多个计算节点的计算能力。

通过将数据划分成多个部分，每个计算节点都可以独立地处理自己负责的数据部分，从而实现了并行处理。

这样，可以大大提高数据的处理速度和计算的效率。

其次，数据并行技术可以有效解决大规模数据的存储和传输问题。

在数据并行处理过程中，数据被划分成多个部分，并且分散存储在不同的计算节点上。

这样一来，不仅可以避免单个计算节点存储大规模数据的压力，还可以通过并行传输技术将数据块同时发送到各个计算节点上，加快数据传输速度，提高数据访问效率。

另外，数据并行技术还能够提高系统的可扩展性和容错性。

由于数据被划分成多个部分并分布在不同的计算节点上，因此系统可以根据需要增加或减少计算节点的数量，进而实现系统规模的扩展。

同时，由于数据并行处理具有分布式特点，即使某个计算节点发生故障，其他节点仍然可以继续处理分配给它们的数据部分，保证了整个系统的容错性。

在使用数据并行技术进行并行计算时，需要考虑如何进行数据的划分和分配，以及对数据的处理方式。

首先，数据的划分和分配需要根据具体的应用需求和系统架构进行决策。

一般来说，可以按照数据的纵向划分和横向划分两种方式进行。

纵向划分是将数据划分为多个子集，每个子集包含不同的属性或特征，用于不同的计算节点进行处理；横向划分是将数据划分为多个子集，每个子集包含相同的属性或特征，但不同的数据对象，用于不同的计算节点进行处理。

操作系统第1阶段测试题

江南大学现代远程教育第一阶段测试卷考试科目:《操作系统》第1章至第4章（总分100分）时间：90分钟______________学习中心（教学点）批次：层次：业余专业：学号：身份证号：姓名：得分：一、名词解释（15分）1、多道程序设计2、分时技术3、操作系统虚拟机4、程序的顺序执行5、程序的并发执行二、存储式计算机的主要特点是什么？（5分）三、为什么在单道程序工作情况下，I/O设备和中央处理机的并行操作是有限度的？（5分）四、什么是与时间有关的错误？试举一例说明之。

（6分）五、批处理、分时、实时操作系统的特点各是什么？（6分）六、什么是进程同步、进程互斥？这两个概念有什么联系与区别？（8分）七、中断和俘获有什么不同?（5）八、操作系统的主要特征是什么？为什么会有这样的特征？（6）九、什么是进程？进程与程序的主要区别是什么？（6分）十、用户与操作系统的接口是什么？（6分）十一、如图所示，有五个进程合作完成某一任务，试用P、V操作实现同步，要求写出程序描述。

（10分）p4p2十二、如图所示，get、copy、put三进程共用两个缓冲区s、t（其大小为每次存放一个记录）。

get进程负责不断地把输入记录送入缓冲区s中，copy进程负责从缓冲区s中取出记录复制到缓冲区t中，而put进程负责把记录从缓冲区t中取出打印。

试用p、v操作实现这三个进程之间的同步，并写出程序描述。

（10分）十三、选择、填空（12分）1、采用多道程序设计后，可能（）。

A、缩短对用户请求的响应时间B、降低了系统资源的利用率C、缩短了每道程序执行时间D、延长了每道程序执行时间2、并发进程中与共享变量有关的程序段称为___________。

3、为避免用户程序中使用特权指令，计算机硬件结构区分两种操作模式，即____________和_____________。

4、一次仅允许一个进程使用的共享资源称为_______。

每个进程中访问临界资源的那段程序称为_______。

哈工大并行计算第一章PPT课件

26
脉动阵列的特点：
处理单元简单流水算法专业
27
例：数据流计算机数据流的计算模型--试图使并行计算的
基本方面在机器层显式化，而不利用有可能限制程序并行性的人为约束。
它的想法是程序由一个基本数据依赖图来表示；
一个指令可能在获得了它的操作数后的任意时刻被执行，不是显式控制线性程序列的固定组合。
22
2.Flynn分类法 MkhealFlynn(1972)根据指令和数据流概念提出了不同计算机系统结构的分类法。
23
24
传统的顺序机被称为SISD(单指令流单数据流)计算机。
向量计算机--标量和向量硬件装备，或以SIMD(单指令流多数据流)机的形式出现。
并行计算机则属MIMD(多指令流多数据流)机
并行处理与体系结构
联系方式：综合楼220 电话：
1
课程背景
并行处理技术已经成为现代计算机科研与发展的关键技术；
其推动力来自实际应用对高性能、低价格和持续生产力日益增长的要求
2
计算机原理的概念计算机体系结构的概念 (Amdahl)；
3
并行主要研究：
先行方式、流水方式、向量化；并发性、同时性；数据并行性、划分；交叉、重叠、多重性、重复；时间共享、空间共享；多任务处理、多道程序、多线程
存在一些有效的方法：
将编译器命令插入源代码，帮编译器做出较好的结果。这样，用户可与编译器进行交互重构程序，这已被证明对提高并行计算机性能是十分有用的。
16
7.并行程序的设计环境
隐式并行性
伊利诺依大学的David Kuck和Rice大学的KenKennedy以及他们的合作者都已采用这种隐式并行性方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

( 4)计算Pi 中粒子j 和共享单元中粒子k 之间的作用力, 并且累加; 这里 u=[( i+k)%P]×(N/P) +1; i=0 k=1 u=[(0+1)%4]×N/P+1=N/p+1 k=2 u= [(0+2)%4]×N/P+1=2N/p+1 k=3 u= [(0+3)%4] × N/P+1=3N/p+1 N/P个粒子之间的受力（5 ）处理本处理机因此，P0号处理器读取共享存储器的顺序为s1,s2,s3 同理，P1号读取顺序为s2,s3,s0；P2号读取顺序为s3,s0,s1； P3号读取顺序为s0,s1,s2
P个处理器各自负责计算N/P个粒子的受力以及对这些粒子的状态进行更新。因为SM因此不考虑通讯。假设：N=16 P=4

1~N/P 1~4 P0 N/P
2N/P+1~3N/P 3N/P+1~4N/P N/P+1~2N/P 5~8 9~12 13~16 P1 P2 P3 N/P 1~16 1~N N/P N/P
BSPLogP：BSP块同步BSP子集同步 BSP进程对同步＝LogP

LogP模型上设计的算法和BSP模型上相似，只是算法不再有超级步的概念。所有的进程异步地执行，通过消息传递显示地同步，处理器接收到消息后可以立即在后面计算中使用，充分利用了处理器的计算资源. 优缺点捕捉了MPC的通讯瓶颈，隐藏了并行机的网络拓扑、路由、协议，可以应用到共享存储、消息传递、数据并行的编程模型中；但难以进行算法描述、设计和分析。
算法1.2 PRAM模型上N 体问题求解并行算法
Begin ( 1) 每个处理器读入N/P 个粒子的初始信息 ( 2)For all Pi Where i∈[0, P- 1] Par- Do For j=i×N/P+1 to ( i+1) ×N/P Do
For k=1 to N Do
If j≠k Then 计算粒子k 对粒子j 的作用力, 并且累加; Endif //k 共享存储器中的N个粒子 Endfor Endfor 原来串行算法的计算量平 Endfor 均分配给P个处理器。因此
Barrier; /* 实施路障同步*/ Endfor Endfor

第（4）步处理本处理机与共享单元中粒子之间的受力。其中计算某个粒子N-1个受力时，有(P-1)×N/P个要从共享单元中读取。

( 5) For all Pi Where i∈[0, P- 1] Par- Do 计算Pi 中N/P 个粒子间的作用力, 并且累加; Endfor ( 6) For all Pi Where i∈[0, P- 1] Par- Do For j=1 to N/P
并行处理及体系结构
实践部分

联系方式：信息科学与工程学院计算机系信息馆413 王璿 E-mail: wangxuan@ 研究方向：并行计算、生物计算

主要参考文献

1 陈国良等编著《并行算法实践》2004年高等教育出版社 2. Bary Wilkinson著陆鑫达译《并行程序设计》 2002年机械工业出版社 3.Calvin Lin等著，陆鑫达译《并行程序设计原理》 2009年机械工业出版社 4.Brian Goetz等著，《Java并发编程实战》 2012 机械工业出版社

为了达到将问题的并行求解算法转化为特定的适合并行计算模型的并行算法的目的。需要解决两方面的问题：首先是问题的并行求解算法必须能够将问题内在的并行特征充分体现出来，否则并行求解算法将无法利用这些并行特征，从而使问题的高效并行求解成为不可能；其次是并行求解模型要和并行计算模型尽量吻合，这样，就为问题向并行机上的高效解决提供了前提。
根据牛顿定律, 用( 5) 中计算出的粒子j 受到的力, 更新粒子j的状态信息

Endfor Endfor
第（5）步处理本处理机N/P个粒子之间的受力。其中计算某个粒子N-1个受力时，有N/P个从本地存储单元中读取。
根据第4和5步，每个处理器的计算时间仍为O(N2/P)。但第4步中，每个处理器异步读写全局存储器，令全局读写开销为d。计算某个粒子N-1个受力时，有(P1)×N/P个要从共享单元中读取，则需要时间为d× (P1)×N/P。因此算法复杂度为 O(N2/P)+d ×N
1.2 异步APRAM模型

基本概念

又称分相（Phase）PRAM或MIMD-SM。每个处理器有其局部存储器、局部时钟、局部程序；无全局时钟，各处理器异步执行；处理器通过SM进行通讯；处理器间依赖关系，需在并行程序中显式地加入同步路障。
计算过程：由同步障分开的全局相组成

计算时间设局部操作为单位时间；全局读/写平均时间为d， d随着处理器数目的增加而增加；同步路障时间为B=B(p)非降函数。满足关系令 t ph为全局相内各处理器执行时间最长者，则 APRAM上的计算时间为

（1）L(Latency) 表示源节点与接收节点进行消息传递所需要的等待或延迟时间的上限。（2）o(overhead) 处理器发送或接收一个消息所需的处理时间开销。（3）g(gap) 表示一台处理机连续两次发送或接收消息时的最小时间间隔，其倒数即每个处理器的有效通信带宽。（4）P(Processor) 处理机/存储器模块个数
1 并行计算模型

什么是并行计算模型？并行计算模型是并行计算机基本特征的抽象。并行计算模型从并行计算机中抽取若干个能够反映计算特征的可以计算或者可以测量的参数，按照模型所定义的计算行为构造成本函数，从而进行算法的性能分析，是算法设计和分析的基础。
用户 —编程模型 —计算模型 —体系结构模型系统
实例：四种并行计算模型上N体问题求解算法

N体问题及其串行算法 N 体问题可以描述如下: 在一定的物理空间中, 分布有 N个粒子, 每对粒子间都存在相互作用力( 如万有引力、库仑力等) 。它们从一个初始的状态开始, 每隔一定的时间步, 由于粒子间的相互作用, 粒子的状态会有一个增量, 需要对粒子的加速度、速度、位置信息进行更新。下面给出N 体问题的串行算法。
T t ph B 同步障次数
优缺点：易编程和分析算法的复杂度，但与现实相差较远，其上并行算法非常有限，也不适合MIMD-DM模型。
回顾：分布式存储多处理机模型
1.3 BSP模型

基本概念

由Valiant(1990)提出的，其含义为“块”同步模型，是一种异步MIMD-DM模型，支持消息传递系统。块内异步并行，块间显示同步。
问题的并行求解过程

一个物理问题并行求解的最终目的是将该问题映射到并行机上，这一物理上的映射是通过不同层次上的抽象映射来实现的。

在并行机上求解问题，首先要写出求解问题的并行算法。并行算法是在并行计算模型上设计出来的，而并行计算模型是从不同的并行计算机体系结构模型中抽象出来的。然后，根据并行算法进行并行程序设计。
结构图
回顾：共享存储的多处理机模型
PRAM模型特点
优点：适合并行算法表示和复杂性分析，易于使用，隐藏了并行机的通讯、同步等细节。缺点：不适合MIMD并行机，忽略了SM的竞争、通讯延迟等因素
PRAM 模型是同步的，因此，所有的指令都按照锁步的方式模型中使用了一个全局共享存储器，且局存容量较小， PRAM模型假设了每个处理器可在单位时间访问操作，用户虽然感觉不到同步的存在，不足以描述分布主存多处理机的性能瓶颈，共享存储器的任一单元，因此要求处理机间通信无延迟、但同步的存在的确很耗费时间，而且共享单一存储器的假定，无限带宽和无开销，略去了实际存在而且不能反映现实中很多系统的异步性显然不适合于分布存储结构的 MIMD机器比如资源竞争和有限带宽，这是不现实的
—机器模型
1.1 PRAM模型
（ Parallel Random Access Machine ）

又称为SIMD-SM模型（共享存储的SIMD）。由Fortune和 Wyllie1978年提出。有一个集中的共享存储器和一个指令控制器，通过SM的R/W交换数据，隐式同步计算。在 PRAM中有一个同步时钟，所有操作都是同步进行的。
1.4 LogP模型

基本概念由Culler(1993)年提出的，是一种分布存储的、点到点通讯的多处理机模型，其中通讯由一组参数描述，实行隐式同步。模型参y o：communication overhead g：gap=1/bandwidth P：#processors 注：L和g反映了通讯网络的容量

模型参数
● p: 处理器数(带有存储器） ● g: 路由器吞吐率（也称为带宽因子 1/bandwidth）处理器模块之间点对点传递消息的路由器； ● L: 同步障时间全局同步之间的时间间隔；

计算过程由若干超级步组成，每个超级步计算模式为右图优缺点强调了计算和通讯的分离，提供了一个编程环境，易于程序复杂性分析。但需要显式同步机制，限制至多h条消息的传递等。
//粒子j 各处理器中的N/P个粒子
算法复杂度为O(N2/P)
( 3) For all Pi Where i∈[0, P- 1] Par- Do For j=i×N/P+1 to ( i+1) ×N/P Do 根据牛顿定律, 用( 2) 中计算出的粒子j 受到的力更新粒子j 的状态信息 Endfor Endfor

For l=1 to N/P Do //l 共享单元中其他处理器中的N/P个粒子 u=[( i+k)%P]×(N/P) +1; 计算Pi 中粒子j 和共享单元中粒子k 之间的作用力, 并且累加; //u 防止多个处理器同时读取同一个共享单元，每 Endfor 个处理器对共享单元中读取顺序不同。 Endfor