并行计算基础知识

合集下载

简单分布式与并行计算

简单分布式与并行计算
计算机系统中的分布式和并行计算是当前研究的热点与趋势。

分布式系统将计算任务分摊到多个计算节点进行,提高整体系统的计算能力。

而并行计算则利用多核和等设备内的并行来加速单任务的计算速度。

在简单情况下,我们可以使用一个基于消息传递的简单分布式计算模型。

该模型将原始计算任务拆分成多个可独立运行的子任务,这些子任务分布到不同的计算节点上进行。

每个节点执行完毕后会返回结果。

主节点负责协调,收集各子节点的计算结果,并进行汇总输出最终结果。

这种模型的好处是计算容量可以伸缩。

随着节点数量的增加,整体系统的计算能力也线性增长。

它还具有很好的弹性,单个节点故障后不会影响整体任务运行。

但是,它也存在通信开销较大,汇总结果比较耗时等问题。

在单节点级并行计算方面,我们可以利用多核或硬件设备来实现简单的任务并行。

例如进行大量独立计算的循环可以很容易利用或进行数据并行计算加速。

这种模型利用硬件层面的并行能力,能有效提升单节点计算能力。

以上涵盖了简单分布式和并行计算的两个基本模型。

它们在一定程度上已经能很好地解决一些简单问题。

不过在大规模和复杂场景还
需要更先进的计算方法,如参数服务器、数据流计算等。

未来计算机的研究将探索这些高级模型,以应对疑难问题。

云计算-知识点

1 云计算的计算模式为（B/C ）。

2( 分布式)是公有云计算基础架构的基石。

3（虚拟化)是私有云计算基础架构的基石.4（并行计算）是一群同构处理单元的集合，这些处理单元通过通信和协作来更快地解决大规模计算问题5（集群)在许多情况下，能够达到99。

999%的可用性.6 网格计算是利用（因特网）技术,把分散在不同地理位置的计算机组成一台虚拟超级计算机。

7 B/S网站是一种（3层架构）的计算模式。

8 云计算就是把计算资源都放到上( 因特网）。

9（云用户端）提供云用户请求服务的交互界面，也是用户使用云的入口，用户通过Web浏览器可以注册、登录及定制服务、配置和管理用户.打开应用实例与本地操作桌面系统一样.10（服务目录）帮助云用户在取得相应权限（付费或其他限制)后可以选择或定制的服务列表，也可以对已有服务进行退订的操作,在云用户端界面生成相应的图标或列表的形式展示相关的服务.11( 管理系统和部署工具）提供管理和服务,能管理云用户，能对用户授权、认证、登录进行管理，并可以管理可用计算资源和服务，接收用户发送的请求,根据用户请求并转发到相应的相应程序，调度资源智能地部署资源和应用,动态地部署、配置和回收资源。

12( 监控端)监控和计量云系统资源的使用情况，以便做出迅速反应，完成节点同步配置、负载均衡配置和资源监控,确保资源能顺利分配给合适的用户。

13（服务器集群）提供虚拟的或物理的服务器，由管理系统管理，负责高并发量的用户请求处理、大运算量计算处理、用户Web应用服务，云数据存储时采用相应数据切割算法采用并行方式上传和下载大容量数据.14用户可通过( 云用户端）从列表中选择所需的服务，其请求通过管理系统调度相应的资源，并通过部署工具分发请求、配置Web应用.15 在云计算技术中,（中间件）位于服务和服务器集群之间，提供管理和服务即云计算体系结构中的管理系统。

16虚拟化资源指一些可以实现一定操作具有一定功能，但其本身是（虚拟)的资源，如计算池,存储池和网络池、数据库资源等，通过软件技术来实现相关的虚拟化功能包括虚拟环境、虚拟系统、虚拟平台。

计算空气动力学并行编程基础

计算空气动力学并行编程基础空气动力学是研究空气对运动物体的作用和运动物体对空气的作用的学科。

在过去的几十年里，计算空气动力学已经成为了航空航天、汽车工程、风力发电等领域中不可或缺的一部分。

随着计算机性能的不断提升，空气动力学模拟已经成为了研究和开发新产品的重要手段。

然而，由于空气动力学计算的复杂性，传统的串行计算方式已经无法满足实际应用的需求。

因此，并行计算已经成为了空气动力学研究中的关键技术。

并行计算是一种将任务分解为多个部分，然后让不同的处理器同时处理这些部分的计算方法。

通过并行计算，可以大大降低计算时间，提高计算效率。

在空气动力学中，常见的并行计算思想有以下几种：1.基于数据的并行计算：该方法将数据分成多个部分，不同的处理器同时对这些数据进行计算。

这种方法适用于计算量大、独立性强的问题。

例如，对于流体力学问题，可以将流场网格划分为多个子域，不同的处理器对各个子域进行计算。

2.基于任务的并行计算：该方法将任务分成多个部分，不同的处理器同时处理这些任务。

这种方法适用于计算量大、相互依赖性高的问题。

例如，对于空气动力学中的求解方程问题，可以将方程分成多个部分，不同的处理器分别求解这些方程。

3.混合并行计算：该方法将基于数据和基于任务的并行计算结合起来。

这种方法适用于需要兼顾计算负载平衡和通信开销的问题。

例如，在计算流体力学中，可以将网格划分为多个子域，并行地求解每个子域中的方程。

为了实现空气动力学的并行计算，需要使用并行编程技术。

常见的并行编程技术包括：1.线程级并行编程：通过使用多线程，将任务分配给不同的处理器核心进行计算。

线程级并行编程在计算密集型任务中效果较好，可以充分利用多核心处理器的性能。

2.指令级并行编程：通过使用单指令多数据（SIMD）指令，将同一指令同时应用于多个数据元素，从而实现并行计算。

指令级并行编程适用于数据并行的任务，如向量运算。

3.进程级并行编程：通过将任务分配给多个进程，利用多台计算机进行计算。

并行程序设计导论(精品)

云计算与分布式系统
如服务器集群、负载均衡、分布式数据库等。
并行计算体系结构
共享内存体系结构
多个处理器共享同一物理内存，通过锁或原子操作实现内存访问同步。
分布式内存体系结构
每个处理器拥有独立的局部内存，处理器之间通过消息传递进行数据交换。
混合体系结构
结合共享内存和分布式内存的特点，通常在分布式内存系统中引入共享内存的概念，以提高数据访问效率。
力。
GPU架构
GPU采用众核架构，拥有成千上万个核心，每个核心都能独立处理任务，实现高度并行化计算。
GPU内存模型
GPU内存分为全局内存、共享内存、纹理内存等，不同类型的内存具有不同的访问速度和用途。
GPU编程模型介绍
01
CUDA编程模型
02
OpenCL编程模型
CUDA（Compute Unified Device Architecture）是NVIDIA推出的并行计算平台和编程模型，允许开发者使用 C/C语言编写GPU程序。
集群与网格计算
利用高速网络将一组计算机连接起来，共同解决大型计算问题。集群中的计算机可以是同构或异构的，网格计算则强调资源的广泛共享和协同工作。
02
并行程序设计基础
并行算法设计思想
分治策略
将大问题分解为多个小问题，分别求解，最后将结果合并。
平衡负载
将任务均匀分配到各个处理单元，避免某些处理单元过载。
并行编程模型与语言
为了降低并行编程的难度，提高开发效率，未来将会出现更多高级、易用的并行编程模型和语言。这些模型和语言将隐藏底层硬件细节，使程序员能够更专注于问题本身。
未来研究方向与挑战
并行程序的性能分析与优化

计算机体系结构向量处理基础知识详解

计算机体系结构向量处理基础知识详解在计算机科学领域中，向量处理是一种重要而广泛使用的技术，它在数据处理和科学计算中发挥着举足轻重的作用。

本文将对计算机体系结构中的向量处理进行详细的介绍与解析。

一、基础概念1. 向量处理的定义向量处理是一种通过向量单元来执行并行运算的技术。

在向量处理中，多个数据元素被打包成向量，然后同时在向量单元中进行计算。

2. 向量与标量的对比在计算机科学中，向量是一种具有相同数据类型的一组数据元素，可以进行并行计算。

而标量则是单个数据元素，只能进行串行计算。

二、向量处理的特性1. 数据并行性向量处理具有数据并行性，即同时对多个数据元素进行操作。

向量指令一次执行多个操作，大大提高了计算效率。

2. 向量长度与向量单元向量长度是指向量中包含的数据元素个数。

常见的向量长度包括128位、256位和512位等。

向量单元是执行向量操作的硬件单元，其功能主要包括向量寄存器、向量指令和向量乘加器等。

三、向量指令集1. 向量指令的分类向量指令可以分为数据移动指令、数据计算指令和逻辑控制指令三类。

2. 数据移动指令数据移动指令用于将数据从内存加载到向量寄存器，或者将向量寄存器中的数据存储到内存中。

3. 数据计算指令数据计算指令是向量处理中最核心的指令类型，包括向量加法、向量乘法、向量除法等。

这些指令能够快速执行向量级别的数据运算。

4. 逻辑控制指令逻辑控制指令用于实现条件判断、循环控制等逻辑操作。

这些指令可以根据条件改变程序的执行流程。

四、向量处理的应用1. 科学计算领域向量处理在科学计算领域中被广泛应用，例如在物理模拟、气候模拟、遗传算法等计算密集型任务中，向量处理能够大幅提升计算效率。

2. 图像和视频处理向量处理也在图像和视频处理领域有着重要的应用。

通过对图像和视频数据进行向量化处理，可以实现高效的图像处理和视频压缩等任务。

3. 人工智能与深度学习近年来，人工智能和深度学习的快速发展对计算性能提出了更高的要求。

计算机基础知识理解计算机中的并行计算和多核处理器

计算机基础知识理解计算机中的并行计算和多核处理器在计算机科学领域中，计算机的性能提升一直是一个重要的研究方向。

而并行计算和多核处理器技术的引入为计算机性能的提升带来了重要的突破。

一、并行计算的概念和原理并行计算是指在同一时间内，多个任务可以同时进行，从而提高计算效率。

这是通过将一个问题拆分为多个子问题，并使用多个处理单元同时处理，最后再将各个子问题的结果进行合并得到最终解决方案。

并行计算的原理包括任务并行和数据并行。

任务并行是指将一个任务划分为多个子任务，然后由不同的处理单元分别处理，最后通过数据通信和同步机制进行结果的合并。

数据并行是指将同一个任务的数据划分为多个部分，然后由多个处理单元并行处理各自的数据，最后将结果进行合并。

二、多核处理器的介绍和原理多核处理器是指在一个芯片上集成了多个处理核心的处理器。

与传统的单核处理器相比，多核处理器能够并行地执行多个任务，从而提高系统的整体性能。

多核处理器的原理是将计算密集型的任务分配给不同的处理核心进行处理，而将串行和通信密集型的任务交给专门的处理核心进行处理。

多核处理器有两种形式：对称多处理器（SMP）和异构多处理器（AMP）。

在SMP架构中，每个处理核心都是相同的，并且共享同一片内存和总线。

而在AMP架构中，每个处理核心可以具有不同的性能和特点，它们可以独立地运行不同的任务。

三、并行计算和多核处理器的应用并行计算和多核处理器技术在各个领域都有着重要的应用。

在科学计算领域，它们被广泛应用于模拟和仿真、大规模数据处理和分析等任务。

在人工智能领域，它们被用于深度学习和机器学习算法的训练和推理。

在图像和视频处理领域，它们被应用于图像处理、视频编解码等任务。

并行计算和多核处理器技术还在云计算和大数据领域有着重要的应用。

通过将大规模的计算任务分配给多个处理核心并行处理，可以加快任务的执行速度，提高系统的负载均衡和资源利用率。

同时，多核处理器技术还能够提供更好的响应时间和性能预测能力，使得云计算和大数据系统能够更加高效地运行。

并行计算基础知识

并行计算基础知识在计算机科学领域中，随着计算需求的增加和任务的复杂化，人们开始寻找更高效的计算方式。

并行计算作为一种重要的计算模式，在多个处理单元同时进行计算操作，大大提高了计算速度和效率。

本文将介绍并行计算的基础知识，包括并行计算的定义、分类、应用领域以及相关技术等。

一、并行计算的定义和分类并行计算是指通过将一个计算问题划分为多个子问题，并在多个处理单元上同时进行计算操作，从而加快计算速度的一种计算方式。

与之相对的是串行计算，即按照顺序逐一执行计算任务的方式。

根据并行计算的规模和任务划分方式，可以将并行计算分为以下三种分类：1. 指令级并行计算：该种并行计算方式主要是对计算机中的单个指令进行并行处理，即同时执行多个指令操作。

它通过优化处理器的执行流水线、指令突发处理等技术实现加速。

2. 数据级并行计算：该种并行计算方式主要是对大规模的数据集进行划分，将数据分配给多个处理单元同时进行计算操作，最终将各个处理结果进行合并得到最终结果。

这种方式主要用于解决一些数据密集型的计算问题，如图像处理、数据挖掘等。

3. 任务级并行计算：该种并行计算方式是将一个复杂的计算任务划分为多个子任务，并将不同的子任务分配给不同的处理单元进行计算。

各个处理单元之间通过通信来交换计算结果或者协同工作，最终得到整体的计算结果。

这种方式主要用于解决一些计算复杂度高、任务独立的问题，如天气预报、分布式数据库查询等。

二、并行计算的应用领域并行计算广泛应用于各个领域，尤其是那些需要大规模计算和高性能计算的领域。

以下是几个常见的应用领域：1. 科学计算：并行计算在科学计算领域发挥着重要作用，能够加速复杂的数值计算和模拟实验，例如天气预报、地震模拟、宇宙学研究等。

2. 人工智能：并行计算可以加速机器学习、神经网络训练等人工智能任务，提高算法的训练效率和模型的准确性。

3. 数据分析：对于大规模数据的处理和分析，通过并行计算可以提高数据处理的速度和效率，如数据挖掘、图像处理、自然语言处理等。

计算机编程并行计算基础知识了解并行计算的概念和并行算法

计算机编程并行计算基础知识了解并行计算的概念和并行算法计算机编程并行计算基础知识：了解并行计算的概念和并行算法计算机编程是一个广泛而深入的领域，而并行计算是其中一个重要的概念。

在本文中，我们将介绍并行计算的基础知识，包括并行计算的概念和并行算法。

一、并行计算的概念并行计算是指在多个处理器或计算机上同时执行多个计算任务的过程。

与之相反的是串行计算，即在单个处理器或计算机上依次执行计算任务。

并行计算可以提高计算速度和效率，特别适用于处理大规模的数据和复杂的计算任务。

并行计算的主要优点包括：1. 提高计算速度：通过同时执行多个计算任务，可以大大缩短计算时间。

2. 提高计算效率：通过充分利用多个处理器或计算机的计算资源，可以更有效地完成计算任务。

3. 处理大规模数据：并行计算可以处理大规模的数据集，例如在科学研究、数据挖掘和机器学习等领域中。

二、并行算法并行算法是一种针对并行计算环境设计的算法，旨在充分利用多个处理器或计算机的计算能力。

并行算法可以分为两种类型：数据并行和任务并行。

1. 数据并行：数据并行是指将数据划分为多个部分，在多个处理器或计算机上同时进行计算。

每个处理器独立计算自己的数据，并通过通信来共享必要的结果。

数据并行常用于矩阵乘法、图像处理和模拟等领域。

2. 任务并行：任务并行是指将计算任务划分为多个子任务，在多个处理器或计算机上同时进行计算。

每个处理器独立执行自己的子任务，并通过通信来协调和共享计算结果。

任务并行常用于解决复杂的问题，如搜索、优化和排序等。

并行算法的设计要考虑以下几个方面：1. 任务划分：将计算任务划分为适当的子任务，以利用并行计算环境的处理能力。

2. 数据通信：在并行计算过程中，不同处理器之间需要及时交换和共享计算结果。

3. 数据同步：在并行计算过程中，确保不同处理器之间的计算步骤能够同步进行，避免数据冲突和错误的计算结果。

三、并行计算的应用并行计算在各个领域都有广泛的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一个程序同时启动多份, 形成多个独立的进程，在不同的处理机上运行，拥有独立的内存空间，进程间通信通过调用 MPI函数来实现；
SPMD模式：单程序多数据流模式：模式
可执行代码运行复制多份并独立执行，形成多个独立的进程
进程一（内存）存内（二程
ቤተ መጻሕፍቲ ባይዱ
进
进程三（内存）
可并行处理
如何将串行程序改为并行
为理解创建一个并行程序中的步骤，为理解创建一个并行程序中的步骤，让我们首先定义三个重要的概念: 任务，我们首先定义三个重要的概念任务，进程和处理器。进程和处理器。
任务
任务是程序要完成的一个工作，任务是程序要完成的一个工作，其内容和大小是随意的，和大小是随意的，它是并行程序所能处理的并发性最小的单元; 理的并发性最小的单元即一个任务只能由一个处理器执行，由一个处理器执行，处理器之间的并发性只能在任务之间开发。性只能在
组织进程间的通讯。即将B的各个子块 send()到各个进程。通过mpirun运行,将进程映射到处理器上。
并行描述
for i = 0 to p － 1 do l ＝ i+myid mod p Cl = A * B, mp1 ＝ myid+1 mod p, mm1 ＝ myid-1 mod p if i ！= p－ 1, send(B, mm1), recv(B, mp1) Endfor
MPI标准的实现包括MPICH、LAM、IBM MPL等多个版本，最常用和稳定的是 MPICH。它提供了与C、Fortran语言的绑定。
我们可以将MPI看成一个“库” ，目前使用的消息传递库是MPICH 1.2，共有上百个接口，在FORTRAN 77和C语言中可以直接对这些函数进行调用。多个进程通过调用这些函数（类似调用子程序），进行通信；
并行计算机的分类
并行向量机（PVP）对称多处理共享存储多处理机（SMP）大规模并行处理机（MPP）工作站（微机）机群（COW）分布式共享存储多处理机（DSM）
COW(Cluster of Workstation)
一个节点可以是一台PC或SMP；各节点一般由商品化的网络互连；机群节点通过使用标准网络协议（TCP/IP）来通信。使用的是千兆网。每个节点一般有本地磁盘；节点上的网络接口是松散耦合到I/O总线上；每个节点有一个完整的操作系统,但是通过中间层实现了单一系统映像（SSI）。
进程
进程 (我们也称为线程) 是一个完成任务的实体。一个并行程序由许多合作的进程构成，每个完成程序中任务的一个子集。通过某种分配机制，任务被分配给进程。进程完成其任务的方式是通过在机器的物理处理器上执行
进程与处理器的区别
并行化的观点，处理器是物理资源，并行化的观点，：处理器是物理资源，进程是抽象，进程是抽象，或者虚拟化多处理器的一种方便的方式: 我们通过进程，种方便的方式我们通过进程，而不是处理器来写并行程序; 处理器来写并行程序将进程映射到处理器是下一步。在一次程序的执行中，器是下一步。在一次程序的执行中，进程数不一定要等于处理器数。程数不一定要等于处理器数。如果进程一个处理器有可能要执行多个进程; 多，一个处理器有可能要执行多个进程如果进程少，如果进程少，某些处理器则要闲置
例二：矩阵相乘 C = A× B
其中A 和B 分别是m k 和k n 矩阵, C 是 × × ×m n 矩阵. 不失一般性, 假设m× m p, = ×k = k p和n = n p。 ×
串行程序
double a[N][N],b[N][N],c[N][N]; for (i=0; i<N; i++) for (j=0; j<N; j++) for (k=0; k<N; k++) c[i][j]+=a[i][k]*b[k][j];
Include文件
C语言应用程序应有#include “mpi.h” Fortran语言应用程序应有#include ‘mpif.h’
MPI并行编程模式
单程序多数据流模式（SPMD）多程序多数据流模式（MPMD）
为了降低使用和维护并行应用软件的复杂度，一般采用SPMD模式
MPI程序的SPMD执行模式
C0 A0 C A 1 = 1 × B , B ,L B 0 1 p −1 M M C p −1 Ap −1
[
]
对应于前面所提到的四个步骤，矩阵乘法并行算法可做如下表述： 1、将问题（矩阵乘法）分成p个任务，即将C的求解分成p块。 2、每个进程对应一个C块的求解。
并行算法的分类
非数值计算并行算法数值计算并行算法，基于矩阵运算、多项式求解、线性方程组求解等代数关系运算的计算问题。
进程 1
进程 2
传统的串行计算串行计算，分为“指令” 串行计算和“数据”两个部分，并在程序执行时“独立地申请和占有”内存空间，且所有计算均局限于该内存空间。
进程 1
并行计算基础知识
赵俊锋
西北工业大学理学院 zhaojf_77@
主要内容
并行计算环境并行算法基础什么问题可以并行化串行程序如何改为并行程序
为什么需要并行计算机
问题: 科学和工程问题的数值模拟与仿真计算密集数据密集网络密集三种混合要求:在合理的时限内完成计算任务秒级制造业分钟级短时天气预报(当天) 小时级中期天气预报(3~10日) 尽可能快长期天气预报(气候) 可计算湍流模拟
进程 2
发送信息
接收信息
并行计算将进程相对独立的并行计算分配于不同的节点上，由各自独立的操作系统调度，享有独立的CPU和内存资源（内存可以共享）；进程间相互信息交换通过消息传递；
进程间通信
现代操作系统提供基本的系统调用函数，允许位于同一台处理机或不同处理机的多个进程之间相互交流信息，操作具体表现为三种形式：通信、同步和聚集。以上的三种形式统称为进程间通信，操作的具体数据对象为消息，具体的操作为消息传递。
数据
例一
进程0发送一个整数给进程1；进程1将该数加1，传递给进程2；进程2再将该数加1，再传递给进程3；依次类推，最后，进程N-1将该数传递给进程0，由进程1负责广播该数给所有进程，并打印输出。
进程 0
传递信息
进程 1
传递信息
进程 2
传递信息
进程 3
传递信息
编译运行命令
mpif77 –o exam exam.f mpirun –np 4 exam 其中，exam.f指需要编译的源文件，－o 表示生成输出文件，exam指输出文件名，－np表示进程数。使用mpicc和mpif77省略了有关MPI的路径设置
通信
进程间的数据传递称为进程间通信。在同一台处理机中，通信可以读/写操作系统提供的共享数据缓存区来实现。不同处理机中，通信可以通过网络来实现。
同步
同步是使位于相同或不同处理机中的多个进程之间的相互等待的操作，它要求进程的所有操作均必须等待到达某一控制状态之后才并行。
聚集
聚集将位于相同后不同处理机中的多个进程的局部结果综合起来，通过某种操作，例如最大值、最小值、累加和，产生一个新的结果，存储在某个指定的或者所有的进程变量中。
并行编程环境
共享存储的模型和语言(适于PVP, SMP, DSM) 共享存储 X3H5, Pthread OpenMP 消息传递的模型和语言适于MPP, 的模型和语言( 消息传递的模型和语言(适于MPP, Cluster, COW) MPI (Fortran, C, Gamess, Vasp) (Fortran, Vasp) PVM (Fortran, C) (Fortran, C) 数据并行的模型和语言适于在MPP/Cluster上实现的模型和语言( 上实现SPMD应用应用) 数据并行的模型和语言(适于在MPP/Cluster上实现SPMD应用) Fortran 90 HPF(High Performance Fortran)
MPI(Message Passing Interface)
在当前所有的消息传递软件中, 最重要最流行的是MPI, 它能运行在所有的并行平台上。程序设计语言支持C, Fortran等。
MPI已经成为一种标准，它以与语言独立的形式来定义这个接口库, 这个定义不包含任何专用于某个特别的制造商、操作系统或硬件的特性. 由于这个原因, MPI在并行计算界被广泛地接受.
串行程序并行化的几个步骤
从一个串行程序得到一个并行程序的工作由四个步骤构成： 1. 将计算的问题分解成任务 2. 将任务分配给进程 3 . 在进程之间组织必要的数据访问，通信，和同步。 4. 将进程映射或绑定到处理器
估计并行的效率
在以上的几个步骤中，并没有考虑并行的效率问题。考虑到消息传递的开销是计算开销的10 倍以上，一般来说，如果在应用的一部分中，计算的时间是分钟级的而数据传输的时间是秒级的，那么这一部分可以并行执行。
并行实现
先将矩阵分块
B = [B0 , B1 , L BP −1 ]
A = A , A ,L A
T 0 T 1
[
T T P −1
],
将 Ai , Bi和Ci , j , j = 0,L, p − 1 存放在 P 中， i 使数据在处理机中不重复。矩阵A在各自进程中保持不变，B在处理机中每次循环向前移动一个处理机。
什么可以并行
能否将顺序执行的程序转换成语义等价的、可并行执行的程序，主要取决于程序的结构形式，特别是其中的数据相关性。
数据相关