矩阵相乘并行算法

合集下载

矩阵-向量并行乘法算法

矩阵-向量乘并行算法：矩阵向量乘并行算法：向量乘并行算法
行带状划分的矩阵-向量乘并行算法算法行带状划分的矩阵向量乘并行算法输入: 输入 An*n,Bn*1 输出: 输出 Cn*1 Begin 对所有处理器同时执行如下的算法: 对所有处理器同时执行如下的算法: for i=0 to m-1 do c[i]=0.0 for j=0 to n-1 do c[i]=c[i]+a[i,j]*b[j] end for end for End
矩阵-向量乘法的并行算法：矩阵向量乘法的并行算法：向量乘法的并行算法
矩阵-向量乘法同样可以有带状划分和棋盘划分两种并行算法，矩阵向量乘法同样可以有带状划分和棋盘划分两种并行算法，向量乘法同样可以有带状划分和棋盘划分两种并行算法这里仅讨论行带划分矩阵-向量乘法列带划分矩阵-向量乘法向量乘法，这里仅讨论行带划分矩阵向量乘法，列带划分矩阵向量乘法是类似的。设处理器，个数为，对矩阵按行划分为块，是类似的。设处理器，个数为，对矩阵按行划分为块，每块含有连续的行向量，这些行块依次记为，有连续的行向量，这些行块依次记为，分别存放在标号为的处理器中，同时将向量广播给所有处理器。理器中，同时将向量广播给所有处理器。个处理器并行地对存于局部数组中的行块和向量做乘积操作，于局部数组中的行块和向量做乘积操作，具体并行算法框架描述如下：述如下：
矩阵-向量乘法的串行算法：矩阵向量乘法的串行算法：向量乘法的串行算法
单处理器上矩阵-向量乘算法算法单处理器上矩阵向量乘算法输入：输入 An*n,Bn*1 输出：输出 Cn*1 Begin for i=0 to n-1 do c[i]=0 for j=0 to n-1 do c[i]=c[i]+a[i,j]*b[j] end for end for End

矩阵乘法并行算法分析

4. 实验
• 程序说明 • 程序中通过继承Runable接口来实现，原因在于Java类只能单继承，如果采用第一种方法，即继承了Thread类后，就不能再继承其他的类了，使得程序丧失了灵活性。而通过实现Runnable接口的方法，可以很好的解决这个问题。
4. 实验
• 程序实现 • 构造了一个conMatrix 的矩阵类用于初始化矩阵(矩阵用二维数组表示)。 • 构造了继承自conMatrix的Matrix类，并在类中实现Runable接口。 • 通过矩阵相乘方法“chengfa(…,int n)”中的第3个参数n，来决定将这两个矩阵分成多少个子块进行计算。并通过获得运算前后系统时间来得到运算的时间，显示在运算结果后。
a0,0 a1,0
a0,1 a0,2 a1,1 a1,2 a2,1 a2,2 a3,1 a3,2
a0,3 b0,0 a1,3 b1,0 a2,3 b2,0 a3,3 b3,0
b0,1 b0,2 b1,1 b1,2 b2,1 b2,2 b3,1 b3,2
3. 块矩阵乘法中常用算法分析
• 行列划分算法由于使用p个处理机, 每次每台处理机计算出一个Ci,j，计算C需要p次来完成。Ci,j的计算是按对角线进行的，计算方法如下：
for (i=0; i<p-1; i++){ l=i+myid mod p； Cl=A*B； mp1=myid+1 mod p；mm1=myid-1 mod p； if (i!=p-1) { send(B，mm1)；recv(B，mp1);} }
a0,3 b2,0 a1,3 b3,0
b0,3 b1,3 b2,3 b3,3

矩阵乘法运算规则

矩阵乘法运算规则
矩阵乘法是一种常见的数学运算，它可以用来计算两个矩阵的乘积。

矩阵乘法的规则是：
两个矩阵A和B的乘积C=A*B，其中A是m×n矩阵，B是n×p矩阵，则C是m×p矩阵。

矩阵乘法的计算公式是：Cij=∑k=1nAikBkj，其中Cij是矩阵C的第i行第j列元素，Aik
是矩阵A的第i行第k列元素，Bkj是矩阵B的第k行第j列元素，n是矩阵A的列数，
也是矩阵B的行数。

矩阵乘法的运算规则是：矩阵A和B的乘积C=A*B，其中A是m×n矩阵，B是n×p矩阵，则C是m×p矩阵，其中Cij=∑k=1nAikBkj，其中Cij是矩阵C的第i行第j列元素，Aik
是矩阵A的第i行第k列元素，Bkj是矩阵B的第k行第j列元素，n是矩阵A的列数，
也是矩阵B的行数。

矩阵乘法的运算规则是非常重要的，它可以用来解决许多数学问题，例如线性方程组、矩阵的幂运算、矩阵的逆运算等。

此外，矩阵乘法还可以用来计算矩阵的行列式、特征值和特征向量等。

矩阵乘法的运算规则是非常重要的，它可以用来解决许多数学问题，并且在计算机科学中
也有着广泛的应用。

因此，学习矩阵乘法的运算规则是非常有必要的，可以帮助我们更好
地理解和应用矩阵乘法。

矩阵乘法并行算法分析课件

增加并行度对加速比的贡献会逐渐减小。
实际应用中的性能表现
矩阵规模
在实际应用中，矩阵的规模对并行算法的性能表现有显著影响。
数据分布
数据在矩阵中的分布情况也会影响并行算法的性能，如均匀分布、稀疏矩阵等。
系统环境
并行算法在实际应用中的性能表现还受到系统环境的影响，如硬件资源、操作系统等。
PART 05
在数据密集型应用中，如机器学习、图像处理等领域，并行计算能够显著提高数据处理速度和效率。
云计算平台
随着云计算技术的发展，并行计算在云计算平台上的应用将更加广泛，为大数据处理提供更高效、灵活的计算服务。
人工智能与机器学习
并行计算在人工智能和机器学习领域的应用前景广阔，能够加速模型训练和推理过程，提高人工智能应用的性能和效率。
3
数据处理
在数据处理中，矩阵乘法可以用于数据分析和挖掘等领域，如图像处理和自然语言处理等。
PART 02
矩阵乘法并行算法的实现方式
基于线程的并行算法
总结词
通过多线程并行执行，充分利用多核处理器资源。
详细描述
基于线程的并行算法利用操作系统的线程库，将矩阵乘法任务划分为多个子任务，每个子任务由一个线程执行。线程间通过共享内存或消息传递进行通信，以完成整个矩阵乘法操作。
基准测试
通过对比不同并行算法在相同规模矩阵乘法任务上的执行时间，评估算法的性能。
性能指标
包括吞吐量、加速比、并行度等，用于量化算法的效率。
并行度与加速比的关系
并行度
01
指并行算法中同时处理的任务数量，与硬件资源有关。
加速比
02
指并行算法相对于串行算法的性能提升比例。
关系

matlab 矩阵乘法并行运算

一、介绍Matlab是一种用于数学建模、仿真和数据分析的高级编程语言和交互式环境。

在矩阵乘法运算中，Matlab提供了许多优化和并行化的方法，以加快矩阵乘法的计算速度。

本文将详细介绍Matlab中矩阵乘法并行运算的相关知识和技巧。

二、矩阵乘法概述矩阵乘法是线性代数中常见的基本运算，它用于将两个矩阵相乘得到一个新的矩阵。

在Matlab中，矩阵乘法可以使用'*'操作符进行计算。

如果有两个矩阵A和B，它们的矩阵乘法可以表示为C=A*B，其中C 是结果矩阵。

通常情况下，矩阵乘法的计算过程是相当消耗计算资源的。

三、Matlab中的矩阵乘法优化在Matlab中，针对矩阵乘法的优化有许多方法，例如使用专门的矩阵乘法函数、改进矩阵存储方式和并行计算等。

其中，并行计算是加速矩阵乘法计算速度的重要方法之一。

1. Matlab矩阵乘法函数Matlab提供了一系列专门用于矩阵乘法计算的函数，如matmul、mmx等。

这些函数内部已经做了很多优化，能够充分利用计算资源，并且可以适应不同硬件的优化。

2. 改进矩阵存储方式在Matlab中，矩阵可以使用不同的存储方式，如稀疏矩阵、密集矩阵和块状矩阵等。

选择合适的矩阵存储方式可以减少内存占用，提高运算速度。

3. 并行计算Matlab中的并行计算工具箱提供了丰富的并行化函数和工具，可以通过多线程和分布式计算等方式加速矩阵乘法的计算速度。

通过并行计算，可以利用多核处理器和集群计算资源，实现矩阵乘法的并行计算。

四、Matlab中的矩阵乘法并行计算在Matlab中，矩阵乘法的并行计算可以通过多种方式实现。

以下将详细介绍几种常见的矩阵乘法并行计算方法：1. 使用matlabpool进行并行计算Matlab中的matlabpool函数可以方便地创建一个本地并行计算池，通过该计算池可以并行计算矩阵乘法。

通过设置并行计算池的大小和Worker节点的数量，可以充分利用多核处理器的计算资源。

大规模矩阵相乘的并行算法

大规模矩阵相乘的并行算法
作者：朱彦辑国佳佳
来源：《电脑知识与技术》2017年第18期
摘要：在大型的科学计算中，矩阵乘法运算是耗时较多的运算，也是工程数值计算中一种常见的运算方式。

串行计算程序由于计算时间和计算效率不尽人意，已经不能满足人们的需求，为了降低计算所消耗的时间，人们一直在研究合适的可用于并行的计算矩阵相乘的方法，和串行算法相比，矩阵相乘的并行算法要考虑更多方面的问题。

该文通过运用API，OpenMP 多核并行计算，将矩阵按一定规则分块传入每个进程，分别进行矩阵相乘运算，这样可以将计算时间缩短大半。

关键词：矩阵相乘；API多核并行；OpenMP并行
中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2017）18-0059-03。

OpenMP矩阵相乘

多核软件设计实验指导――OpenMP矩阵相乘开发者：开发时间：版本号：一．问题描述矩阵相乘是线性代数中最常见的问题之一，它在数值计算中有广泛的应用，在计算机的世界里，矩阵相乘扮演着一个不可或缺的角色。

设A 和B 是2个 n n ⨯ 矩阵，，它们的乘积AB 同样是一个n n ⨯矩阵。

A 和B 乘积矩阵C 中元素C ]][[]][[1]][[j k B k i A nk j i ∑==二、串行算法描述若以上面的定义来计算A 和B 的乘积矩阵C ，则每计算C 的一个元素]][[j i C ，需要作n 次乘法运算和n －1次加法运算。

因此，算出矩阵C 的2n 个元素所需的计算时间为)(3n O 。

从程序运行的效率上来分析，如果n 比较大的时候，会耗费大量的空间和时间。

20世纪60年代末期，Strassen 采用了类似在大整数乘法中用过的分治技术，将计算2个n 阶矩阵乘积所需的计算时间改进到)()(81.27log n n O =O ，其基本思想还是使用分治法。

显然，这也没能够大幅度地提高运行速度和效率。

将矩阵a 与矩阵b 相乘得到矩阵c 的代码如下：for(i=0;i<dim;i++){ for(j=0;j<dim;j++){ c(i,j)=0;for(k=0;k<dim;k++){c(i ,j)+=a(i ,k)*b(k,j);}}}三、并行算法下面使用了OpenMP ，修改后的矩阵相乘程序使最外面的迭代在多个线程间静态分割，如图（a ）所示：#pragma omp paralllel default(private) shared(a,b,c,dim) num_threads(2) #pragma omp for schedule(static)for(i=0;i<dim;i++){ for(j=0;j<dim;j++){ c(i,j)=0;for(k=0;k<dim;k++){c(i ,j)+=a(i ,k)*b(k,j);}}}Static调度类的一般形式为schedule（static[,chunk-size]）。

利用MPI计算矩阵相乘的简单算法

main 函数代码： #undef SEEK_SET #undef SEEK_END #undef SEEK_CUR #include <mpi.h> #include <iostream> #include <vector> using namespace std; int master(); int slave(); int main(void) {
利用 MPICH2 计算矩阵相乘的简单算法
ysm cleverysm@
MPICH2 是用来进行并行运算的平台，而对矩阵算法的分解应该是并行运算应用中很常见的。今天在这里就用 MPICH2 写一个矩阵乘法的并行计算程序来学习一下 MPICH2 的使用。首先要复习一下矩阵乘法的算法，我们在线性代数里都学过。假设矩阵 A 为 m 行，k 列。m=4，k=3。B 是 k 行，n 列，k=3，n=2，计算一个矩阵与列数据，或者叫做一个向量 vector 的乘积，结果矩阵 C 应当是 m 行，n 列。 A: 1,2,3 4,5,6 7,8,9 8,7,6 B: 5,4 3,2 1,0 A,B,C 都按照行主序表示。即 A(0,0)=1,A(0,1)=2, A(0,3)=3。则 C (i, j )
//id是0的进程作为主进程 master(); } else { //id是非0的进程作为从进程 slave(); } //MPI程序释放资源 MPI_Finalize(); return EXIT_SUCCESS; }
以上算法是按照行划分 A 矩阵，也可以按照 A 的列来分配矩阵。算法如下：将第一列中的所有元素与向量中的第一个元素相乘，第二列的元素与向量中的第二个元素相乘，依此类推。采用这种方法，就可以得到一个新的矩阵。然后，将每一行中的所有元素相加，得到一个矩阵，这就是最后的结果。 A: 1,2,3 4,5,6 7,8,9 8,7,6 为简化，B 只取第一列 B: 5 3 1 1*5+2*3+3*1=14 4*5+5*3+6*1=41 7*5+8*3+9*1=68 8*5+7*3+6*1=67 实现此算法的 MPI 程序与以上代码类似，在此就不说了。

超级计算技术中的并行算法与矩阵运算

超级计算技术中的并行算法与矩阵运算在现代科学和工程领域中，超级计算技术发挥着至关重要的作用。

为了解决复杂问题，超级计算机采用了并行算法和矩阵运算等技术，以实现高效的计算和分析。

本文将探讨超级计算技术中的并行算法和矩阵运算，并分析其应用与发展趋势。

首先，我们来了解一下超级计算技术中的并行算法。

并行算法是指将复杂的计算任务分解成多个子任务，然后并发地运行于多个计算单元上，以提高计算效率和性能。

并行算法的设计需要考虑任务分解、通信和同步等关键问题。

常用的并行算法包括分治法、并行排序和并行搜索等。

对于矩阵运算来说，超级计算技术也发挥着重要的作用。

矩阵运算是指对矩阵进行基本的数学运算，诸如加法、减法、乘法和求逆等。

这些矩阵运算在科学计算、图像处理和人工智能等领域中广泛应用。

超级计算技术能够利用并行算法加速矩阵运算的速度，提高计算效率。

在超级计算技术中，矩阵乘法是一种常见且重要的矩阵运算。

矩阵乘法的基本思想是将两个矩阵相乘，得到一个新的矩阵。

然而，传统的矩阵乘法算法在大规模矩阵计算时效率较低，因此需要并行算法的支持。

并行矩阵乘法算法采用了多种策略，如按块分配、循环分配和网络划分等，以充分利用计算资源。

除了矩阵乘法，超级计算技术还可以应用于其他矩阵运算，如矩阵分解和特征值计算等。

矩阵分解是将一个矩阵分解成多个部分矩阵的过程，常见的矩阵分解包括LU分解、QR分解和SVD分解。

这些分解可以帮助我们更好地理解和处理复杂的数学问题。

而特征值计算则是计算一个矩阵的特征值和特征向量，对于解决线性方程组和优化问题都具有重要意义。

随着科学技术的不断发展，超级计算技术中的并行算法和矩阵运算也在不断演进。

首先，随着计算单元和存储器的不断增加，我们可以使用更大规模的矩阵进行计算，从而解决更加复杂的科学问题。

其次，新的并行算法和矩阵运算技术的提出，使得超级计算机能够更快速地处理大规模数据，实现更高效的计算。

最后，超级计算技术的发展也推动了云计算和人工智能等领域的进步，使得计算资源得到充分利用。

【DOC】-矩阵相乘的并行算法的设计与实现

【DOC】-矩阵相乘的并行算法的设计与实现矩阵相乘的并行算法的设计与实现仲恺农业工程学院实验报告纸计算机科学与工程学院(院、系) 网络工程专业 083 班组并行计算应用试验课实验三矩阵相乘的并行算法的设计与实现一、实验目的理解和掌握矩阵相乘的并行算法的设计思想以及实现原理二、实验内容编译和运行一个两矩阵相乘算法的并行程序三、实验步骤1 使用vi编辑器输入并行计算的代码，保存在multi.c中#include <stdio.h>#include "mpi.h"#define NRA 62#define NCA 15#define NCB 7#define MASTER 0#define FROM_MASTER 1#define FROM_WORKER 2MPI_Status status;int main(int argc, char *argv[]){int numtasks,taskid,numworkers,source,dest,nbytes,mtype,intsize,dbsize,rows,averow,extra,offset,i,j,k,count;double a[NRA][NCA],b[NCA][NCB],c[NRA][NCB];intsize = sizeof(int);dbsize = sizeof(double);第 1 页共 7 页MPI_Init(&argc,&argv); MPI_Comm_rank(MPI_COMM_WORLD,&taskid);MPI_Comm_size(MPI_COMM_WORLD,&numtasks); numworkers = numtasks-1;if(taskid==MASTER) { printf("Number of worker tasks= %d\n",numworkers); for(i=0;i<NRA;i++) for(j=0;j<NCA;j++)a[i][j]=i+j; for(i=0;i<NCA;i++) for(j=0;j<NCB;j++) b[i][j]=i*j;averow=NRA/numworkers; extra=NRA%numworkers; offset=0; mtype=FROM_MASTER;for(dest=1;dest<=numworkers;dest++) { rows=(dest<=extra)?averow+1:averow; printf("sending %d rows to task %d\n",rows,dest);MPI_Send(&offset,1,MPI_INT,dest,mtype,MPI_COMM_WORLD);MPI_Send(&rows,1,MPI_INT,dest,mtype,MPI_COMM_WORLD); count=rows*NCA;MPI_Send(&a[offset][0],count,MPI_DOUBLE,dest,mtype,MPI_COMM_WORLD); count=NCA*NCB;MPI_Send(&b,count,MPI_DOUBLE,dest,mtype,MPI_COMM_WORLD);offset=offset+rows; } mtype=FROM_WORKER; for(i=1;i<=numworkers;i++){ source = i;MPI_Recv(&offset,1,MPI_INT,source,mtype,MPI_COMM_WORLD,&status);MPI_Recv(&rows,1,MPI_INT,source,mtype,MPI_COMM_WORLD,&status);count=rows*NCB;MPI_Recv(&c[offset][0],count,MPI_DOUBLE,source,mtype,MPI_COMM_WORLD,&status); } printf("Here is the result matrix\n"); for(i=0;i<NRA;i++) { printf("\n"); for(j=0;j<NCB;j++) printf("%6.2f ",c[i][j]); }printf("\n"); } 第 2 页共 7 页if(taskid>MASTER) {mtype=FROM_MASTER;source=MASTER;printf("Master=%d,mtype=%d\n",source,mtype);MPI_Recv(&offset,1,MPI_INT,source,mtype,MPI_COMM_WORLD,&status);printf("offset=%d\n",offset);MPI_Recv(&rows,1,MPI_INT,source,mtype,MPI_COMM_WORLD,&status);printf("rows=%d\n",rows);count=rows*NCA;MPI_Recv(&a,count,MPI_DOUBLE,source,mtype,MPI_COMM_WORLD,&status); printf("a[0][0]=%e\n",a[0][0]);count=NCA*NCB;MPI_Recv(&b,count,MPI_DOUBLE,source,mtype,MPI_COMM_WORLD,&status); printf("b=\n");for(k=0;k<NCB;k++)for(i=0;i<rows;i++) {c[i][k]=0.0;for(j=0;j<NCA;j++)c[i][k]=c[i][k]+a[i][j]*b[j][k];}mtype=FROM_WORKER;printf("after computer\n");MPI_Send(&offset,1,MPI_INT,MASTER,mtype,MPI_COMM_WORLD);MPI_Send(&rows,1,MPI_INT,MASTER,mtype,MPI_COMM_WORLD);MPI_Send(&c,rows*NCB,MPI_DOUBLE,MASTER,mtype,MPI_COMM_WORLD); printf("after send\n");}MPI_Finalize();return 0;}2 编译multi.cmpicc –o multi.o multi.c3 启动mpd后台程序mpd&4 在单机上运行multi.ompirun –np 10 ./multi.o5 在多台计算机上运行multi.o(1) 编辑并行计算的主机文件nodelistnode1:5node2:4node3:8(2) 运行并行计算程序mpirun -machinefile nodelist -np 2 ./multi.o 四、实验结果第 3 页共 7 页Master=0,mtype=1Master=0,mtype=1Number of worker tasks = 9sending 7 rows to task 1sending 7 rows to task 2sending 7 rows to task 3sending 7 rows to task 4sending 7 rows to task 5sending 7 rows to task 6sending 7 rows to task 7sending 7 rows to task 8sending 6 rows to task 9 Master=0,mtype=1offset=0rows=7a[0][0]=0.000000e+00b=after computerafter sendMaster=0,mtype=1offset=7rows=7a[0][0]=7.000000e+00b=after computerafter sendMaster=0,mtype=1offset=14rows=7a[0][0]=1.400000e+01b=after computerafter sendMaster=0,mtype=1offset=28rows=7a[0][0]=2.800000e+01 b=after computerafter sendMaster=0,mtype=1 offset=56rows=6第 4 页共 7 页b=after computerafter sendMaster=0,mtype=1 offset=21rows=7a[0][0]=2.100000e+01 b=after computerafter sendMaster=0,mtype=1 offset=49rows=7a[0][0]=4.900000e+01 b=after computerafter sendoffset=35rows=7a[0][0]=3.500000e+01b=after computerafter sendoffset=42rows=7a[0][0]=4.200000e+01b=after computerafter sendHere is the result matrix 第 5 页共 7 页第 6 页共 7 页双机运行的结果:Number of worker tasks = 1sending 62 rows to task 1Master=0,mtype=1offset=0rows=62a[0][0]=0.000000e+00b=after computerafter sendHere is the result matrix计算出来的矩阵与单机的相同五、实验心得本次实验是通过程序生成两个静态的矩阵，然后计算出两个矩阵的乘机。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

并行处理技术课程设计分析报告课程设计题目矩阵相乘并行算法设计姓名廖杰学号M*********专业计算机技术任课教师金海石宣化所在学院计算机科学与技术学院报告提交日期2014-01-13一、实验目的1、学习使用集群；2、掌握并行处理或分布计算的编程方法；3、学会以并行处理的思想分析问题。

二、实验要求1、自行生成矩阵作为算法的输入；2、使用并行处理技术编程，例如：MPI、OpenMP、MR；3、矩阵大小至少为1000*1000；4、加速比越大成绩越高。

三、实验内容3.1、矩阵的划分：对于矩阵相乘的并行算法，可以有三种：对矩阵按行划分、按列划分和棋盘式分块划分。

和按行或列划分相比，棋盘式划分可以开发出更高的并行度。

对于一个n×n的方阵，棋盘划分最多可以使用n^2个处理器进行并行计算，但使用按行或列分解最多可以使用n个。

对矩阵相乘采用棋盘式划分的算法通常称作Cannon算法。

A）行列划分又叫带状划分（Striped Partitioning），就是将矩阵整行或者整列分成若干个组，每个组指派给一个处理器。

下图所例为4个CPU，8×8矩阵的带状划分。

在带状划分情况下，每个CPU将会均匀分配到2行(列)数据。

8×8矩阵变成了一个1×4或4×1的分块矩阵，每个CPU所属的分块矩阵大小为8×2或2×8。

B）棋盘划分就是将矩阵分成若干个子矩阵，每个子矩阵指派给一个处理器，此时任一处理器均不包含整行或者整列。

下图所示即为4个处理器情况下8×8矩阵的棋盘划分，其中处理器阵列为2×2，每个处理器分配到的子矩阵大小为4×4。

矩阵划分成棋盘状可以和处理器连成二维网孔相对应。

对于一个n×n维矩阵和p×p的二维处理器阵列，每个处理器均匀分配有（n/p）×(n/p)=n^2/p^2个元素。

使用棋盘式划分的矩阵相乘算法一般有两种，Cannon算法和Summa算法。

SUMMA算法能够计算m*l的A矩阵和l*n的B矩阵相乘（m、l、n可不相等），而cannon算法只能实现n*n的A矩阵和n*n 的B矩阵相乘，具有很大的局限性。

3.2、算法原理A) 行划分法假设是M*N，计算前，将矩阵N发送给所有从进程，然后将矩阵M分块，将M中数据按行分给各从进程，在从进程中计算M中部分行数据和N的乘积，最后将结果发送给主进程。

这里为了方便，有多少进程，就将M分了多少块，除最后一块外的其他数据块大小都相等，最后一块是剩下的数据，大小大于等于其他数据块大小，因为矩阵行数不一定整除进程数。

最后一块数据在主进程中计算，其他的在从进程中计算。

定义两个矩阵M和N，N所有进程都需要，M可以只在主进程中定义。

其他的变量视主进程和从进程需要按要求定义在合适的位置。

代码参见附录部分。

B) Cannon算法Cannon算法的基本思想可以如下表示：假设两个矩阵A和B相乘，把A和B矩阵划分成p 个方块，进程的编号从到，并在最初把子矩阵和分配给。

虽然第i行的每个进程需要全部的个子矩阵，但我们还是能调度第i行个进程的计算，使得每个进程在任何时刻都是用不同的。

每完成一次矩阵乘法，这些块在各进程之间被轮流使用，似的每次轮流之后每个进程都可以得到新的。

对列使用同样的调度，则在任何时刻，任何进程至多拥有每个矩阵的一个块，在所有进程中，改算法需要的总内存量为。

下图为此算法中不同进程上子矩阵乘法的调度过程。

假如矩阵C=A*B,则C的的计算公式如下：进程P 存储分块矩阵这一部分。

块矩阵乘法要计算所有匹配的和，然而只有在主对角线的才是匹配的。

因此需要采用循环移动分块矩阵的方法来使每个进程都有一对可以直接相乘的匹配的块，具体方法如下：(1)将排第i行的块循环左移i个位置，将第列．块循环上移j个位置；(2) 进程执行乘一加运算，然后将移动得到的块循环左移1个位置，将移动得到的块循环上移1个位置；(3)重复第2步(一1)次，每次移动后进程执行乘一加运算。

经过以上操作后就可以得到矩阵C的解。

代码请参见附录部分C) Summa算法SUMMA 算法首先将A , B 和C 划分为相同大小的矩阵，对应放在mesh_r × mesh_c 的二维mesh 上。

但SUMMA 算法将矩阵乘法分解为一系列的秩nb 修正, 即各处理器中的A 和B 分别被分解为nb 大小的列块和行块进行相乘，前面所说的分块尺寸就是指nb 的大小。

算法中, 广播实现为逻辑处理器行环或列环上的流水线传送, 达到了计算与通信的重叠. 具体描述如算法1所示。

C= 0for i= 0 t o k-1 step nb docur col = i×c/ ncur row = i×r / mif my col = cur rol 向本行广播A 从i mod (k/c) 列开始的nb 列, 存于A′if my row = cur row 向本列广播B 从i mod (k/r) 行开始的nb 行, 存于B ′C= A′×B ′end forSUMMA算法的核心思想是：各处理器收集来自同一行处理器中A矩阵子块的所有列和同一列处理器中B矩阵子块的所有行，然后将行列相乘后累加，形成一个C矩阵的分块矩阵。

最后由rank=0的处理器将其他处理器的数据收集起来，形成最终的矩阵C。

SUMMA算法相较于cannon算法的优势只要体现在SUMMA算法能够计算m*l的A矩阵和l*n的B矩阵相乘（m、l、n可不相等），而cannon算法只能实现n*n的A矩阵和n*n 的B矩阵相乘，具有很大的局限性。

代码参见附录部分。

3.3、程序运行结果对比分析A) 统一的实验条件矩阵大小：1000*1000；矩阵数字范围：0~10；矩阵数字分布是否随机：是；分配的进程数：9；B) 实验进程数解释由于Cannon算法本身局限性，要使用Cannon算法，必须满足进程数为整数的平方，比如1、4、9、16等。

在本次的实验环境之下，经过多次对比分析，发现对于分行还是分块算法，进程数安排在8~15可以得到最理想的运行速度：进程数目过小则每个进程单独运算的时间过多，进程数过大则选路时间（进程与进程之间的通信时间）过长。

而对比要求每个算法的进程相同，故此处选择进程数目为9.C) 算法运行时间对比Cannon算法运行时间如下：分行法运行时间如下：串行算法运行时间如下：由于Summa算法与Cannon算法思路几乎相同，而且在算法预处理阶段要比Cannon算法更耗时，故没有做多余的实验。

CANNON显而易见，单纯的运用分行算法所花费的时间是最短的。

D) 结果分析Cannon算法相对于简单的行划分并行处理算法，其优势仅仅在于并行度可以更高（可达到N*N个进程，N为矩阵宽），但在并行度相同的情况下，其多出的预处理过程、矩阵发送与结果回收机制会占用更多的时间。

3.4、程序调优A) 行划分算法优化1. 循环优化在预估计矩阵大小为10的倍数的基础上，对每一个步长为1的循环做处理，改为步长为10的循环，将十次循环体全部压缩在一次循环中，从而大量减少了循环的判别时间，提升循环运算速度。

例如在单个线程在计算部分结果时，采用的循环为：for(i=0;i<line;i++){for(j=0;j<width;j++){DATA temp=0;for(k=0;k<width;k+=10){temp += buffer[i*width+k]*n[j*width+k];temp += buffer[i*width+k+1]*n[j*width+k+1];temp += buffer[i*width+k+2]*n[j*width+k+2];temp += buffer[i*width+k+3]*n[j*width+k+3];temp += buffer[i*width+k+4]*n[j*width+k+4];temp += buffer[i*width+k+5]*n[j*width+k+5];temp += buffer[i*width+k+6]*n[j*width+k+6];temp += buffer[i*width+k+7]*n[j*width+k+7];temp += buffer[i*width+k+8]*n[j*width+k+8];temp += buffer[i*width+k+9]*n[j*width+k+9];}ans[i*width+j] = temp;}}在将循环次数压缩的同时，为了进一步减少循环的运算量，在每一个步长为10的循环之前做预处理，避免循环体中的重复运算。

例如在主进程在接受其他进程时，将结果矩阵整合的过程：for(k=1;k<numprocs;k++){MPI_Recv(ans,line*width,MPI_INT,k,2,MPI_COMM_WORLD,&status);for(i=0;i<line;i++){count=i*k*width; //将i*k*width提前算好，减少了下一步循环的重复运算count1=i*width;for(j=0;j<width;j+=10){p[count+j] = ans[count1+j];p[count+j+1] = ans[count1+j+1];p[count+j+2] = ans[count1+j+2];p[count+j+3] = ans[count1+j+3];p[count+j+4] = ans[count1+j+4];p[count+j+5] = ans[count1+j+5];p[count+j+6] = ans[count1+j+6];p[count+j+7] = ans[count1+j+7];p[count+j+8] = ans[count1+j+8];p[count+j+9] = ans[count1+j+9];}}}2. 节省空间在进行矩阵工作量划分并传送的时候，为每一个进程开辟仅仅是自己所需要大小的空间，例如在9进程的环境下，每个进程所需要接受的缓存空间为B矩阵大小以及大约1/9大小A 矩阵。

内存开辟：buffer = (DATA *)malloc(sizeof(DATA)*width*line);矩阵A分块传输：for(k=1;k<numprocs;k++){for(i=k;i<width;i+=numprocs){count=i/numprocs*width;count1=i*width;for(j=0;j<width;j+=10){buffer[count+j]=m[count1+j];buffer[count+j+1]=m[count1+j+1];buffer[count+j+2]=m[count1+j+2];buffer[count+j+3]=m[count1+j+3];buffer[count+j+4]=m[count1+j+4];buffer[count+j+5]=m[count1+j+5];buffer[count+j+6]=m[count1+j+6];buffer[count+j+7]=m[count1+j+7];buffer[count+j+8]=m[count1+j+8];buffer[count+j+9]=m[count1+j+9];}}MPI_Send(buffer,line*width,MPI_INT,k,1,MPI_COMM_WORLD);同样的方式也运用在运行空间的开辟上。