矩阵相乘的并行算法的设计与实现
仲恺农业工程学院实验报告纸
计算机科学与工程学院(院、系)网络工程专业083 班组并行计算应用试验课
学号:200810224311 姓名:李志冬实验日期:2011-05-19 教师评定实验三矩阵相乘的并行算法的设计与实现
一、实验目的
理解和掌握矩阵相乘的并行算法的设计思想以及实现原理
二、实验内容
编译和运行一个两矩阵相乘算法的并行程序
三、实验步骤
1 使用vi编辑器输入并行计算的代码,保存在multi.c中
#include
#include "mpi.h"
#define NRA 62
#define NCA 15
#define NCB 7
#define MASTER 0
#define FROM_MASTER 1
#define FROM_WORKER 2
MPI_Status status;
int main(int argc, char *argv[])
{
int numtasks,
taskid,
numworkers,
source,
dest,
nbytes,
mtype,
dbsize,
rows,
averow,extra,offset,
i,j,k,
count;
double a[NRA][NCA],b[NCA][NCB],c[NRA][NCB];
intsize = sizeof(int);
dbsize = sizeof(double);
MPI_Init(&argc,&argv);
MPI_Comm_rank(MPI_COMM_WORLD,&taskid);
MPI_Comm_size(MPI_COMM_WORLD,&numtasks);
numworkers = numtasks-1;
if(taskid==MASTER) {
printf("Number of worker tasks = %d\n",numworkers);
for(i=0;i for(j=0;j a[i][j]=i+j; for(i=0;i for(j=0;j b[i][j]=i*j; averow=NRA/numworkers; extra=NRA%numworkers; offset=0; mtype=FROM_MASTER; for(dest=1;dest<=numworkers;dest++) { rows=(dest<=extra)?averow+1:averow; printf("sending %d rows to task %d\n",rows,dest); MPI_Send(&offset,1,MPI_INT,dest,mtype,MPI_COMM_WORLD); MPI_Send(&rows,1,MPI_INT,dest,mtype,MPI_COMM_WORLD); count=rows*NCA; MPI_Send(&a[offset][0],count,MPI_DOUBLE,dest,mtype,MPI_COMM_WORLD); count=NCA*NCB; MPI_Send(&b,count,MPI_DOUBLE,dest,mtype,MPI_COMM_WORLD); offset=offset+rows; } mtype=FROM_WORKER; for(i=1;i<=numworkers;i++) { source = i; MPI_Recv(&offset,1,MPI_INT,source,mtype,MPI_COMM_WORLD,&status); MPI_Recv(&rows,1,MPI_INT,source,mtype,MPI_COMM_WORLD,&status); count=rows*NCB; atus); } printf("Here is the result matrix\n"); for(i=0;i printf("\n"); for(j=0;j printf("%6.2f ",c[i][j]); } printf("\n"); } if(taskid>MASTER) { mtype=FROM_MASTER; source=MASTER; printf("Master=%d,mtype=%d\n",source,mtype); MPI_Recv(&offset,1,MPI_INT,source,mtype,MPI_COMM_WORLD,&status); printf("offset=%d\n",offset); MPI_Recv(&rows,1,MPI_INT,source,mtype,MPI_COMM_WORLD,&status); printf("rows=%d\n",rows); count=rows*NCA; MPI_Recv(&a,count,MPI_DOUBLE,source,mtype,MPI_COMM_WORLD,&status); printf("a[0][0]=%e\n",a[0][0]); count=NCA*NCB; MPI_Recv(&b,count,MPI_DOUBLE,source,mtype,MPI_COMM_WORLD,&status); printf("b=\n"); for(k=0;k for(i=0;i c[i][k]=0.0; for(j=0;j c[i][k]=c[i][k]+a[i][j]*b[j][k]; } mtype=FROM_WORKER; printf("after computer\n"); MPI_Send(&offset,1,MPI_INT,MASTER,mtype,MPI_COMM_WORLD); MPI_Send(&rows,1,MPI_INT,MASTER,mtype,MPI_COMM_WORLD); MPI_Send(&c,rows*NCB,MPI_DOUBLE,MASTER,mtype,MPI_COMM_WORLD); printf("after send\n"); } MPI_Finalize(); return 0; } 2 编译multi.c 3 启动mpd后台程序 mpd& 4 在单机上运行multi.o mpirun –np 10 ./multi.o 5 在多台计算机上运行multi.o (1) 编辑并行计算的主机文件nodelist node1:5 node2:4 node3:8 (2) 运行并行计算程序 mpirun -machinefile nodelist -np 2 ./multi.o 四、实验结果 单机运行结果: Master=0,mtype=1 Master=0,mtype=1 Number of worker tasks = 9 sending 7 rows to task 1 sending 7 rows to task 2 sending 7 rows to task 3 sending 7 rows to task 4 sending 7 rows to task 5 sending 7 rows to task 6 sending 7 rows to task 7 sending 7 rows to task 8 sending 6 rows to task 9 Master=0,mtype=1 offset=0 rows=7 a[0][0]=0.000000e+00 b= after computer after send Master=0,mtype=1 offset=7 rows=7 a[0][0]=7.000000e+00 b= after computer after send Master=0,mtype=1 offset=14 rows=7 a[0][0]=1.400000e+01 b= after computer after send Master=0,mtype=1 offset=28 rows=7 a[0][0]=2.800000e+01 b= after computer after send Master=0,mtype=1 offset=56 rows=6 a[0][0]=5.600000e+01 b= after computer after send Master=0,mtype=1 offset=21 rows=7 a[0][0]=2.100000e+01 b= after computer after send Master=0,mtype=1 offset=49 rows=7 a[0][0]=4.900000e+01 b= after computer after send offset=35 rows=7 a[0][0]=3.500000e+01 b= after computer after send offset=42 rows=7 a[0][0]=4.200000e+01 b= after computer after send Here is the result matrix 双机运行的结果: Number of worker tasks = 1 sending 62 rows to task 1 Master=0,mtype=1 offset=0 rows=62 a[0][0]=0.000000e+00 b= after computer after send Here is the result matrix 计算出来的矩阵与单机的相同 五、实验心得 本次实验是通过程序生成两个静态的矩阵,然后计算出两个矩阵的乘机。通过查看程序可知,通过数组生成矩阵之后采用两台主机同时并行计算出矩阵的乘积,这涉及到了机群之间的通信,通过通信才能协作进行海量数据的计算。 Born T o Win 考研数学线性代数之矩阵的乘法运算 任意两个矩阵不一定能够相乘,即两个矩阵要相乘必须满足的条件是:只有当第一个矩阵A 的列数与第二个矩阵B 的行数相等时A ×B 才有意义。一个m ×n 的矩阵A 左乘一个n ×p 的矩阵B ,会得到一个m ×p 的矩阵C 。左乘:又称前乘,就是乘在左边(即乘号前),比如说,A 左乘E 即AE 。 一个m 行n 列的矩阵与一个n 行p 列的矩阵可以相乘,得到的结果是一个m 行p 列的矩阵,其中的第i 行第j 列位置上的数为第一个矩阵第i 行上的n 个数与第二个矩阵第j 列上的n 个数对应相乘后所得的n 个乘积之和。比如,下面的算式表示一个2行2列的矩阵乘以2行3列的矩阵,其结果是一个2行3列的矩阵。其中,结果矩阵的那个4(结果矩阵中第二(i )行第二(j)列)= 2(第一个矩阵第二(i)行第一列)*2(第二个矩阵中第一行第二(j)列) + 0(第一个矩阵第二(i)行第二列)*1(第二个矩阵中第二行第二(j)列): 矩阵乘法的两个重要性质:一,矩阵乘法满足结合律; 二,矩阵乘法不满足交换律。为什么矩阵乘法不满足交换律呢?这是由矩阵乘法定义决定的。因为矩阵AB=C ,C 的结果是由A 的行与B 的列相乘和的结果;而BA=D ,D 的结果是由B 的行与A 的列相乘和的结果。显然,得到的结果C 和D 不一定相等。同时,交换后两个矩阵有可能不能相乘。 因为矩阵乘法不满足交换律,所以矩阵乘法也不满足消去律。即由AB=AC 是得不到B=C 的,这是因为()AB AC A B C O =?-=是得不到A=O 或B-C=O 即B=C.例 111000010A B ????=≠=≠ ? ?-????0, 但0000AB O ??== ??? 那么由AB=O 一定得不到A=O 或B=O 吗?回答是否定的。比如A 是m ×n 阶矩阵,B 是n ×s 阶矩阵,若A 的秩为n ,则AB=O ,得B=O ;若B 的秩为m ,则AO ,得A=O.为什么吗?原因会在有关齐次线性方程组的文章里进行讲解. 矩阵基本运算及应用 牛晨晖 在数学中,矩阵是一个按照长方阵列排列的或集合。矩阵是高等代中的常见工具,也常见于统计分析等应用数学学科中。在物理学中,矩阵于电路学、、光学和中都有应用;中,制作也需要用到矩阵。矩阵的运算是领域的重要问题。将为简单矩阵的组合可以在理论和实际应用上简化矩阵的运算。在电力系统方面,矩阵知识已有广泛深入的应用,本文将在介绍矩阵基本运算和运算规则的基础上,简要介绍其在电力系统新能源领域建模方面的应用情况,并展望随机矩阵理论等相关知识与人工智能电力系统的紧密结合。 1矩阵的运算及其运算规则 1.1矩阵的加法与减法 1.1.1运算规则 设矩阵,, 则 简言之,两个矩阵相加减,即它们相同位置的元素相加减! 注意:只有对于两个行数、列数分别相等的矩阵(即同型矩阵),加减法运算才有意义,即加减运算是可行的. 1.1.2运算性质 满足交换律和结合律 交换律; 结合律. 1.2矩阵与数的乘法 1.2.1运算规则 数乘矩阵A,就是将数乘矩阵A中的每一个元素,记为或.特别地,称称为的负矩阵. 1.2.2运算性质 满足结合律和分配律 结合律:(λμ)A=λ(μA);(λ+μ)A =λA+μA. 分配律:λ(A+B)=λA+λB. 1.2.3典型举例 已知两个矩阵 满足矩阵方程,求未知矩阵. 解由已知条件知 ? 1.3矩阵与矩阵的乘法 1.3.1运算规则 设,,则A与B的乘积是这样一个矩阵: (1) 行数与(左矩阵)A相同,列数与(右矩阵)B相同,即. (2) C的第行第列的元素由A的第行元素与B的第列元素对应相乘,再取乘积之和. 1.3.2典型例题 设矩阵 计算 解是的矩阵.设它为 矩阵相乘的快速算法 算法介绍 矩阵相乘在进行3D变换的时候是经常用到的。在应用中常用矩阵相乘的定义算法对其进行计算。这个算法用到了大量的循环和相乘运算,这使得算法效率不高。而矩阵相乘的计算效率很大程度上的影响了整个程序的运行速度,所以对矩阵相乘算法进行一些改进是必要的。 这里要介绍的矩阵算法称为斯特拉森方法,它是由v.斯特拉森在1969年提出的一个方法。 我们先讨论二阶矩阵的计算方法。 对于二阶矩阵 A= a11a12 B= b11b12 a21a22b21 b22 先计算下面7个量(1) x1 = (a11 + a22) * (b11 + b22); x2 = (a21 + a22) * b11; x3 = a11 * (b12 - b22); x4 = a22 * (b21 - b11); x5 = (a11 + a12) * b22; x6 = (a21 - a11) * (b11 + b12); x7 = (a12 - a22) * (b21 + b22); 再设C = AB。根据矩阵相乘的规则,C的各元素为(2) c11 = a11 * b11 + a12 * b21 c12 = a11 * b12 + a12 * b22 c21 = a21 * b11 + a22 * b21 c22 = a21 * b12 + a22 * b22 比较(1)(2),C的各元素可以表示为(3) c11 = x1 + x4 - x5 + x7 c12 = x3 + x5 c21 = x2 + x4 c22 = x1 + x3 - x2 + x6 根据以上的方法,我们就可以计算4阶矩阵了,先将4阶矩阵A和B划分成四块 2阶矩阵,分别利用公式计算它们的乘积,再使用(1)(3)来计算出最后结果。 矩阵基本运算及应用 201700060牛晨晖 在数学中,矩阵是一个按照长方阵列排列的复数或实数集合。矩阵是高等代数学中的常见工具,也常见于统计分析等应用数学学科中。在物理学中,矩阵于电路学、力学、光学和量子物理中都有应用;计算机科学中,三维动画制作也需要用到矩阵。矩阵的运算是数值分析领域的重要问题。将矩阵分解为简单矩阵的组合可以在理论和实际应用上简化矩阵的运算。在电力系统方面,矩阵知识已有广泛深入的应用,本文将在介绍矩阵基本运算和运算规则的基础上,简要介绍其在电力系统新能源领域建模方面的应用情况,并展望随机矩阵理论等相关知识与人工智能电力系统的紧密结合。 1矩阵的运算及其运算规则 1.1矩阵的加法与减法 1.1.1运算规则 设矩阵,, 则 简言之,两个矩阵相加减,即它们相同位置的元素相加减! 注意:只有对于两个行数、列数分别相等的矩阵(即同型矩阵),加减法运算才有意义,即加减运算是可行的. 1.1.2运算性质 满足交换律和结合律 交换律; 结合律. 1.2矩阵与数的乘法 1.2.1运算规则 数乘矩阵A,就是将数乘矩阵A中的每一个元素,记为或. 特别地,称称为的负矩阵. 1.2.2运算性质 满足结合律和分配律 结合律:(λμ)A=λ(μA);(λ+μ)A =λA+μA. 分配律:λ(A+B)=λA+λB. 已知两个矩阵 满足矩阵方程,求未知矩阵. 解由已知条件知 1.3矩阵与矩阵的乘法 1.3.1运算规则 设,,则A与B的乘积是这样一个矩阵: (1) 行数与(左矩阵)A相同,列数与(右矩阵)B相同,即 . (2) C的第行第列的元素由A的第行元素与B的第列元素对应相乘,再取乘积之和. 《并行算法设计与分析》考题与答案 一、1.3,处理器PI的编号是: 解:对于n ×n 网孔结构,令位于第j行,第k 列(0≤j,k≤n-1)的处理器为P i(0≤i≤n2-1)。以16处理器网孔为例,n=4(假设j、k由0开始): 由p0=p(j,k)=p(0,0) P8=p(j,k)=p(2,0) P1=p(j,k)=p(0,1) P9=p(j,k)=p(2,1) P2=p(j,k)=p(0,2) P10=p(j,k)=p(2,2) P3=p(j,k)=p(0,3) P11=p(j,k)=p(2,3) P4=p(j,k)=p(1,0) P12=p(j,k)=p(3,0) P5=p(j,k)=p(1,1) P13=p(j,k)=p(3,1) P6=p(j,k)=p(1,2) P14=p(j,k)=p(3,2) P7=p(j,k)=p(1,3) P15=p(j,k)=p(3,3) 同时观察i和j、k之间的关系,可以得出i的表达式为:i= j * n+k 一、1.6矩阵相乘(心动算法) a)相乘过程 设 A 矩阵= 121221122121 4321 B 矩阵=1 23443212121121 2 【注】矩阵元素中A(i,l)表示自左向右移动的矩阵,B(l,j)表示自上向下移动的矩阵,黑色倾斜加粗标记表示已经计算出的矩阵元素,如12, C(i,j)= C(i,j)+ A(i,l)* B(l,j) 1 2、 4、 6、 8、 10 计算完毕 b)可以在10步后完成,移动矩阵长L=7,4*4矩阵N=4,所以需要L+N-1=10 Strassen 矩阵相乘算法代码 #include 矩阵连乘最佳加括号方式-动态规划算法 一、问题描述 给定n个矩阵{A1,A2,…,A n},其中A i与A i+1是可乘的,i=1,2,…,n-1。要算出这n个矩阵的连乘积A1A2…A n。由于矩阵乘法满足结合律,故计算矩阵的连乘积可以有许多不同的计算次序。这种计算次序可以用加括号的方式来确定。若一个矩阵连乘积的计算次序完全确定,也就是说该连乘积已完全加括号,则可以依此次序反复调用2个矩阵相乘的标准算法计算出矩阵连乘积。完全加括号的矩阵连乘积可递归地定义为: (1)单个矩阵是完全加括号的; (2)矩阵连乘积A是完全加括号的,则A可表示为2个完全加括号的矩阵连乘积B和C 的乘积并加括号,即A=(BC)。 例如,矩阵连乘积A1A2A3A4有5种不同的完全加括号的方式:(A1(A2(A3A4))),(A1((A2A3)A4)),((A1A2)(A3A4)),((A1(A2A3))A4),(((A1A2)A3)A4)。每一种完全加括号的方式对应于一个矩阵连乘积的计算次序,这决定着作乘积所需要的计算量。若A是一个p×q矩阵,B是一个q×r矩阵,则计算其乘积C=AB的标准算法中,需要进行pqr次数乘。 为了说明在计算矩阵连乘积时,加括号方式对整个计算量的影响,先考察3个矩阵 {A1,A2,A3}连乘的情况。设这三个矩阵的维数分别为10×100,100×5,5×50。加括号的方式只有两种:((A1A2)A3),(A1(A2A3)),第一种方式需要的数乘次数为10×100×5+10×5×50=7500,第二种方式需要的数乘次数为100×5×50+10×100×50=75000。第二种加括号方式的计算量时第一种方式计算量的10倍。由此可见,在计算矩阵连乘积时,加括号方式,即计算次序对计算量有很大的影响。于是,自然提出矩阵连乘积的最优计算次序问题,即对于给定的相继n个矩阵{A1,A2,…,A n}(其中矩阵A i的维数为p i-1×p i,i=1,2,…,n),如何确定计算矩阵连乘积A1A2…A n的计算次序(完全加括号方式),使得依此次序计算矩阵连乘积需要的数乘次数最少。 穷举搜索法的计算量太大,它不是一个有效的算法,本实验采用动态规划算法解矩阵连乘积的最优计算次序问题。 二、算法思路 第四章 并行算法的设计基础 习题例题: 1. 试证明Brent 定理:令W (n)是某并行算法A 在运行时间T(n)内所执行的运算数量,则 A 使用p 台处理器可在t(n)=O(W(n)/p+T(n))时间内执行完毕。 2. 假定P i (1≤i ≤n )开始时存有数据d i , 所谓累加求和指用 1 i j j d =∑来代替P i 中的原始值 d i 。 算法 PRAM-EREW 上累加求和算法 输入: P i 中保存有d i , l ≤ i ≤ n 输出: P i 中的内容为 i j j l d =∑ begin for j = 0 to logn – 1 do for i = 2j + 1 to n par-do (i) P i = d i-(2^i) (ii) d i = d i + d i-(2^j) endfor endfor end (1)试用n=8为例,按照上述算法逐步计算出累加和。 (2)分析算法时间复杂度。 3. 在APRAM 模型上设计算法时,应尽量使各处理器内的局部计算时间和读写时间大致 与同步时间B 相当。当在APRAM 上计算M 个数的和时,可以借用B 叉树求和的办法。 假定有j 个处理器计算n 个数的和,此时每个处理器上分配n/p 个数,各处理器先求出自身的局和;然后从共享存储器中读取它的B 个孩子的局和,累加后置入指定的共享存储单元SM 中;最后根处理器所计算的和即为全和。算法如下: 算法 APRAM 上求和算法 输入: n 个待求和的数 输出: 总和在共享存储单元SM 中 Begin (1) 各处理器求n/p 个数的局和,并将其写入SM 中 (2) Barrier (3) for k = [ log B ( p(B – 1) + 1) ] – 2 downto 0 do 3.1 for all P i , 0 ≤ i ≤ p – 1,do if P i 在第k 级 then P i 计算其B 各孩子的局和并与其自身局和相加,然后将结果写入SM 中 endif 《计算机系统结构》大作业 对并行算法的介绍和展望 专业计算机科学与技术 班级 111 学号 111425020133 姓名完颜杨威 日期 2014年4月17日 河南科技大学国际教育学院 对并行算法的介绍和展望 我们知道,算法是求解问题的方法和步骤。而并行算法就是用多台处理机联合求解问题的方法和步骤,其执行过程是将给定的问题首先分解成若干个尽量相互独立的子问题,然后使用多台计算机同时求解它,从而最终求得原问题的解。并行算法的研究涉及到理论、设计、实现、应用等多个方面,要保持并行算法研究的持续性和完整性,需要建立一套完整的“理论-设计-实现-应用”的学科体系,也就是所谓的并行算法研究的生态环境。其中,并行算法理论是并行算法研究的理论基础,包含并行计算模型和并行计算复杂性等;并行算法的设计与分析是并行算法研究的核心内容;并行算法的实现是并行算法研究的应用基础,包含并行算法实现的硬件平台和软件支撑技术等;并行应用是并行算法研究的发展动力,除了包含传统的科学工程计算应用外,还有新兴的与社会相关的社会服务型计算应用等。 并行算法主要分为数值计算问题的并行算法和非数值计算问题的并行算法。而并行算法的研究主要分为并行计算理论、并行算法的设计与分析、和并行算法的实现三个层次。现在,并行算法之所以受到极大的重视,是为了提高计算速度、提高计算精度,以及满足实时计算需要等。然而,相对于串行计算,并行计算又可以划分成时间并行和空间并行。时间并行即流水线技术,空间并行使用多个处理器执行并发计算,当前研究的主要是空间的并行问题。并行算法是一门还没有发展成熟的学科,虽然人们已经总结出了相当多的经验,但是远远不及串行算法那样丰富。并行算法设计中最常用的的方法是PCAM方法,即划分,通信,组合,映射。首先划分,就是将一个问题平均划分成若干份,并让各个处理器去同时执行;通信阶段,就是要分析执行过程中所要交换的数据和任务的协调情况,而组合则是要求将较小的问题组合到一起以提高性能和减少任务开销,映射则是要将任务分配到每一个处理器上。任何一个并行算法必须在一个科学的计算模型中进行设计。我们知道,任何算法必须有计算模型。任何并行计算模型必须要有为数不多、有明确定义的、可以定量计算的或者可以实际测量的参数,这些参数可以构成相应函数。并行计算模型是算法设计者与体系结构研究者之间的一个桥梁,是并行算法设计和分析的基础。它屏蔽了并行机之间的差异,从并行机中抽取若干个能反映计算特性的可计算或可测量的参数,并按照模型所定义的计算行为构造成本函数,以此进行算法的复杂度分析。 经过多年的发展,我国在并行算法的研究上也取得了显著进展,并行计算的应用已遍布天气预报、石油勘探、航空航天、核能利用、生物工程等领域,理论研究与应用普及均取得了很大发展。随着高性价比可扩展集群并行系统的逐步成熟和应用,大规模电力系统潮流并行计算和分布式仿真成为可能。目前,并行算法在地震数据处理中应用已较为成熟,近年来向更实用的基于PC机群的并行技术发展.然而,在非地震方法中,并行算法应用较少见文献报道,研究尚处于初级研究阶段。在大地电磁的二维和三维正、反演问题上,并行计算技术逐渐得到越来越多关注和重视.随着资源和能源需求的增长,地球物理勘探向深度和广度快速发展,大幅增长的数据量使得高性能并行计算机和高效的并行算法在勘探地球物理学中的发展和应用将占据愈来愈重要的地位。计算机技术在生物医学领域已经广泛应用,实践证明,并行算法在生物医学工程的各个领域中具有广泛的应用价值,能有效提高作业效率。随着电子科学技术的发展,电磁问题变得越来越复杂,为了在有限的计算机资源条件下求解大规模复杂电磁问题,许电磁学家已 c++课程设计-矩阵的转置与乘法计算 C++课程设计实验报告 姓名学号班级 任课教师时间 9月 教师指定题目4-4 矩阵的转置与乘法计算评定难易级别 A 实验报告成绩 1.实验内容: 1.1 程序功能介绍 该程序定义了一个向量类,里面的元素是模板形式,定义了有关向量了类的各种属性、方法及运算符重载函数。 1.2 程序设计要求 (1)利用已知的向量类对象定义一个矩阵类,矩阵类的数据是向量子对象,同样定义矩阵类的各种属性、方法及运算符重载函数。 (2)完善成员函数,使矩阵可以由文件输入,具体的输入格式自己规定。 (3)完成矩阵的赋值、转置、乘法等运算,要求用整形矩阵和浮点型矩阵分别演算。 (4)更改main函数结构,可由用户选择输入矩阵数据的方法,程序可以连续运行,直到选择退出为止。 2. 源程序结构流程框图与说明(含新增子函数的结构框图) 作者:喻皓学号:0511590125 3. 基本数据结构 定义的类模板,将函数用链表将一些功能函数连接起来。其中定义了构造函数,析构函数,重载赋值、乘法、数乘、输入、输出,矩阵转置等函数,实现矩阵的矩阵的赋值、转置、乘法等运算。 template 第5章 并行算法的一般设计策略 习题例题: 1、 令n是待排序的元素数,p=2d是d维超立方中处理器的数目。假定开始随机选定主元x,并将其播送给所有其他处理器,每个处理器按索接收到的x,对其n/p个元素按照≤x 和>x进行划分,然后按维进行交换。这样在超立方上实现的快排序算法如下: 算法5.6 超立方上快排序算法 输入:n个元素,B = n/p, d = log p 输出: 按超立方编号进行全局排序 Begin (1)id = processor’s label (2)for i=1 to d do (2.1) x = pivot / * 选主元 * / (2.2) 划分B为B1和B2满足B1 ≤B<B2 (2.3) if第i位是零 then (i) 沿第i维发送B2给其邻者 (ii) C = 沿第i维接收的子序列 (iii) B= B1∪C else (i) 沿第i维发送B1给其邻者 (ii) C = 沿第i维接收的子序列 (iii) B= B2∪C endif endfor (3)使用串行快排序算法局部排序B = n/p个数 End ① 试解释上述算法的原理。 ② 试举一例说明上述算法的逐步执行过程。 2、 ① 令T = babaababaa。P =abab,试用算法5.4计算两者的匹配情况。 ② 试分析KMP算法为何不能简单并行化。 3、 给定序列(33,21,13,54,82,33,40,72)和8个处理器,试按照算法5.2构造一棵为在PRAM-CRCW模型上执行快排序所用的二叉树。 4、 计算duel(p, q)函数的算法如下: 算法5.7 计算串匹配的duel(p, q) 的算法 输入: WIT〔1: n-m+1〕,1≤p<q≤n-m+1,(p - q) < m/2 输出: 返回竞争幸存者的位置或者null(表示p和q之一不存在) Begin if p=null then duel= q else 《并行算法》课程总结与复习 Ch1 并行算法基础 1.1 并行计算机体系结构 并行计算机的分类 ?SISD,SIMD,MISD,MIMD; ?SIMD,PVP,SMP,MPP,COW,DSM 并行计算机的互连方式 ?静态:LA(LC),MC,TC,MT,HC,BC,SE ?动态:Bus, Crossbar Switcher, MIN(Multistage Interconnection Networks) 1.2 并行计算模型 PRAM模型:SIMD-SM, 又分CRCW(CPRAM,PPRAM,APRAM),CREW,EREW SIMD-IN模型:SIMD-DM 异步APRAM模型:MIMD-SM BSP模型:MIMD-DM,块内异步并行,块间显式同步 LogP模型:MIMD-DM,点到点通讯 1.3 并行算法的一般概念 并行算法的定义 并行算法的表示 并行算法的复杂度:运行时间、处理器数目、成本及成本最优、加速比、并行效率、工作量 并行算法的WT表示:Brent定理、WT最优 加速比性能定律 并行算法的同步和通讯 Ch2 并行算法的基本设计技术 基本设计技术 平衡树方法:求最大值、计算前缀和 倍增技术:表序问题、求森林的根 分治策略:FFT分治算法 划分原理: 均匀划分(PSRS排序)、对数划分(并行归并排序)、方根划分(Valiant归并排序)、功能划分( (m,n)-选择) 流水线技术:五点的DFT计算 Ch3 比较器网络上的排序和选择算法 3.1 Batcher归并和排序 0-1原理的证明 奇偶归并网络:计算流程和复杂性(比较器个数和延迟级数) 双调归并网络:计算流程和复杂性(比较器个数和延迟级数) Batcher排序网络:原理、种类和复杂性 3.2 (m, n)-选择网络 分组选择网络 平衡分组选择网络及其改进 Ch4 排序和选择的同步算法 4.1 一维线性阵列上的并行排序算法 4.2 二维Mesh上的并行排序算法 ShearSort排序算法 Thompson&Kung双调排序算法及其计算示例 4.3 Stone双调排序算法 4.4 Akl并行k-选择算法:计算模型、算法实现细节和时间分析 4.5 Valiant并行归并算法:计算模型、算法实现细节和时间分析 4.7 Preparata并行枚举排序算法:计算模型和算法的复杂度 Ch5 排序和选择的异步和分布式算法 5.1 MIMD-CREW模型上的异步枚举排序算法 5.2 MIMD-TC模型上的异步快排序算法 5.3分布式k-选择算法 Ch6 并行搜索 6.1 单处理器上的搜索 6.2 SIMD共享存储模型上有序表的搜索:算法 6.3 SIMD共享存储模型上随机序列的搜索:算法 6.4 树连接的SIMD模型上随机序列的搜索:算法 6.5 网孔连接的SIMD模型上随机序列的搜索:算法和计算示例 Ch8 数据传输与选路 8.1 引言 信包传输性能参数 维序选路(X-Y选路、E-立方选路) 选路模式及其传输时间公式 8.2 单一信包一到一传输 SF和CT传输模式的传输时间(一维环、带环绕的Mesh、超立方) 8.3 一到多播送 SF和CT传输模式的传输时间(一维环、带环绕的Mesh、超立方)及传输方法8.4 多到多播送 SF和CT传输模式的传输时间(一维环、带环绕的Mesh、超立方)及传输方法8.5 贪心算法(书8.2) 二维阵列上的贪心算法 蝶形网上的贪心算法 8.6 随机和确定的选路算法(书8.3) Ch12矩阵运算 矩阵的运算及其运算规则 一、矩阵的加法与减法 1、运算规则 设矩阵,, 则 简言之,两个矩阵相加减,即它们相同位置的元素相加减! 注意:只有对于两个行数、列数分别相等的矩阵(即同型矩阵),加减法运算才有意义,即加减运算是可行的. 2、运算性质(假设运算都是可行的) 满足交换律和结合律 交换律; 结合律. 二、矩阵与数的乘法 1、运算规则 数乘矩阵A,就是将数乘矩阵A中的每一个元素,记为或.特别地,称称为的负矩阵. 2、运算性质 满足结合律和分配律 结合律:(λμ)A=λ(μA);(λ+μ)A =λA+μA. 分配律:λ(A+B)=λA+λB. 典型例题 例6.5.1已知两个矩阵 满足矩阵方程,求未知矩阵. 解由已知条件知 三、矩阵与矩阵的乘法 1、运算规则 设,,则A与B的乘积是这样一个矩阵: (1) 行数与(左矩阵)A相同,列数与(右矩阵)B相同,即. (2) C的第行第列的元素由A的第行元素与B的第列元素对应相乘,再取乘积之和. 典型例题 例6.5.2设矩阵 计算 解是的矩阵.设它为 想一想:设列矩阵,行矩阵,和的行数和列数分别是多少呢 是3×3的矩阵,是1×1的矩阵,即只有一个元素. 课堂练习 1、设,,求. 2、在第1道练习题中,两个矩阵相乘的顺序是A在左边,B在右边,称为A左乘B 或B右乘A.如果交换顺序,让B在左边,A在右边,即A右乘B,运算还能进行吗?请算算试试看.并由此思考:两个矩阵应当满足什么条件,才能够做乘法运算. 3、设列矩阵,行矩阵,求和,比较两个计算结果,能得出什么结论吗? 4、设三阶方阵,三阶单位阵为,试求和,并将计算结果与A比较,看有什么样的结论. 解: 第1题 . 第2题 对于 #include } } void main() { int a[N][M],b[N][M]; int n,m,n1,m1,i,j; int *pa[M],*pb[M]; printf("请选择A矩阵的行数和列数:\n"); scanf("%d %d",&m,&n); for(i=0;i } printf("请选择B矩阵的行数和列数:\n"); scanf("%d %d",&m1,&n1); for(i=0;i 数据结构与算法设计课程实验报告 课题矩阵相乘的算法设计 专业班级网工专业1405班 学号14144501352 姓名陈晓露 指导教师陶跃进 目录 一、问题描述 二、问题分析 1、分析最优解的结构 2、建立递归关系 3、递归实现的复杂性 4、算法迭代实现 三、结果输出 四、实验总结 一、问题描述 给定n个矩阵{A1,A2,... ,An},其中这n个矩阵是可相乘的,i=1,2,...,n-1。算出这n个矩阵的相乘积A1A2 。。。An。 补充:如果两个矩阵A和B是可相乘的,那么A的列数要和B的行数是相同的,否则,这两个矩阵是不可相乘的。它们的相乘结果矩阵C的行数是A的行数,而列数是B的列数。 设A1,A2,…,An为矩阵序列,Ai为Pi-1×Pi阶矩阵,i = 1,2,…,n. 确定乘法顺序使得元素相乘的总次数最少. 输入:向量P = 算法训练矩阵乘法 时间限制:内存限制: 问题描述 输入两个矩阵,分别是m*s,s*n大小。输出两个矩阵相乘的结果。 输入格式 第一行,空格隔开的三个正整数m,s,n(均不超过200)。 接下来m行,每行s个空格隔开的整数,表示矩阵A(i,j)。 接下来s行,每行n个空格隔开的整数,表示矩阵B(i,j)。 输出格式 m行,每行n个空格隔开的整数,输出相乘後的矩阵C(i,j)的值。 样例输入 2 3 2 1 0 -1 1 1 -3 0 3 1 2 3 1 样例输出 -3 2 -8 2 提示 矩阵C应该是m行n列,其中C(i,j)等于矩阵A第i 行行向量与矩阵B第j列列向量的内积。 例如样例中C(1,1)=(1,0,-1)*(0,1,3) = 1 * 0 +0*1+(-1)*3=-3 #include (a[H][i]); } return myT; } vector readL(int b[][202],int s,int n,int L) { vector myT; for(int i=1;i<=s;i++) { (b[i][L]); } return myT; } int main() { cin>>m>>s>>n; int a[m+1][202],b[s+1][202]; for(int i=1;i<=m;i++) { for(int j=1;j<=s;j++) { 第十二章 并行程序设计基础 习题例题: 1、假定有n 个进程P(0),P(1),…,P(n -1),数组元素][i a 开始时被分配给进程P(i )。试写出求归约和]1[]1[]0[-+++n a a a 的代码段,并以8=n 示例之。 2、假定某公司在银行中有三个账户X 、Y 和Z ,它们可以由公司的任何雇员随意访问。雇员们对银行的存、取和转帐等事务处理的代码段可描述如下: /*从账户X 支取¥100元*/ atomic { if (balance[X] > 100) balance[X] = balance[X]-100; } /*从账户Y 存入¥100元*/ atomic {balance[Y] = balance[Y]-100;} /*从账户X 中转¥100元到帐号Z*/ atomic { if (balance[X] > 100){ balance[X] = balance[X]-100; balance[Z] = balance[Z]+100; } } 其中,atomic {}为子原子操作。试解释为什么雇员们在任何时候(同时)支、取、转帐时,这些事务操作总是安全有效的。 3、考虑如下使用lock 和unlock 的并行代码: parfor (i = 0;i < n ;i++){ noncritical section lock(S); critical section unlock(S); } 假定非临界区操作取T ncs时间,临界区操作取T cs时间,加锁取t lock时间,而去锁时间可忽略。则相应的串行程序需n( T ncs + T cs )时间。试问: ①总的并行执行时间是多少? ②使用n个处理器时加速多大? ③你能忽略开销吗? 4、计算两整数数组之内积的串行代码如下: Sum = 0; for(i = 0;i < N;i++) Sum = Sum + A[i]*B[i]; 试用①相并行;②分治并行;③流水线并行;④主-从行并行;⑤工作池并行等五种并行编程风范,写出如上计算内积的并行代码段。 5、图12.15示出了点到点和各种集合通信操作。试根据该图解式点倒点、播送、散步、收集、全交换、移位、归约与前缀和等通信操作的含义。 图12.15点到点和集合通信操作 矩阵乘积的运算法则的证明 矩阵乘积的运算法则 1 乘法结合律:若n m C A ?∈,p n C B ?∈ , q p C C ?∈,则C AB BC A )()(=. 2 乘法左分配律:若A 和B 是两个n m ?矩阵,且C 是一个p n ?矩阵,则BC AC C B A +=+)(. 3 乘法右分配律:若A 是一个n m ?矩阵,并且B 和C 是两个p n ?矩阵,则BC AC C B A +=+)(. 4 若α是一个标量,并且A 和B 是两个m n ?矩阵,则B A B A ααα+=+)(. 证明 1 ①先设n 阶矩阵为)(ij a A =,)(ij b B =, )(ij c C =,)(ij d AB =,)(ij e BC = )(ij f ABC =,)()(ij g BC A =,有矩阵的乘法得: 故对任意n j i 2,1,=有: =ij g 故)()(BC A C AB = ②再看 mn ik a A )(= ,np kj b B )(=,pq jt c C )(=, mp ij d AB )(= , nq kt e BC )(= , mq it g BC A )()(=, 有矩阵的乘法得: 故对任意的,2,1m i = ,2,1p j = ,2,1n k = q t 2,1=有: 6nt in t i t i e a e a e a +++= 2211 =ij g 故)()(BC A C AB = 证明 2 设ij A 表示矩阵A 的第i 行,第j 列上的元素,则有 =ij ij BC AC )()(+ 故证出矩阵乘法左分配律. 证明 3 同理矩阵乘法左分配律可得 = []ij C B A )(+ 故证出矩阵乘法左分配律. 证明 4 设????????????==mn m m n n mn ij a a a a a a a a a a A 2122221 11211)(,????????????==mn m m n n mn ij b b b b b b b b b b B 2 12222111211)(, 可得=+B A ????????????+++++++++mn mn m m m m n n n n b a b a b a b a b a b a b a b a b a 221 12222 2221211112 121111, =A α????????????mn m m n n a a a a a a a a a ααααααααα 212222111211,B α????????????=mn m m n n b b b b b b b b b ααααααααα 21 2222111211, B A αα+???? ??????? ?+++++++++=)()()()()()()()()(221122222221211112121111mn mn m m m m n n n n b a b a b a b a b a b a b a b a b a ααααααααα , 所以)(B A +α=B A αα+. 第五章并行算法的一般设计策略 习题例题: 1、令n是待排序的元素数,p=2d是d维超立方中处理器的数目。假定开始随机选定主元x,并将其播送给所有其他处理器,每个处理器按索接收到的x,对其n/p个元素按照≤ x和>x 进行划分,然后按维进行交换。这样在超立方上实现的快排序算法如下: 算法5.6 超立方上快排序算法 输入:n个元素,B= n/p, d =log p 输出:按超立方编号进行全局排序 Begin (1)id=processor’s label (2)fori=1to d do (2.1) x = pivot/ * 选主元 * / (2.2) 划分B为B1和B2满足B1 ≤B<B2 (2.3)if第i位是零then (i) 沿第i维发送B2给其邻者 (ii)C =沿第i维接收的子序列 (iii) B=B1∪C else (i)沿第i维发送B1给其邻者 (ii) C=沿第i维接收的子序列 (iii) B= B2∪C endif endfor (3)使用串行快排序算法局部排序B= n/p个数 End ①试解释上述算法的原理。 ②试举一例说明上述算法的逐步执行过程。 2、①令T=babaababaa。P =abab,试用算法5.4计算两者的匹配情况。 ②试分析KMP算法为何不能简单并行化。 3、给定序列(33,21,13,54,82,33,40,72)和8个处理器,试按照算法5.2构造一棵为在PRAM-CRCW模型上执行快排序所用的二叉树。 4、计算duel(p, q)函数的算法如下: 算法5.7 计算串匹配的duel(p,q)的算法 输入:WIT〔1:n-m+1〕,1≤p【线性代数】之矩阵的乘法运算
矩阵的运算及其运算规则
矩阵相乘的快速算法
矩阵的运算及其运算规则
并行算法设计与分析考题与答案
strassen矩阵相乘算法C++代码
矩阵连乘最佳加括号方式动态规划算法
并行算法的设计基础
对并行算法的介绍和展望——学期大作业
c++课程设计-矩阵的转置与乘法计算
习题作业-第五章 并行算法的一般设计方法
《并行算法》课程总结与复习
矩阵的运算及其运算规则
矩阵乘法运算的C语言程序
矩阵相乘的算法设计
算法训练 矩阵乘法
并行计算-习题及答案-第12章 并行程序设计基础
矩阵乘积的运算法则的证明
并行算法的一般设计策略