矩阵相乘并行算法

合集下载

卷积矩阵乘法

卷积矩阵乘法引言在计算机科学和人工智能领域，卷积矩阵乘法是一个重要的矩阵运算，广泛应用于图像处理、深度学习等领域。

本文将深入探讨卷积矩阵乘法的原理、应用以及相关算法。

卷积与矩阵乘法的基本概念在开始讨论卷积矩阵乘法之前，我们先了解一下卷积和矩阵乘法的基本概念。

矩阵乘法矩阵乘法是线性代数中的一个基本运算，它是将一个矩阵的每个元素与另一个矩阵的对应元素相乘，然后将乘积相加得到的新矩阵。

卷积卷积可以理解为一种积分运算，它将两个函数之间的重叠部分进行积分得到一个新的函数。

在图像处理领域，卷积常常用于对图像进行滤波、边缘检测等操作。

卷积矩阵乘法的原理卷积矩阵乘法是将矩阵乘法与卷积运算相结合的一种运算方法。

它的基本原理是将一个矩阵从左上角开始依次与另一个矩阵的各个子矩阵进行点乘操作，并将乘积相加得到一个新的矩阵。

卷积矩阵乘法的数学表达式卷积矩阵乘法可以用以下数学表达式表示：其中，A和B是两个矩阵，C是卷积矩阵乘法的结果矩阵。

i和j分别是矩阵A和B 的行数和列数。

卷积矩阵乘法的计算步骤卷积矩阵乘法的计算步骤如下：1.将矩阵A与矩阵B的第一个子矩阵进行点乘操作，得到一个新的矩阵C1。

2.将矩阵A向右平移一个单位，继续与矩阵B的下一个子矩阵进行点乘操作，得到一个新的矩阵C2。

3.重复上述步骤，直到矩阵A的最右边与矩阵B的最后一个子矩阵进行点乘操作，得到最终的结果矩阵C。

卷积矩阵乘法的应用卷积矩阵乘法在图像处理、深度学习等领域有广泛的应用。

图像处理在图像处理中，卷积矩阵乘法主要用于图像的滤波操作。

通过将原始图像与一个滤波器进行卷积矩阵乘法，可以实现图像的模糊、锐化、边缘检测等效果。

深度学习在深度学习中，卷积矩阵乘法是卷积神经网络的核心运算。

卷积神经网络通过多层卷积矩阵乘法实现对输入数据的特征提取和分类等任务。

卷积矩阵乘法的算法卷积矩阵乘法的计算复杂度较高，因此有多种优化算法被提出。

基于分块的算法基于分块的算法是将矩阵划分成多个小块，通过对小块进行卷积矩阵乘法运算，最后将结果合并得到最终的结果矩阵。

基于分布式并行计算的二维矩阵乘法的实现实验报告心得

基于分布式并行计算的二维矩阵乘法的实现实验报告心得【原创版4篇】篇1 目录1.二维矩阵乘法的实现实验报告概述2.分布式并行计算的原理3.二维矩阵乘法的实验过程及结果4.实验结论及未来展望篇1正文一、二维矩阵乘法的实现实验报告概述二维矩阵乘法是一种广泛应用于计算机科学和数学领域的计算方法，其基本思想是将两个二维矩阵相乘得到一个新的二维矩阵。

在传统的串行计算中，二维矩阵乘法的计算量较大，效率较低。

为了解决这个问题，分布式并行计算被引入到二维矩阵乘法的实现中。

二、分布式并行计算的原理分布式并行计算是一种将计算任务分解成多个子任务，并将这些子任务分配到不同的计算节点上并行执行的计算方法。

在分布式并行计算中，每个计算节点都只处理一部分子任务，最终将所有节点的结果合并得到最终结果。

分布式并行计算的优势在于能够充分利用多核处理器和集群的资源，提高计算效率。

三、二维矩阵乘法的实验过程及结果在本次实验中，我们采用了基于分布式并行计算的二维矩阵乘法实现方法。

具体步骤如下：1.将原始的两个二维矩阵分别划分为多个子矩阵，并将这些子矩阵分配到不同的计算节点上。

2.在每个计算节点上，使用分布式并行计算的方法计算相应的子矩阵。

3.将所有节点的结果合并得到最终结果。

实验结果表明，采用分布式并行计算的二维矩阵乘法能够显著提高计算效率，特别是在大规模矩阵计算中。

四、实验结论及未来展望本次实验证明了基于分布式并行计算的二维矩阵乘法的有效性。

篇2 目录I.二维矩阵乘法的实现方法II.分布式并行计算的应用III.实验结果和结论篇2正文一、二维矩阵乘法的实现方法二维矩阵乘法是一种用于处理大型数据集的算法，可以应用于图像处理、信号处理、人工智能等领域。

实现二维矩阵乘法的方法有多种，其中分布式并行计算是一种有效的方法。

分布式并行计算是一种将计算任务分解成多个子任务，并将这些子任务分配到不同的计算节点上并行执行的方法。

在分布式并行计算中，矩阵的每个元素都由一个计算节点进行处理，最终将所有节点的结果合并得到最终结果。

三个矩阵连乘的运算顺序

三个矩阵连乘的运算顺序三个矩阵的连乘运算顺序是一项非常重要的算法问题，也是线性代数中的一个基础知识点。

当需要进行多个矩阵的乘法运算时，我们必须仔细考虑其顺序，方能得到正确的结果。

在三个矩阵连乘的运算中，如果我们的三个矩阵分别为A、B、C，那么其连乘的运算顺序可表示为A*B*C。

当然，在实际运算时我们必须根据不同的矩阵值、维度、特点等进行适当的选择和调整。

首先，我们需要明确一点的是，矩阵之间的乘法不满足交换律。

即A*B不一定等于B*A。

因此，在确定三个矩阵的连乘顺序时，不能随意更改矩阵的次序。

其次，我们需要知道的是，在矩阵连乘中，括号的插入顺序也会影响乘积的结果。

例如，在下列三个矩阵连乘的式子中：A*B*C我们可以将括号插入在不同位置，从而改变乘积的顺序：(A*B)*C 或 A*(B*C)无论我们选择哪种运算顺序，必须遵循以下原则：（1）维度要匹配，即 A 的列等于 B 的行，B 的列等于 C 的行，否则无法进行乘法运算。

（2）考虑到普遍的缓存机制，矩阵乘积的运算也应遵循空间局部性原则，即让内存和缓存可以重复利用。

在三个矩阵连乘问题中，求连乘的最小值并不总是我们所关心的问题。

我们所追求的是找出一种运算顺序，可以最好地满足我们需要的计算效率、空间复杂度、命令级并行度等需求。

因此，我们需要在规定的维度和空间限制下，尝试不同的运算次序，以获得最优结果。

总之，在三个矩阵的连乘运算中，我们需要综合考虑多种因素，包括矩阵的特点、维度、空间和时间限制等，以确定最优的运算顺序。

只有在正确的运算顺序下进行矩阵乘法运算，才能得到准确、快速、高效的结果。

分块矩阵乘法的规则___解释说明

分块矩阵乘法的规则解释说明1. 引言1.1 概述分块矩阵乘法是一种重要的矩阵运算方法，适用于大规模的线性代数计算问题。

它通过将原始矩阵划分成多个小块，并利用块矩阵乘法规则进行计算，将复杂度降低到可接受的水平。

本文将深入探讨分块矩阵乘法的规则、应用和优势。

1.2 文章结构本文总共包括五个部分。

首先，在引言部分概述了文章的背景和目的。

其次，在第二部分中介绍了分块矩阵乘法规则的基本概念，包括定义、常用算法及其在实际应用中的优势。

接下来，在第三部分中详细解释和说明了分块矩阵乘法规则，包括定义和表示方法以及计算过程解释，重点关注该方法在求解大规模线性方程组中的应用解释。

第四部分通过简单与复杂实例展示了该规则在实际工程中的应用，并讨论了常见问题和挑战以及相应策略。

最后，在结论部分对分块矩阵乘法规则进行总结，并展望了未来的发展和研究方向。

1.3 目的本文的目的是深入解析分块矩阵乘法规则，从理论和实际应用两个角度对其进行详细说明。

通过本文的阐述，读者将能够全面了解分块矩阵乘法规则的基本概念、计算过程和优势，并获得应用该规则解决大规模线性方程组时所需的相关知识。

同时，本文还希望为读者提供一些实例和案例，在实际工程中更好地理解和应用分块矩阵乘法规则。

最终，通过对该方法的全面介绍，本文旨在促进分块矩阵乘法规则在未来的发展与研究中起到积极推动作用。

2. 分块矩阵乘法规则的基本概念2.1 什么是分块矩阵乘法分块矩阵乘法是一种在矩阵运算中常用的技术方法，用于加速大规模矩阵乘法的计算。

它将原始的大型矩阵分割成较小的子矩阵，并通过定义适当的乘法规则来对这些子矩阵进行计算。

最后，将这些子矩阵相乘得到结果，从而减少了计算量。

2.2 常用的分块矩阵乘法算法根据不同的情况和需求，可使用多种不同的分块矩阵乘法算法。

一些常用的算法包括：- 块内顺序计算：将每个子矩阵内部元素相乘之后再相加求和。

- 紧凑布局：将两个子矩阵合并为一个大型临时数组，在此基础上进行计算。

两个矩阵相乘所需要的乘法的次数

两个矩阵相乘所需要的乘法的次数
矩阵乘法是线性代数中的重要概念之一，常常用于解决各种数据处理和机器学习问题。

在实际应用中，矩阵乘法的计算量往往非常大，因此需要考虑如何优化计算效率。

两个矩阵相乘的乘法次数是矩阵乘法的一个重要指标，也是衡量矩阵乘法计算复杂度的主要方法。

假定有两个矩阵A和B，其维度分别为m×n和n×p，它们的乘积C=A×B的维度为m×p。

则矩阵乘法C(i,j)的计算方式为：
C(i,j)=∑k=1nA(i,k)×B(k,j)
因此，矩阵乘法的总计算次数为：
m×n×p
这意味着，矩阵乘法的计算复杂度与矩阵维度的大小有关，当矩阵维度增大时，矩阵乘法的计算复杂度也会增加。

因此，如何优化矩阵乘法的计算效率，是一个非常重要的问题。

在实际应用中，有许多优化矩阵乘法计算效率的方法，包括基于矩阵分块的算法、基于并行计算的算法、基于GPU加速的算法等。

这些算法的目的都是降低矩阵乘法的计算复杂度，提高计算效率。

通过优化矩阵乘法算法，可以在处理大规模数据时提高计算效率，进而提高数据处理和机器学习的效率。

总之，矩阵乘法是数据处理和机器学习中不可或缺的基础操作之一，其计算复杂度与矩阵维度的大小有关。

通过优化矩阵乘法算法，可以提高计算效率，进而提高数据处理和机器学习的效率。

dot方法用于矩阵相乘

dot方法用于矩阵相乘使用dot方法进行矩阵相乘是一种常见的数学运算方法，它可以将两个矩阵相乘得到一个新的矩阵。

在这篇文章中，我们将探讨dot 方法的原理和应用。

一、什么是dot方法dot方法是矩阵相乘的一种计算方法，它是通过将第一个矩阵的行与第二个矩阵的列相乘，再将结果相加得到新的矩阵。

这种方法可以有效地计算出两个矩阵的乘积，是矩阵运算中常用的方法之一。

二、dot方法的原理dot方法的原理可以通过以下步骤进行说明：1. 首先，我们需要有两个矩阵A和B，其中矩阵A的列数与矩阵B 的行数相等，才能进行矩阵相乘的操作。

2. 然后，我们将矩阵A的第一行与矩阵B的第一列相乘，再将结果相加得到新矩阵的第一个元素。

3. 接下来，我们将矩阵A的第一行与矩阵B的第二列相乘，再将结果相加得到新矩阵的第二个元素。

4. 以此类推，我们将矩阵A的每一行与矩阵B的每一列进行相乘，并将结果相加得到新矩阵的每一个元素。

5. 最后，我们得到的新矩阵就是矩阵A和矩阵B的乘积。

三、dot方法的应用dot方法在数学和工程领域有着广泛的应用，下面我们将介绍一些常见的应用场景。

1. 线性代数：在线性代数中，矩阵相乘是一种重要的运算，它可以用于解线性方程组、求逆矩阵和计算特征值等。

dot方法可以实现矩阵相乘的运算，从而在线性代数的研究和应用中起到重要的作用。

2. 图像处理：在图像处理中，矩阵相乘可以用于实现图像的旋转、缩放和平移等操作。

通过将图像的像素矩阵与变换矩阵相乘，可以得到经过变换后的新图像。

dot方法可以方便地实现这一过程，从而在图像处理领域得到广泛应用。

3. 机器学习：在机器学习中，矩阵相乘被广泛用于计算神经网络的前向传播和反向传播过程。

通过将输入数据的特征矩阵与权重矩阵相乘，可以得到神经网络的输出结果。

dot方法可以高效地计算出这一过程，从而在机器学习算法的训练和预测中发挥重要作用。

四、dot方法的优势相比其他矩阵相乘的方法，dot方法具有以下优势：1. 高效性：dot方法采用了向量化计算的方式，可以利用计算机硬件的并行性进行快速计算，从而提高计算效率。

基于OpenMP的Winograd并行矩阵乘算法应用研究

ＡｐｌｃｔｏｎｅｅｒｈｏｉｏｒｄｐｒｌｅｌｏｉｍｆｐｉａｉｎａｄｒｓａｃｎＷｎｇａａａｌｌａｇｒｔｈｏｍａｒｘｍｕｔｐｉａｉｎｂｓｄｏｅＭＰｔｉｌｉｌｃｔｏａｅｎＯｐｎ
非零元素占据，表示粒子间有相互作用力；阴影区元素值为非
零，表示粒子间没有相互作用力。图中的阴影宽度为外层电子数，Ｃ原子最外层有４个电子。该矩阵在半经典分子动力学如
模拟的矩阵乘法中是乘矩阵，根据该矩阵的稀疏特征，以对可
非零元素按行、分解为两个子矩阵，列再分别进行矩阵相乘。
Ｋｙｗｒｓｏｅｕｒｙａｉ（ｅｏｄ：ｍｌｃｌｎｍｃＭＤ）ｍａｉｕｔｌａｏ；ｎｇａ；ａａｅｃｍｕｉｇｓｅｄｐｒｉ；ＯｅＭＰａｄｓ；ｔｘｍｌｐｃｔｎＷｉｏｒｄｐｒｌｌｏｐｔ；ｐｅｕａｏｐｎｒｉｉｉｌｎｔ
２２Ｗｉｏｍｄ算法并行分析．ｎｇ
由于Ｗｉｏｄ算法与矩阵普通乘法相比有显著的优越ｎ￣ａ
性，半经典分子动力学模拟中分解优化后的矩阵相乘用将
Ｗｉ￣ａｎｄ算法实现可以降低计算复杂度。为了进一步加快计ｏ算，应该采用并行技术来提高计算速度。目前的并行技术主要
微弱，以忽略不计。由此产生的ａＸ矩阵具有图１中Ａ可矩阵的稀疏特征，同时该矩阵是关于对角线对称的，相乘的而
另一个矩阵Ｈ是普通方阵，Ｓ不具有对称性。为方便表示，

矩阵链乘序问题的并行算法研究

减少到ｎ／ｏ５。Ｂａｒ等人提出一种基于动态规划的并行６ｌｎｒｄｇ￣ｏ
算法，ＰＡ — ＲＷ模型上用ｎｌｇｎ个处理器解决矩阵链在ＲＭＣＣ／ｏ（）相乘问题。时间复杂度是Ｏ（ｏ３）ｚｍｊ在Ｈ１ｎ。Ｃｕａｇｕ和Ｓｉｇｈｎ的算法基础上提出了一种基于ＰＡＭ—ＣＷ模型使用ｎ／ｏ３ＲＥＲ２ｌｇ（）处理器的并行算法，间复杂度也是Ｏ（ｏ３ｎ）ｎ个时１（）。在文ｇ
ｔｘｃａｒｅｎｒｂｅＴｅａｏｔｍｒｎｎａｐｅａｇｌｔｃｕｅｏａＤｍｓｎｉｅｈｒｈｉｏｒｇｐｏｌｉｎｄｉｍ．ｈｇｒｈｓｎｕｐｒｒｎｕａｓｔｒｆｅｈｉＯ（）ｔ．Ｔｅｌｉｕｏｔｉｒｒｕ２ｎｍ
义。
（ｎ√ ）２；串行动态规划算法解决这一问题的时间复杂４／ｎ［而３
度为０ｎ）（。
目前，多学者已经提出了矩阵链相乘的并行算法，些并许这行算法都是在各种类型的ＰＡ模型上实现的。Ｌａａｔ提ＲＭ．Ｖｉｌｎ出花费Ｏ（ｏｎ）１ｇ时间和ｎ个处理器的并行算法。Ｗ．Ｒｔｒ在ｙｔｅＰＡ — ＲＷ模型上使用ｎ／ｏｎ个处理器在０（ｏ２）ＲＭＣＥ６ｌｇ１ｎ时间内ｇ解决矩阵链相乘问题。Ｈｕｎ，ｉａｄＶｓａａａ。在Ｒｔｒ的ａｇＬｕｎｉｎｔｎ。ｗｈｙｅｔ算法基础上进行改进，也是用Ｏ（ｏ２）１ｎ的时间，ｇ但是处理器个数

矩阵乘法知识点总结

矩阵乘法知识点总结1. 矩阵的定义矩阵是一个按照长方形排列的数集合，其中包含有m行n列的数，其中m和n均为正整数。

我们可以用下面的形式表示一个矩阵：A = [a11 a12 ... a1n][a21 a22 ... a2n]...[am1 am2 ... amn]在这个表示中，aij表示矩阵A中第i行第j列的元素，其中i表示行数，j表示列数。

2. 矩阵的乘法两个矩阵相乘的定义如下：设A为一个m×n的矩阵，B为一个n×p的矩阵，那么它们的乘积AB是一个m×p的矩阵，其中AB中的第i行第j列的元素为矩阵A的第i行与矩阵B的第j列对应元素的乘积之和。

即：AB = [c11 c12 ... c1p][c21 c22 ... c2p]...[cm1 cm2 ... cmp]其中ci,j = a1j * b1j + a2j * b2j + ... + anj * bnj。

需要注意的是，对于矩阵乘法来说，AB和BA的乘积结果不一定相等。

3. 矩阵乘法的性质矩阵乘法具有一些重要的性质，包括结合律、分配律等。

结合律：对于矩阵A、B和C，(AB)C = A(BC)。

分配律：对于矩阵A、B和C，A(B + C) = AB + AC。

但是需要注意的是，矩阵乘法不满足交换律，即AB不一定等于BA。

4. 矩阵乘法的应用矩阵乘法在实际中有各种各样的应用，包括图像处理、信号处理、机器学习等领域。

在图像处理中，矩阵乘法可以用来进行图像的旋转、缩放和平移等操作。

在信号处理中，矩阵乘法可以用来进行滤波、变换等操作。

在机器学习中，矩阵乘法可以用来进行特征提取、模型训练等操作。

5. 矩阵乘法的计算对于大型的矩阵乘法计算来说，需要考虑如何进行高效的计算。

传统的方法是使用循环来计算乘积矩阵中的每一个元素，但这种方法的效率较低。

因此，人们提出了一些更高效的算法来进行矩阵乘法的计算，包括Strassen算法、Coppersmith-Winograd算法等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

. . . word格式资料并行处理技术课程设计分析报告

课程设计题目矩阵相乘并行算法设计姓名廖杰学号 M201372880 专业计算机技术任课教师金海石宣化所在学院计算机科学与技术学院报告提交日期 2014-01-13 . . . word格式资料一、实验目的 1、学习使用集群； 2、掌握并行处理或分布计算的编程方法； 3、学会以并行处理的思想分析问题。

二、实验要求 1、自行生成矩阵作为算法的输入； 2、使用并行处理技术编程，例如：MPI、OpenMP、MR； 3、矩阵大小至少为1000*1000； 4、加速比越大成绩越高。

三、实验内容 3.1、矩阵的划分：对于矩阵相乘的并行算法，可以有三种：对矩阵按行划分、按列划分和棋盘式分块划分。和按行或列划分相比，棋盘式划分可以开发出更高的并行度。对于一个n×n的方阵，棋盘划分最多可以使用n^2个处理器进行并行计算，但使用按行或列分解最多可以使用n个。对矩阵相乘采用棋盘式划分的算法通常称作Cannon算法。

A）行列划分又叫带状划分（Striped Partitioning），就是将矩阵整行或者整列分成若干个组，每个组指派给一个处理器。下图所例为4个CPU，8×8矩阵的带状划分。 . . .

word格式资料在带状划分情况下，每个CPU将会均匀分配到2行(列)数据。8×8矩阵变成了一个1×4或4×1的分块矩阵，每个CPU所属的分块矩阵大小为8×2或2×8。 . . . word格式资料 B）棋盘划分就是将矩阵分成若干个子矩阵，每个子矩阵指派给一个处理器，此时任一处理器均不包含整行或者整列。下图所示即为4个处理器情况下8×8矩阵的棋盘划分，其中处理器阵列为2×2，每个处理器分配到的子矩阵大小为4×4。

矩阵划分成棋盘状可以和处理器连成二维网孔相对应。对于一个n×n维矩阵和p×p的二维处理器阵列，每个处理器均匀分配有（n/p）×(n/p)=n^2/p^2个元素。使用棋盘式划分的矩阵相乘算法一般有两种，Cannon算法和Summa算法。SUMMA算法能够计算m*l的A矩阵和l*n的B矩阵相乘（m、l、n可不相等），而cannon算法只能实现n*n的A矩阵和n*n的B矩阵相乘，具有很大的局限性。

3.2、算法原理 A) 行划分法假设是M*N，计算前，将矩阵N发送给所有从进程，然后将矩阵M分块，将M中数据按行分给各从进程，在从进程中计算M中部分行数据和N的乘积，最后将结果发送给主进程。这里为了方便，有多少进程，就将M分了多少块，除最后一块外的其他数据块大小都相等，最后一块是剩下的数据，大小大于等于其他数据块大小，因为矩阵行数不一定整除进程数。最后一块数据在主进程中计算，其他的在从进程中计算。

定义两个矩阵M和N，N所有进程都需要，M可以只在主进程中定义。其他的变量视主进程和从进程需要按要求定义在合适的位置。 . . . word格式资料代码参见附录部分。

B) Cannon算法 Cannon算法的基本思想可以如下表示：假设两个矩阵A和B相乘，把A和B矩阵划分成

p个方块，进程的编号从到，并在最初把子矩阵和分配给。虽然第i行的每个进程需要全部的个子矩阵，但我们还是能调度第i行个进程的计算，使得每个进程在任何时刻都是用不同的。每完成一次矩阵乘法，这些块在各进程之间被轮流使用，似的每次轮流之后每个进程都可以得到新的。对列使用同样的调度，则在任何时刻，任何进程至多拥有每个矩阵的一个块，在所有进程中，改算法需要的总内存量为。下图为此算法中不同进程上子矩阵乘法的调度过程。 . . .

word格式资料假如矩阵C=A*B,则C的的计算公式如下：进程P 存储分块矩阵这一部分。块矩阵乘法要计算所有匹配的和，然而只有在主对角线的才是匹配的。因此需要采用循环移动分块矩阵的方法来使每个进程都有一对可以直接相乘的匹配的块，具体方法如下：

(1)将排第i行的块循环左移i个位置，将第列．块循环上移j个位置； (2) 进程执行乘一加运算，然后将移动得到的块循环左移1个位置，将移动得到的块循环上移1个位置； (3)重复第2步(一1)次，每次移动后进程执行乘一加运算。经过以上操作后就可以得到矩阵C的解。代码请参见附录部分 . . . word格式资料 C) Summa算法 SUMMA 算法首先将A , B 和C 划分为相同大小的矩阵，对应放在mesh_r × mesh_c 的二维mesh 上。但SUMMA 算法将矩阵乘法分解为一系列的秩nb 修正, 即各处理器中的A 和B 分别被分解为nb 大小的列块和行块进行相乘，前面所说的分块尺寸就是指nb 的大小。算法中, 广播实现为逻辑处理器行环或列环上的流水线传送, 达到了计算与通信的重叠. 具体描述如算法1所示。

C= 0 for i= 0 t o k-1 step nb do cur col = i×c/ n cur row = i×r / m if my col = cur rol 向本行广播A 从i mod (k/c) 列开始的nb 列, 存于A′ if my row = cur row 向本列广播B 从i mod (k/r) 行开始的nb 行, 存于B ′ C= A′×B ′ end for SUMMA算法的核心思想是：各处理器收集来自同一行处理器中A矩阵子块的所有列和同一列处理器中B矩阵子块的所有行，然后将行列相乘后累加，形成一个C矩阵的分块矩阵。最后由rank=0的处理器将其他处理器的数据收集起来，形成最终的矩阵C。

SUMMA算法相较于cannon算法的优势只要体现在SUMMA算法能够计算m*l的A矩阵和l*n的B矩阵相乘（m、l、n可不相等），而cannon算法只能实现n*n的A矩阵和n*n的B矩阵相乘，具有很大的局限性。

代码参见附录部分。

3.3、程序运行结果对比分析 A) 统一的实验条件矩阵大小：1000*1000；矩阵数字范围：0~10；矩阵数字分布是否随机：是；分配的进程数：9； . . . word格式资料 B) 实验进程数解释由于Cannon算法本身局限性，要使用Cannon算法，必须满足进程数为整数的平方，比如1、4、9、16等。在本次的实验环境之下，经过多次对比分析，发现对于分行还是分块算法，进程数安排在8~15可以得到最理想的运行速度：进程数目过小则每个进程单独运算的时间过多，进程数过大则选路时间（进程与进程之间的通信时间）过长。而对比要求每个算法的进程相同，故此处选择进程数目为9.

C) 算法运行时间对比 Cannon算法运行时间如下：

分行法运行时间如下：串行算法运行时间如下： . . .

word格式资料由于Summa算法与Cannon算法思路几乎相同，而且在算法预处理阶段要比Cannon算法更耗时，故没有做多余的实验。

算法分行 CANNON 串行时间 1.218810s 0.76s 10.420s

显而易见，单纯的运用分行算法所花费的时间是最短的。

D) 结果分析 Cannon算法相对于简单的行划分并行处理算法，其优势仅仅在于并行度可以更高（可达到N*N个进程，N为矩阵宽），但在并行度相同的情况下，其多出的预处理过程、矩阵发送与结果回收机制会占用更多的时间。

3.4、程序调优 A) 行划分算法优化 1. 循环优化在预估计矩阵大小为10的倍数的基础上，对每一个步长为1的循环做处理，改为步长为10的循环，将十次循环体全部压缩在一次循环中，从而大量减少了循环的判别时间，提升循环运算速度。例如在单个线程在计算部分结果时，采用的循环为：

for(i=0;ifor(j=0;jDATA temp=0; for(k=0;ktemp += buffer[i*width+k]*n[j*width+k]; temp += buffer[i*width+k+1]*n[j*width+k+1]; temp += buffer[i*width+k+2]*n[j*width+k+2]; temp += buffer[i*width+k+3]*n[j*width+k+3]; temp += buffer[i*width+k+4]*n[j*width+k+4]; temp += buffer[i*width+k+5]*n[j*width+k+5]; temp += buffer[i*width+k+6]*n[j*width+k+6]; . . . word格式资料 temp += buffer[i*width+k+7]*n[j*width+k+7]; temp += buffer[i*width+k+8]*n[j*width+k+8]; temp += buffer[i*width+k+9]*n[j*width+k+9]; } ans[i*width+j] = temp; } }

在将循环次数压缩的同时，为了进一步减少循环的运算量，在每一个步长为10的循环之前做预处理，避免循环体中的重复运算。例如在主进程在接受其他进程时，将结果矩阵整合的过程：

for(k=1;k{ MPI_Recv(ans,line*width,MPI_INT,k,2,MPI_COMM_WORLD,&status);

for(i=0;i{ count=i*k*width; //将i*k*width提前算好，减少了下一步循环的重复运算

count1=i*width; for(j=0;jp[count+j] = ans[count1+j]; p[count+j+1] = ans[count1+j+1]; p[count+j+2] = ans[count1+j+2]; p[count+j+3] = ans[count1+j+3]; p[count+j+4] = ans[count1+j+4]; p[count+j+5] = ans[count1+j+5]; p[count+j+6] = ans[count1+j+6]; p[count+j+7] = ans[count1+j+7]; p[count+j+8] = ans[count1+j+8]; p[count+j+9] = ans[count1+j+9];