GPU上的矩阵乘法的设计与实现

合集下载

矩阵乘法数量积_概述说明以及解释

矩阵乘法数量积概述说明以及解释1. 引言1.1 概述矩阵乘法数量积是线性代数中的一个重要概念，它用于计算两个矩阵之间的相乘结果。

通过对每个元素按一定规则进行乘法和求和运算，数量积可以得到一个新的矩阵。

这种操作在各个学科领域有广泛的应用，包括数学、物理和工程等。

1.2 文章结构本文将从以下几个方面对矩阵乘法数量积进行详细说明。

首先，我们将介绍矩阵乘法的基本概念，包括定义和性质。

然后，我们将解释矩阵乘法数量积的原理，并说明其实现过程。

接下来，我们将探讨矩阵乘法数量积在不同领域中的应用情况，包括数学、物理和工程等方面。

此外，本文还将介绍一些常见的算法和计算优化技巧，以提高矩阵乘法数量积的效率。

最后，在结论部分，我们会总结以上内容，并展望未来矩阵乘法数量积的发展趋势并给出相关建议。

1.3 目的本文旨在深入探讨矩阵乘法数量积的概念和原理，以及其在不同领域中的应用。

通过介绍常用的算法和计算优化技巧，我们希望读者能够了解到如何提高矩阵乘法数量积的计算效率。

同时，本文还旨在为未来研究者提供一些思考点，并展望矩阵乘法数量积在未来可能的发展方向。

2. 矩阵乘法数量积的定义与原理2.1 矩阵乘法的基本概念矩阵乘法是指将两个矩阵相乘得到一个新的矩阵的操作。

如果矩阵A是一个m 行n列的矩阵，而矩阵B是一个n行p列的矩阵，那么它们的乘积C将是一个m行p列的矩阵。

在此过程中，对应位置上两个矩阵元素的相乘并求和得到结果矩阵C中对应位置上的元素。

2.2 数量积的定义与性质数量积也被称为内积、点积或标量积。

对于两个向量a和b，它们之间的数量积表示为a∙b。

数量积满足以下性质：- 若a和b平行（夹角为0度），则a∙b = |a|*|b|- 若a和b垂直（夹角为90度），则a∙b = 0- 对任意向量c和标量k，有(kc)∙(kc) = k^2 * (c∙c)2.3 矩阵乘法数量积的原理解释矩阵乘法数量积可视作将两个向量进行投影、放缩和重新组合的过程。

c++ cuda 例子

c++ cuda 例子以下是一个简单的C++ CUDA程序示例，用于在GPU上执行矩阵乘法：c复制代码#include <cuda_runtime.h>#include <stdio.h>// CUDA内核函数__global__ void matMul(float *A, float *B, float *C) {int row = blockIdx.y * blockDim.y + threadIdx.y;int col = blockIdx.x * blockDim.x + threadIdx.x;float val = 0;for (int i = 0; i < M; i++) {val += A[row * M + i] * B[i * N + col];}C[row * N + col] = val;}int main() {int M = 1024;int N = 1024;int K = 1024;float *h_A, *h_B, *h_C;float *d_A, *d_B, *d_C;cudaMallocManaged(&d_A, M * K * sizeof(float)); cudaMallocManaged(&d_B, K * N * sizeof(float)); cudaMallocManaged(&d_C, M * N * sizeof(float)); h_A = (float *)malloc(M * K * sizeof(float)); h_B = (float *)malloc(K * N * sizeof(float)); h_C = (float *)malloc(M * N * sizeof(float)); // 初始化矩阵A和Bfor (int i = 0; i < M; i++) {for (int j = 0; j < K; j++) {h_A[i * K + j] = i + j / 100.0;}}for (int i = 0; i < K; i++) {for (int j = 0; j < N; j++) {h_B[i * N + j] = i + j / 100.0;}}// 将矩阵A和B复制到GPU上cudaMemcpy(d_A, h_A, M * K * sizeof(float), cudaMemcpyHostToDevice);cudaMemcpy(d_B, h_B, K * N * sizeof(float), cudaMemcpyHostToDevice);// 执行矩阵乘法操作matMul<<<(M + 256) / 256, (N + 256) / 256>>>(d_A, d_B, d_C);// 将结果从GPU复制回主机上cudaMemcpy(h_C, d_C, M * N * sizeof(float), cudaMemcpyDeviceToHost);// 打印结果矩阵的某个元素，用于验证结果是否正确printf("%f\n", h_C[0]);// 释放内存资源free(h_A); free(h_B); free(h_C);cudaFree(d_A); cudaFree(d_B); cudaFree(d_C);return 0;}。

nvdla乘法矩阵

NVDLA乘法矩阵NVDLA（NVIDIA Deep Learning Accelerator）是一款由英伟达公司开发的深度学习加速器。

它是一种高性能、低功耗的硬件架构，专门用于加速深度学习推理任务。

其中，乘法矩阵是NVDLA中的一个重要组成部分。

什么是乘法矩阵在深度学习中，神经网络模型通常包含大量的矩阵运算。

其中，乘法操作是最为耗时且计算密集的部分之一。

为了提高这部分运算的效率，NVDLA采用了专门设计的硬件模块——乘法矩阵。

乘法矩阵是指用于进行矩阵相乘运算的硬件单元。

它由多个处理单元组成，每个处理单元负责执行独立的乘法运算，并将结果累加到最终输出中。

通过并行化处理，乘法矩阵可以大大提高神经网络模型中涉及到的大规模矩阵相乘运算的计算速度。

NVDLA中的乘法矩阵NVDLA中的乘法矩阵被设计成高度可配置和可扩展的结构。

它可以根据不同的应用场景和需求进行灵活的配置和优化。

乘法矩阵的结构NVDLA中的乘法矩阵由多个处理单元组成，每个处理单元包含了一组乘法器和累加器。

这些处理单元可以并行地执行矩阵相乘运算，并将结果累加到最终输出中。

乘法矩阵还包含了一组输入寄存器和输出寄存器，用于存储输入数据和输出结果。

通过寄存器的使用，可以提高数据传输的效率，并减少对外部存储器的访问次数。

此外，乘法矩阵还包括了一套控制逻辑，用于协调处理单元之间的工作。

控制逻辑负责管理数据流、控制信号以及计算过程中的各种操作。

乘法矩阵的工作原理在NVDLA中，乘法矩阵是根据指令进行工作的。

首先，指令会告诉乘法矩阵需要执行哪些操作以及如何进行计算。

当一个指令被发送到乘法矩阵时，控制逻辑会解析指令，并将相应的操作分发给各个处理单元。

每个处理单元会根据指令中的参数，从输入寄存器中读取相应的数据，并执行乘法运算和累加操作。

在计算过程中，乘法矩阵会按照指定的顺序和方式对输入数据进行处理，并将结果写入输出寄存器中。

一旦计算完成，乘法矩阵会发出信号通知控制逻辑，以便进行下一步操作或者返回结果。

gpu并行运算代码

gpu并行运算代码当涉及到 GPU 并行运算代码时，以下是一个简单的示例，展示了如何在 GPU 上进行并行计算。

这个示例使用 Python 和 NumPy 库，并利用 GPU 的计算能力来加速矩阵乘法。

```pythonimport numpy as np# 矩阵乘法函数def matrix_multiply_gpu(A, B):# 将矩阵 A 和 B 拷贝到 GPU 上A_gpu = np.cuda.to_device(A)B_gpu = np.cuda.to_device(B)# 在 GPU 上进行矩阵乘法C_gpu = np.dot(A_gpu, B_gpu)# 将结果从 GPU 拷贝回主机内存C = C_gpu.cpu().numpy()return C# 示例用法A = np.random.rand(1000, 1000)B = np.random.rand(1000, 1000)# 在 GPU 上进行矩阵乘法C = matrix_multiply_gpu(A, B)# 打印结果print("矩阵乘法的结果：")print(C)```在上述示例中，我们定义了一个`matrix_multiply_gpu`函数，它接受两个矩阵`A`和`B`作为输入，并在 GPU 上进行矩阵乘法操作。

我们首先将矩阵拷贝到 GPU 上，然后使用 NumPy 的`dot`函数进行乘法运算，最后将结果从 GPU 拷贝回主机内存。

请注意，这只是一个简单的示例，用于演示 GPU 并行运算的基本概念。

在实际应用中，可能需要更复杂的代码结构和优化策略来充分利用 GPU 的性能。

如果你有具体的需求或问题，请提供更多细节，我将尽力为你提供更详细和准确的帮助。

cuda矩阵运算

CUDA（Compute Unified Device Architecture）是NVIDIA公司推出的一种并行计算平台和API 模型，可以利用NVIDIA的GPU来进行高效的矩阵运算。

在CUDA中，矩阵运算可以通过使用CUDA库中的相关函数和工具来实现。

以下是一些常见的CUDA矩阵运算：1. 矩阵乘法：可以使用cublasSgemm、cublasDgemm等函数来执行矩阵乘法操作。

这些函数可以在GPU上并行执行，从而实现高效的矩阵乘法运算。

2. 矩阵加法：可以使用cudaMemcpy和cuprintf等函数来执行矩阵加法操作。

这些函数可以将两个矩阵的对应元素相加，并将结果存储在另一个矩阵中。

3. 矩阵乘法的逆：可以使用cublasSinv、cublasDinv等函数来执行矩阵乘法的逆操作。

这些函数可以计算出一个矩阵的逆矩阵，以便进行矩阵乘法的逆运算。

4. 矩阵转置：可以使用cudaMemcpy和cuprintf等函数来执行矩阵转置操作。

这些函数可以将一个矩阵的行和列交换，从而得到一个新的矩阵。

5. 矩阵求逆：可以使用cublasSinv、cublasDinv等函数来执行矩阵求逆操作。

这些函数可以计算出一个矩阵的逆矩阵，以便进行矩阵求逆的运算。

6. 矩阵求逆的逆：可以使用cublasSinv、cublasDinv等函数来执行矩阵求逆的逆运算。

这些函数可以计算出一个矩阵的逆矩阵，以便进行矩阵求逆的逆运算。

7. 矩阵求逆的逆的逆：可以使用cublasSinv、cublasDinv等函数来执行矩阵求逆的逆的逆运算。

这些函数可以计算出一个矩阵的逆矩阵，以便进行矩阵求逆的逆运算。

除了以上列举的矩阵运算外，还有很多其他的矩阵运算可以使用CUDA库来实现。

需要注意的是，在使用CUDA进行矩阵运算时，需要注意矩阵的维度和大小，以确保计算的正确性和效率。

cuda编程矩阵与向量相乘的并行化实现

cuda编程矩阵与向量相乘的并行化实现摘要：一、CUDA 编程与矩阵向量相乘二、矩阵向量相乘的并行化实现三、CUDA 编程的优势与应用领域正文：一、CUDA 编程与矩阵向量相乘CUDA（Compute Unified Device Architecture）是NVIDIA 推出的一种通用并行计算架构，它允许开发人员利用NVIDIA GPU 进行高性能计算。

在CUDA 编程中，矩阵与向量相乘是一个常见的任务。

为了提高计算性能，我们可以将这个任务进行并行化处理。

二、矩阵向量相乘的并行化实现矩阵与向量相乘的并行化实现主要包括以下几个步骤：1.数据传输：首先，将矩阵和向量数据从主机内存传输到设备内存。

这一步通常是通过cudaMemcpy 函数实现的。

2.并行化处理：在设备端，利用CUDA 内核实现矩阵与向量的并行乘法。

这里可以使用多个线程并行处理不同的矩阵行和向量元素，以提高计算性能。

3.结果返回：将计算结果从设备内存传输回主机内存，并通过cudaMemcpy 函数实现。

4.结果处理：在主机端，对计算结果进行后续处理，如保存到文件或用于其他计算。

三、CUDA 编程的优势与应用领域CUDA 编程具有以下优势：1.高性能：利用GPU 的强大计算能力，可以大幅提高矩阵与向量相乘等计算任务的性能。

2.并行处理：CUDA 提供了并行计算的框架，可以方便地实现多线程并行处理，进一步提高计算效率。

3.广泛应用：CUDA 编程不仅适用于矩阵计算，还可以应用于图像处理、深度学习、物理仿真等多个领域。

总之，CUDA 编程为矩阵向量相乘提供了一种高效且并行化的实现方法。

矩阵乘法快速算法

矩阵乘法快速算法矩阵乘法是线性代数中最重要且最基础的运算之一、在计算机科学和工程领域中，矩阵乘法的计算量往往非常大，特别是对于大规模的矩阵计算问题。

因此，研究和发展高效的矩阵乘法算法成为计算机科学和工程中的一个重要任务。

传统的矩阵乘法算法需要O(n^3)的时间复杂度，这对于大规模矩阵计算来说非常低效。

因此，研究者们一直致力于寻找更快速的矩阵乘法算法。

在本文中，我们将介绍几种常见的快速矩阵乘法算法，包括Strassen算法、Coppersmith-Winograd算法和更近期的算法。

1. Strassen算法Strassen算法是最早期被提出的快速矩阵乘法算法之一、它的基本思想是将两个n×n的矩阵分成四个n/2×n/2的子矩阵，然后通过一系列递归计算得到结果。

Strassen算法的时间复杂度为O(n^log2(7))，因此在一些情况下，它比传统的矩阵乘法算法更快。

2. Coppersmith-Winograd算法Coppersmith-Winograd算法是在1987年被提出的一种更快的矩阵乘法算法。

它的时间复杂度为O(n^2.376)，比Strassen算法更快。

该算法基于一种矩阵变换的方法，通过减少乘法运算的次数来加速矩阵乘法计算过程。

3.更近期的算法除了Strassen算法和Coppersmith-Winograd算法，还有许多其他快速矩阵乘法算法被提出。

其中一种叫做BLAS（Basic Linear AlgebraSubprograms）库，它是一个用于数值计算的底层库，提供了高效的矩阵乘法实现。

另外，还有一些基于GPU并行计算的矩阵乘法算法，例如CUDNN库和cuBLAS库，它们通过利用GPU的并行计算能力来加速矩阵乘法运算。

总结起来，矩阵乘法快速算法是计算机科学和工程中的一个重要课题。

通过研究和发展快速的矩阵乘法算法，可以显著提高矩阵计算的效率，从而加快许多计算密集型应用程序的运行速度。

cuda 编程实例

cuda 编程实例CUDA编程实例CUDA是一种并行计算平台和编程模型，可以利用GPU的并行计算能力加速计算任务。

本文将介绍几个基于CUDA的编程实例。

1. 矩阵乘法矩阵乘法是一个常见的计算任务，可以利用CUDA加速。

下面是一个简单的矩阵乘法的CUDA实现：```c__global__ void matrixMul(float *a, float *b, float *c, int n) {int i = blockIdx.x * blockDim.x + threadIdx.x;int j = blockIdx.y * blockDim.y + threadIdx.y;if (i < n && j < n) {float sum = 0;for (int k = 0; k < n; k++) {sum += a[i * n + k] * b[k * n + j];}c[i * n + j] = sum;}}int main() {int n = 1024;float *a, *b, *c;cudaMalloc(&a, n * n * sizeof(float));cudaMalloc(&b, n * n * sizeof(float));cudaMalloc(&c, n * n * sizeof(float));dim3 block(16, 16);dim3 grid((n + block.x - 1) / block.x, (n + block.y - 1) / block.y);matrixMul<<<grid, block>>>(a, b, c, n);cudaFree(a);cudaFree(b);cudaFree(c);return 0;}```2. 向量加法向量加法是另一个常见的计算任务，也可以利用CUDA加速。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算机系统应用 http://www.c-s-a.org.cn 2011 年第20卷第 1期 178 经验交流 Experiences Exchange

GPU上的矩阵乘法的设计与实现① 梁娟娟，任开新，郭利财，刘燕君 (中国科学技术大学计算机科学与技术学院，合肥 230027) 摘要: 矩阵乘法是科学计算中最基本的操作，高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明，在Geforce GTX 260上，本文提出的矩阵乘法的速度是理论峰值的97%，跟CUBLAS库中的矩阵乘法相当。关键词: 矩阵乘法；GPU；CUDA

Design and Implementation of Matrix Multiplication on GPU LIANG Juan-Juan, REN Kai-Xin, GUO Li-Cai, LIU Yan-Jun (School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, China) Abstract: Matrix multiplication is a basic operation in scientific computing. Efficient implementation of matrix multiplication can speed up many applications. In this paper, we implement an efficient matrix multiplication on GPU using NVIDIA’s CUDA. The experiment shows that our implementation is as fast as the implementation in CUBLAS, and the speed of our implementation can reach the peak speed’s 97%, on Geforce GTX260. Keywords: matrix multiplication; GPU; CUDA

GPU是一种高性能的众核处理器，可以用来加速许多应用。CUDA是NVIDIA公司为NVIDIA的GPU开发的一个并行计算架构和一门基于C的编程语言。在CUDA中程序可以直接操作数据而无需借助于图形系统的API。现在已经有许多应用和典型算法使用CUDA在GPU上实现出来。

1 引言矩阵乘法是科学计算中的最基本的操作，在许多领域中有广泛的应用。对于矩阵乘法的研究有几个方向。一个是研究矩阵乘法的计算复杂度，研究矩阵乘法的时间复杂度的下界，这方面的工作有strassen算法[1]等。另外一个方向是根据不同的处理器体系结构，将经典的矩阵乘法高效的实现出来，这方面的结果体现在许多高效的BLAS库。许多高效的BLAS库都根据体系结构的特点高效的实现了矩阵乘法，比如GotoBLAS[2], ATLAS[3]等。Fatahalian[4]等人使用着色语言设计了在GPU上的矩阵乘法。CUBLAS库是使用CUDA实现的BLAS库，里面包含了高性能的矩阵乘法。本文剩下的部分组织如下，第2节介绍了CUDA的编程模型，简单描述了CUDA上编程的特点。第3节讨论了数据已经拷贝到显存上的矩阵乘法，首先根据矩阵分块的公式给出了一个朴素的矩阵乘法实现，分析朴素的矩阵乘法的资源利用情况，然后提出了一种新的高效的矩阵乘法。第4节讨论了大规模的矩阵乘法的设计和实现，着重讨论了数据在显存中的调度。第5节是实验结果。第6节是总结和展望。

2 CUDA编程模型和矩阵乘法回顾 2.1 CUDA编程模型 NVIDIA的GPU是由N个多核处理器和一块显存构成的。每个多核处理器由M个处理器核，1个指令部件，一个非常大的寄存器堆，一小块片上的共享内

① 基金项目:国家自然科学基金(60833004);国家高技术研究发展计划(863)(2008AA010902) 收稿时间:2010-04-26;收到修改稿时间:2010-05-21 2011 年第20卷第 1期 http://www.c-s-a.org.cn 计算机系统应用 Experiences Exchange 经验交流 179存以及一些只读的缓存(包括纹理缓存和常量缓存)。多处理器内所有核共用一个指令部件，在一个时钟周期内，每个处理器核执行同一条指令，但是数据可以是不一样的。 GT200是NVIDIA的第10代GPU，它发布于2008年6月。GT200的多核处理器包含8个处理器核，16K字节的片上共享存储器，16384个32位的寄存器，1个指令部件，1个特殊功能单元部件，1个双精度部件以及一些只读的缓存。GT200是第一代支持双精度计算的显卡。在CUDA中的核心概念是内核函数。内核函数是从CPU端调用，运行在GPU上的函数。CUDA的运行管理系统产生一个grid来运行一个内核函数。1个grid包含一组block，每个block是有一组线程组成。grid维度和block的维度都是在调用内核函数的时候指定的。在一个grid中，block之间没有同步和通信机制，因此block之间必须是独立的。在一个block里面，线程之间可以用同步原语_syncthreads()来同步，每个block可以分配一定量的所有线程都可以访问的共享内存。一个block只能映射到一个多核处理器上执行，而不能将线程分布在不同的处理器中。一个多核处理器上可以同时运行多个block。在运行一个block的线程时，CUDA运行管理系统将block中的线程分成一个个warp，每次取出一个warp来运行。一个warp分成前半个warp和后半个warp。运行的最小单位是半个warp，一个周期里面，半个warp的所有线程执行相同的指令。在CUDA 2.3的版本中，一个warp中含有32个线程。一个内核函数可以使用的存储器资源包括全局内存，共享内存，纹理内存，常量内存以及寄存器。全局内存，纹理内存以及常量内存都是分配在显存中的，可以被所有的block访问。纹理内存和常量内存都是只读的，如果重复访问的话，它们会被缓存在片上的缓存上。全局内存是不会被缓存的。GPU访问显存是使用内存事务来完成的。完成一个内存事务的代价是非常高的，通常需要400-600个周期。但是，如果半个warp的所有线程的访问满足：(1)所有线程访问1个字节，并且访问的位置在一个32字节对齐的同一个32字节的段里面。(2)所有的线程访问2个字节，并且访问的位置在一个64字节对齐的同一个64字节的段里面。(3)所有的线程访问4个字节，并且访问的位置在一个128字节对齐的同一个128字节的段里面。三个条件中的一个，则半个warp的访存会被合并成一个内存事务。 2.2 矩阵乘法回顾给定矩阵乘法C=AB，其中()

ijCc=

是MN×的矩

阵，()

ijAa=是MK×的矩阵，()ijBb=

是KN×的矩阵。

则ijc

的定义为

1Kijikkjkcab==

∑ (1)

假定,,MwpNhqKkr===，将矩阵C分解为

pq×

的分块矩阵()

ijc

，每个ijc是一个wh×的小矩阵，A分

解成为pk×的分块矩阵()

ija，每个ija

是一个wr×的矩

阵，B分解成为kq×的分块矩阵()

ijb，每个ijb

是一个

rh×的元素。则分块矩阵乘法的定义为

1kijissjscab==

∑ (2)

在等式中核心的操作是 ijissjijcabc=+ (3) 假定缓存中同时可以放下分块后的ijc，isa，sjb

，

则等式需要的访存数量是whwKKh++，计算量是2whK,平均一次访存的计算量是2/()whKwhwKKh++，略去分母中的小项wh得到2/(1/1/)wh+，从而知道1/1/wh+越小，平均一次访存做的计算量是越多的。

3 算法设计和实现本节假定矩阵A，B，C已经存放在显卡的显存中，矩阵是以行主序的方式存储的。假定,,MwpNhqKkr===，A，B，C分别是MK×，KN×，MN×的矩阵。 3.1 普通实现按照等式，每个ijc

的计算是相互独立的。将矩阵

C分成许多wh×的子矩阵，每个子矩阵使用不同的block来计算。假定一个block的线程数目是T，这样每个线程需要计算C中/whT个元素。将C中的元素固定分配给某个线程，这样可以将C中的元素存储在每个线程的寄存器中。为了充分利用GPU上的带宽，将矩阵A和B读取进来的数据先缓存在片上的共享存储器中。每次读取A的一个wr×的子矩阵和B的一个rh×的子矩阵到共享存储里，在共享存储器中完成一个小块的矩阵乘法。这样得到的算法如图1所示。计算机系统应用 http://www.c-s-a.org.cn 2011 年第20卷第 1期 180 经验交流 Experiences Exchange

下面讨论算法的参数。为了提高访问全局内存的效率，r和h必须是16的倍数。同时，一个block需要的共享内存是8()wrrh+字节。每个block需要的共享内存的大小必须小于一个SM上的共享存储器的大小，从而得到8()16384wrrh+<，同时所有线程需要的寄存器数目要小于一个SM上的寄存器数目。每个双精度的数需要占用2个32位的寄存器，w和h必须满足不等式216384wh≤。为了让w和h足够大，我们取16r=，这样有128wh+<。根据矩阵分块乘法，1/1/wh+越小越好，而h必须是16的倍数，在算法中取32w=，64h=。于是有2048wh=。而当前一个block中的线程数目最多是512，于是可以取T=512，每个线程计算4个数据。使用cuda编译器编译以后，每个线程需要使用24个寄存器，一个block总共需要12288个寄存器，需要12728个共享存储器。图1 矩阵乘法的普通实现 3.2 优化实现在3.1节的算法中，矩阵A和B的子块都是保存在共享存储器中，而C的子块是保存在寄存器中。主要是根据共享存储器的限制来得到w和h的值，寄存器的使用数目远远没有达到处理器的上限，处理器的寄存器资源没有被充分利用。为了充分利用处理器上的寄存器资源，我们改变数据映射方式。仍然假设每个block计算wh×的一个子矩阵Cs，使用一个线程来计算Cs中的一列，也就是要计算w个元素。注意到一个线程只会访问矩阵B的一列，也就是要计算w个元素。注意到一个线程只会访问矩阵B的一列，不同的线程访问B的元素是不相交的。这样B的元素可以放在线程中的寄存器中，而不用存放在共享存储器中。在共享存储器中分配一个wr×的数组As存放矩阵A的子块。这样得到的算法如图2所示。