并行计算期末试题-理工

合集下载

并行计算期末试题及答案

并行计算期末试题及答案1. 基础概念部分并行计算是一种计算模式，它使用多个处理单元同时执行计算操作，以加快计算速度。

在现代计算机系统中，我们常常使用多核处理器、图形处理器（GPU）或者分布式系统来实现并行计算。

1.1 并行计算的优势并行计算具有以下几个优势：加速计算速度：通过同时执行多个计算任务，可以极大地提高计算效率。

解决大规模问题：并行计算可以处理大规模和复杂的问题，提供更精确的结果。

降低能耗：通过合理利用处理器资源，可以降低计算任务的能耗。

应用广泛：并行计算可以应用于各个领域，如科学计算、大数据分析、机器学习等。

1.2 并行计算的分类并行计算按照任务之间的关系可以分为两类：数据并行：将数据划分为多个子集，同时在不同的处理器上进行计算，然后将计算结果汇总。

常见的应用包括矩阵运算、图像处理等。

任务并行：将任务划分为多个子任务，每个子任务由一个独立的处理器执行，最后将各个子任务的结果合并。

常见的应用包括并行搜索算法、并行排序等。

2. 并行计算的算法设计2.1 并行算法设计要点在设计并行算法时，需要考虑以下几个要点：任务划分：将计算任务划分为多个子任务，确保各个子任务之间的计算工作均衡，并保持任务之间的独立性。

任务调度：合理安排各个处理器上的任务执行顺序和时间，最大程度地减少通信开销和等待时间。

数据通信：处理器之间需要进行数据交换和通信，应选择合适的通信方式，并考虑通信延迟和带宽等因素。

数据同步：在多个处理器之间，可能需要进行数据同步操作，确保各个处理器之间的数据一致性。

2.2 并行算法实例：并行矩阵乘法并行矩阵乘法是一个常见的数据并行算法，可以有效地利用多核处理器加速大规模矩阵运算。

具体算法如下：步骤1：将输入矩阵划分为若干个小矩阵，每个小矩阵分配给一个处理器。

步骤2：每个处理器计算相应小矩阵的部分结果。

步骤3：将各个处理器计算得到的部分结果进行求和，得到最终的矩阵乘积结果。

3. 并行计算的应用举例3.1 科学计算在科学计算领域，有大量的计算任务需要处理大规模的数据和复杂的数学模型。

并行计算试题及答案

计算机学院研究生《并行计算》课程考试试题（2010级研究生，2011.1）1．（12分）定义图中节点u 和v 之间的距离为从u 到v 最短路径的长度。

已知一个d 维的超立方体，1）指定其中的一个源节点s ，问有多少个节点与s 的距离为i ，其中0≤i ≤d 。

证明你的结论。

2）证明如果在一个超立方体中节点u 与节点v 的距离为i ，则存在i ！条从u 到v 的长度为i 的路径。

1)有id C 个节点与s 的距离为i 。

证明：由超立方体的性质知：一个d 维的超立方体的每个节点都可由d 位二进制来表示，则与某个节点的距离为i 的节点必定在这d 位二进制中有i 位与之不同，那么随机从d 位中选择i 位就有id C 种选择方式，即与s 的距离为i 得节点就有id C 个。

2)证明：由1）所述可知：节点u 与节点v 的距离为i 则分别表示u 、v 节点的二进制位数中有i 位是不同的。

设节点u 表示为：121D .........j j i j i d D D D D D +-+，节点v 表示为：''121D .........j j i j i dD D D D D +-+，则现在就是要求得从121D .........j j i j i d D D D D D +-+变换到''121D .........j j i j i d D D D D D +-+ 的途径有多少种。

那么利用组合理论知识可知共有*(1)*(2)*...*2*1i i i --即!i 中途径。

所以存在i ！条从u 到v 的长度为i 的路径。

2．（18分）6个并行程序的执行时间，用I-VI 表示，在1-8个处理器上执行了测试。

下表表示了各程序达到的加速比。

对其中的每个程序，选出最适合描述其在16个处理器上性能的陈述。

a ）在16个处理器上的加速比至少比8个处理器上的加速比高出40%。

b ）由于程序中的串行程序比例很大，在16个处理器上的加速比不会比8个处理器上的加速比高出40%。

中南大学并行计算试卷

中南大学并行计算试卷填充题: (每小题3分、共12分)1.计算机系统结构定义是程序设计者所看到的计算机属性，即概念性，结构，功能性。

2.虚拟存储系统，辅存容量为2*Byte,主存容量为2l'Byte,页面为1Kbyte,则MEM系统提供的程序空间有__ 218页，对应实存空间_ 26 .页，若采用组相联，则整个虚存应分为。

212区。

3.流水线结构的并行性是采用___时间重迭的技术途径。

4.在系统结构中，程序访问局部化性质应用于cache,流水线，虚拟存储器等方面。

简答题: (每小题4分、共24分)1.简述系列机的概念。

.先设计一-种系统结构;按其设计它的系统软件;按照器件状况和硬件技术，研究这种结构的各种实现方法;按速度，价格等不同要求分别提供不同速度，不同配置的各档机器。

2.存储器层次结构是怎样的?其容量、速度、价格是怎样分布的。

速度越来越↑寄存器组容量越来越cache快，价格越主存储器大来越高辅助存储器后援存储器↓3.简述虚拟计算机概念。

计算机只对观察者而存在;功能体现在广义语言上;对该语言提供解释手段;作用在信息处理或控制对象上;简言之，是由软件实现的机器。

4. What is the policy of“write back"" when writing to the cache? (answer in English)The information is written only to the block in the cache.The modified cache block is written to main memory only when it is replaced.5.什么是“数据相关”、“转移相关”?简述之。

数据相关:当前一条指令的执行结果可能在流水线中是后续指令的操作数，它们可能发生了“先读后写”等相关。

它是一种局部相关。

转移相关:由转移指令引起流水线“断流”。

并行计算-习题及答案-例题习题讲解

例题习题讲解例1 SIMD-SM上求最大值算法Beginfor k=m-1 to 0 dofor j=2k to 2k+1-1 par-doA[j]=max{A[2j], A[2j+1]}end forend forend时间分析t(n)=m×O(1)=O(logn)p(n)=n/2c(n)=O(nlogn) 非成本最优例2 令n=2k(k>=0)，求n个数和的并行算法算法运行时间：t(n)=O(logn)总运算量: W(n)=W(1)(n)+W(2)(n)+W(3)(n)=n+∑n/2h+1=O(n)由Brent定理知: t(n)=O(n/p+logn)例3 设A为矩阵，有如下串行程序段：f o r i=1t o n d of o r j=1t o n d oa[3i,2j]=a[3i-2,2j-1]e n df o re n df o r其相关方向向量为，可知行和列间同时存在数据相关。

在此我们可以试用行划分、列划分和方块划分.在行划分的情况下令m=┌n/p┐,例1的串行程序段可以转化为如下的并行程序段：f o r k=1t o P P a r-d of o r i1=1t o m d of o r j=1t o n d oa[3(k-1)m+3i1,2j]=a[3(k-1)m+3i1-2,2j-1]e n df o re n df o re n df o r例4 设A为一个n阶方阵，有如下串行程序段：f o r i=1t o n d of o r j=1t o n d oa[i,j]=a[i-1,j]e n df o re n df o r分析矩阵A的元素下标i和j，则i和j的相关方向向量为，各列之间数据无任何相关关系。

因此对矩阵A可按列划分。

串行程序段可转化为如下并行程序段：f o r k=1t o P P a r-d of o r j1=1t o m d of o r i=1t o n d oa[i,(k-1)m+j1]=a[i-1,(k-1)m+j1] e n d f o re n df o re n df o r例5注：本例无链路竞争和死锁现象例6 E立方选路0110(S)1101(D)1011(R)例7 DNS乘法示例C00=1×(-5)+2×7=9C01=1×(-6)+2×8=10C10=3×(-5)+4×7=13C11=3×(-6)+4×8=14例8 上三角方程组的回代解法并行化(1)SISD上的回代算法Begin(1)for i=n downto 1 do(1.1)x i=b i/a ii(1.2)for j=1 to i-1 dob j=b j-a ji x ia ji=0endforendforEnd(2)SIMD-CREW上的并行回代算法- 划分: p个处理器行循环带状划分- 算法Beginfor i=n downto 1 dox i=b i/a iifor all P j, where 1≤j≤p do for k=j to i-1 step p do b k=b k-a ki x ia ki=0endforendforendforEnd // p(n)=n, t(n)=n例9 n=8的BF网络表示P r,i与上层P r-1,i, P r-1,j相连, 这里j与i仅在第r位不同例10 一个在MPI中创建新通信域的例子M P I_C o m m M y W o r l d,S p l i t W o r l d;i n t m y_r a n k,g r o u p_s i z e,C o l o r,K e y;M P I_I n i t(&a r g c,&a r g v);M P I_C o m m_d u p(M P I_C O M M_W O R L D,&M y W o r l d);M P I_C o m m_r a n k(M y W o r l d,&m y_r a n k);M P I_C o m m_s i z e(M y W o r l d,&g r o u p_s i z e);C o l o r=m y_r a n k%3;K e y=m y_r a n k/3;M P I_C o m m_s p l i t(M y W o r l d,C o l o r,K e y,&S p l i t W o r l d);例11 考虑如下程序段：L1:f o r I=1t o50d o...S:X(2*I)=......T:...=...X(3*I+1)......e n df o r这里：f1(I)=2*I；g1(J)=3*J+1。

并行算法考试题

1、名词解释：（1）等分宽度：把网络划分为两个相等的部分（节点数之多差1），所需要去掉的网络边的条数。

（2）网络直径：网络中两个节点之间的最远的距离（3）并行运行时间：从第一台处理机开始执行任务开始，到最后一台处理机执行完任务所经历的时间。

（4）并行步：能够同时执行的操作数。

（5）加速比：同一任务在串行计算下的运行时间/并行计算下的运行时间。

2、介绍超立方体网络互连方式的性能指标解答：q维超立方体，等分宽度为2q-1，网络直径：q，网络接口数：q3、按照指令流和数据流，并行计算机可以分为哪些类型？各自适合什么样的并行计算？排名在前20的计算机都是什么类型的计算机？它们的区别是什么？解答：（1）SIMD：适合指令/操作级并行（2）MIMD：适合块、回路或子程序级的并行4、并行算法有哪些设计方法？（1）流水线技术（2）分而治之策略（3）平衡二叉树方法（4）倍增技术（5）加速级联策略5、举例说明平衡树方法的原理？参考：使用n/2台计算机，可以在⎡⎤nlog步完成运算。

26、Logp模型有哪些参数？BSP模型有哪些参数？这两个模型之间的关系是什么？（1） L ：源处理机与目标处理机之间进行消息通信所需要等待的延迟时间上限（2） o ：处理机用于发送或接收每个消息的时间开销（3） g ：连续发送/接收消息的时间间隙（4） P ：处理机个数BSP 模型：（1） P ：处理机数（2） g ：选路器吞吐率（3） L ：全局同步之间的时间间隔关系：（1）本质上等效，可以相互模拟（2）用BSP 模拟LOGP 所进行的计算时，通常会慢常数倍。

（3）反之，慢对数倍7、题目记不清了，只要知道两个公式就可以了，对于logp ：L+2o 对于logGp ：t α+t β8、计算加速比和效率的题，具体记不清了，只要会使用公式就可以了。

9、关于群集系统中QR 分解的题目。

将矩阵的行列都分成5等分，得到它的25个任务，按照贪婪算法的调度思想，画出子任务执行的并行步。

并行计算题目答案汇总

！第１题（1）什么是并行计算（2）它的优点有哪些（3）可以通过哪些结构完成并行计算1．并行计算就是在并行计算或分布式计算机等高性能计算系统上所做的超级计算。

（P3）2．计算极大地增强了人们从事科学研究的能力，大大地加速了把科技转化为生产力的过程，深刻地改变着人类认识世界和改造世界的方法和途径。

计算科学的理论和方法，作为新的研究手段和新的设计与创造技术的理论基础，正推动着当代科学与技术向纵深发展。

（P4）3．单指令多数据流SIMD、对称多处理机SMP、大规模并行处理机MPP、工作站机群COW、分布共享存储DSM多处理机。

（P22）第2题什么是网络计算它的特点它与分布式计算、集群计算的关系（P104）网络计算：在工作站机群COW环境下进行的计算称为网络计算。

特点：网络计算结合了客户机/服务器结构的健壮性、Internet面向全球的简易通用的数据访问方式和分布式对象的灵活性，提供了统一的跨平台开发环境，基于开放的和事实上的标准，把应用和数据的复杂性从桌面转移到智能化的网络和基于网络的服务器，给用户提供了对应用和信息的通用、快速的访问方式。

与分布式计算、集群计算的关系：，分布式计算是一门计算机科学，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。

集群计算是使用多个计算机，如典型的个人计算机或UNIX工作站；多个存储设备；冗余互联，来组成一个对用户来说单一的高可用性的系统。

因此，网络计算与分布式计算和集群计算都是属于计算密集型，数据密集型和网络密集型应用。

第3题表征并行系统的性能指标有哪些并行系统的加速比如何定义它能否完全确定系统的性能为什么a.表征并行系统的性能指标主要有：CPU和存储器的基本性能指标，通信开销以及系统机器的成本、价格与性价比，还有系统加速比和系统可扩放性（p88页）；其中CPU和存储器的基本性能指标包括：工作负载，并行执行时间，存储器的层次结构和存储器的带宽。

并行算法题库.doc

1.并行计算机是指两台或两台以上的处理机，通过高速网络连接起来而成的并行计算机系统。

2.按指令流和数据流的Flynn分类法，可将并行计算机的分为4类: 单指令流单数据流（SISD）,单指令流多数据流（SIMD）,多指令流单数据流（MISD）,多指令流多数据流（MIMD）.3.数值并行算法是为数值计算方法设计的并行算法，它基本上属于的数值分析范畴。

4.并行机的规模是指某一具体并行计算机所具有的。

5.并行算法是适合于并行操作的一类算法总称。

它通常由一些可同时执行的进程来表示，这些进程在执行过程中相互作用于协调工作，以完成对给定问题的求解。

6.在matlab中，矩阵运算A/B表示。

7.内在并行度为100个单位操作的某个算法，相对于每秒只能执行一个单位操作速度的处理机来说是—大粒度还是小粒度—o 内在并行度为10个单位操作的某个算法，相对于每秒能执行一百个单位操作速度的处理机来说是- 大粒度还是小粒度—O8.并行算法的分类：基于运算对象的不同可分为：1）数值并行算法；2）非数值并行算法基于进程间相互执行顺序关系的不同可分为：1）同步并行算法；2）异步并行算法；3）独立的并行算法基于各处理机承担的计算任务粒度的不同可分为：1）细粒度并行算法；2）中粒度并行算法；3）大粒度并行算法9.并行算法运行时间主要包括：算法所需的输入输出（I/O）时间；CPU计算时间；并行开销时间。

10.为简单起见，在进行并行算法性能分析时，一般将并行机的规模视为并行机含有的处理器个数。

11.并行算法的设计方法主要通过哪几种途径实现。

12.算法的并行度是指该算法中可并行执行的单位操作数。

例如：设a,b是两个长度为n的向量，其对应的分量之和为："知i=l,2,...,n, 则该算法的并行度为n。

13.给出使用并行计算机求解一个应用问题的基本过程图。

应用问题-今理论模型与算法，应用程序与结果14.如果用户想从键盘输入数据，则可以使用函数来进行。

并行计算的参考题目

并行计算的参考题目1、讨论某一种算法的可扩放性时，一般指什么？88答：讨论某一种算法的可扩放性时，实际上是指该算法针对某一特定机器结构的可扩放性2、使用“Do in Parallel”语句时，表示的是什么含义105答：表示算法的若干步要并行执行3、并行计算机的存储访问类型有哪几种？26答：存储访问类型有：UMA（均匀存储访问）、NUMA（非均匀存储访问）、COMA（全高速缓存存储访问）、CC-NUMA（高速缓存一致性非均匀存储访问）、NORMAl（非远程存储访问）4、什么是同步？它有什么作用？如何实现？107答：同步是在时间上强使各执行进程在某一点必须相互等待。

作用：确保个处理器的正确工作顺序以及对共享可写数据的正确访问（互斥访问）。

实现方法：用软件、硬件和固件的方法实现。

5 在并行加速比的计算中，常用的三种加速比定律分别是哪三种？（P83）答：常用的三种加速比定律分别是：适用于固定计算负载的Amdahl定律，适用于可扩放问题的Gustafson定律和受限于存储器的Sun和Ni定律。

6、试比较Amdahl定律、Gustafson定律、Sun和Ni定律三种加速定律的应用场合。

83 答：Amdahl定律适用于固定计算负载的问题Gustafson定律适用于可扩放性问题Sun和Ni定律适用于受限于存储器的问题。

7.并行算法的基本设计技术有哪些？它们的基本思想是什么？139答：(1)基本技术有：划分设计技术(又分为均匀划分技术、方根划分技术、对数划分技术和功能划分技术)、分治设计技术、平衡树设计技术、倍增设计技术、流水线设计技术等。

(2)基本思想分别如下：a.划分设计技术：(P139) 将一原始问题分成若干部分，然后各部分由相应的处理器同时执行。

b.分治设计技术：(P144)将一个大二复杂的问题分解成若干特性相同的子问题分而治之。

若所得的子问题规模仍嫌过大，可反复使用分治策略，直至很容易求解诸子问题为止。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

并行计算期末试题适用专业：理工类考试说明：1、将试卷答案以学号命名为word文件，如115042101.doc，上传到ftp://172.17.124.203/upload。

2、第一、二大题，直接将答案写在题后；第三、四题要求将程序补充、编写完整并将运行结果截图插在题目后面。

一、简述题（每小题4分，共20分）。

1、简述openmp编译制导指令master,single,critical,atomic的功能。

1.master制导语句指定代码段只能被主线程执行2.single编译制导语句指定内部代码只能由线程组中的一个线程执行。

线程组中没有执行single语句的线程会一直等待代码块的结束，使用nowait子句除外。

3.critical制导语句表明域中的代码一次只能由一个线程执行，其他线程被阻塞在临界区4.atomic制导语句指定特定的存储单元将被原子更新2、简述openmp编译制导子句shared,private的功能？简述openmp编译制导指令threadprivate的功能。

1.private子句表示它列出的变量对于每个线程是局部的。

2.shared子句表示它所列出的变量被线程组中所有的线程共享，所有线程都能对它进行读写访问。

3.threadprivate语句使一个全局文件作用域的变量在并行域内变成每个线程私有，每个线程对该变量复制一份私有拷贝并在多个并行域中保持。

3、简述openmp函数omp_set_num_threads，omp_get_num_threads，omp_get_thread_num的功能；环境变量OMP_NUM_THREADS的功能。

omp_set_num_threadsomp_get_num_threadsomp_get_thread_numOMP_NUM_THREADS：定义执行中最大的线程数4、简述MPI点对点通信与MPI集合通信的区别。

1）在通信子中的所有进程都必须调用相同的集合通信函数。

2）每个进程传递给MPI集合通信函数的参数必须是“相容的”。

3）参数output_data_p只用在dest_process上。

然而，所有进程仍需要传递一个与output_data_p相对应的实际参数，即使它的值只是NULL。

4）点对点通信函数是通过标签和通信子来匹配的。

集合通信函数不使用标签，只通过通信子和调用的顺序来进行匹配。

5、简述并行计算机的三种内存架构。

答：1.共享内存2.分布式内存3.混合型分布式共享内存二、与并行计算相关的名词术语翻译（英译汉，每小题1分，共20分）。

1、Task 任务2、Parallel Task并行任务3、Serial Execution 串行执行4、Parallel Execution并行执行5、Pipelining流水线技术6、Shared Memory共享内存7、Symmetric Multi-Processor (SMP) 对称多处理器8、Distributed Memory分布式存储9、Communications 通信10、Synchronization 同步11、Granularity 粒度12、Observed Speedup 测量加速比13、Parallel Overhead并行开销14、Massively Parallel大规模并行15、Embarrassingly Parallel易并行计算16、Scalability 可扩展性17、Multi-core Processors 多核处理器18、Cluster Computing集群计算19、Supercomputing / High Performance Computing高性能计算20、Cloud computing 云计算三、补充程序（每小题10分，共30分）1、下列OpenMP程序要求运行时获取每个线程的id号并输出，主线程获取总的线程数并输出。

请补充适当的OpenMP编译制导指令和函数调用，要求运行时启动4个线程。

#include <stdio.h>#include <omp.h>int main (int argc,char *argv[]) {int nthreads, tid;/* Fork a team of threads with each thread having a private tid variable */#pragma omp parallel private(tid){/* Obtain and print thread id */tid =omp_get_thread_num();printf("Hello World from thread = %d\n", tid);/* Only master thread does this */if (tid == 0){nthreads = omp_get_num_threads();printf("Number of threads = %d\n", nthreads);}} /* All threads join master thread and terminate */}2、下列OpenMP程序完成对数组a和b相应元素分别求和、求积的任务，请用OpenMP任务（功能）划分的编译制导指令进行并行化。

#include <omp.h>#define N 1000int main (int argc,char *argv[]){int i;float a[N], b[N], c[N], d[N];/* Some initializations */for (i=0; i < N; i++) {a[i] = i * 1.5;b[i] = i + 22.35;}#pragma omp parallel shared(a,b,c,d) private(i){#pragma omp sections nowait{#pragma omp sectionfor (i=0; i < N; i++)c[i] = a[i] + b[i];#pragma omp sectionfor (i=0; i < N; i++)d[i] = a[i] * b[i];} /* end of sections */} /* end of parallel section */}3、下列MPI程序运行时要求启动4个进程，每个进程要求获取自己的进程号、进程运行所在的机器名称、启动的进程个数并输出。

请补充适当的MPI函数。

#include "mpi.h"#include <stdio.h>#include <stdlib.h>#define MASTER 0int main (int argc, char *argv[]){int numtasks, taskid, len;char hostname[MPI_MAX_PROCESSOR_NAME];MPI_Init(&argc, &argv);MPI_Comm_size(MPI_COMM_WORLD, &numtasks);MPI_Comm_rank(MPI_COMM_WORLD,&taskid);MPI_Get_processor_name(hostname, &len);printf ("Hello from task %d on %s!\n", taskid, hostname);if (taskid == MASTER)printf("MASTER: Number of MPI tasks is: %d\n",numtasks); MPI_Finalize();}四、并行程序设计（第1题10分，第2题20分，共30分）1、编程求Sum=1+2+…N。

（要求使用openmp）2、#include <stdio.h>#include "mpi.h"#define N 1000int main(int argc,char *argv[]){int sum,i,total;int numprocs, myid;MPI_Init(&argc, &argv);MPI_Comm_rank(MPI_COMM_WORLD, &myid);MPI_Comm_size(MPI_COMM_WORLD, &numprocs);for(i=myid+1;i<=N;i+=numprocs)sum+=i;MPI_Reduce(&sum,&total,1,MPI_INT,MPI_SUM,0,MPI_COMM_WORLD); if(myid==0)printf("sum=%d\n",total);MPI_Finalize();return 0;}2、请分别用OpenMP和MPI并行编程的方法求PI的近似值。

#include <stdio.h>#include <omp.h>static long num_steps = 100000;double step;#define NUM_THREADS 2int main (){ int i;double x, pi, sum[NUM_THREADS];step = 1.0/(double) num_steps;omp_set_num_threads(NUM_THREADS); //#pragma omp parallel{double x;int id;id = omp_get_thread_num();for (i=id, sum[id]=0.0;i< num_steps; i=i+NUM_THREADS){//x = (i+0.5)*step;sum[id] += 1.0/(1.0+x*x);}}for(i=0, pi=0.0;i<NUM_THREADS;i++){pi += sum[i] * step;}printf(“pi=%f”,pi);}。