openMP学习笔记分析

合集下载

并行程序设计实验报告-OpenMP 基础实验

实验1：OpenMP 基础实验1、实验目的1）了解OpenMP的运行环境2）掌握OpenMP编程的基本要素、编译方法，可运用相关知识独立完成一个基本的OpenMP程序的编写与调试过程。

2、实验要求1）掌握OpenMP运行环境在ubuntu环境中打开一个终端界面。

尝试在图形操作界面左侧寻找终端的图标进行点击，或直接使用快捷键Ctrl+Alt+T打开终端界面进行Shell环境。

2）运行一个简单OpenMP程序程序代码见程序1-1、1-23）OpenMP兼容性检查通过检查预处理宏_OPENMP 是否定义来进行条件编译。

如果定义了_OPENMP，则包含omp.h 并调用OpenMP 库函数。

程序代码见程序1-34）常用线程操作库函数语句在OpenMP编程过程中，一旦涉及线程操作，有较大的概率使用三个常用的库函数，分别为：(1) int omp_get_num_threads(void) 获取当前线程组（team）的线程数量，如果不在并行区调用，则返回1。

(2) int omp_get_thread_num(void) 返回当前线程号。

(3) int omp_get_num_procs(void) 返回可用的处理核个数。

注意区别这三个库函数的外形及意义，特别是前两个库函数，初始使用时很容易混淆。

程序代码见程序1-45）parallel语句的练习parallel 用来构造一个并行区域，在这个区域中的代码会被多个线程（线程组）执行，在区域结束处有默认的同步（隐式路障）。

我们可以在parallel 构造区域内使用分支语句，通过omp_get_thread_num 获得的当前线程编号来指定不同线程执行区域内的不同代码。

程序代码见程序1-5、1-66）critical和reducation语句的练习为了保证在多线程执行的程序中，出现资源竞争的时候能得到正确结果，OpenMP 提供了3种不同类型的多线程同步机制：排它锁、原子操作和临界区。

openMP实验总结报告

openMP实验报告目录openMP实验报告.............................................. 错误!未定义书签。

OpenMP简介.............................................. 错误!未定义书签。

实验一................................................... 错误!未定义书签。

实验二................................................... 错误!未定义书签。

实验三................................................... 错误!未定义书签。

实验四................................................... 错误!未定义书签。

实验五................................................... 错误!未定义书签。

实验六................................................... 错误!未定义书签。

实验七................................................... 错误!未定义书签。

实验八................................................... 错误!未定义书签。

实验总结................................................. 错误!未定义书签。

在学习了MPI之后，我们又继续学习了有关openMP的并行运算，通过老师的细致讲解，我们对openMP有了一个初步的了解：OpenMP简介OpenMP是一种用于共享内存并行系统的多线程程序设计的库(Compiler Directive),特别适合于多核CPU上的并行程序开发设计。

openMP学习笔记分析

1、OpenMP 指令和库函数介绍下面来介绍OpenMP 的基本指令和常用指令的用法，在C/C++ 中，OpenMP 指令使用的格式为# pragma omp 指令［子句［子句］…］前面提到的parallel for 就是一条指令，有些书中也将OpenMP 的“指令”叫做“编译指导语句后面的子句是可选的。

例如：#pragma omp parallel private(i, j) parallel 就是指令，private 是子句为叙述方便把包含#pragma 和OpenMP 指令的一行叫做语句，如上面那行叫parallel 语句。

OpenMP 的指令有以下一些：parallel ，用在一个代码段之前，表示这段代码将被多个线程并行执行for，用于for循环之前，将循环分配到多个线程中并行执行，必须保证每次循环之间无相关性。

parallel for ，parallel 和for 语句的结合，也是用在一个for 循环之前，表示for 循环的代码将被多个线程并行执行。

sections用在可能会被并行执行的代码段之前parallel sections，parallel 和sections 两个语句的结合critical ，用在一段代码临界区之前single，用在一段只被单个线程执行的代码段之前，表示后面的代码段将被单线程执行。

flush ，barrier ，用于并行区内代码的线程同步，所有线程执行到barrier 时要停止，直到所有线程都执行到barrier 时才继续往下执行。

atomic，用于指定一块内存区域被制动更新master，用于指定一段代码块由主线程执行ordered，用于指定并行区域的循环按顺序执行threadprivate , 用于指定一个变量是线程私有的。

OpenMP 除上述指令外，还有一些库函数，下面列出几个常用的库函数：omp_get_num_procs, 返回运行本线程的多处理机的处理器个数。

openmp并行运算注意事项

openmp并行运算注意事项随着计算机硬件的不断发展，多核处理器已经成为了计算机的主流配置。

并行计算作为一种利用多个处理器核心来加速计算的技术，得到了越来越多的关注和应用。

OpenMP作为一种简单易用的并行编程模型，为程序员提供了一种方便快捷的并行编程方法。

在使用OpenMP 进行并行编程时，需要注意一些事项，以确保并行程序的正确性和性能。

本文将从几个方面介绍OpenMP并行运算的注意事项。

一、并行区域的选择和设置在OpenMP中，使用#pragma omp parallel指令来创建并行区域。

在选择并行区域时，需要考虑并行区域的大小和并行任务的分配。

过大的并行区域可能会导致线程间的竞争和通信开销增加，过小的并行区域则会导致线程创建和销毁的开销增加。

在选择并行区域时，需要综合考虑计算量和通信开销，选择合适的并行粒度和并行方式。

二、数据共享和数据私有在并行计算中，不可避免地会涉及到数据的共享和数据的私有。

在OpenMP中，可以使用shared和private子句来显式地声明共享变量和私有变量。

需要注意的是，共享变量的并行访问可能会产生数据竞争和不确定的结果，因此需要合理地进行共享变量的访问控制和同步。

而私有变量则可以避免这些问题，但需要注意私有变量的创建和销毁开销，以及私有变量的正确初始化和赋值。

三、线程同步和竞争条件在并行计算中，线程同步和竞争条件是需要特别注意的问题。

在OpenMP中，可以使用critical、atomic和barrier等机制来实现线程同步和避免竞争条件。

需要注意的是，过多的线程同步会影响并行程序的性能，而竞争条件则可能导致程序的错误结果。

在编写并行程序时，需要谨慎地考虑线程同步和竞争条件的设置，以保证程序的正确性和性能。

四、循环并行化和数据依赖在很多科学计算和工程计算中，循环并行化是一种常见的并行优化方法。

在OpenMP中，可以使用#pragma omp for指令来对循环进行并行化。

openmp用法

openmp用法OpenMP是一种支持共享内存多线程编程的标准API。

它提供了一种简单而有效的方法，用于在计算机系统中利用多核和多处理器资源。

本文将逐步介绍OpenMP的用法和基本概念，从简单的并行循环到复杂的并行任务。

让我们一步一步来学习OpenMP吧。

第一步：环境设置要开始使用OpenMP，我们首先需要一个支持OpenMP的编译器。

常见的编译器如GCC、Clang和Intel编译器都支持OpenMP。

我们需要确保在编译时启用OpenMP支持。

例如，在GCC中，可以使用以下命令来编译包含OpenMP指令的程序：gcc -fopenmp program.c -o program第二步：并行循环最简单的OpenMP并行化形式是并行循环。

在循环的前面加上`#pragma omp parallel for`指令，就可以让循环被多个线程并行执行。

例如，下面的代码演示了如何使用OpenMP并行化一个简单的for循环：c#include <stdio.h>#include <omp.h>int main() {int i;#pragma omp parallel forfor (i = 0; i < 10; i++) {printf("Thread d: d\n", omp_get_thread_num(), i);}return 0;}在上面的例子中，`#pragma omp parallel for`指令会告诉编译器将for 循环并行化。

`omp_get_thread_num()`函数可以获取当前线程的编号。

第三步：数据共享与私有变量在并行编程中，多个线程可能会同时访问和修改共享的数据。

为了避免数据竞争和不一致的结果，我们需要显式地指定哪些变量是共享的，哪些变量是私有的。

我们可以使用`shared`和`private`子句来指定。

`shared`子句指定某个变量为共享变量，对所有线程可见。

OpenMP (8)

(c)图 9.13作用域层次变化与OpenMP 变量引用然后遇到第一个“{ … }”结构块从而进入层N+1作用域，这里声明了unsigned long 类型的同名变量a ，使得符号表变成如图 9.13-b 形式。

然后遇到第一个parallelfor 制导指令，private(a)指出需要生成私有变量a 的时候，经符号表的查找得知当前起作用的的变量a 是整形unsigned long ，因此该私有变量的声明为“unsigned long a;”。

接着退出第一个“{ … }”的结构块，于是“unsigned long ”类型的符号a 随着清理N+1层符号项的操作而删除，符号表堆栈还原到图 9.13-a 状态。

随后然后遇到第二个“{ … }”结构块从而再次进入层N+1作用域，这里声明了float 类型的同名变量a ，使得符号表变成如图 9.13-c 形式。

然后遇到第一个parallel sections 制导指令，private(a)指出需要生成私有变量a 的时候，经符号表的查找得知当前起作用的的变量a 是浮点float ，因此该私有变量正确的声明为“float a;”。

9.3 代码优化在生成目标C 代码的时候，可以在变换后的AST 基础之上进行源代码级的优化，下面将介绍一些基本的优化方法。

OpenMP 程序运行时额外开销的很大一部分是因为并行域上的线程fork-join 开销，因此并行域的合并可能对OpenMP 程序性能有明显的作用。

fork-join 是面向任务的模型，任务和线程之间是动态的关系，而SPMD 模型则是面向执行者的，不存在线程组的产生和撤销操作及时间开销。

并行域合并的优化思想是：通过将相邻的OpenMP 并行域进行合并，减少线程组的产生和撤销，从而接近于SPMD 的执行模式，提高程序运行速度。

为了实现并行域的合并，需要解决如下几个问题： 1. AST 的裁剪、拼接和修改等能力，这个与前面讨论的AST 变化要求相同；2.确定并行域合并的边界。

OpenMP复习及程序演示

*
其他的编译指导语句及子句
Schedule子句：静态调度(static)：parallel for语句不带schedule子句，默认为静态调度方式。动态调度(dynamic)：没有size参数：将迭代逐个分配到各个线程；使用size参数：每次分配给线程的迭代次数为size次。启发式自调度(guided)：开始时每个线程会分配到较大的迭代块，之后分配到的迭代块会递减。迭代块的大小按指数级下降到指定的size大小。如果没有size参数，默认1。
1 循环并行化：使用OpenMP并行程序的重要部分
*
循环并行化语句工作原理
将for循环中的工作分配到一个线程组中，线程组中的每一个线程将完成循环中的一部分内容； for循环语句要紧跟在parallel for的编译指导语句后面，编译指导语句的功能区域一直延伸到for循环语句的结束；编译指导语句后面的字句（clause）用来控制编译指导语句的具体行为。
OpenMP的编程模型以线程为基础，通过编译指导语句来显式地指导并行化，为编程人员提供对并行化的完整控制。 OpenMP多线程编程的基础知识 OpenMP程序的执行模型 OpenMP程序中涉及的编译指导语句和库函数 OpenMP程序的执行环境
6.1.2 OpenMP编程基础
OpenMP程序采用Fork-Join的执行模式
*
其他的编译指导语句及子句
Schedule子句：格式：schedule(type[,size]) type参数：dynamic/guided/runtime/static size参数：表示循环迭代次数，必须为整数。如果type参数为dynamic/guided/static，则size为可选参数如果type参数为runtime，则不需要使用size参数。

多核软件开发技术第六讲： OpenMP多线程编程及性能优化

运行时库函数
• OpenMP运行时函数库主要用以设置和获取执行环境相关的信息 • 它们当中也包含一系列用以同步的API
编译指导语句
运行时函数库
环境变量
使用VS 2005编写OpenMP程序
• 当前的Visual Studio .Net 2005完全支持 OpenMP 2.0标准 • 通过新的编译器选项 /openmp来支持 OpenMP程序的编译和链接
明确的同步屏障语句
• 在有些情况下，隐含的同步屏障并不能提供有效的同步措施 • 程序员可以在需要的地方插入明确的同步屏障语句 #pragma omp barrier • 在并行区域的执行过程中，所有的执行线程都会在同步屏障语句上进行同步
• #pragma omp parallel
{
initialization（）; #pragma omp barrier process（）;
• 循环并行化实际上是并行区域编程的一个特例 • 并行区域简单的说就是通过循环并行化编译指导语句使得一段代码能够在多个线程内部同时执行 • 在C/C++语言中，并行区域编写的格式如下： #pragma omp parallel [clause[clause]…] block
parallel编译指导语句的执行过程
OpenMP多线程应用程序性能分析
影响性能的主要因素
• • • • • 程序并行部分的比率 OpenMP本身的开销负载均衡局部性线程同步带来的开销
}
循环并行化中的顺序语句（ordered）
• 对于循环并行化中的某些处理需要规定执行的顺序 • 典型的情况：在一次循环的过程中
– 一大部分的工作是可以并行执行的，而其余的工作需要等到前面的工作全部完成之后才能够执行

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、OpenMP指令和库函数介绍下面来介绍OpenMP的基本指令和常用指令的用法，在C/C++中，OpenMP指令使用的格式为＃pragma omp 指令 [子句[子句]…]前面提到的parallel for就是一条指令，有些书中也将OpenMP的“指令”叫做“编译指导语句”，后面的子句是可选的。

例如：#pragma omp parallel private(i, j)parallel 就是指令，private是子句为叙述方便把包含#pragma和OpenMP指令的一行叫做语句，如上面那行叫parallel语句。

OpenMP的指令有以下一些：parallel，用在一个代码段之前，表示这段代码将被多个线程并行执行for，用于for循环之前，将循环分配到多个线程中并行执行，必须保证每次循环之间无相关性。

parallel for，parallel 和for语句的结合，也是用在一个for循环之前，表示for循环的代码将被多个线程并行执行。

sections，用在可能会被并行执行的代码段之前parallel sections，parallel和sections两个语句的结合critical，用在一段代码临界区之前single，用在一段只被单个线程执行的代码段之前，表示后面的代码段将被单线程执行。

flush，barrier，用于并行区内代码的线程同步，所有线程执行到barrier时要停止，直到所有线程都执行到barrier时才继续往下执行。

OpenMP除上述指令外，还有一些库函数，下面列出几个常用的库函数：omp_get_num_procs, 返回运行本线程的多处理机的处理器个数。

omp_get_num_threads, 返回当前并行区域中的活动线程个数。

omp_get_thread_num, 返回线程号omp_set_num_threads, 设置并行执行代码时的线程个数omp_init_lock, 初始化一个简单锁omp_set_lock，上锁操作omp_unset_lock，解锁操作，要和omp_set_lock函数配对使用。

omp_destroy_lock，omp_init_lock函数的配对操作函数，关闭一个锁OpenMP的子句有以下一些private, 指定每个线程都有它自己的变量私有副本。

firstprivate，指定每个线程都有它自己的变量私有副本，并且变量要被继承主线程中的初值。

lastprivate，主要是用来指定将线程中的私有变量的值在并行处理结束后复制回主线程中的对应变量。

reduce，用来指定一个或多个变量是私有的，并且在并行处理结束后这些变量要执行指定的运算。

nowait，忽略指定中暗含的等待num_threads，指定线程的个数schedule，指定如何调度for循环迭代shared，指定一个或多个变量为多个线程间的共享变量ordered，用来指定for循环的执行要按顺序执行copyprivate，用于single指令中的指定变量为多个线程的共享变量copyin，用来指定一个threadprivate的变量的值要用主线程的值进行初始化。

default，用来指定并行处理区域内的变量的使用方式，缺省是shared2 num_threads子句parallel语句后面要跟一个大括号对将要并行执行的代码括起来。

void main(int argc, char *argv[]) {#pragma omp parallel{printf(“Hello, World!/n”);}}执行以上代码将会打印出以下结果Hello, World!Hello, World!Hello, World!Hello, World!可以看得出parallel语句中的代码被执行了四次，说明总共创建了4个线程去执行parallel 语句中的代码。

也可以指定使用多少个线程来执行，需要使用num_threads子句：void main(int argc, char *argv[]) {#pragma omp parallel num_threads(8){printf(“Hello, World!, ThreadId=%d/n”, omp_get_thread_num() );}}执行以上代码，将会打印出以下结果：Hello, World!, ThreadId = 2Hello, World!, ThreadId = 6Hello, World!, ThreadId = 4Hello, World!, ThreadId = 0Hello, World!, ThreadId = 5Hello, World!, ThreadId = 7Hello, World!, ThreadId = 1Hello, World!, ThreadId = 3从ThreadId的不同可以看出创建了8个线程来执行以上代码。

所以parallel指令是用来为一段代码创建多个线程来执行它的。

parallel块中的每行代码都被多个线程重复执行。

和传统的创建线程函数比起来，相当于为一个线程入口函数重复调用创建线程函数来创建线程并等待线程执行完。

3 threadprivate子句threadprivate子句用来指定全局的对象被各个线程各自复制了一个私有的拷贝，即各个线程具有各自私有的全局对象。

用法如下：#pragma omp threadprivate(list)下面用threadprivate命令来实现一个各个线程私有的计数器，各个线程使用同一个函数来实现自己的计数。

计数器代码如下：int counter = 0;#pragma omp threadprivate(counter)int increment_counter(){counter++;return(counter);}如果对于静态变量也同样可以使用threadprivate声明成线程私有的，上面的counter变量如改成用static类型来实现时，代码如下：int increment_counter2(){static int counter = 0;#pragma omp threadprivate(counter)counter++;return(counter);}threadprivate和private的区别在于threadprivate声明的变量通常是全局范围内有效的，而private声明的变量只在它所属的并行构造中有效。

threadprivate的对应只能用于copyin，copyprivate，schedule，num_threads和if子句中，不能用于任何其他子句中。

用作threadprivate的变量的地址不能是常数。

对于C++的类（class）类型变量，用作threadprivate的参数时有些限制，当定义时带有外部初始化时，必须具有明确的拷贝构造函数。

对于windows系统，threadprivate不能用于动态装载（使用LoadLibrary装载）的DLL中，可以用于静态装载的DLL中，关于windows系统中的更多限制，请参阅MSDN中有关threadprivate子句的帮助材料。

有关threadprivate命令的更多限制方面的信息，详情请参阅OpenMP2.5规范。

4 shared子句shared子句用来声明一个或多个变量是共享变量。

用法如下：shared(list)需要注意的是，在并行区域内使用共享变量时，如果存在写操作，必须对共享变量加以保护，否则不要轻易使用共享变量，尽量将共享变量的访问转化为私有变量的访问。

循环迭代变量在循环构造区域里是私有的。

声明在循环构造区域内的自动变量都是私有的。

5 default子句default子句用来允许用户控制并行区域中变量的共享属性。

用法如下：default(shared | none)使用shared时，缺省情况下，传入并行区域内的同名变量被当作共享变量来处理，不会产生线程私有副本，除非使用private等子句来指定某些变量为私有的才会产生副本。

如果使用none作为参数，那么线程中用到的变量必须显示指定是共享的还是私有的，除了那些由明确定义的除外。

6 copyin子句copyin子句用来将主线程中threadprivate变量的值拷贝到执行并行区域的各个线程的threadprivate变量中，便于线程可以访问主线程中的变量值，用法如下：copyin(list)copyin中的参数必须被声明成threadprivate的，对于类类型的变量，必须带有明确的拷贝赋值操作符。

对于前面threadprivate中讲过的计数器函数，如果多个线程使用时，各个线程都需要对全局变量counter的副本进行初始化，可以使用copyin子句来实现，示例代码如下：int main(int argc, char* argv[]){int iterator;#pragma omp parallel sections copyin(counter){#pragma omp section{int count1;for ( iterator = 0; iterator < 100; iterator++ ){count1 = increment_counter();}printf("count1 = %ld/n", count1);}#pragma omp section{int count2;for ( iterator = 0; iterator < 200; iterator++ ){count2 = increment_counter();}printf("count2 = %ld/n", count2);}}printf("counter = %ld/n", counter);}打印结果如下：count1 = 100count2 = 200counter = 0从打印结果可以看出，两个线程都正确实现了各自的计数。

7 copyprivate子句copyprivate子句提供了一种机制用一个私有变量将一个值从一个线程广播到执行同一并行区域的其他线程。

用法如下：copyprivate(list)copyprivate子句可以关联single构造，在single构造的barrier到达之前就完成了广播工作。

copyprivate可以对private和threadprivate子句中的变量进行操作，但是当使用single构造时，copyprivate的变量不能用于private和firstprivate子句中。