多核架构及编程技术-第五章2017

合集下载

多核计算机系统的操作系统

多核架构及编程技术
多核计算机系统的操作系统
内容
• 操作系统简介 • 基于多核的操作系统内容及其功能
1、操作系统简介
• 操作系统的名称：
– 监控（督）程序（系统）（Monitor) – 执行系统（程序）(Executive System(program)) – 控制系统（程序）(Control System program)) – 管理程序(Supervisor, Supervisory System) – 核心程序(Kernel) – 操作系统(Operating System)
• 按同时使用系统的用户数和系统能同时运行的进程数分成：
– 单用户、单进程系统
• MacOS,DOS,WINDOWS 3.1
– 单用户、多进程系统
• OS/2、WINDOWS 95/98/2000/xp
– 多用户、多进程系统
• Linux、UNIX、 WINDOWS SERVER系列
· 操作系统类型
· 操作系统是什么
从资源管理程序观点 --操作系统是系统资源管理者（ Operating System as a Resource Manager） • 操作系统是系统资源管理程序，它用于控制和管理计算机系统的硬件和软件资源。 • 计算机系统资源：操作系统模块：软件：程序、数据文件系统硬件：I／O设备设备管理存储器存储器管理处理器处理器（进程）管理
• 按计算机系统（硬件）操作系统分成
– 微机操作系统
• 常用的微机OS有MS-DOS、 Windows系列、OS/2、 SCO UNIX、 Linux等。
– 网络操作系统
• Unix、Linux、Windows 2000/2003 server

多核处理器体系结构及并行程序设计

13
Floating Point
Integer
Floating Point
Integer
L1 D-Cache and D-TLB
L1 D-Cache and D-TLB
Even 2 floating point threads can be executed at the same time now (per processor) as there are multiple floating point execution units
– 只共享系统总线，独立缓存 – 高性能，资源冲突少

9

双核技术 VS. 超线程技术
• 双核是真正意义上的双处理器
– 不会发生资源冲突 – 每个线程拥有自己的缓存、寄存器和运算器
• 一个3.2GHz Smithfiled在性能上并非等同于3.2GHz P4 with HT 的2 倍
Integer
Rename/Alloc uop Queues Schedulers
BTB & I-TLB Decoder
Trace Cache
Floating Point
uCode ROM
2 threads CANNOT be executed at the same time (per processor) if
BTB & I-TLB Decoder
Trace Cache
Floating Point
uCode
ROM

14

多核技术与超线程技术的结合
Dual Core
2 threads/socket
Dual Core with Hyper-Threading

“多核架构及编程技术课程建设

“多核架构及编程技术课程建设引言武汉大学电子信息学院一直着力于培养具有三创精神（创新、创造、创业）和实践能力的复合型人才。

自2022年“多核微处理器”概念出现以来，学院就意识到“多核架构”及其“基于多核架构的多线程编程技术”必将对现有的软件设计和相关课程内容产生影响，于是成立了“多核课程小组”，并研究规划将“多核”概念和知识添加到本科生课程体系中。

2022年，武汉大学加入“Intel大学合作计划”，并成立“武汉大学－Intel多核技术实验室”，2022年6月，获得“教育部－Intel精品课程”建设项目批准。

1课程建设背景及课程体系设计1.1课程名称及课程目的课程小组进行了近两周的讨论，从备选名中最终确定课程名称为：“多核架构及编程技术”。

之所以确定此课程名，是因为多核课程的受众是通信工程及电子信息工程等专业本科生，学生具有扎实的硬件基础、较强的动手能力和较好的编程能力；针对专业特点及学生特点，多核架构的认知与基于多核的多线程编程技能具有同等重要性；除了对多核多线程编程方法的学习和相关工具的使用技能学习外，多核架构的学习和认知将有助于学生在硬件设计理念上得到提高。

课程名称确定后，课程组又确定了课程的目的。

大家一致认为应紧紧围绕“多核架构及编程技术在本学科领域中的应用”为主线开展教学活动，使学生掌握多核体系的基本原理、典型设计策略，全面深入了解多核体系架构，完善知识结构，能在多核平台上进行并行编程，会使用相关工具进行程序优化及调试，理解多核技术对其他学科的影响，能独立完成所要求的实验计划。

1.2课程体系从学科发展和现代教育思想出发，结合工科专业特点，经充分的研讨，针对我校电子信息工程、通信工程等本科专业，学院创建了“多核架构及编程技术”课程立体体系。

该体系结构为：课堂理论教学－系列讲座－实践性教学（实验和毕业设计）三大模块。

课程建设围绕该立体体系进行，以我校电子信息学院“国家工科基础课程电工电子教学基地”为依托，以一级学科“信息与通信工程”为龙头，坚持将多核架构理论与实践有机的结合，贯彻“少而精与博而通”教学思想的创新实践，体现工科专业的特色。

多核体系结构

多核体系结构随着桌面并行时代的来临，基于多核的并行计算机已进入千家万户。

例如，很多人的笔记本就装有两个处理器芯片，台式计算机装有四个芯片。

INTEL、AMD在多核技术方向的相继突破，更使得并行计算成为研究热点之一。

虽然多核时代已经到来，目前的困境是，多核硬件技术已成熟，但并行处理核心算法等应用问题却尚未得到解决。

中国科大研究人员所做的这项研究在网络数据包的有效分类算法，也即网络核心算法的研究方面获得进展。

多核的普及是很重要的，因为以往仅仅提供高单线程性能。

我们观察到，在一个大型变繁忙的内核数量多核心，这技术的应用是最理想的任何个人。

每个单是往往无法把所有的方式多核其功率或温度信封由于电源电压或错误率的限制。

事务性记忆已经被提出来，用以解决一些芯片多处理器的可编程性问题。

事务性内存硬件实现在提供的功能的支持，如取得重大进展，比如长期交易，泄漏出的高速缓存，和上下文切换并在交易中线程迁移。

通过集成在单个芯片中的多个内核，芯片多处理器提供一个有吸引力的方法同时提高系统的吞吐量和效率。

这种集成允许在片上资源，这可能会导致破坏性的共享相互干扰的执行工作负载。

共享资源是一个重要的功能，它有助于显着的整体吞吐量和降低功耗。

为了提高系统性能和降低个别表现波动线程，已经提出最后一级缓存和片外带宽分配计划。

多核技术已经是现代处理器发展的主流趋势,它的诞生给软件开发技术带来了新的挑战。

如何编写出高效的并行程序使之充分地利用多核的资源,这一直是学术界和工艺界致力于解决的难题。

多核程序的性能调试对于开发高效的并行程序来说,具有良好地辅助作用。

它通过分析程序的行为并诊断其性能瓶颈,进而给性能优化提供有效的支持。

由于并行程序的动态性和不确定性,传统的代码分析技术很难有效地检测其性能瓶颈。

有的研究工作提出在软件层分析程序运行时行为,这通常会引入很大的运行时开销,并且获得数据精确度很低。

硬件的实现虽然运行时开销低,然而其结构扩展引入的开销又会损伤程序的性能。

(课件)基于多核系统的编程技术第一节并行程序设计流程第二节线

执行路径相互独立的执行路径。操作系统的工作就是讲软件线程映射到硬件执行资源上。 • 每个线程有自己的：
– 堆栈指针 – 寄存器 – 调度策略（如优先级） – 线程自有数据 – ····
对于在一个进程内的线程：
•一个线程对共享的系统资源进行修改，其它这个进程内的其它线程也可以见到这种修改。
•对于同一个数据，可能有两个值相同的指针指向这个数据。
操作系统内部的线程
• 操作系统被分为两个截然不同的层次：
– 用户级（运行应用程序的层次） – 内核级（系统行为发生的层次）
• 内核级是操作系统的核心，维护着大量用于追踪进程和线程的表格。
• 内核级线程能够提供更高的性能。并且同一进程中的多个内核线程能够同时在不同的处理器或者执行核上执行。
• 如OpenMP，PThread等线程库用内核级线程。
•进程内的多个线程可以对同一个内存单元进行读和写操作，所以必须要采取显式同步机制。
•在同一个进程的地址空间下，线程间的通信消耗更小。
一个进程内的线程示例
进程与线程
• 程序在操作系统中作为进程方式存在、获取资源、运行。
• 在一个进程内，线程可以创建其它线程。每个线程有各自的栈(stack)。
– 进程ID，进程组ID，用户ID，组ID； – 环境 – 工作目录 – 程序指令 – 寄存器 – 堆栈（Stack） – 堆（Heap） – 文件描述符 – 信号操作 – 共享库 – 进程间通信工具
• 消息队列、管道、信号量、共享内存
UNIX下进程示例
1.1 基本概念－－线程(thread)
• 是一些相关指令的离散序列。 • 从硬件资源上讲，线程就是一条与其它硬件线程
– 利用编译器指导（Compiler-directed） • 自动并行, OpenMP, Intel Threading Building Blocks等

多核架构及编程技术课程总结

CPU 状态中断逻辑
CPU 状态中断逻辑
执行单元 Cache
CPU 状态中断逻辑
CPU 状态中断逻辑
执行单元 Cache
(f) 采用超线程技术的多核体系结构
与多核对应的芯片组
PPrroocceessssoorr
Front Side Bus
North Bridge / MCH (北桥)
HHiigghh--SSppeeeedd II//OO
自动恢复：一旦事件发生并被处理后，自动恢复到没有事件状态，不需要再次设置。
同步的机制简介(续)
临界区
一种防止多个线程同时执行一个特定代码段的机制适用于多个线程操作之间没有先后顺序但要求互斥的同步。多个
线程访问同一个临界区的原则：一次最多只能一个线程停留在临界区内不能让一个线程无限地停留在临界区内，否则其他线程将不能进入该临界区
MIMD异步并行计算模型
异步PRAM模型 BSP模型 LogP模型 C3模型
并行编程环境
比较流行的并行编程环境主要有3类：消息传递、共享存储和数据并行
特征消息传递共享存储数据并行
典型代表 MPI, PVM OpenMP
HPF
可移植性所有主流并行 SMP, DSM SMP, DSM,
事件
事件是WIN32提供的最灵活的线程间同步方式，各线程根据事件的激发状态来决定是否运行相应的线程函数。
事件存在两种状态：激发状态(signaled or true) 未激发状态(unsignal or false)
事件可分为两类：
手动设置：这种对象只能用程序来手动设置，在需要该事件或者事件发生时，采用SetEvent及ResetEvent来进行设置。

多核编程5

快速傅立叶变换 (FFT)
数字信号处理、图像处理以及偏微分方程（PDE）解算器中都使用傅立叶变换。英特尔® 数学核心函数库（英特尔® MKL）中的快速傅立叶变换（FFT）功能针对基于英特尔® 架构的计算机进行了高度优化。英特尔® MKL 还提供对分布式内存多处理器架构计算机（集群）的支持。英特尔® MKL 快速傅立叶变换的特性包括：
武汉大学《多核架构及编程技术》武汉大学《多核架构及编程技术》教学课程之
第五章
MKL编 MKL编程基础
有限资源的优化目标
优化的终极目标：最大速度；在有限的资源环境下，最大限度的耗用CPU的资源是优化的主要目的: • CPU: Register use, FP units. • Cache: Keep data in cache as long as possible; deal with cache interleaving. • TLBs: Maximally use data on each page. • Memory bandwidth: Minimally access memory. • Computer: Use all the processors available using threading. • System: Use all the nodes available (cluster software).
MKL主要内容 MKL主要内容
主要包括： ① LAPACK (线形代数工具linear algebra package) (线形代数工具linear ② DFTs (离散傅立叶变换 Discrete Fourier (离散傅立叶变换 transforms) ③ VML (矢量数学库Vector Math Library) (矢量数学库Vector ④ VSL (矢量统计库Vector Statistical Library) (矢量统计库Vector

2017年上半年系统分析师考试下午真题(完整版)

2017年上半年系统分析师考试下午真题（专业解析+参考答案）1、阅读以下关于基于微服务的系统开发的叙述，在答题纸上回答问题1至问题3。

【说明】某公司拟开发一个网络约车调度服务平台，实现基于互联网的出租车预约与管理。

公司的系统分析师王工首先进行了需求分析，得到的系统需求列举如下:系统的参与者包括乘客、出租车司机和平台管理员三类；系统能够实现对乘客和出租车司机的信息注册与身份认证等功能，并对乘客的信用信息进行管理，对出租车司机的违章情况进行审核；系统需要与后端的银行支付系统对接，完成支付信息审核、支付信息更新与在线支付等功能；针对乘客发起的每一笔订单，系统需要实现订单发起、提交、跟踪、撤销、支付、完成等业务过程的处理:系统需要以短信、微信和电子邮件多种方式分别为系统中的用户进行事件提醒。

在系统分析与设计阶段，公司经过内部讨论，一致认为该系统的需求定义明确，建议尝试采用新的微服务架构进行开发，并任命王工为项目技术负责人，负责项目开发过程中的技术指导工作。

问题内容：【问题1】(12 分〉请用 100字以内的文字说明一个微服务中应该包含的内容，并用 300 字以内的文字解释基于微服务的系统与传统的单体式系统相比的 2 个优势和带来的 2 个挑战。

【问题2】 (8 分)识别并设计微服务是系统开发过程中的一个重要步骤，请对题干需求进行分析，对微服务的种类和包含的业务功能进行归类，完成表 1-1 中的(1)~(4)。

表1-1 微服务名称及所包含业务功能【问题3】（5分）为了提高系统开发效率，公司的系统分析师王工设计了一个基于微服务的软件交付流程，其核心思想是将业务功能定义为任务，将完成某个业务功能时涉及到的步骤和过程定义为子任务，只有当所有的子任务都测试通过后改业务功能才能上线交付。

请基于王工设计的在线支付微服务交付流程，从（a）~（f）中分别选出合适的内容填入图1-1中的（1）~（5）处。

选项：(a)提交测试（b）全量上线（c）对接借记卡（d）获取个人优惠券（e）试部署（f）对账2、阅读以下关于系统数据分析与建模的叙述，在答题纸上回答问题 1至问题3。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

支持:
SPL (Signal Processing Library) IPL (Image Processing Library) IJL (Intel® JPEG Library) RPL (Recognition Primitives Library)

…supporting migration to new platforms
数据类型和布局
对数据类型的特殊优化 (8u, 16s, 32f)
对数据布局的特殊优化 (pixel, planer…)
对数据类型和布局的转换函数的优化 ippsConvert_8u_32f() ippsInterleave_16s() ippiRGBToYUV_8u_C3P3R()
Interleaving:
I
Sfs
ippi函数的描述符编码
编码 AC4 描述图像具有 4 个通道，第四个通道是α通道。当用这 ippiAddC_8u_AC4R 种方法标识时，α通道将被排除在运算外。 ippiMean_8u_AC4R 图像在内存中具有 1 ， 3 或4 个通道的交叉数据。大 ippiDCT8x8Fwd_16s_C1T 多数情况下用来表示一个通道的C1也可以用于多平 ippiRGBToYUV_8u_C3R 面图像。图像在内存中具有交叉的通道。这是种特殊情况，在这种情况下第二个“通道”本身经常是两个交叉 ippiYCbCr422ToRGB_8u_C3R 子通道组成的。它的大小和变量都是基于双通道图 ippiJoin422_9u_P2R 像的。 ippiDCT8x8Fwd_16s_C1（用三个图像作为变量src1，运算的结果被写回源程序，因此变量既是源变量又 src2和dst）是目标变量。 ippiDCT8x8Fwd_16s_C1T（用两个图像作为变量src和 srcdst）运算使用模板来判断该对哪个像素进行运算。 ippiSet_8u_C1MR(val, dst, dstStep, size, mask, maskStep) 例子 C1,C3,C4
MMX™ technology Streaming SIMD Extensions
Itanium® Architecture
Streaming SIMD Extensions-2
Intel PCA application processors based on XScale™ technology
Full IA-32 Family
通过将运行时的函数调用替换为IPP，应用程序模块的性能可以得到极大的改进
4x
ippsSin_32f_A11(flArgSin[thrd]. algPtr,flArgSin[thrd].algPtr, 4*iWvMeshSize);
编程基础
编程命名约定与环境设置编程示例
IPP 函数命名
跨平台和操作系统
• 支持多种平台
– MMX™, Streaming SIMD Extensions (SSE) and Streaming SIMD Extensions 2 (SSE-2) Technologies – IA-32 (including Intel® Xeon™ processor) – Itanium® architecture – Intel® XScale™ micro-architecture
• 支持多种操作系统
–Windows XP* /Windows 7/8 32-bit –Windows XP/7/8 64-bit –Linux* & Linux-64 –Windows CE*, Linux in embedded device
不需要写底层（汇编）代码，获得优化的应用程序
更多的特性
C2
I
M P3,P4
图像具有3个或4个通道的数据分布在独立的平面； ippiRGBToYCbCr420_8u_C3P3R （用交叉的 RGB 图像作运算采用指针序列对图像平面进行运算。为输入并把结果写入三个分立的输出序列中）函数在输入图像中定义的兴趣区域运算。大多数图像处理函数有此描述符并使用ROI。 ippiAddC_8u_AC4Sfs(src, values, dst, size, 此函数缩放运算的结果，通过变量 ScaleFactor 转 scalefactor) 用 src 和 value 相加得到的结果处以换。这通常在运算结果太大时，用于保持结果精度。 scaleFactor，结果存入dst

IPP与Intel其它组件的关系
Applications
Sample code Intel® Math Kernel Library
Primitives Interface
OpenCV
Intel® Integrated Performance Primitives (IPP)
Processorspecific Functions
1u 16sc 32sc 32fc 64fc
Ipp8u Ipp16sc Ipp32sc Ipp32fc Ipp64fc
二维数据布局

pixel格式中，每个像素所有位都被顺序存储在planer格式中，每个像素的第一位被存储，接着每个像素的第二位被存储，等等
ipps函数描述符
代码 Axx 描述 ippsSqrt__A11 用于高级算法运算，详述精确的结 ippsSqrt_32fA24 ippsCos__A50 果位数 ippsCos__A53 ippsFlip_16u （三个自变量 src ， dst ，运算是一体的。运算结果被写回源 len）变量，自变量既是源变量又是目标 ippsFlip_16u_I （两个自变量， srcdst ，变量 len）此函数缩放了运算的结果，通过变 ippsAddC_16s_Sfs （ src ， val ， dst ，量 ScaleFactor 转换。这通常在运算 len，scaleFactor）用src和val相加得到结果太大时，用于保持结果精度。的结果处以scaleFactor，结果存入dst 例子
ippsAddC_8u_I();
Prefix
ipps, ippi, ippm
Descriptors
Indicates data layout variants
Basename
E.g. Add, DCT, etc.
Data array type
Indicates bit depth & integer / floating point E.g. 8u, 16s, 32f
对IPP性能的评论
Bryan Cook, Software Architect, AuSIM Inc, Los Altos, California October 2001 “AuSIM Inc. delivers the most advanced audio simulation technology for mission-critical aural displays and simulations. With Intel’s Integrated Performance Primitives (IPP), AuSIM has leveraged 4X performance gains within its AuSIM3D* audio simulation technology. …directly enhances AuSIM’s ability to provide the ultimate audio solutions for simulations, team communications, audio production, tele-conferences, and aural information displays.”
Minor effort, major gains
通过Intel® IPP，很小的代码改变可以获得极大的性能 pFlTmp=flArgSin[thrd].algPtr;
1x
for(t=0; t<4*iWvMeshSize; t++) { pFlTmp[t]=(float)sin(pFlTmp[t]); }
• 面向处理器和芯片组
– 自动选择处理器相关的 DLL – 和体系结构相关的指令集
Integrated Performance Primitives (IPP)
Pentium® II processor Pentium® III processor Pentium® 4 processor Xeon™ processor
IPP基础类型
代码 8u 8s 16u 16s 32u 32s 32f 64f Intel IPP类型 Ipp8u Ipp8s Ipp16u Ipp16s Ipp32u Ipp32s Ipp32f Ipp64f C语言中的定义 unsigned char char unsigned short short unsigned int int float double unsigned char* bitstream, int offset struct { Ipp16s re; Ipp16s im;} Ipp16sc struct { Ipp32s re; Ipp32s im;} Ipp32sc struct { Ipp re; Ipp im;} Ipp32fc struct { Ipp re; Ipp im;} Ipp64fc
更多的特性

支持更多的颜色模式和转换 …and much, much more!
…tell us what you want!
通过 Intel® IPP 获得更高的性能
对IPP性能的评论
Leo Volfson, President and Chief Technology Officer, Inetcam, Inc.