多处理机-- 对称式共享存储器体系结构

合集下载

计算机体系结构-第7章多处理机

ห้องสมุดไป่ตู้
第7章多处理机
主 CPU
主存
CIOP
高速系统总线 BIOP NIOP GIOP
ACOP
CIOP----字符处理机 BIOP----数组处理机 NIOP----网络处理机 GIOP----图形处理机 ACOP----向量加速处理机
图7.5 异构非对称式多处理机的一般结构
第7章多处理机
2. 松耦合(loosely coupled)多处理机松耦合多处理机是通过消息传递方式来实现处理机间的相互通信的。而每台处理机是由一个独立性较强的计算机模块组成，该模块由处理器、较大容量的本地存储器(在运算时所需的绝大部分的指令和数据均取自本地存储器 ) 、 I/O 设备以及与消息传递系统 (Message Transfer System，MTS)相连的接口组成。当不同模块上运行的进程间需要通信时，可通过网络接口电路及消息传递系统进行信息交换。由于这种相互间的耦合程度是很松散的，因此称之为松耦合多处理机。松耦合多处理机可分为非层次式和层次式两种结构。
第7章多处理机
(5)合理地进行资源分配和任务调度。在MIMD多处理机中，由于任务的大小不相同，各处理机的速度也可能不相同(如异构型多处理机系统)，互连网络的拓扑结构和通信延迟在不同的多处理机中也有很大的差别，在执行并发任务时，并不是使用的处理机个数越多，系统获得的性能就越高。因此需要采用软件手段，合理地进行资源分配和任务调度，否则系统性能将受较大影响。而在SIMD并行处理机中，程序员只需用屏蔽的手段来设置部分处理单元为不活跃状态，来控制实际参加并行操作的处理单元数目。
因此，Cm*是一个三层总线多处理机，三级的访存时间分别为：计算机模块内3.5μs，计算机模块群内 9.3μs，而群间则为26μs。

多核处理器体系结构及并行程序设计

13
Floating Point
Integer
Floating Point
Integer
L1 D-Cache and D-TLB
L1 D-Cache and D-TLB
Even 2 floating point threads can be executed at the same time now (per processor) as there are multiple floating point execution units
– 只共享系统总线，独立缓存 – 高性能，资源冲突少

9

双核技术 VS. 超线程技术
• 双核是真正意义上的双处理器
– 不会发生资源冲突 – 每个线程拥有自己的缓存、寄存器和运算器
• 一个3.2GHz Smithfiled在性能上并非等同于3.2GHz P4 with HT 的2 倍
Integer
Rename/Alloc uop Queues Schedulers
BTB & I-TLB Decoder
Trace Cache
Floating Point
uCode ROM
2 threads CANNOT be executed at the same time (per processor) if
BTB & I-TLB Decoder
Trace Cache
Floating Point
uCode
ROM

14

多核技术与超线程技术的结合
Dual Core
2 threads/socket
Dual Core with Hyper-Threading

服务器三大体系SMPNUMAMPP介绍

服务器三大体系SMPNUMAMPP介绍摘要：从系统架构来看，目前的商用服务器大体能够分为三类，即对称多处理器结构、非一致存储访问结构与海量并行处理结构。

SMP(Symmetric Multi-Processor)所谓对称多处理器结构，是指服务器中多个CPU对称工作，无主次或者从属关系。

各CPU共享相同的物理内存，每个CPU访问内存中的任何地址所需时间是相同的，因此SMP 也被称之一致存储器访问结构(UMA：Uniform Memory Access)。

对SMP服务器进行扩展的方式包含增加内存、使用更快的CPU、增加CPU、扩充I/O(槽口数与总线数)与添加更多的外部设备(通常是磁盘存储)。

SMP服务器的要紧特征是共享，系统中所有资源(CPU、内存、I/O等)都是共享的。

也正是由于这种特征，导致了SMP服务器的要紧问题，那就是它的扩展能力非常有限。

关于SMP服务器而言，每一个共享的环节都可能造成SMP服务器扩展时的瓶颈，而最受限制的则是内存。

由于每个CPU务必通过相同的内存总线访问相同的内存资源，因此随着CPU数量的增加，内存访问冲突将迅速增加，最终会造成CPU资源的浪费，使CPU性能的有效性大大降低。

实验证明，SMP服务器CPU利用率最好的情况是2至4个CPU。

NUMA(Non-Uniform Memory Access)由于SMP在扩展能力上的限制，人们开始探究如何进行有效地扩展从而构建大型系统的技术，NUMA就是这种努力下的结果之一。

利用NUMA技术，能够把几十个CPU(甚至上百个CPU)组合在一个服务器内。

其CPU模块结构如图2所示：图2.NUMA服务器CPU模块结构但NUMA技术同样有一定缺陷，由于访问远地内存的延时远远超过本地内存，因此当CPU数量增加时，系统性能无法线性增加。

如HP公司公布Superdome服务器时，曾公布了它与HP其它UNIX服务器的相对性能值，结果发现，64路CPU的Superdome (NUMA结构)的相对性能值是20，而8路N4000(共享的SMP结构)的相对性能值是6.3。

计算机的并行计算技术有哪些详解并行计算的架构与应用

计算机的并行计算技术有哪些详解并行计算的架构与应用在现代科技领域，计算机的并行计算技术被广泛应用于许多领域，提供了强大的计算能力和效率。

本文将详细解释并行计算的概念、架构和应用，以及介绍几种常见的并行计算技术。

一、并行计算的概念并行计算是指同时执行多个计算任务的过程，以提高计算机系统的速度和性能。

与传统的串行计算相比，通过并行计算，多个处理器可以同时处理不同的计算任务，从而大大缩短了计算时间。

二、并行计算的架构1. 对称多处理器（SMP）对称多处理器是一种常见的并行计算架构，它包含多个处理器核心（CPU），每个处理器核心都可以访问共享内存。

因此，每个处理器核心都具有相同的权限和能力，并且可以相互通信和协作。

2. 分布式内存计算机（DMC）分布式内存计算机是一种将多个计算机连接在一起，并通过网络进行通信的并行计算架构。

在分布式内存计算机中，每个计算机都有自己的本地内存，并且计算任务被划分为子任务，在多台计算机之间进行并行计算。

3. 向量处理器向量处理器是一种特殊的并行计算架构，其核心思想是通过同时执行多个数据元素来提高计算性能。

向量处理器具有广泛的数据并行能力，并且可以在单个指令中处理多个数据。

三、并行计算的应用1. 科学计算在科学研究领域，许多复杂的计算任务需要大量的计算资源和时间。

通过并行计算技术，科学家可以利用多个处理器来加速大规模的数值模拟、数据分析和计算实验，从而加快科学研究的进程。

2. 数据挖掘与机器学习数据挖掘和机器学习是分析和理解大规模数据集的重要领域。

并行计算技术可以加速数据挖掘算法和机器学习模型的训练和推断过程，减少模型训练时间，提高预测和分类准确性。

3. 图像和视频处理在图像和视频处理领域，许多算法需要处理大量的像素和帧。

通过并行计算技术，可以将图像和视频处理任务分成多个子任务，并在多个处理器上同时处理这些子任务，从而提高图像和视频处理的效率和实时性。

4. 数据库管理和并行查询在大规模数据库管理和查询中，通过并行计算技术可以将查询任务划分为多个子任务，并由多个处理器同时执行这些子任务。

SMP 对称多处理

SMPSMP，英文缩写，有.对称多处理，移动智能网，系统边际电价，共享内存多处理器，SMP公司，标准管理规程等的英文简写。

目录简介平时所说的双CPU系统，实际上是对称多处理机系统中最常见的一种，通常称为2路对称多处理，它在普通AMD Athlon 64 X2的商业、家庭应用之中并没有太多实际用途，但在专业制作，如3DMaxStudio、Photoshop等软件应用中获得了非常良好的性能表现，是组建廉价工作站的良好伙伴。

随着用户应用水平的提高，只使用单个的处理器确实已经很难满足实际应用的需求，因而各服务器厂商纷纷通过采用对称多处理系统来解决这一矛盾。

在中国国内市场上这类机型的处理器一般以4个或8个为主，有少数是16个处理器。

但是一般来讲，SMP结构的机器可扩展性较差，很难做到100个以上多处理器，常规的一般是8个到16个，不过这对于多数的用户来说已经够用了。

这种机器的好处在于它的使用方式和微机或工作站的区别不大，编程的变化相对来说比较小，原来用微机工作站编写的程序如果要移植到SMP机器上使用，改动起来也相对比较容易。

SMP结构的机型可用性比较差。

因为4个或8个处理器共享一个操作系统和一个存储器，一旦操作系统出现了问题，整个机器就完全瘫痪掉了。

而且由于这个机器的可扩展性较差，不容易保护用户的投资。

但是这类机型技术比较成熟，相应的软件也比较多，因此现在中国国内市场上推出的并行机大量都是这一种。

PC服务器中最常见的对称多处理系统通常采用2路、4路、6路或8路处理器。

目前UNIX服务器可支持最多64个CPU的系统，如Sun公司的产品Enterprise10000。

SMP系统中最关键的技术是如何更好地解决多个处理器的相互通讯和协调问题。

系统结构对称多处理机的系统结构，主要指处理器、存储器、输入输出(I/O)设备三者之间的连接，它对我们更好地理解多处理机操作系统是非常必要的。

多处理器与存储器之间的连接：1、多端口存储器方式：这是最简单的连接。

计算机体系结构名词解释

层次机构：按照计算机语言从低级到高级的次序，把计算机系统按功能划分成多级层次结构，每一层以一种不同的语言为特征。

这些层次依次为：微程序机器级，传统机器语言机器级，汇编语言机器级，高级语言机器级，应用语言机器级等。

虚拟机：用软件实现的机器。

翻译：先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序，然后再在这低一级机器上运行，实现程序的功能。

解释：对于高一级机器上的程序中的每一条语句或指令，都是转去执行低一级机器上的一段等效程序。

执行完后，再去高一级机器取下一条语句或指令，再进行解释执行，如此反复，直到解释执行完整个程序。

计算机系统结构：传统机器程序员所看到的计算机属性，即概念性结构与功能特性。

在计算机技术中，把这种本来存在的事物或属性，但从某种角度看又好像不存在的概念称为透明性。

计算机组成：计算机系统结构的逻辑实现，包含物理机器级中的数据流和控制流的组成以及逻辑设计等。

计算机实现：计算机组成的物理实现，包括处理机、主存等部件的物理结构，器件的集成度和速度，模块、插件、底板的划分与连接，信号传输，电源、冷却及整机装配技术等。

系统加速比：对系统中某部分进行改进时，改进后系统性能提高的倍数。

Amdahl定律：当对一个系统中的某个部件进行改进后，所能获得的整个系统性能的提高，受限于该部件的执行时间占总执行时间的百分比。

程序的局部性原理：程序执行时所访问的存储器地址不是随机分布的，而是相对地簇聚。

包括时间局部性和空间局部性。

CPI：每条指令执行的平均时钟周期数。

测试程序套件：由各种不同的真实应用程序构成的一组测试程序，用来测试计算机在各个方面的处理性能。

存储程序计算机：冯·诺依曼结构计算机。

其基本点是指令驱动。

程序预先存放在计算机存储器中，机器一旦启动，就能按照程序指定的逻辑顺序执行这些程序，自动完成由程序所描述的处理工作。

系列机：由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。

并行计算体系结构

多计算机（多地址空间非共享存储器） NORMA:No-Remote Memory Access
8
最新的TOP500计算机
12:12
9
最新的TOP500计算机
12:12
10
来自Cray的美洲豹“Jaguar”，凭借1.75 PFlop/s(每秒1750万亿次)的计算能力傲视群雄。“Jaguar”采用了224162个处理器核心
12:12
2
结构模型
共享内存/对称多处理机系统(SMP)
PVP：并行向量机
单地址空间共享存ess) SMP：共享内存并行机（ Shared Memory Processors ）。多个处理器通过交叉开关（Crossbar）或总线与共享内存互连。
来自中国的曙光“星云”系统以1271万亿次/s的峰值速度名列第二
• 采用了自主设计的HPP体系结构、高效异构协同计算技术
• 处理器是32nm工艺的六核至强X5650，并且采用了Nvidia Tesla C2050 GPU做协处理的用户编程环境；
异构体系结构专用通用
TOP500中85%的系统采用了四核处理器，而有5%的系统已经使
12:12
6
Cluster：机群系统
Cluster(Now,Cow)：群集系统。将单个节点，用商业网络：Ethernet，Myrinet，Quadrics， Infiniband，Switch等连结起来形成群集系统。
• 每个节点都是一个完整的计算机（SMP或DSM），有自己磁盘和操作系统
系统在物理上分布、逻辑上共享。各结点有
自己独立的寻址空间。
• 单地址空间、分布共享
• NUMA（ Nonuniform Memory Access ）

多处理机系统

量减少并行程序的执行时间。
2. 多处理机调度方式
确定性调度：在调度之前必须知道所有有关信息，例如每个任务的执行时间和任务间的依赖关系，以便合理地把任务分派到处理机。不确定性调度：根据任务运行的动态行为，将任务分配到特定的处理机上。
3. 调度性能评价
评价多处理机调度性能的参数有：任务流时间：完成任务所需要的时间
2.独立监督式
独立监督式中，每一个处理机均有各自的管理程序(核心)。
3.浮动监督式
每次只有一台处理机作为执行全面管理功能的“主处理机”，但根据需要，“主处理机”是可浮动的，即从一台切换到另一台处理机。
多处理机系统控制
多处理机调度
1.什么是多处理机调度
将作业或任务分配给指定的处理机，并要求在指定的时间内完成。调度算法的一般目标是：使用最少的处理机、在最短的时间内完成并行程序的执行任务。在处理机器数目固定时，要改进处理机分配和进程调度算法，尽

I／O操作
Cache中的内容可能与由I／O子系统输入输出形成的存储器对应部分的内容不同。

共享数据
不同处理器的Cache都保存有对应存储器单元的内容。
存储器的一致性
如果对某个数据项的任何读操作均可得到其最新写入的值，
则认为这个存储系统是一致的需满足以下条件 ① 处理器P对X进行一次写之后又对X进行读，读和写之间没有
存储器
I/O 系统
多个处理器共享一个存储器当处理器规模较小时，这种机器十分经济支持对共享数据和私有数据的cache缓存私有数据供一个单独的处理器使用，而共享数据供多个处理器使用
共享数据进入cache ，产生一个新的问题
Cache一致性问题！
多处理机cache的一致性

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

虚拟存储器的特点
7.2 对称式共享存储器体系结构
② 一个处理器对X进行写之后，另一处理器对X进行读，读和写之间无其它写，则读X的返回值应为写 ③ 对同一单元的写是顺序化的，即任意两个处理器对同一单元的两次写，从所有处理器看来顺序都应是相同的。

假设直到所有的处理器均看到了写的结果，一次写操作才算完成；允许处理器无序读，但必须以程序规定
Cache块的拥有者：拥有唯一的Cache块副本的处理器。

因为每次总线任务均要检查Cache的地址位，这可能与CPU对Cache的访问冲突。可通过下列两种技术之一降低冲突：复制标志位采用多级包容Cache （许多系统采用）
虚拟存储器的特点
7.2 对称式共享存储器体系结构
监听协议举例写作废，写回法
虚拟存储器的特点
7.2 对称式共享存储器体系结构
7.2.2 实现一致性的基本方案
在一致的多处理机中，Cache提供两种功能：

共享数据的迁移降低了对远程共享数据的访问延迟。共享数据的复制不仅降低了访存的延迟，也减少了访问共享数据所产生的冲突。

小规模多处理机不是采用软件而是采用硬件技术实现Cache一致性。
当一个处理器写某数据项时，通过广播使其它 Cache
例
在写回Cache的条件下，监听总线中写更新协议的实现。
处理器行为总线行为 CPUA Cache 内容 CPUB Cache 内容主存X单元内容 0 CPU A 读X Cach失效 0 0
CPU B 读X CPUA 将 X 单
元写1 CPU B 读X 虚拟存储器的特点
为简单起见，对于对共享块的 Write hit 和 Write miss 不加区分，都按 Write miss 处理
虚拟存储器的特点
虚拟存上（一个放，多个读）

写顺序化：由总线实现写直达Cache：因为所有写的数据同时被写回主存，则从主存中总可以取到最新的数据值。对于写回Cache，得到数据的最新值会困难一些，因为最新值可能在某个Cache中，也可能在主存中。

虚拟存储器的特点
7.2 对称式共享存储器体系结构

增加Cache中块的标志位状态：无效（invalid）—— 无副本共享（shared）—— 至少一个副本，clean 独占（exclusive）—— 唯一副本，dirty
7.2 对称式共享存储器体系结构
7.2.1 多处理机Cache一致性
(1) 不一致产生的原因（Cache一致性问题）

I／O操作 Cache中的内容可能与由I／O子系统输入输出形成的存储器对应部分的内容不同。

共享数据
不同处理器的Cache都保存有对应存储器单元
的内容。例两个处理器的读写
虚拟存储器的特点

从一个处理器写到另一个处理器读之间的延
迟通常在写更新模式中较低。而在写作废协议中，需要读一个新的拷贝。
虚拟存储器的特点
7.2 对称式共享存储器体系结构
大多数多处理机系统都采用写作废协议
虚拟存储器的特点
7.2 对称式共享存储器体系结构
7.2.3 监听协议及其实现
基本实现技术

小规模多处理机中实现写作废协议的关键利用总线进行作废操作：把要作废的地址放到总线
第七章多处理机
7.2

对称式共享存储器体系结构
多个处理器共享一个存储器。当处理器规模较小时，这种机器十分经济。支持对共享数据和私有数据的Cache缓存私有数据供一个单独的处理器使用，而共享数据供多个处理器使用。

共享数据进入Cache产生了一个新的问题
Cache的一致性问题
虚拟存储器的特点
Cach失效广播写X
单元
0 1
0 1
0 1
1
1
1
7.2 对称式共享存储器体系结构
(3) 写更新和写作废协议性能上的差别主要来自：

对同一数据的多个写而中间无读操作的情况，写更新协议需进行多次写广播操作，而在写

对同一块中多个字进行写，写更新协议对每
个字的写均要进行一次广播，而在写作废协议下仅在对本块第一次写时进行作废操作。
7.2 对称式共享存储器体系结构
(2) 存储器的一致性（非正式定义）如果对某个数据项的任何读操作均可得到其最新写入的值，则认为这个存储系统是一致的。

存储系统行为的两个不同方面

What: 返回给读操作的是什么值 When: 什么时候才能将已写入的值返回给读操作

需要满足以下满足条件 ① 处理器P对X进行一次写之后又对X进行读，读和写之间没有其它处理器对X进行写，则
虚拟存储器的特点
7.2 对称式共享存储器体系结构
Cache通常连在共享存储器的总线上，各个Cache 控制器通过监听总线来判断它们是否有总线上请求的数据块。

(1) 写作废协议
在一个处理器写某个数据项之前保证它对该
例：
在写回Cache的条件下，监听总线中写作废协议的实现。
虚拟存储器的特点
(2) 写更新协议
7.2 对称式共享存储器体系结构
(1) Cache一致性协议
对多个处理器维护一致性的协议。 (2) 关键：跟踪记录共享数据块的状态
(3) 共享数据状态跟踪记录技术目录
物理存储器中共享数据块的状态及相关信息
均被保存在一个称为目录的地方。

监听（snooping）每个Cache除了包含物理存储器中块的数据拷贝之外，也保存着各个块的共享状态信息。