Ch1-并行计算技术概述

合集下载

《并行计算概述》课件

并行计算的内存模型
并行计算中，多个处理单元之间需要共享数据。有两种常见的内存模型：共享内存模型和分布式内存模型。
并行计算的任务调度
任务调度是将任务分配给不同的处理单元的过程，旨在提高计算的负载均衡和整体性能。
分布式并行
多个处理单元分布在不同的计算机节点上，通过消息传递进行通信和同步。
向量并行
使用向量处理器同时处理多个数据，提高计算效率。
并行计算的优点和局限性
1 优点
大大提高了计算速度和效率，加快解决复杂问题的能力。
2 局限性
需要特定的硬件和软件支持，编程复杂度较高，数据依赖等问题需处理。
并行计算的基本模型
《并行计算概述》PPT课件
并行计算是指同时使用多个计算资源来解决一个问题的计算方式。它利用并行性提高计算速度，已在各个领域得到广泛应用。
什么是并行计算？
并行计算是一种计算方式，利用多个计算资源同时进行工作，来加快问题的解决速度。通过拆分任务，可以将复杂问题分解为多个可并行处理的子问题。
并行计算的发展历程
共享内存模型ቤተ መጻሕፍቲ ባይዱ
多个处理单元共享同一块内存来进行通信和同步。
消息传递模型
通过消息传递实现不同处理单元的通信和同步。
数据并行模型
任务被分解为多个相同的子任务，每个处理单元处理其中一部分。
并行计算的通信机制
在并行计算中，处理单元之间需要进行通信来协调任务的执行和数据的传输。常用的通信机制包括点对点通信和集体通信。
1
1960s - 1980s
研究并行计算的初期阶段，以计算机硬件性能提升为主。
2
1990s - 2010s
并行计算技术逐渐成熟，出现了多种并行计算模型和编程框架。

ch1-计算机系统结构概述

第1级实际机器第0级实际机器
传统机器M1 传统机器M1 系统）具有L1机器语言（机器指令系统 L1机器语言具有L1机器语言（机器指令系统）微程序机器M0 微程序机器M0 具有L0机器语言（微指令系统 L0机器语言系统）具有L0机器语言（微指令系统）
由微指令程序解释机器指令微指令由硬件直接执行
计算机的执行程序的过程是CPU 计算机的执行程序的过程是CPU从存储器 CPU从存储器一条一条地取指令、执行。一条一条地取指令、执行。机器指令在CPU里执行的两种方式： CPU里执行的两种方式机器指令在CPU里执行的两种方式：利用微程序微程序实现指令的解释和执行（1）利用微程序实现指令的解释和执行有微程序的系统中,CPU ,CPU内部有一个控有微程序的系统中,CPU内部有一个控制存储器, 制存储器,里面存放着各种指令对应的微程序段。的微程序段。机器指令被细分为若干微指令（机器指令被细分为若干微指令（微程）。微指令由硬件布线逻辑实现序）。微指令由硬件布线逻辑实现
操作系统级机器：操作系统级机器：由操作系统程序实现。实现。这些操作系统由机器指令和广义指令组成。义指令组成。为用户提供了更多的功能和属性
第2级虚拟机器第1级实际机器第0级实际机器
操作系统机器M2 操作系统机器M2 具有L2机器语言（作业控制语言等） L2机器语言具有L2机器语言（作业控制语言等）传统机器M1 传统机器M1 具有L1机器语言（机器指令系统）具有L1机器语言（机器指令系统） L1机器语言微程序机器M0 微程序机器M0 具有L0机器语言（微指令系统） L0机器语言具有L0机器语言（微指令系统）
汇编语言(Assembly Language)的特点汇编语言(Assembly Language)的特点: 的特点: 是面向机器的可直接控制硬件的程序设是面向机器的可直接控制硬件的程序设计语言. 计语言. 作为一门语言对应于高级语言的编译器利于编写高效且需对机器硬件精确控制利于编写高效且需对机器硬件精确控制的程序，占用内存少，执行速度快。的程序，占用内存少，执行速度快。比机器语言易读写、调试和修改。相对比机器语言易读写、调试和修改。高级语言代码量较大，高级语言代码量较大，且依赖于具体的处理器体系结构，不能通用，处理器体系结构，不能通用，因此不能直接在不同处理器体系结构之间移植。直接在不同处理器体系结构之间移植。

并行计算技术概述PPT109页

1
0
、
倚
南
窗
以
寄
傲
，
审
容
膝
之
易
安
。
▪
26、要使整个人生都过得舒适、愉快，这是不可能的，因为人类必须具备一种能应付逆境的态度。——卢梭
▪
27、只有把抱怨环境的心情，化为上进的力量，才是成功的保证。——罗曼·罗兰
▪
28、知之者不如好之者，好之者不如乐之者。——孔子
▪
29、勇猛、大胆和坚定的决心能够抵得上武器的精良。——达·芬奇
▪
30、意志是一个强壮的盲人，倚靠在明眼的跛子肩上。——叔本华
谢谢！
109
并行计算技术概述
6
、
露
凝
无游氛Fra bibliotek，天
高
风
景
澈
。
7、翩翩新来燕，双双入我庐，先巢故尚在，相将还旧居。
8
、
吁
嗟
身
后
名
，
于
我
若
浮
烟
。
9、陶渊明（约 365年 —427年），字元亮，（又一说名潜，字渊明）号五柳先生，私谥“靖节”，东晋末期南朝宋初期诗人、文学家、辞赋家、散
文家。汉族，东晋浔阳柴桑人（今江西九江）。曾做过几年小官，后辞官回家，从此隐居，田园生活是陶渊明诗的主要题材，相关作品有《饮酒》、《归园田居》、《桃花源记》、《五柳先生传》、《归去来兮辞》等。

并行计算技术

并行计算技术一、引言随着科技的发展，计算机的计算能力逐渐成为瓶颈。

为了提高计算机的性能，人们不断寻求新的计算技术。

并行计算技术应运而生，成为提升计算机性能的重要手段之一。

本文将介绍并行计算技术的基本概念、分类、应用领域以及优势和挑战。

二、基本概念并行计算是指同时使用多个计算资源进行计算的技术。

它可以将一个大问题划分为多个小问题，通过并行执行这些小问题的计算任务，从而提高整体的计算速度。

并行计算技术可以应用于各种计算任务，包括科学计算、数据处理、图像处理等。

三、分类并行计算技术按照计算资源的数量和连接方式可以分为多种类型，主要包括共享内存并行计算、分布式并行计算和混合并行计算。

1. 共享内存并行计算共享内存并行计算是指多个计算资源共享同一片物理内存进行计算。

它的特点是计算资源之间可以直接访问共享内存，因此数据共享方便，通信成本较低。

常见的共享内存并行计算技术包括OpenMP 和CUDA。

2. 分布式并行计算分布式并行计算是指将计算任务分发到多个计算节点上进行计算，并通过网络进行通信和数据传输。

每个计算节点有自己的独立内存和计算资源。

分布式并行计算可以充分利用大规模计算资源，适用于大规模、复杂的计算任务。

常见的分布式并行计算技术包括MPI 和MapReduce。

3. 混合并行计算混合并行计算是指将共享内存并行计算和分布式并行计算相结合的计算方式。

它可以充分利用多种计算资源，提高计算效率。

常见的混合并行计算技术包括MPI+OpenMP和MPI+CUDA。

四、应用领域并行计算技术在各个领域都有广泛的应用。

以科学计算为例，天气预报、气候模拟、物理模拟等都需要大量的计算资源进行计算。

并行计算技术可以加速这些计算任务，提高计算效率。

在数据处理方面，大规模数据的分析和挖掘也需要并行计算技术来提供高效的计算能力。

此外，图像处理、人工智能、金融风险分析等领域也都在使用并行计算技术。

五、优势和挑战并行计算技术具有以下优势：1. 提高计算效率：并行计算技术可以将大问题划分为小问题并行计算，大大缩短了计算时间。

CH1-概述

第章1-1计算机网络向用户可以提供哪些服务?解答：计算机网络是一种通信基础设施，向用户提供的最核心的服务就是信息交互服务和资源共享服务。

虽然计算机网络与电信网络和有线电视网络一样,都是一种通信基础设施，但与这两个网络最大的不同在于计算机网络的端设备是功能强大且具有智能的计算机。

利用计算机网络这个通信基础设施，计算机上运行的各种应用程序通过彼此间的通信能为用户提供更加丰富多彩的服务和应用，如文件传输、电子邮件、网络电视等待.1-2试简述分组交换的要点.解答：分组交换采用存储转发技术，当需要发送数据时无需在源和目的之间先建立一条物理的通路，而是将要发送的报文分割为较小的数据段，将控制信息作为首部加在每个数据段前面（构成分组)一起发送给分组交换机。

每一个分组的首部都含有目的地址等控制信息.分组交换网中的分组交换机根据分组首部中的控制信息，把分组转发到下一个分组交换机。

用这种存储转发方式将分组转发到达最终目的地。

1-3试从建立连接、何时需要地址、是否独占链路、网络拥塞、数据是否会失序、端到端时延的确定性、适用的数据传输类型等多个方面比较分组交换与电路交换的特点。

解答：1-4为什么说因特网是自印刷术以来人类通信方面最大的变革？解答:因特网已成为仅次于全球电话网的世界第二大网络,缩小了人际交往的时间和空间，大大改变着我们工作和生活的各个方面。

1-5因特网的发展大致分为哪几个阶段？请指出这几个阶段最主要的特点。

解答：因特网的基础结构大体上经历了三个阶段的演进。

第一阶段——从单个网络ARPANET向互联网发展.第二阶段——逐步建成了三级结构的因特网。

第三阶段——逐渐形成了多层次ISP结构的因特网.1-6试简述因特网标准制定的几个阶段。

解答：制订因特网的正式标准要经过以下的四个阶段:（1）因特网草案（Internet Draft）——在这个阶段还不是RFC文档。

（2）建议标准（Proposed Standard）——从这个阶段开始就成为RFC文档。

计算机编程并行计算基础知识了解并行计算的概念和并行算法

计算机编程并行计算基础知识了解并行计算的概念和并行算法计算机编程并行计算基础知识：了解并行计算的概念和并行算法计算机编程是一个广泛而深入的领域，而并行计算是其中一个重要的概念。

在本文中，我们将介绍并行计算的基础知识，包括并行计算的概念和并行算法。

一、并行计算的概念并行计算是指在多个处理器或计算机上同时执行多个计算任务的过程。

与之相反的是串行计算，即在单个处理器或计算机上依次执行计算任务。

并行计算可以提高计算速度和效率，特别适用于处理大规模的数据和复杂的计算任务。

并行计算的主要优点包括：1. 提高计算速度：通过同时执行多个计算任务，可以大大缩短计算时间。

2. 提高计算效率：通过充分利用多个处理器或计算机的计算资源，可以更有效地完成计算任务。

3. 处理大规模数据：并行计算可以处理大规模的数据集，例如在科学研究、数据挖掘和机器学习等领域中。

二、并行算法并行算法是一种针对并行计算环境设计的算法，旨在充分利用多个处理器或计算机的计算能力。

并行算法可以分为两种类型：数据并行和任务并行。

1. 数据并行：数据并行是指将数据划分为多个部分，在多个处理器或计算机上同时进行计算。

每个处理器独立计算自己的数据，并通过通信来共享必要的结果。

数据并行常用于矩阵乘法、图像处理和模拟等领域。

2. 任务并行：任务并行是指将计算任务划分为多个子任务，在多个处理器或计算机上同时进行计算。

每个处理器独立执行自己的子任务，并通过通信来协调和共享计算结果。

任务并行常用于解决复杂的问题，如搜索、优化和排序等。

并行算法的设计要考虑以下几个方面：1. 任务划分：将计算任务划分为适当的子任务，以利用并行计算环境的处理能力。

2. 数据通信：在并行计算过程中，不同处理器之间需要及时交换和共享计算结果。

3. 数据同步：在并行计算过程中，确保不同处理器之间的计算步骤能够同步进行，避免数据冲突和错误的计算结果。

三、并行计算的应用并行计算在各个领域都有广泛的应用。

并行计算的基本概念与应用

并行计算的基本概念与应用并行计算是目前计算领域中的一项重要技术，它旨在通过同时执行多个计算任务来提高计算机的性能。

本文将深入探讨并行计算的基本概念和应用，从而帮助读者更好地理解并行计算的原理和价值。

一、并行计算的基本概念并行计算是指通过将任务分成多个独立的子任务，并在多个处理单元上同时执行这些子任务来加速计算过程。

下面将介绍几个基本的概念：1. 并行性和并行度并行性是指任务能够被分解成可以并行执行的子任务的能力。

而并行度是指并行计算系统中同时执行的子任务的数量。

并行度越高，系统的计算能力就越强。

2. 任务和子任务任务是指计算过程中需要完成的工作总体，可以分解成多个独立的子任务，每个子任务可以在不同的处理单元上执行。

3. 处理单元处理单元是指用于执行并行计算任务的计算机硬件单元，可以是CPU、多核处理器、GPU等。

4. 通信和同步并行计算中，各个处理单元之间需要进行通信以共享数据，同时需要进行同步操作以保证计算结果的准确性。

二、并行计算的应用领域并行计算广泛应用于科学计算、数据分析、图像处理、人工智能等领域。

下面将介绍几个常见的应用领域：1. 科学计算并行计算在科学计算中得到了广泛的应用，例如天气预报、模拟物理过程和化学反应等。

通过并行计算，科学家可以更准确地预测天气、研究物理现象，并加速新药物的开发过程。

2. 数据分析并行计算可以加速大规模数据的处理和分析，例如在互联网公司中进行用户行为分析、广告推荐和数据挖掘等。

通过并行计算，可以快速处理海量的数据，并发现其中隐藏的模式和规律。

3. 图像处理图像处理是另一个重要的应用领域，例如图像的压缩、去噪、特征提取和图像识别等。

通过并行计算，可以同时对图像进行多个处理操作，提高图像处理的效率和质量。

4. 人工智能并行计算在人工智能领域中有着重要的应用，例如深度学习和神经网络等。

通过并行计算，可以加速神经网络的训练过程，同时提高人工智能算法的性能和精度。

三、并行计算的挑战与未来发展尽管并行计算具有很多优势，但也面临一些挑战。

并行计算技术在超级计算机领域的应用

并行计算技术在超级计算机领域的应用一、超级计算机简介超级计算机是指拥有高度并行计算能力及高可用性和高可扩展性的大型计算机系统，主要用于高性能科学计算、天气预报、生物医学研究等领域。

超级计算机通常由多个计算节点组成，每个计算节点包含多个处理器、大量内存和存储设备。

超级计算机的性能通常用浮点运算每秒钟（FLOPS）来衡量，最新的超级计算机性能已达到每秒亿万亿次以上。

二、并行计算技术简介并行计算技术是指将一个大的计算任务分成多个小任务，由多个处理器同时完成，并在计算完成后将结果汇总。

并行计算技术的最大优势在于利用多个处理器的计算能力提高计算速度和效率，同时也提高了计算的可靠性和可扩展性。

并行计算技术可分为两种类型：共享内存和分布式内存。

共享内存系统中，所有处理器共享同一份内存，而分布式内存系统中，每个处理器都有自己的内存。

三、并行计算技术在超级计算机领域的应用超级计算机应用领域中，最主要的应用为科学计算和工程仿真。

这些应用涉及大量的数值计算、线性代数、插值法、概率论等多种计算算法。

这些算法可以以并行方式执行，提高计算速度和效率。

1. 共享内存系统的应用共享内存系统中，所有处理器共享同一份内存，因此在设计共享内存系统时需要考虑数据一致性和死锁等问题。

然而，共享内存系统通常具有较高的通信效率和较低的通信延迟，适合于某些特定的应用场景。

共享内存系统适用于规模较小的应用和需要大量的共享数据的应用，如图像处理、生物信息学等应用。

共享内存系统通常采用多核心处理器或多个单核心处理器组成共享内存计算机来实现。

在共享内存系统中，一个进程可以访问另一个进程的地址空间，从而能够轻松地传递数据，适用于需要大量数据共享的科学计算和仿真。

2. 分布式内存系统的应用分布式内存系统中，每个处理器都有自己的内存，处理器之间通过网络通信来传递信息和计算结果。

由于处理器之间的通信需要通过网络进行，因此分布式内存系统通常需要更高的通信延迟和更高的通信开销。

并行计算机

并行计算机并行计算机一、介绍随着计算机技术的快速发展，如何提高计算机的运算速度成为了计算机科学领域的热门话题。

并行计算机作为一种能够提高计算机运算速度的方法，被越来越多地应用于各个领域的计算机中。

并行计算机是指一种能够同时进行多个计算任务的计算机系统。

与传统计算机相比，它的特点在于能够同时运行多个处理器或计算节点，以达到更高的计算速度。

这种方式可以大大提高计算机所能够处理的数据量和运算速度，从而在各种大规模数据处理领域都得到了广泛的应用。

二、并行计算机的分类并行计算机按照不同的分类标准，可以被分为不同的类型。

下面是几种常见的分类方式：1.按处理器类型分类并行计算机可以按照所使用的处理器的类型来进行分类。

根据处理器的架构和特性不同，可以将并行计算机分为以下几种：（1）向量处理器并行计算机：处理器以向量或矩阵作为单位进行处理。

（2）向共享存储并行计算机：多个处理器共享一块内存，可以进行共享内存的并行计算。

（3）分布式存储并行计算机：多个处理器分别拥有独立的存储器，进行分布式存储的并行计算。

（4）混合并行计算机：同时拥有向共享存储和分布式存储特性的并行计算机。

2.按并行机构分类并行计算机可以按照处理器之间的连接方式和信息交换机构的不同进行分类。

常见的分类方式如下：（1）总线型：处理器通过共享同一总线来进行通信和数据交换。

（2）环型：处理器通过相互连接成环的方式来进行通信和数据交换。

（3）网型：处理器之间通过网络进行通信和数据交换，可以是点对点连接或复杂的拓扑结构。

（4）树型：处理器之间以树状结构进行连接，可以是二叉树、三叉树或更多分枝的结构。

3.按任务分配方式分类并行计算机可以按照任务分配的方式来进行分类。

常见的分类方式如下：（1）静态任务分配：在任务开始运行前就已经将任务分配到各个处理器中。

（2）动态任务分配：在任务运行过程中，根据负载情况和处理器能力进行任务动态分配。

（3）任务窃取：处理器可以从其他处理器任务队列中窃取任务。

ch1计算机系统概论

课程概述
二、课程的基本要求
计算机系统概述、计算机中的数据表示、运算方法和运算器、指令系统、随机逻辑和微程序控制原理、存储系统、输入输出系统、计算机外设讲解，围绕各自的功能、组成、设计、实现、使用等知识进行介绍要求学生掌握计算机的组成和工作原理。强调培养学生的动手动脑能力、开创与创新意识。
婴幼儿体格生长
ch1计算机系统概论
教材
白中英，计算机组成原理，科学出版社
参考书
唐朔飞，计算机组成原理, 高教出版社罗克露，计算机组成原理, 电子科大出版社
课程概述
一、课程性质与任务
“计算机组成原理”属于专业基础课，必修课。面向应用、突出实践、偏向硬件和理论。《计算机组成原理》是计算机教学中的一门核心课程，是学习计算机课程所要必修的主干课。通过教学，使学生对计算机的各主要部分（运算期、控制器、存储器、输入输出设备）的构成及工作原理有一个深刻的、系统的认识和理解，同时对计算机的发展趋势也有一个较为深入的了解。
❖ “程序控制”，是控制器依据存储程序控制计算机按规定的顺序逐条执行指令，自动完成预定的信息处理任务
系统结构
5 控制器的基本任务
基本概念
❖ 按照计算程序所排的指令序列，先从存储器取出一条指令放到控制器中，对该指令的操作码由译码器进行分析判别，然后根据指令性质，执行这条指令，进行相应的操作。接着从存储器取出第二条指令，再执行第二条指令，依次类推
系统结构
计算机的基本性能指标吞吐量：表征一台计算机在某一时间间隔内能
够处理的信息量，单位是字节/秒（B/S）。响应时间：表征从输入有效到系统产生响应之
间的时间度量，用时间单位来度量。主频/时钟周期：CPU的工作节拍受主时钟控制，

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

近20年性能提高3千多倍
巨型机：中国天河一号，2010年底世界TOP500强第1名每秒2千5百多万亿次浮点运算，近20年性能提高3千多倍
亿亿
千万亿百万亿十万亿万亿千亿百亿
十亿
亿
2011年6月日本“K Computer”以每秒1亿亿次名列第一，几乎是第2-9位的总和，中国天河位列第二
• 线程级并行（Thread-Level Parallelism） • 数据级并行：一个大的数据块划分为小块，分别由不同的处理器/线程处理 • 任务级并行：一个大的计算任务划分为子任务分别由不同的处理器/线程来处理
并行计算技术的分类
按存储访问结构分类
A.共享内存(Shared Memory) 所有处理器通过总线共享内存多核处理器，SMP……
所有这些技术极大地提高了微处理器的计算性能，但2004 年后处理器的性能不再像人们预期的那样提高单核处理器性能提升接近极限！
为什么需要并行计算？集成度
性能
为什么需要并行计算？
单核处理器性能提升接近极限 1.VLSI集成度不可能无限制提高
芯片集成度已进入极小尺度级别，集成度不可能无限制提高
典型的双核处理器结构
双核: Pentium D(05),EE(06), Xeon(06) Core 2 Duo E系列,T系列(06) Core i3,i5(10) 4核: Core 2 Quad Q系列（07） Core i5, i7(08,09,10) 6核: Core i7 970/980(10) 8核: AMD Bulldozer(10)
并行计算技术的分类
弗林(Flynn)分类
SISD
SIMD MIMD
Cite from Jimmy Lin, What is cloud computing, 2008
并行计算技术的分类
按并行类型分类
• 位级并行（Bit-Level Parallelism）
• 指令级并行（ILP：Instruction-Level Parallelism）
超大的计算量/计算复杂度
用SGI工作站进行电影渲染时，每帧一般需要1～2小时一部2小时的电影渲染需要：
2小时x3600秒x24帧x(1~2小时)/24小时=20~40年!
特殊场景每帧可能需要60个小时(影片“星舰骑兵”中数
千只蜘蛛爬行的场面),用横向4096象素分辨率进行渲染时，如果以每帧60个小时的速度，则1秒的放映量（24帧）需要60天的渲染时间,1分钟则需要100年！
Cite from Edward L. Bosworth, The Power Wall, 2010
为什么需要并行计算？
单处理器向多核并行计算发展成为必然趋势
多核/众核并行计算
2005年Intel全面转入多核计算技术，采用多核/众核构架，简化单处理器的复杂设计,代之以单个芯片上设计多个简化的处理器核,以多核/众核并行计算提升计算性能
提高计算机性能的主要手段
3.流水线等微体系结构技术分支预测,寄存器重命名，超长指令字（VLIW），超标量(Superscalar)，乱序执行，Cache…… Pentium 4(CISC计算机性能的主要手段 4.提高处理器频率：1990s-2004：
* March 2005，Cite from Herb Sutter, The Free Lunch Is Over-A Fundamental Turn Toward Concurrency in Software Dr. Dobb„s Journal, 30(3)
Ch. 1. 并行计算技术简介
很多传统的串行算法和计算方法都将需要重新研究和设计其并行
化算法和计算方法；我系很多研究领域都明确需要基于并行计算技术进行研究
为什么需要并行计算？
为什么需要学习并行计算技术？
软件开发/程序设计人员面临挑战！
20-30年里程序设计技术的最大的革命是面向对象技术
The revolution in mainstream software development from structured programming to object-oriented programming was the greatest such change in the past 20 to 30 years 下一个程序设计技术的革命将是并行程序设计 Concurrency is the next major revolution in how we write software 今天绝大多数程序员不懂并行设计技术，就像15年前* 绝大多数程序员不懂面向对象技术一样 The vast majority of programmers today don‟t grok concurrency, just as the vast majority of programmers 15 years ago didn‟t yet grok objects
也称为UMA结构 (Uniform Memory Access)
A
…… 总线共享存储器 M M …… M
世界著名的数字工作室Digital Domain公司用了一年半的
时间，使用了300多台SGI超级工作站，50多个特技师一天 24小时轮流制作「泰坦尼克号」中的电脑特技
为什么需要并行计算？
为什么需要并行计算？
并行计算技术的发展趋势和影响
越来越多的研究和应用领域将需要使用并行计算技术
并行计算技术将渗透到每个计算应用领域，尤其是涉及到大规模数据和复杂计算的应用领域
Google从2004年每天处理100TB数据到2008年每天处理20PB 2009年eBays数据仓库，一个有2PB用户数据，另一个6.5PB
用户数据包含170TB记录且每天增长150GB个记录；Facebook： 2.5PB用户数据，每天增加15TB 世界最大电子对撞机每年产生15PB(1千5百万GB)数据
提高计算机性能的主要手段 2.提高集成度
摩尔定律：芯片集成度每18个月翻一倍，计算性能提高一倍
为什么需要并行计算？
提高计算机性能的主要手段
3.流水线等微体系结构技术
实现指令级并行(Instruction-Level Parallelism, ILP）
RISC结构 5级流水线
为什么需要并行计算？
晶体管密度不断提高，单位面积功耗和散热大幅增加主频提高导致功耗和散热急剧增加
功耗P=CV2f，C：时钟跳变时门电路电容，V：电压，f：主频晶体管数越多，电容越大=>功耗越大；主频越高=>功耗越大
Cite from Edward L. Bosworth, The Power Wall, 2010
为什么需要并行计算？
2015年落成的世界最大观天望远镜主镜头像素为3.2G，每年
将产生6PB天文图像数据；
欧洲生物信息研究中心(EBI)基因序列数据库容量已达5PB；
中国深圳华大基因研究所成为全世界最大测序中心，每天产生300GB基因序列数据（每年100TB）
为什么需要并行计算？
应用领域计算规模和复杂度大幅提高
单核处理器性能提升接近极限
2005年前，人们预期可以一直提升处理器主频但2004年5月Intel处理器Tejas and Jayhawk(4GHz)因无法解
决散热问题最终放弃，标志着升频技术时代的终结
2007年人们大大降低了主频提升预期
2005年前人们预计的主频提升路线图
2005年后 Intel转入多核技术
1nm(纳米) 约头发直径的 6万分之一
或4个原子长度 10-20nm仅有几百个原子的长度
为什么需要并行计算？
单核处理器性能提升接近极限 2.处理器的指令级并行度提升接近极限长指令字，流水线，分支预测，寄存器命名，超标量，乱序执行，动态发射，高速缓冲（Cache）…… 高级流水线等各种复杂的微体系结构技术都已得到研究应用，难以进一步挖掘更多的指令级并行性(InstructionLevel Parallism)
1.为什么需要并行计算？
2.并行计算技术的分类
3.并行计算的主要技术问题
4.MPI并行程序设计
5.为什么需要大规模数据并行处理？
2.并行计算技术的分类
经过多年的发展，出现了不同类型的并行计算技术和系统，同时也存在不同的分类方法
按数据和指令处理结构：弗林(Flynn)分类按并行类型按存储访问构架
鸣谢：本课程得到Google公司(北京）中国大学合作部精品课程计划资助
Ch. 1. 并行计算技术简介
1. 为什么需要并行计算？
2. 并行计算技术的分类
3. 并行计算的主要技术问题
4. MPI并行程序设计
5. 为什么需要大规模数据并行处理？
贯穿整个计算机技术发展的核心目标：提高计算性能！
Intel 微处理器每秒 1千8百亿次浮点运算！
并行计算技术将对传统计算技术产生革命性的影响并行计算技术将影响传统计算技术的各个层面，与传统计算技术
相互结合产生很多新的研究热点和课题：

体系结构技术操作系统、编译技术、数据库等系统软件技术程序设计技术和方法软件工程技术图形图像和多媒体信息处理人工智能各种应用软件开发
按系统类型
按计算特征按并行程序设计模型/方法
并行计算技术的分类
按数据和指令处理结构分类：弗林(Flynn)分类
1966年，斯坦福大学教授Flynn提出的经典的计算机结构分类，从最抽象的指令和数据处理结构的角度进行分类
SISD：单指令单数据流
传统的单处理器串行处理 SIMD：单指令多数据流向量机，信号处理系统 MISD：多指令单数据流很少使用 MIMD：多指令多数据流最常用，TOP500 基本都属于MIMD类型