浅谈多核CPU、多线程与并行计算

0.前言

最近发觉自己博客转帖的太多，于是决定自己写一个原创的。笔者用过MPI 和C#线程池，参加过比赛，有所感受，将近一年来，对多线程编程兴趣一直不减，一直有所关注，决定写篇文章，算是对知识的总结吧。有说的不对的地方，欢迎各位大哥们指正：）

1.CPU发展趋势

核心数目依旧会越来越多，依据摩尔定律，由于单个核心性能提升有着严重的瓶颈问题，普通的桌面PC有望在2017年末2018年初达到24核心（或者16核32线程），我们如何来面对这突如其来的核心数目的增加？编程也要与时俱进。笔者斗胆预测，CPU各个核心之间的片内总线将会采用4路组相连：），因为全相连太过复杂，单总线又不够给力。而且应该是非对称多核处理器，可能其中会混杂几个DSP处理器或流处理器。

2.多线程与并行计算的区别

(1)多线程的作用不只是用作并行计算，他还有很多很有益的作用。

还在单核时代，多线程就有很广泛的应用，这时候多线程大多用于降低阻塞（意思是类似于

while(1)

{

if(flag==1)

break;

sleep(1);

}

这样的代码）带来的CPU资源闲置,注意这里没有浪费CPU资源，去掉sleep(1)就是纯浪费了。

阻塞在什么时候发生呢？一般是等待IO操作（磁盘，数据库，网络等等）。此时如果单线程，CPU会干转不干实事（与本程序无关的事情都算不干实事，因为执行其他程序对我来说没意义），效率低下（针对这个程序而言），例如一个IO操作要耗时10毫秒，CPU就会被阻塞接近10毫秒，这是何等的浪费啊！要知道CPU是数着纳秒过日子的。

所以这种耗时的IO操作就用一个线程Thread去代为执行，创建这个线程的函数（代码）部分不会被IO操作阻塞，继续干这个程序中其他的事情，而不是干等待（或者去执行其他程序）。

同样在这个单核时代，多线程的这个消除阻塞的作用还可以叫做“并发”，这和并行是有着本质的不同的。并发是“伪并行”，看似并行，而实际上还是一个CPU在执行一切事物，只是切换的太快，我们没法察觉罢了。例如基于UI 的程序（俗话说就是图形界面），如果你点一个按钮触发的事件需要执行10秒钟，那么这个程序就会假死，因为程序在忙着执行，没空搭理用户的其他操作；而如果你把这个按钮触发的函数赋给一个线程，然后启动线程去执行，那么程序就不会假死，继续响应用户的其他操作。但是，随之而来的就是线程的互斥和同步、死锁等问题，详细见有关文献。

现在是多核时代了，这种线程的互斥和同步问题是更加严峻的，单核时代大都算并发，多核时代真的就大为不同，为什么呢？具体细节请参考有关文献。我

这里简单解释一下，以前volatile型变量的使用可以解决大部分问题，例如多个线程共同访问一个Flag标志位，如果是单核并发，基本不会出问题（P.S.在什么情况下会出问题呢？Flag有多个，或者是一个数组，这时候只能通过逻辑手段搞定这个问题了，多来几次空转无所谓，别出致命问题就行），因为CPU只有一个，同时访问这个标志位的只能有一个线程，而多核情况下就不太一样了，所以仅仅volatile不太能解决问题，这就要用到具体语言，具体环境中的“信号量”了，Mutex，Monitor，Lock等等，这些类都操作了硬件上的“关中断”，达到“原语”效果，对临界区的访问不被打断的效果，具体就不解释了，读者可以看看《现代操作系统》。

(2)并行计算还可以通过其他手段来获得，而多线程只是其中之一。

其他手段包括：多进程（这又包括共享存储区的和分布式多机，以及混合式的），指令级并行。

ILP（指令级并行），x86架构里叫SMT（同时多线程），在MIPS架构里与之对应的是super scalar（超标量）和乱序执行，二者有区别，但共同点都是可以达到指令级并行，这是用户没法控制的，不属于编程范围，只能做些有限的优化，而这有限的优化可能只属于编译器管辖的范畴，用户能做的甚少。(3)典型的适于并行计算的语言

Erlang和MPI：这两个前者是语言，后者是C++和Fortran的扩展库，效果是一样的，利用多进程实现并行计算，Erlang是共享存储区的，MPI是混合型的。

C#.NET4.0：新版本4.0可以用少量代码实现并行For循环，之前版本需要用很繁琐的代码才能实现同样功能。这是利用了多线程实现并行计算。Java和

C#3.5都有线程池（ThreadPool），也是不错的很好用的多线程管理类，可以方便高效的使用多线程。

CUDA，还是个初生牛犊，有很大的发展潜力，只不过就目前其应用领域很有限。其目前只能使用C语言，而且还不是C99，比较低级，不能使用函数指针。个人感觉这由于硬件上天生的局限性（平均每个核心可用内存小，与系统内存通讯时间长），只适用于做科学计算，静态图像处理，视频编码解码，其他领域，还不如高端CPU。等以后GPU有操作系统了，能充分调度GPU资源了，GPU就可以当大神了。游戏中的物理加速，实际上多核CPU也能很好的做到。

其他语言。。。恩。。留作将来讨论。

3.线程越多越好吗？什么时候才有必要用多线程？

线程必然不是越多越好，线程切换也是要开销的，当你增加一个线程的时候，增加的额外开销要小于该线程能够消除的阻塞时间，这才叫物有所值。

Linux自从2.6内核开始，就会把不同的线程交给不同的核心去处理。Windows也从NT.4.0开始支持这一特性。

什么时候该使用多线程呢？这要分四种情况讨论：

a.多核CPU——计算密集型任务。此时要尽量使用多线程，可以提高任务执行效率，例如加密解密，数据压缩解压缩（视频、音频、普通数据），否则只能使一个核心满载，而其他核心闲置。

b.单核CPU——计算密集型任务。此时的任务已经把CPU资源100%消耗了，就没必要也不可能使用多线程来提高计算效率了；相反，如果要做人机交互，最好还是要用多线程，避免用户没法对计算机进行操作。

c.单核CPU——IO密集型任务，使用多线程还是为了人机交互方便，

d.多核CPU——IO密集型任务，这就更不用说了，跟单核时候原因一样。

4.程序员需要掌握的技巧/技术

(1)减少串行化的代码用以提高效率。这是废话。

(2)单一的共享数据分布化：把一个数据复制很多份，让不同线程可以同时访问。

(3)负载均衡，分为静态的和动态的两种。具体的参见有关文献。

多核与多线程技术的区别到底在哪里

多核与多线程技术的区别到底在哪里？【导读】：毫无疑问的，“多核”、“多线程”此二词已快成为当今处理器架构设计中的两大显学，如同历史战国时代以“儒”、“墨”两大派的显学，只不过当年两大治世思想学派是争得你死我亡，而多核、多线程则是相互兼容并蓄，今日几乎任何处理器都朝同时具有多核多线程的路线发展迈进。毫无疑问的，“多核”、“多线程”此二词已快成为当今处理器架构设计中的两大显学，如同历史战国时代以“儒”、“墨”两大派的显学，只不过当年两大治世思想学派是争得你死我亡，而多核、多线程则是相互兼容并蓄，今日几乎任何处理器都朝同时具有多核多线程的路线发展迈进。虽然两词到处可见，但可有人知此二者的实际差异？在执行设计时又是以何者为重？到底是该多核优先还是多线程提前？关于此似乎大家都想进一步了解，本文以下试图对此进行个中差异的解说，并尽可能在不涉及实际复杂细节的情形下，让各位对两者的机制观念与差别性有所理解。行程早于线程若依据信息技术的发展历程，在软件程序执行时的再细分、再切割的小型化单位上，先是有行程（Process），之后才有线程（Thread），线程的单位比行程更小，一个行程内可以有多个线程，在一个行程下的各线程，都是共享同一个行程所建立的内存寻址资源及内存管理机制，包括执行权阶、内存空间、堆栈位置等，除此之外各个线程自身仅拥有少许因为执行之需的变量自属性，其余都依据与遵行行程所设立的规定。相对的，程序与程序之间所用的就是不同的内存设定，包括分页、分段等起始地址的不同，执行权阶的不同，堆栈深度的不同等，一颗处理器若执行了A行程后要改去执行B行程，对此必须进行内存管理组态的搬迁、变更，而这个搬迁若是在处理器内还好，若是在高速缓存甚至是系统主存储器时，此种切换、转移程序对执行效能的损伤就非常大，因为完成搬迁、切换程序的相同时间，处理器早就可以执行数十到上千个指令。两种路线的加速思维所以，想避免此种切换的效率损耗，可以从两种角度去思考，第一种思考就是扩大到整体运算系统的层面来解决，在一部计算机内设计、配置更多颗的处理器，然后由同一个操作系统同时掌控及管理多颗处理器，并将要执行的程序的各个程序，一个程序喂（也称：发派）给一颗处理器去执行，如此多颗同时执行，每颗处理器执行一个程序，如此就可以加快整体的执行效率。当然！这种加速方式必须有一个先决条件，即是操作系统在编译时就必须能管控、发挥及运用多行程技术，倘若以单行程的系统组态来编译，那么操作系统就无法管控服务器内一颗以上的处理器，如此就不用去谈论由操作系统负责让应用程序的程序进行同时的多颗同时性的执行派送。即便操作系统支持多程序，而应用程序若依旧只支持单程序，那情形一样是白搭，操作

MSC_MARC单机多核并行计算示例教学文案

M S C_M A R C单机多核并行计算示例

MSC MARC2011单机多核并行计算示例并行计算可以有效利用本地或者网络计算机计算资源，提高计算效率，特别是针对一些计算规模相对较大的问题。本文作为MARC单机多核并行计算的一个示例。测试平台：WIN7 64Bit MARC2011 0、提前设置将电脑名字最好改为administrator，或者通过修改电脑名称，会使user和display后面的名子保持一致。改电脑名字：计算机右键—属性—更改设置—更改—计算机名

1、启动多核运算打开dos界面输入（1）D：按enter回车键（d为marc所在盘）

（2）cd+空格+ D:\MSC.Software\Marc\2010\marc2010\intelmpi\win64\bin按 enter回车键（3）ismpd+空格+ –install 按enter回车键（4）出现上图中的关闭窗口。 2、基本配置（1）在MARC安装目录下的intelmpi\win64\bin目录（32Bit计算机选择 win32文件夹），运行wmpiregister.exe. （2）输入用户名(登陆windows的账户名，通常为administrator)及密码（若密码为空，需要重新设置一个密码），点击register按钮，下面的对话框中会出现“Password encrypted into the Registry”信息。

（3）运行ismpd.exe，或者到dos提示符下，进入该目录，运行ismpd -install。假如提示都正常的话，到此即完成进行并行计算的前提条件了。 3、测试（1）在MARC安装目录下的intelmpi\win64\bin目录（32Bit计算机选择win32文件夹），运行wmpiconfig.exe （2）依次点击下面1和2.

并行计算1

并行计算实验报告学院名称计算机科学与技术学院专业计算机科学与技术学生姓名学号年班级 2016年5 月20 日

一、实验内容本次试验的主要内容为采用多线程的方法计算pi的值，熟悉linux下pthread 形式的多线程编程，对实验结果进行统计并分析以及加速比曲线分析，从而对并行计算有初步了解。二、实验原理本次实验利用中值积分定理计算pi的值图1 中值定理计算pi 其中公式可以变换如下：图2 积分计算pi公式的变形当N足够大时，可以足够逼近pi，多线程的计算方法主要通过将for循环的计算过程分到几个线程中去，每次计算都要更新sum的值，为避免一个线程更新sum 值后，另一个线程仍读到旧的值，所以每个线程计算自己的部分，最后相加。三、程序流程图程序主体部分流程图如下：

多线程执行函数流程图如下：四、实验结果及分析

令线程数分别为1、2、5、10、20、30、40、50和100，并且对于每次实验重复十次求平均值。结果如下：图5 时间随线程的变化实验加速比曲线的计算公式类似于结果如下：图5 加速比曲线实验结果与预期类似，当线程总数较少时，线程数的增多会对程序计算速度带来明显的提升，当线程总数增大到足够大时，由于物理节点的核心数是有限的，因此会给cpu带来较多的调度，线程的切换和最后结果的汇总带来的时间开销较大，所以线程数较大时，增加线程数不会带来明显的速度提升，甚至可能下降。五、实验总结

本次试验的主要内容是多线程计算pi的实现，通过这次实验，我对并行计算有了进一步的理解。上学期的操作系统课程中，已经做过相似的题目，因此程序主体部分相似。不同的地方在于，首先本程序按照老师要求应在命令行提供参数，而非将数值写定在程序里，其次是程序不是在自己的电脑上运行，而是通过ssh和批处理脚本等登录到远程服务器提交任务执行。在运行方面，因为对批处理任务不够熟悉，出现了提交任务无结果的情况，原因在于windows系统要采用换行的方式来表明结束。在实验过程中也遇到了其他问题，大多还是来自于经验的缺乏。在分析实验结果方面，因为自己是第一次分析多线程程序的加速比，因此比较生疏，参考网上资料和ppt后分析得出结果。从自己遇到的问题来看，自己对批处理的理解和认识还比较有限，经过本次实验，我对并行计算的理解有了进一步的提高，也意识到了自己存在的一些问题。六、程序代码及部署程序源代码见cpp文件部署说明：使用gcc编译即可，编译时加上-pthread参数，运行时任务提交到服务器上。编译命令如下： gcc -pthread PI_3013216011.cpp -o pi pbs脚本(runPI.pbs)如下： #!/bin/bash #PBS -N pi #PBS -l nodes=1:ppn=8 #PBS -q AM016_queue #PBS -j oe cd $PBS_O_WORKDIR for ((i=1;i<=10;i++)) do ./pi num_threads N >> runPI.log

多核处理器

多核处理器多核处理器是指在一枚处理器中集成两个或多个完整的计算引擎(内核)。多核技术的开发源于工程师们认识到，仅仅提高单核芯片的速度会产生过多热量且无法带来相应的性能改善，先前的处理器产品就是如此。他们认识到，在先前产品中以那种速率，处理器产生的热量很快会超过太阳表面。即便是没有热量问题，其性价比也令人难以接受，速度稍快的处理器价格要高很多。最新新闻中国发布全球首款全系统多核高精度导航定位芯片全球首款全系统多核高精度导航定位系统级芯片，13日在第六届中国卫星[2.10% 资金研报]学术年会期间对外发布。专家表示，这意味着国产芯片不仅具备国际竞争力，还从“跟踪者”跃升为“引领者”。...详情内容来自中文名多核处理器定义集成两个或多个完整的计算引擎第一颗通用型微处理器4004 技术优势采用了线程级并行编程目录 1技术发展 2发展历程 3技术优势 4技术瓶颈 5技术原理 6技术关键 ?核结构研究 ?程序执行模型 ?Cache设计 ?核间通信技术 ?总线设计 ?操作系统设计 ?低功耗设计 ?存储器墙 ?可靠性及安全性设计 7技术意义 8技术种类 9技术应用 10应用 11英特尔 1技术发展 256线程的CPU 256线程的CPU 英特尔工程师们开发了多核芯片，使之满足“横向扩展”（而非“纵向扩充”）方法，从而提高性能。该架构实现了“分治法”战略。通过划分任务，线程应用能够充分利用多个执行内核，并可在特定的时间内执行更多任务。多核处理器是单枚芯片（也称为“硅核”），能够直

接插入单一的处理器插槽中，但操作系统会利用所有相关的资源，将每个执行内核作为分立的逻辑处理器。通过在两个执行内核之间划分任务，多核处理器可在特定的时钟周期内执行更多任务。多核架构能够使软件更出色地运行，并创建一个促进未来的软件编写更趋完善的架构。尽管认真的软件厂商还在探索全新的软件并发处理模式，但是，随着向多核处理器的移植，现有软件无需被修改就可支持多核平台。操作系统专为充分利用多个处理器而设计，且无需修改就可运行。为了充分利用多核技术，应用开发人员需要在程序设计中融入更多思路，但设计流程与对称多处理(SMP)系统的设计流程相同，并且现有的单线程应用也将继续运行。得益于线程技术的应用在多核处理器上运行时将显示出卓越的性能可扩充性。此类软件包括多媒体应用（内容创建、，以及本地和数据流回放）、工程和其他技术计算应用以及诸如应用服务器和数据库等中间非标轴承https://www.360docs.net/doc/5814980313.html,层与后层服务器应用。多核技术能够使服务器并行处理任务，而在以前，这可能需要使用多个处理器，多核系统更易于扩充，并且能够在更纤巧的外形中融入更强大的处理性能，这种外形所用的功耗更低、计算功耗产生的热量更少。多核技术是处理器发展的必然。推动微处理器性能不断提高的因素主要有两个：半导体工艺技术的飞速进步和体系结构的不断发展。半导体工艺技术的每一次进步都为微处理器体系结构的研究提出了新的问题，开辟了新的领域；体系结构的进展又在半导体工艺技术发展的基础上进一步提高了微处理器的性能。这两个因素是相互影响，相互促进的。一般说来，工艺和电路技术的发展使得处理器性能提高约20倍，体系结构的发展使得处理器性能提高约4倍，编译技术的发展使得处理器性能提高约1.4倍。但是今天，这种规律性的东西却很难维持。多核的出现是技术发展和应用需求的必然产物。 2发展历程 1971年，英特尔推出的全球第一颗通用型微处理器4004，由2300个晶体管构成。当时，公司的联合创始人之一戈登摩尔(Gordon Moore)，就提出后来被业界奉为信条的“摩尔定律”——每过18个月，芯片上可以集成的晶体管数目将增加一倍。在一块芯片上集成的晶体管数目越多，意味着运算速度即主频就更快。今天英特尔的奔腾(Pentium)四至尊版840处理器，晶体管数量已经增加至2.5亿个，相比当年的4004增加了10万倍。其主频也从最初的740kHz(每秒钟可进行74万次运算)，增长到现在的3.9GHz(每秒钟运算39亿次)以上。当然，CPU主频的提高，或许在一定程度上也要归功于1975年进入这个领域的AMD公司的挑战。正是这样的“双雄会”，使得众多计算机用户有机会享受不断上演的“速度与激情”。一些仍不满足的发烧友甚至选择了自己超频，因为在玩很多游戏时，更快的速度可以带来额外的饕餮享受。但到了2005年，当主频接近4GHz时，英特尔和AMD发现，速度也会遇到自己的极限：那就是单纯的主频提升，已经无法明显提升系统整体性能。以英特尔发布的采用NetBurst架构的奔腾四CPU为例，它包括Willamette、Northwood和Prescott等三种采用不同核心的产品。利用冗长的运算流水线，即增加每个时钟周期同时执行的运算个数，就达到较高的主频。这三种处理器的最高频率，分别达到了2.0G、3.4G和3.8G。按照当时的预测，奔腾四在该架构下，最终可以把主频提高到10GHz。但由于流水线过长，使得单位频率效能低下，加上由于缓存的增加和漏电流控制不利造成功耗大幅度增加，3.6GHz奔腾四芯片在性能上反而还不如早些时推出的3.4GHz产品。所以，Prescott产品系列只达到3.8G，就戛然而止。英特尔上海公司一位工程师在接受记者采访时表示，Netburst微架构的好处在于方便提升频率，可以让产品的主频非常高。但性能提升并不明显，频率提高50%，性能提升可能微不

多线程编程的原则及要点

2.4多线程编程的原则及要点：随着多核CPU的出世，多核编程方面的问题将摆上了程序员的日程，有许多老的程序员以为早就有多CPU的机器，业界在多CPU机器上的编程已经积累了很多经验，多核CPU上的编程应该差不多，只要借鉴以前的多任务编程、并行编程和并行算法方面的经验就足够了。但是，多核机器和以前的多CPU机器有很大的不同，以前的多CPU机器都是用在特定领域，比如服务器，或者一些可以进行大型并行计算的领域，这些领域很容易发挥出多CPU的优势，而现在多核机器则是应用到普通用户的各个层面，特别是客户端机器要使用多核CPU，而很多客户端软件要想发挥出多核的并行优势恐怕没有服务器和可以进行大型并行计算的特定领域简单。多核CPU中，要很好地发挥出多个CPU的性能的话，必须保证分配到各个CPU上的任务有一个很好的负载平衡。否则一些CPU在运行，另外一些CPU处于空闲，无法发挥出多核CPU 的优势来。要实现一个好的负载平衡通常有两种方案，一种是静态负载平衡，另外一种是动态负载平衡。 1、静态负载平衡静态负载平衡中，需要人工将程序分割成多个可并行执行的部分，并且要保证分割成的各个部分能够均衡地分布到各个CPU上运行，也就是说工作量要在多个任务间进行均匀的分配，使得达到高的加速系数。 2、动态负载平衡动态负载平衡是在程序的运行过程中来进行任务的分配达到负载平衡的目的。实际情况中存在许多不能由静态负载平衡解决的问题，比如一个大的循环中，循环的次数是由外部输入的，事先并不知道循环的次数，此时采用静态负载平衡划分策略就很难实现负载平衡。动态负载平衡中对任务的调度一般是由系统来实现的，程序员通常只能选择动态平衡的调度策略，不能修改调度策略，由于实际任务中存在很多的不确定因素，调度算法无法做得很优，因此动态负载平衡有时可能达不到既定的负载平衡要求。 3、负载平衡的难题在那里？负载平衡的难题并不在于负载平衡的程度要达到多少，因为即使在各个CPU上分配的任务执行时间存在一些差距，但是随着CPU核数的增多总能让总的执行时间下降，从而使加速系数随CPU核数的增加而增加。负载平衡的困难之处在于程序中的可并行执行块很多要靠程序员来划分，当然CPU核数较少时，比如双核或4核，这种划分并不是很困难。但随着核数的增加，划分的粒度将变得越来越细，到了16核以上时，估计程序员要为如何划分任务而抓狂。比如一段顺序执行的代码，放到128核的CPU上运行，要手工划分成128 个任务，其划分的难度可想而知。

并行计算第一次实验报告

并行计算上机实验报告题目：多线程计算Pi值学生姓名学院名称计算机学院专业计算机科学与技术时间

一. 实验目的 1、掌握集群任务提交方式； 2、掌握多线程编程。二.实验内容 1、通过下图中的近似公式，使用多线程编程实现pi的计算； 2、通过控制变量N的数值以及线程的数量，观察程序的执行效率。三.实现方法 1. 下载配置SSH客户端 2. 用多线程编写pi代码 3. 通过文件传输界面，将文件上传到集群上 4.将命令行目录切换至data，对.c文件进行编译 5.编写PBS脚本，提交作业 6.实验代码如下： #include

#include #include #include #include #include static double PI=0; static int N=0; static int numOfThread=0; static int length=0; static int timeUsed=0; static int numOfThreadArray[]={1,2,4,6,8,10,12,14,16,20,24,30}; static int threadArraySize=12; static int nTime=4; static int repeatTime=30; static double totalTime=0; struct timeval tvpre, tvafter; pthread_mutex_t mut; clockid_t startTime,endTime;

片上众核处理器硬件同步机制研究

片上众核处理器硬件同步机制研究* 徐卫志1,2刘志勇1范东睿1焦帅1,2张浩1宋风龙1雷峥蒙1,2余磊1,2 1（中国科学院计算技术研究所系统结构重点实验室北京 100190） 2（中国科学院研究生院北京 100039）摘要同步机制是片上多核/众核处理器正确执行和协同通信的关键，其效率对处理器的性能非常重要。本文针对片上众核体系结构，提出了两种硬件粗粒度同步机制，集中式同步机制和分布式同步机制，分别通过片上的集中式锁管理器和分布式锁管理器来实现；以片上同构众核处理器Godson-T模拟器为平台，通过量化评估程序，评估比较了提出的两种硬件支持的同步机制与基于原语的软件同步机制的性能。结果表明，硬件支持可以使得片上众核处理器的同步机制性能明显提高，而分布式锁管理器的扩展性要好于集中式锁管理器。关键词片上众核处理器；同步；硬件支持；集中式锁管理器；分布式锁管理器中图法分类号: TP302 文献标识码: A 1 引言传统单核处理器采用指令级并行的技术提高性能，借助于超标量和流水处理提高处理器的主频，但是随着主频的提高却使得功耗和散热问题难以依靠现有的技术解决。而半导体工艺的发展，使得片上可集成的晶体管数目日益增多，因而体系结构设计者为了在性能进一步提升的同时降低功耗和散热，提出了线程级粗粒度并行的片上多核/众核处理器[1]。片上多核/众核处理器与传统多处理器相比，其优点是片上处理能力强、带宽高、通信距离短、传输速度快等，多个线程之间的数据通信效率高，因而需要高效的同步机制与之匹配。同步操作保证多个线程之间的数据传播，临界区的互斥访问使得多个线程对共享存储的写操作等同于串行执行，保证程序执行语义的正确性。因而，同步操作的性能对片上众核处理器而言非常重要，直接影响了多个线程协同执行的速度。在传统多处理器系统中，已有许多针对于互斥操作的研究，主要可以分为两类，一类是设计更好的软件算法，第二类是为其提供专用的硬件支持等。软件锁的缺点在于同步开销大、扩展性差、存储空间要求高等。例如，Test&Set锁[2]是基于原子指令Test&Set的软件锁，它需要每个参与同步的线程不断地执行Test&Set指令，每一次执行Test&Set指令，就检查并修改对应的内存块，造成大量的访存操作和网络操作，当线程数增多时，Test&Set锁的扩展性很差。虽然已经有一些改进的基于原子指令的软件同步方法，但是原子指令实现困难，代价高，当片上集成了成百上千个处理器核时，软件锁难以满足众核处理器的性能需求，势必形成“synchronization wall”。虽然基于同步原语的软件锁相对于硬件锁较灵活，但是在众核片上支持硬件锁，可以充分利用片上通信速度快的特点，大大提高同步操作的效率，从而提高整个芯片的计算能力。文献[3]针对于众核处理器Cyclops-64，提出了专用的硬件同步状态缓存器SSB，用于支持细粒度的同步操作，目的是有效利用众核处理器的片上处理能力。然而，硬件支持对于片上众核处理器中粗粒度同步机制的性能影响仍没有相关的研究。因而，我们提出了基于片上众核体系结构的两种硬件粗粒度同步机制，使用专门的片上锁管理器来实现同步，包括集中式锁管理器和分布式锁管理器，从不同角度评估了硬件支持对片上众核结构同步机制的性能提升，将集中式同步机制，分布式同步机制，以及软件同步机制进行了比较。结果表明，硬件支持可以使得片上众核处理器的同步机制性能明显提高，而分布式锁管理器比集中式锁管理器扩展性更好。本文如下组织：第2节介绍多核/众核同步机制的相关研究工作，包括基于原语的同步机制实现方式，硬件同步，细粒度同步，事务内存等；第3节提出片上众核结构中专用硬件支持的同步机制，包括集中式同步管理器与分布式同步管理器，为了评估需要，在片上众核结构中也实现了Ticket Lock；第4节介绍模拟平台和试验结果，并对结果进行分析，对软件锁和硬件锁，集中式锁管理器和分布式锁锁管理器进行比较；第5节总结本文，并提出进一步的工作。 *本课题得到国家自然科学基金重点项目(60736012)、国家“九七三”重点基础研究发展规划项目基金(2005CB321600)、国家“八六三”高技术研究发展计划项目基金(2009AA01Z103)、国家杰出青年科学基金(60925009 )、国家自然科学基金创新研究群体科学基金(60921002)、北京市自然科学基金（4092044）资助。徐卫志（1982年生），男，山东龙口人，博士研究生，主要研究方向为高性能计算机体系结构、并行算法等；刘志勇(1946年生)，男，博士，研究员，博士生导师，主要研究领域为算法、计算机系统结构、并行处理、片上存储系统等；范东睿（1979年生），男，博士，副研究员，主要研究方向为低功耗处理器设计；张浩，博士，助理研究员；宋风龙，博士；雷峥蒙，硕士研究生；余磊，博士研究生。

操作系统对多核处理器的支持方法

随着多核处理器的发展，对软件开发有非常大的影响，而且核心的瓶颈在软件上。软件开发在多核环境下的核心是多线程开发。这个多线程不仅代表了软件实现上多线程，要求在硬件上也采用多线程技术。可以说多核提供了可以大幅提升性能的机制，多核软件就是可以真正利用这一特点的策略。只有与多核硬件相适应的软件，才能真正地发挥多核的性能。多核对软件的要求包括对多核操作系统的要求和对应用软件的要求。多核操作系统的关注点在于进程的分配和调度。进程的分配将进程分配到合理的物理核上，因为不同的核在共享性和历史运行情况都是不同的。有的物理核能够共享二级cache，而有的却是独立的。如果将有数据共享的进程分配给有共享二级cache的核上，将大大提升性能；反之，就有可能影响性能。进程调度会涉及到比较广泛的问题，比如负载均衡、实时性等。面向多核体系结构的操作系统调度目前多核软件的一个热点，其中研究的热点主要有下面几方面：程序的并行研究；多进程的时间相关性研究；任务的分配与调度；缓存的错误共享；一致性访问研究；进程间通信；多处理器核内部资源竞争等等。这些探讨相互独立又相互依赖。考虑一个系统的性能时必须将其中的几点同时加以考虑，有时候对一些点的优化会造成另一些点的性能下降，需要用程序进行性能优化评测，所以合适的多核系统软件方案正在形成过程中。任务的分配是多核时代提出的新概念。在单核时代，没有核的任务分配的问题，一共只有一个核的资源可被使用。而在多核体系下，有多个核可以被使用。如果系统中有几个进程需要分配，是将他们均匀地分配到各个处理器核，还是一起分配到一个处理器核，或是按照一定的算法进行分配。并且这个分配还受底层系统结构的影响，系统是SMP构架还是CMP构架，在CMP构架中会共享二级缓存的核的数量，这是影响分配算法的因子。任务分配结束后，需要考虑任务调度。对于不同的核，每个处理器核可以有自己独立的调度算法来执行不同的任务（实时任务或者交互性任务），也可以使用一致的调度算法。此外，还可以考虑一个进程上一个时间运行在一个核上，下一个时间片是选择继续运行在这个核上，还是进行线程迁移；怎样直接调度实时任务和普通任务；系统的核资源是否要进行负载均衡等等。任务调度是目前研究的热点之一。在单核处理器中，常见的调度策略有先到先服务（FCFS）,最短作业调度（SJF），优先级调度（Priority-scheduling algorithm）,轮转法调度（round-robin RR），多级队列调度（multilevel queue-schedule algorithm）等。例如在Linux操作系统中对实时任务采取FCFS和RR两种调度，普通任务调度采取优先级调度。对于多核处理器系统的调度，目前还没有明确的标准与规范。由于系统有多个处理器核可用，必须进行负载分配，有可能为每个处理器核提供单独的队列。在这种情况下，一个具有空队列的处理器就会空闲，而另一个处理器会很忙。所以如何处理好负载均衡问题是这种调度策略的关键问题所在。为了解决这种情况，可以考虑共同就绪队列，所有处理器公用一个就绪队列。但是这无疑对进程上下文切换、锁的转换增加了执行时间，降低了性能。另外一种想法就是选择一个处理器来为其他处理器调度，因而创建了主从结构。有的系统将主从结构作进一步扩

多核处理器的优点和缺点

三、多核处理器的优点和缺点从应用需求上去看，越来越多的用户在使用过程中都会涉及到多任务应用环境，日常应用中用到的非常典型的有两种应用模式。一种应用模式是一个程序采用了线程级并行编程，那么这个程序在运行时可以把并行的线程同时交付给两个核心分别处理，因而程序运行速度得到极大提高。这类程序有的是为多路工作站或服务器设计的专业程序，例如专业图像处理程序、非线视频编缉程序、动画制作程序或科学计算程序等。对于这类程序，两个物理核心和两颗处理器基本上是等价的，所以，这些程序往往可以不作任何改动就直接运行在双核电脑上。还有一些更常见的日常应用程序，例如、等，同样也是采用线程级并行编程，可以在运行时同时调用多个线程协同工作，所以在双核处理器上的运行速度也会得到较大提升。例如，打开浏览器上网。看似简单的一个操作，实际上浏览器进程会调用代码解析、播放、多媒体播放、、脚本解析等一系列线程，这些线程可以并行地被双核处理器处理，因而运行速度大大加快（实际上浏览器的运行还涉及到许多进程级的交互通信，这里不再详述）。由此可见，对于已经采用并行编程的软件，不管是专业软件，还是日常应用软件，在多核处理器上的运行速度都会大大提高。日常应用中的另一种模式是同时运行多个程序。许多程序没有采用并行编程，例如一些文件压缩软件、部分游戏软件等等。对于这些单线程的程序，单独运行在多核处理器上与单独运行在同样参数的单核处理器上没有明显的差别。但是，由于日常使用的最最基本的程序——操作系统——是支持并行处理的，所以，当在多核处理器上同时运行多个单线程程序的时候，操作系统会把多个程序的指令分别发送给多个核心，从而使得同时完成多个程序的速度大大加快。另外，虽然单一的单线程程序无法体现出多核处理器的优势，但是多核处理器依然为程序设计者提供了一个很好的平台，使得他们可以通过对原有的单线程序进行并行设计优化，以实现更好的程序运行效果。上面介绍了多核心处理器在软件上面的应用，但游戏其实也是软件的一种，作为一种特殊的软件，对发展作出了较大的贡献。一些多线程游戏已经能够发挥出多核处理器的优势，对于单线程游戏，相信游戏厂商也将会改变编程策略，例如，一些游戏厂商正在对原来的一些单线程游戏进行优化，采用并行编程使得游戏运行得更快。有的游戏可以使用一个线程实现人物动画，而使用另一个线程来载入地图信息。或者使用一个线程来实现图像渲染中的矩阵运算，而使用另一个来实现更高的人工智能运算。如今，大量的支持多核心的游戏涌现出来，从而使得多核处理器的优势能得到进一步的发挥。但布赖恩特直言不讳地指出，要想让多核完全发挥效力，需要硬件业和软件业更多革命性的更新。其中，可编程性是多核处理器面临的最大问题。一旦核心多过八个，就需要执行程序能够并行处理。尽管在并行计算上，人类已经探索了超过年，但编写、调试、优化并行处理程序的能力还非常弱。易观国际分析师李也认为，“出于技术的挑战，双核甚至多核处理器被强加给了产业，而产业却并没有事先做好准备”。或许正是出于对这种失衡的担心，中国国家智能计算机中心主任孙凝辉告诉《财经》记者，“十年以后，多核这条道路可能就到头了”。在他看来，一味增加并行的处理单元是行不通的。并行计算机的发展历史表明，并行粒度超过以后，程序就很难写，能做到个以上的应用程

22进程、线程与并行计算(windows 编程技术)

第22章进程、线程与并行计算进程是正在运行的程序，线程是轻量级的进程。多任务的并发执行会用到多线程（multithreading ），而CPU 的多核（mult-core ）化又将原来只在巨型机和计算机集群中才使用的并行计算带入普通PC 应用的多核程序设计中。本章先介绍进程与线程的概念和编程，再给出并行计算的基本概念和内容。下一章讨论基于多核CPU 的并行计算的若干具体编程接口和方法。 22.1 进程与线程进程（process ）是执行中的程序，线程（thread ）是一种轻量级的进程。 22.1.1 进程与多任务现代的操作系统都是多任务（multitask ）的，即可同时运行多个程序。进程（process ）是位于内存中正被CPU 运行的可执行程序实例，参见图22-1。图22-1 程序与进程目前的主流计算机采用的都是冯·诺依曼（John von Neumann ）体系结构——存储程序计算模型。程序（program ）是在内存中顺序存储并以线性模式在CPU 中串行执行的指令序列。对于传统的单核CPU 计算机，多任务操作系统的实现是通过CPU 分时（time-sharing ）和程序并发（concurrency ）完成的。即在一个时间段内，操作系统将CPU 分配给不同的程序，虽然每一时刻只有一个程序在CPU 中运行，但是由于CPU 的速度非常快，在很短的时间段中可在多个进程间进行多次切换，所以用户的感觉就像多个程序在同时执行，我们称之为多任务的并发。 22.1.2 进程与线程程序一般包括代码段、数据段和堆栈，对具有GUI （Graphical User Interfaces ，图形用户界面）的程序还包含资源段。进程（process ）是应用程序的执行实例，即正在被执行的程进程（内存中）可执行文件（盘上）运行

拥抱多核时代-GIS并行计算

告别免费午餐拥抱多核时代 —SuperMap空间分析并行计算实践Written by:Objects 2013-3-12 11:20:00 SuperMap空间分析并行计算实践信息技术（InformationTechnologies，简称IT）领域，绝大多数定律都会随着技术的进步被人们淡忘，但有一些却可以经受住时间的考验，对信息技术发展带来持久而深远的影响，“摩尔定律”便是其中典型代表。“摩尔定律”支配下的信息技术，64位系统和多核计算日益普及，如何充分利用64位系统和多核环境下的计算资源成为系统设计和开发人员必须面对的问题。地理信息系统（Geographic InformationSystem，简称GIS）中的空间分析服务具有算法逻辑复杂、数据规模庞大的特点，属于一种计算密集型服务。针对该特点，我们将并行计算技术引入传统空间分析计算过程，充分利用64位大内存和多核计算资源，大幅提升空间分析计算性能。一、摩尔定律下的免费午餐摩尔定律是由英特尔创始人之一戈登·摩尔（Gordon Moore）提出。其内容为：当价格不变时，集成电路上可容纳的电子元件数目，约每隔24个月（现在普遍流行的说法是每隔18个月）便会增加一倍，性能也将提升一倍。换言之，相同性能的芯片产品，每隔18个月价钱就会降低一半。该定律自1965年提出以来，始终较好的预测了半导体产业的

发展趋势，又由于半导体产业的巨大影响力，该定律辐射到包括微处理器、移动电话、个人电脑、互联网等在内的众多IT领域。几十年来，包括处理器速度、内存容量、网络传播速度等关键IT指标的发展大都符合摩尔定律的描述。我们有理由认为，摩尔定律在一定程度上揭示与展现了信息技术令人惊讶的进步速度。诞生于1946年的世界上第一台电子计算机，其计算速度是每秒5000次加减法运算，而今天个人电脑的计算速度是每秒500亿次浮点运算。三十五年前的英特尔8086处理器仅有三万个晶体管，而今天一个基于Nehalem架构的英特尔酷睿i7处理器集成了7.74亿个晶体管。

多核处理器1

多核处理器摘要：多核处理器也称为片上多处理器(chip multi-processor，CMP)，或单芯片多处理器。自1996年美国斯坦福大学首次提出片上多处理器(CMP)思想和首个多核结构原型，到2001年mM推出第一个商用多核处理器POWER4，再到2005年Intel和AMD多核处理器的大规模应用，最后到现在多核成为市场主流，多核处理器经历了十几年的发展。在这个过程中，多核处理器的应用范围已覆盖了多媒体计算、嵌入式设备、个人计算机、商用服务器和高性能计算机等众多领域，多核技术及其相关研究也迅速发展，比如多核结构设计方法、片上互连技术、可重构技术、下一代众核技术等。然而，多核处理器的技术并未成熟，多核的潜力尚未完全挖掘，仍然存在许多待研究的问题。二．什么是多核处理器 2.1什么是多核处理器多核处理器是指在一枚处理器中集成两个或多个完整的计算引擎(内核)。多核技术的开发源于工程师们认识到，仅仅提高单核芯片的速度会产生过多热量且无法带来相应的性能改善，先前的处理器产品就是如此。他们认识到，在先前产品中以那种速率，处理器产生的热量很快会超过太阳表面。即便是没有热量问题，其性价比也令人难以接受，速度稍快的处理器价格要高很多。英特尔工程师们开发了多核芯片，使之满足横向扩展（而非纵向扩充）方法，从而提高性能。该架构实现了分治法战略。通过划分任务，线程应用能够充分利用多个执行内核，并可在特定的时间内执行更多任务。多核处理器是单枚芯片（也称为硅核），能够直接插入单一的处理器插槽中，但操作系统会利用所有相关的资源，将每个执行内核作为分立的逻辑处理器。通过在两个执行内核之间划分任务，多核处理器可在特定的时钟周期内执行更多任务。多核架构能够使软件更出色地运行，并创建一个促进未来的软件编写更趋完善的架构。尽管认真的软件厂商还在探索全新的软件并发处理模式，但是，随着向多核处理器的移植，现有软件无需被修改就可支持多核平台。操作系统专为充分利用多个处理器而设计，且无需修改就可运行。为了充分利用多核技术，应用开发人员需要在程序设计中融入更多思路，但设计流程与对称多处理(SMP)系统的设计流程相同，并且现有的单线程应用也将继续运行。得益于线程技术的应用在多核处理器上运行时将显示出卓越的性能可扩充性。此类软件包括多媒体应用（内容创建、编辑，以及本地和数据流回放）、工程和其他技术计算应用以及诸如应用服务器和数据库等中间层与后层服务器应用。多核技术能够使服务器并行处理任务，而在以前，这可能需要使用多个处理器，多核系统更易于扩充，并且能够在更纤巧的外形中融入更强大的处理性能，这种外形所用的功耗更低、计算功耗产生的热量更少。多核技术是处理器发展的必然。推动微处理器性能不断提高的因素主要有两个：半导体工艺技术的飞速进步和体系结构的不断发展。半导体工艺技术的每一次进步都为微处理器体系结构的研究提出了新的问题，开辟了新的领域；体系结构的进展又在半导体工艺技术发展的基础上进一步提高了微处理器的性能。这两个因素是相互影响，相互促进的。一般说来，工艺和电路技术的发展使得处理器性能提高约20倍，体系结构的发展使得处理器性能提高约4倍，编译技术的发展使得处理器性能提高约1.4倍。但是今天，这种规律性的东西却很难维

MSC-MARC单机多核并行计算示例

1、启动多核运算打开dos界面输入（1）D：按enter回车键（d为marc所在盘）（2）cd+空格+ D:\MSC.Software\Marc\2010\marc2010\intelmpi\win64\bin按enter回车键（3）ismpd+空格+ –install 按enter回车键（4）出现上图中的

关闭窗口。 2、基本配置（1）在MARC安装目录下的intelmpi\win64\bin目录（32Bit计算机选择win32文件夹），运行wmpiregister.exe. （2）输入用户名(登陆windows的账户名，通常为administrator)及密码（若密码为空，需要重新设置一个密码），点击register按钮，下面的对话框中会出现“Password encrypted into the Registry”信息。（3）运行ismpd.exe，或者到dos提示符下，进入该目录，运行ismpd -install。假如提示都正常的话，到此即完成进行并行计算的前提条件了。 3、测试（1）在MARC安装目录下的intelmpi\win64\bin目录（32Bit计算机选择win32文件夹），运行wmpiconfig.exe （2）依次点击下面1和2.

浅谈多核CPU、多线程与并行计算

0.前言最近发觉自己博客转帖的太多，于是决定自己写一个原创的。笔者用过MPI 和C#线程池，参加过比赛，有所感受，将近一年来，对多线程编程兴趣一直不减，一直有所关注，决定写篇文章，算是对知识的总结吧。有说的不对的地方，欢迎各位大哥们指正：） 1.CPU发展趋势核心数目依旧会越来越多，依据摩尔定律，由于单个核心性能提升有着严重的瓶颈问题，普通的桌面PC有望在2017年末2018年初达到24核心（或者16核32线程），我们如何来面对这突如其来的核心数目的增加？编程也要与时俱进。笔者斗胆预测，CPU各个核心之间的片内总线将会采用4路组相连：），因为全相连太过复杂，单总线又不够给力。而且应该是非对称多核处理器，可能其中会混杂几个DSP处理器或流处理器。 2.多线程与并行计算的区别 (1)多线程的作用不只是用作并行计算，他还有很多很有益的作用。还在单核时代，多线程就有很广泛的应用，这时候多线程大多用于降低阻塞（意思是类似于 while(1) { if(flag==1) break;

sleep(1); } 这样的代码）带来的CPU资源闲置,注意这里没有浪费CPU资源，去掉sleep(1)就是纯浪费了。阻塞在什么时候发生呢？一般是等待IO操作（磁盘，数据库，网络等等）。此时如果单线程，CPU会干转不干实事（与本程序无关的事情都算不干实事，因为执行其他程序对我来说没意义），效率低下（针对这个程序而言），例如一个IO操作要耗时10毫秒，CPU就会被阻塞接近10毫秒，这是何等的浪费啊！要知道CPU是数着纳秒过日子的。所以这种耗时的IO操作就用一个线程Thread去代为执行，创建这个线程的函数（代码）部分不会被IO操作阻塞，继续干这个程序中其他的事情，而不是干等待（或者去执行其他程序）。同样在这个单核时代，多线程的这个消除阻塞的作用还可以叫做“并发”，这和并行是有着本质的不同的。并发是“伪并行”，看似并行，而实际上还是一个CPU在执行一切事物，只是切换的太快，我们没法察觉罢了。例如基于UI 的程序（俗话说就是图形界面），如果你点一个按钮触发的事件需要执行10秒钟，那么这个程序就会假死，因为程序在忙着执行，没空搭理用户的其他操作；而如果你把这个按钮触发的函数赋给一个线程，然后启动线程去执行，那么程序就不会假死，继续响应用户的其他操作。但是，随之而来的就是线程的互斥和同步、死锁等问题，详细见有关文献。现在是多核时代了，这种线程的互斥和同步问题是更加严峻的，单核时代大都算并发，多核时代真的就大为不同，为什么呢？具体细节请参考有关文献。我

一分钟看懂CPU多发射超标量、多线程、多核之概念和区别

【闲来无事、做做科普、反正也算是marketing job；教你一分钟看懂CPU多发射超标量/多线程/多核之概念和区别】最近在多个场合大肆宣扬多核多线程，收到对多线程表示不解的问题n多，苦思多日，终得一形象生动的模型，你肯定懂的。因为是比喻和科普、过于严谨的技术控请勿吐槽。处理器性能提高之公开秘笈：超标量、多线程、多核。用于说明的生活模型：高速公路及收费站。简单CPU的原型：单车道马路 + 单收费闸口，车辆只能一辆辆排队通过，并行度为1。为了提高通行能力同时积极创收，相关部门运用世界顶尖CPU设计理念，对高速公路系统进行了如下拓宽改造：（1）增加车道（图示为3条车道）；（2）增加收费通道（图示为2个通道）；

（3）每个收费通道放置多个收费员（图示每条通道有a和b两个收费窗口）。其中（1）+（3）组合手段就是所谓的超标量结构，该图示为双发射超标量。超标量指有多个车道，双发射是指有a和b两位收费员可以同时发卡，把两辆车送到不同车道上去。手段（2）就是多线程的模型了，原有车道不变、只增加收费通道，这样多个车流来的时候可以同时发卡放行。从这个比喻来看多线程显然是个非常直观和有用的办法，但为什么在CPU世界中似乎有点模糊难懂的感觉呢？那是因为CPU的指令流喜欢一个挨一个、一列纵队龟速前进，这样的话单通道多收费员还起点作用、多通道就形同虚设了。收费员1.a和1.b会累死，而2.a和2.b则能够睡觉。因此把车流进行整队就很重要——这就是并行编程，即要设法把一列纵队排列成多列纵队。至于多核的概念，那就简单粗暴很多了，直接在这条马路边上进行征地拆迁、新修一条一模一样的高速公路便是，牛吧。现在大家手机里面的多核，就是并排几条“单收费通道+多车道”的马路，车流稀少、路况不错，不过相关部门表示因为道路利用率底下、经济效益欠佳、回收投资压力巨大。无论多核还是多线程，都有一个同样的问题需要解决，就是要把车流整成多列纵队，这样多条马路和多个收费通道的并行度才能发挥作用。

传统并行计算框架与MR的区别

现在MapReduce/Hadoop以及相关的数据处理技术非常热，因此我想在这里将MapReduce的优势汇总一下，将MapReduce与传统基于HPC集群的并行计算模型做一个简要比较，也算是对前一阵子所学的MapReduce知识做一个总结和梳理。随着互联网数据量的不断增长，对处理数据能力的要求也变得越来越高。当计算量超出单机的处理能力极限时，采取并行计算是一种自然而然的解决之道。在MapReduce出现之前，已经有像MPI这样非常成熟的并行计算框架了，那么为什么Google还需要MapReduce，MapReduce相较于传统的并行计算框架有什么优势，这是本文关注的问题。文章之初先给出一个传统并行计算框架与MapReduce的对比表格，然后一项项对其进行剖析。 MapReduce和HPC集群并行计算优劣对比 ▲ 在传统的并行计算中，计算资源通常展示为一台逻辑上统一的计算机。对于一个由多个刀片、SAN构成的HPC集群来说，展现给程序员的仍旧是一台计算机，只不过这台计算拥有为数众多的CPU，以及容量巨大的主存与磁盘。在物理上，计算资源与存储资源是两个相对分离的部分，数据从数据节点通过数据总线或者高速网络传输到达计算节点。对于数据量较小的计算密集型处理，这并不是问题。而对于数据密集型处理，计算节点与存储节点之间的I/O将成为整个系统的性能瓶颈。共享式架构造成数据集中放置，从而造成I/O传输瓶颈。此外，由于集群组件间耦合、依赖较紧密，集群容错性较差。而实际上，当数据规模大的时候，数据会体现出一定的局部性特征，因此将数据统一存放、统一读出的做法并不是最佳的。 MapReduce致力于解决大规模数据处理的问题，因此在设计之初就考虑了数据的局部性原理，利用局部性原理将整个问题分而治之。MapReduce集群由普通PC机构成，为无共享式架构。在处理之前，将数据集分布至各个节点。处理时，每个节点就近读取本地存储的数据处理(map)，将处理后的数据进行合并(combine)、排序(shuffle and sort)后再分发(至reduce节点)，避免了大量数据的传输，提高了处理效率。无共享式架构的另一个好处是配合复制(replication)策略，集群可以具有良好的容错性，一部分节点的down机对集群的正常工作不会造成影响。硬件/价格/扩展性传统的HPC集群由高级硬件构成，十分昂贵，若想提高HPC集群的性能，通常采取纵向扩展的方式：即换用更快的CPU、增加刀片、增加内存、扩展磁盘等。但这种扩展方式不能支撑长期的计算扩展(很容易就到顶了)且升级费用昂贵。因此相对于MapReduce集群，HPC集群的扩展性较差。 MapReduce集群由普通PC机构成，普通PC机拥有更高的性价比，因此同等计算能力的集群，MapReduce集群的价格要低得多。不仅如此，MapReduce集群