异构计算综述

合集下载

网格计算及其应用综述

（）４共享性：网格的根本特征是资源共享而不是它的规模．尽管网格资源是分布的，是它们却是但可以充分共享的．分布是网格硬件在物理上的特征，而共享是网格软件支持，具有很多资源，资源发生故障的概率很高．网格的资源管理或应用必须能
网格体系结构是关于如何建造网格的技术，包括对网格基本组成部分和各部分功能的定义和描述，
网格各部分相互关系与集成方法的规定，网格有效运行机制的刻画．显然，网格体系结构是网格的骨架
和灵魂，是网格最核心的技术，只有建立合理的网格体系结构，才能够设计和建造好网格，才能够使网格有效地发挥作用．目前网格体系结构的设计已有了一定的研究，提出的模型有：五层沙漏模型、组件模型、开放网格体系结构（ＧＡ模型、ＯＳ）计算池模型、ＰＣＵ模型、神经网络模型、节点模型等．中五层沙漏其
Ｖ１２．ｏ．４Ｎｏ２
Ｊｎ２０ｕｅ０６
网格计算及其应用综述
赵巍庞慧
河北建筑工程学院计算机系
摘要介绍了网格计算的概念、特点、功能、源、究现状及其应用领域，起研而且介绍了网格计算中的关键技术．关键词网格；网格计算；网格体系结构；网格操作系统中图号Ｔ３Ｕ
Ｏ引言
网格计算（ｒＣｍｕｎ）Ｇｉｏｐｔｇ是当前互联网研究中的一个热点，ｄｉ也是并行和分布处理技术的一个发展
方向．传统因特网实现了计算机硬件的连通，ｂ实现了网页的连通，网站（Ｗｅ但信息孤岛）的信息并不上能按照用户的指令进行有意义的交流．人们不能共享广域网络中的异构资源；不能将运行在通过Ｉｒｎａｔ．

并行算法综述

并行算法综述摘要：本文主要对并行算法的概念、设计等进行综述。

首先概要的介绍有关并行算法的相关概念，接着详细的介绍并行算法的设计策略、设计方法等，最后对并行算法的前景做简单的分析讨论，并做总结。

关键词：并行算法；算法设计；设计策略；设计方法中图分类号：tp393随着计算机时代的到来，计算机的应用和开发主要延伸到社会的各个领域，无论是国家的经济科技还是生活教育等，都能看到计算机的身影。

而高性能计算机的研究和开发更能直接体现出一个国家的经济科技水平，同时由于信息化国防建设也使得高性能计算机成为国防安全的宠儿。

世界各国都在努力争夺高性能计算机的战略制高点，这也充分说明高性能计算机对于一个国家科技实力的重要性。

计算机的发展迅速，从最初的电子管到现在大规模继承电路技术的应用，计算机的运算速度更快，功能也更加强大。

当然，其关键因素就是并行算法，并行算法直接决定着计算机性能的高低，同时并行算法的发展程度也相当明显的显示出国家计算机科技水平的发达程度，是国家综合国力的一个体现。

1 并行算法1.1 国内外研究现状并行算法研究的高峰期在70、80年代。

这一时期，涌现除了很多优秀的非数值并行算法，它们在整个并行算法研究历史上占据着非常辉煌的一页。

90年代中期以后，并行算法的研究渐渐面向实际，内容也有所扩展。

近年来，并行算法的研究更是趋于实际应用中。

比如：一种基于局部小型分布式存储架构的大规模fock矩阵建设的新的并行算法：rt并行算法；基于共享内存架构的节能性能权衡分析并行算法；在多核心cpu与gpu中基于块三角矩阵求解线性系统的并行算法；同构新的并行划分方法和巨人矩阵转置并行算法，等等。

图像匹配的并行算法；面向异构体系结构的粒子输运并行算法；海量数据拟合并行算法；基于gpu的高性能并行算法；遥感数字影像中提取植被指数的并行算法；fermi架构下超声成像组织运动可视化并行算法；分布式水文模型的并行计算；声纳图像对比度增强的并行算法；大规模稀疏矩阵特征问题求解的并行算法；分布动载荷识别的并行算法，等等。

网格计算与网格体系结构综述

ＬＩＵＬｑｎｉｕ
（ｆｒｔｎＳｉｎｅａｄＴｃｎｌｇｃｏｌｏｎｕＡｒｕｔｒｌＵｉｒｉ，Ｌｎｈｕ７０７）ＩｏｍａｏｃｅｃｎｅｈｏｏｙＳｈｏｆＧａｓｇｉｌａｎｖｓｙａｚｏ３００ｎｉｃｕｅｔ
施．能提供可靠的、可协调的、可扩展的和廉价的高
端计算能力的访问。根据网格的定义，网格具有异构性、可扩展性、动态可适应性，以及自治性和管理的多重性等特点［。网格的异构性是指网格可以包含多－种异构资源，包括跨越地理分布的多个管理域。构成
网格计算系统的计算机有多种类型，其体系结构、操
作系统及应用软件等在多个层次上都可以具有不同的结构网格的可扩展性指网格资源规模会随着各种计
算资源的不断加入而不断扩大。动态可适应性指网格
・
网络与电子商务／务・政
农业网络信息
ＡＧ：Ｃ观ＴｌＮＥＴＷＯＲＫ唧础强ＲＭＡ竹ＤⅣ
２１年第２期０１
网格计算与网格体系结构综述
刘立群
（甘肃农业大学信息科学技术学院，兰州７０７）３００
摘
要：论述了网格的特点和分类，总结比较了网格技术与其他技术的不同。分析了网格体系的结构，包括五层协议结

多核嵌入式实时操作系统(RTOS)综述

多核嵌入式实时操作系统（RTOS）综述作者：张朝来源：《电脑知识与技术》2015年第12期摘要：从1981年第一个商业嵌入式实时操作系统VRTX/OS的出现，嵌入式实时操作系统已经过三十多年的发展。

本文对嵌入式相关的文献进行了调研，发现随着嵌入式芯片多核技术的日趋成熟和广泛应用，嵌入式实时操作系统对多核处理器提供了一定的支持，包括对称多核（SMP）和非对称多核（AMP），但也仍然存在多核并发控制、任务调度等问题。

在分析RTOS的研究现状后，得出了今后RTOS的研究热点有异构多核支持和物联网应用。

关键词：嵌入式系统；实时操作系统；对称多核；非对称多核中图分类号：TP316 文献标识码：A 文章编号：1009-3044（2015）12-0248-03A Survey on Multi-Core Real-Time Operating System （RTOS）ZHANG Zhao（The Institute of Computer Application，China Academy of Engineering Physics，Mianyang 621900，China）Abstract：The RTOS has been developed over three decades till now after the first available commercial RTOS which named VTRX/OS .After the study on embedded related literatures， it shows that with the development of Multi-core technology and widely use of Multi-core chips， the RTOS is becoming to support the Multi-core features include SMP and AMP， in order to fully use the potential of hardware， but still have some problem such as concurrency control and task allocation. So the next hot research filed of RTOS is the support of Heterogeneous multiprocessor. Besides the IOT also could be an important application filed for RTOS.Key words：EOS； RTOS； SMP； AMP早期的嵌入式应用由于嵌入式处理器运算能力低，所以功能单一，主要使用死循环代码实现。

基于云计算的数据挖掘之综述研究

基于云计算的数据挖掘之综述研究【摘要】本文针对现下一种新兴的云计算技术，分析当前数据挖掘遇到的问题以及云计算的优势，基于云计算进行海量数据挖掘成为一种解决传统集中式数据挖掘不适应海量数据不断增长的高效、可信方法。

本文先对云计算进行简单介绍，然后对基于云计算的数据挖掘应用进行详细阐述与分析，最后介绍基于云计算的数据挖掘应用平台的构建。

【关键词】云计算；数据挖掘；研究The Summry of Data Mining Research Based Cloud ComputingGUAN Wen-bo1 LI Lei2（1.School of Software Engineering，Tongji University，Shanghai，200092，China；2.School of Software Nanyang Institute of Technology，Nanyang Henan，473000，China）【Abstract】In this paper，holds many lessons for an emerging cloud computing technology to analyze the current data mining problems encountered and the advantages of cloud computing，cloud-based computing for massive data mining to become a solution to the traditional centralized data mining suited to the growing amounts of data efficiently，credible way. This article first briefly introduces the cloud，and the cloud-based data mining applications described and analyzed in detail，and finally introduces cloud-based data mining applications Platform.【Key words】Cloud computing；Data mining；Research0 前言云计算的概念可以追溯到上个世纪Sun和Oracle提出的“网络就是计算机”。

基于本体的语义相似度计算方法研究综述

form ation Con ten tM easu res)、基于属性的语义相似度计
算 ( Featu re- b ased M easu res ) 和混合式语义相似度计
算 ( H yb rid M easu res)。在不作具体说明情况下, 本文
介绍的 4 类算法都是建立在 / IS- A 0关系树状分类体
2. 1 基于本体的语义相似度计算内涵
( 1 )语义相似度与语义距离
语义相似度和语义距离之间存在着密切的关
系 [ 3] : 两个词语的语义距离越大, 其相似度越低; 反之, 两个词语的语义距离越小, 其相似度越大。对于两个
词语 w1 和 w2, 记 S mi ( w1, w2 ) 为其相似度, D is ( w1, w2 )为词语语义距离, 则 S mi ( w1, w2 )和 D is( w1, w2 )存在下列对应关系: D is( w1, w2 )和 S mi ( w1, w2 )成反向关系, 即 D is( w1, w2 ) 越大, 则 S mi ( w1, w2 ) 越小:
关键词: 相似度 AND 关键词: 本体关键词: 语义相似 AND 关键词: 本体关键词: 相似度 AND 关键词: 本体关键词: 语义相似 AND 关键词: 本体
数据库
ISIW eb o f Sc ience
CNK I 万方
结果 (篇数 )
2 10
5 46 73 56 1 25 59
2 基于本体的语义相似度计算内涵和影响因素
cock and Chodorow法等。
Shortest Path 法 [8] 认为概念词间的相似度与其在

网络技术综述

维普资讯
ＭｉｒｃｍｐｔｒＡｐｌａｉｎｏ．８Ｎ．，０２ｃｏｏｕｅｐｉｔｓＶ１１，ｏ６２０ｃｏ
综
述
微型电脑应用
２０年第ｌ０２８卷第６期
网络技术综述
许文韬
摘要本文分析了网络技术产生的时代背景，述了阐
主的网格节点等．同节点的环境配置要求有所差别．科学不以
要巨大开支企业带来了巨大的成本支出。给
网格计算环境的构建层次从下至上依次为：
（）格结点：格结点是地理上独立的计算和信息中１网网心，分布在Ｉｔｒｅ上的各类资源组成，括各类主机、由ｎｅｎｔ包工作站、Ｃ机，们是异构的．运行在ＵｎｘＷｉｄｗ２０Ｐ它可ｉ、ｎｏｓ００等各种操作系统下．可以是上述机型的机群系统、型存储设也大
以及企业信息化成本过高等问题的一个重要方案，重要的有
指导意义。美国７ｏ年代关于Ｉｔｒｅ网络的研究导致厂今天ｎｅｎｔ网络经济的发展．现在对网格的研究可与７代对Ｉｔｒ而ｏ年ｎｅ．ｎｔ的研究相提并论，０１年８月，国国家科学基金委ｅ２０美
（Ｓ宣布一个重大科研项目，制称为 “ 布式万亿级设ＮＦ）研分施 ” ＤｉｒｕｅｅａｃｌＦｃｉ）网格系统。称Ｔｒ．（ｓｉｔｄＴｒｓａａｉｔ的ｔｂｅｌｙ简ｅａ

网格计算及其关键技术综述_罗作民

! 网格计算的发展 !$% 网格计算的起源
网格计算的起源是由于单台高性能计算机已经不能胜任一些超大规模应用问题的解决。于是，人们想象分布在世界各地的超级计算机的计算能力能否通过利用广域互连技术使其像电力资源那样输送到每一用户，来求解一些大规模科学与工程计算等问题，从而形成了计算网格（又称网格计算系统）。网格计算是作为虚拟的整体而使用在地理上分散的异构计算资源，这些资源包括高速互连的异构计算机、数据库、科学仪器、文件和超级计算系统等。使用计算网格，一方面能使人们聚集
5DDIV9- 作为自由软件已经在因特网上公开。包括 ;,-/DN9H 、 +@A、 A9C/DEDF-、 MDJNHO 等在内的 )! 家计算机和软件厂商已宣
布将采用 8ID17E 5DDIV9-，作为一种开放架构和开放标准基础设施。 8ID17E 5DDIV9- 提供了构建网格应用所需的很多基本服务，如安全、资源发现、资源管理、数据访问等。目前所有重大的网格项目都是基于 8ID17E 5DDV9- 提供的协议与服务建设的。此外，包括 8ID1HI 8/9: GD/7J 、对象管理组织（、以 >A8 ） 0#M ，及 8ID17E$D/< 等标准化团体都参与了网格计算标准以及全球标准的制定工作。美国 URHV9 MD/N$ 公司于 !""! 大网格（ 888 ）年 ! 月提出了名为 68?L （的命 6.C7/. 8/9: ?HJ9,< L/D-DCDI）标准。目前已有康柏、惠普、名服务（ ?HJ9,< 6./R9C. ） +@A、 67, 等公司表示支持。中国科学院计算所正在开发一个“ 网格计算，试图将应用与网格资源连结协议” （ 8/9: MDJN7-9,< L/D-DCDI）起来。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

异构计算（Heterogeneous computing）摘要异构计算（Heterogeneous computing）技术从80年代中期产生，由于它能经济有效地获取高性能计算能力、可扩展性好、计算资源利用率高、发展潜力巨大，目前已成为并行/分布计算领域中的研究热点之一。

本文主要介绍了CPU+GPU基础知识及其异构系统体系结构（CUDA）和基于OpenCL的异构系统，并且总结了两种结构的特点，从而对异构计算有了更深的理解。

关键词：异构计算CUDA OpenCL1、引言异构计算主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式。

常见的计算单元类别包括CPU、GPU等协处理器、DSP、ASIC、FPGA 等。

我们常说的并行计算正是异构计算中的重要组成部分异构计算近年来得到更多关注，主要是因为通过提升CPU时钟频率和内核数量而提高计算能力的传统方式遇到了散热和能耗瓶颈。

而与此同时，GPU等专用计算单元虽然工作频率较低，具有更多的内核数和并行计算能力，总体性能/芯片面积的比和性能/功耗比都很高，却远远没有得到充分利用。

CPU的设计让其比较擅长于处理不规则数据结构和不可预测的存取模式，以及递归算法、分支密集型代码和单线程程序。

这类程序任务拥有复杂的指令调度、循环、分支、逻辑判断以及执行等步骤。

而GPU擅于处理规则数据结构和可预测存取模式。

而APU的设计理念则正是让CPU和GPU完美合作，集合两者的长处，用异构计算来达到整体性能的最佳化。

目前，已经有50款领先的应用能够利用AMD APU进行加速，而后续的应用也将陆续到来——异构计算普及的一刻应该是近在咫尺了。

1.1 CPU和GPU的本质区别(1) CPU特点a) CPU的目标是快速执行单一指令流；b) CPU将其用于乱序执行、寄存器重命名、分支预测以及巨大的cache上，这些设计都是为了加速单一线程的执行速度c) CPU利用cache来降低内存访问延迟d) CPU通过大量的cache和分支预测来降低延迟，这些机制消耗了大量的晶体管的电能；e) CPU每个核心支持1~2个线程；f) CPU切换线程的代价是数百个时钟周期；g) CPU通过SIMD（单指令多数据）来处理矢量数据；h)Intel的CPU没有集成内存控制器（2）GPU特点a) GPU的目标是快速执行大量的并行指令流。

b)GPU将晶体管用于处理器阵列、多线程管理、共享内存、内存控制器，这些设计并不着眼于提高单一线程的执行速度，而是为了使GPU可以同时执行成千上万的线程，实现线程间通信，并提供极高的内存带宽。

c) GPU使用cache来放大内存带宽d) GPU通过同时运行上千个线程来隐藏延迟，等待内存访问的线程会被切换掉，e) GPU切换线程不耗时间。

f)对于支持CUDA的GPU，每个流处理器可以同时处理1024个线程。

g) GPU切换线程的代价是0，事实上GPU通常每个时钟周期都切换线程。

h) GPU则使用SIMT（单指令多线程），SIMT的好处是无需开发者费力把数据凑成合适的矢量长度，并且SIMT允许每个线程有不同的分支。

j) 支持CUDA的GPU集成有8个内存控制器，GPU的内存带宽通常是CPU 的十倍1.2 GPU计算模型内核是执行模型的核心，能在设备上执行。

当一个内核执行之前，需要指定一个N-维的范围（NDRange）。

一个NDRange是一个一维、二维或三维的索引空间。

还需要指定全局工作节点的数目，工作组中节点的数目。

如图NDRange 所示，全局工作节点的范围为{12, 12}，工作组的节点范围为{4, 4}，总共有9个工作组。

如果定义向量为1024维，特别地，我们可以定义全局工作节点为1024，工作组中节点为128，则总共有8个组。

定义工作组主要是为有些仅需在组内交换数据的程序提供方便。

当然工作节点数目的多少要受到设备的限制。

如果一个设备有1024个处理节点，则1024维的向量，每个节点计算一次就能完成。

而如果一个设备仅有128个处理节点，那么每个节点需要计算8次。

合理设置节点数目，工作组数目能提高程序的并行度。

图1.GPU计算模型CPU的长项是整数计算，GPU的优势则是浮点计算。

对于整机性能而言，CPU和GPU都是性能的保障，合理的搭配才是重中之重，才能给用户带来最强的综合性能。

1.3异构计算分类及发展方向目前的趋势，增加并行的性能，而不是时钟频率。

我们的重点是在一个节点，几乎是充分利用指令级并行性。

这意味着，提高性能，必须来自多芯片，多核或多上下文并行。

Flynn的分类法在硬件定义了四个级别的并行：（1）单指令单数据（SISD）（2）单指令多数据流（SIMD）（3）多指令单数据（MISD）（4）多指令多数据（MIMD）此外，两个细分MIMD单程序多数据（SPMD），以及多个程序多数据（MPMD），我们使用这些术语来描述架构。

图2.架构单芯片CBEA，如图所示（a），由一个传统的CPU核心和8个SIMD加速器核心。

这是一个非常灵活的架构，每个核心可以运行单独MPMD时尚和沟通方案，快速通过片上总线。

其主要设计标准得到了最大限度降低消耗的功率。

图中（b）显示了多线程SIMD加速器结合一个标准的多核CPU核心的GPU。

GPU 具有优异的带宽和计算性能，对很少或根本没有同步运行的SPMD方案进行了优化。

它是专为高性能的图形，其中的数据吞吐量是关键。

最后，图中（c）显示了FPGA逻辑块阵列组成和一个标准的多核心CPU的组合。

FPGA的片上，也可以纳入正规的CPU核心，使得它本身就是一个异构芯片。

FPGA可视为用户定义的应用程序的专用集成电路（ASIC）的可重构。

他们提供充分确定性的表现，是专为高吞吐量，例如，在电信方面的应用。

目前异构并行计算向着以下几个方向发展：（1）集群计算。

这是传统高性能计算的领域。

但是今天高性能计算已经演变成了异构并行计算的一部分，越来越多的高性能计算集群使用GPU、MIC、FPGA等。

（2）单机计算。

推动单机计算向异构并行计算发展的主要动力是游戏、计算机辅助设计等，而主要表现是GPU+CPU的异构计算。

（3）移动计算。

近几年发展表明，人们对手机的需求比对PC的需求更大。

目前几乎所有的移动芯片解决方案都是异构的，除了有CPU、GPU之外，还有视频编解码单元、音频处理单元。

倾向于把更多工作内容转移到手机上，但是为了保证续航时间，移动处理器的设计一开始就不是以高性能为目标，这使得要在移动处理器上获取高性能是比较困难的。

（4）嵌入式计算。

在一些恶劣工作环境下，只有DSP和FPGA能够满足要求。

2、异构计算系统2.1 CPU+GPU 异构系统体系结构计算机系统一般都配置了CPU 和GPU，GPU传统上只负责图形渲染，大部分的仸务都由CPU 来完成。

随着图形渲染的数据量越来越大、计算也越来越复杂，GPU 的可编程性和幵行性也随之增强。

目前，主流GPU 的计算能力、存储带宽、性价比与同期的CPU 相比更具竞争力。

下面以支持CUDA(Computing Unified Device Architecture) 的GPU为例来说明CPU+GPU 异构计算系统的体系结构。

支持CUDA 的GPU 通常由数个线程处理器簇。

TPC(Thread Processor Cluster)组成，如：NVIDIA GeForce 9800 GX2 由2个TPC组成双核GPU；NVIDIA GeForce 9800 GTX 只含有一个TPC。

每个TPC 由若干流多处理器SM(Streaming Multi-processor)组成，一个SM 包含8个线程处理器TP(threaded processor)和一定大小的共享存储空间(Shared Memory)，另外，GPU还提供了全局的存储器(Global Memory or Video Memory)和一定数量的全局只读的纹理缓存(Texture Cache)和常缓存(Constant Cache)。

GPU与CPU间的数据传输通过PCIE 通道来完成，该数据传输通道可能成为性能瓶颈。

CPU+GPU 异构系统的整体结构如下图所示。

图3.CPU+GPU异构系统体系结构2.1.2 CUDA执行模型CUDA 源程序由运行于host（CPU）上的控制程序和运行于device（GPU）上的计算核心(kernel)两部分组成。

每一个kernel 由一组相同大小的线程块（thread block）来幵行执行，同一线程块里面的线程通过共享存储空间来协作完成计算，线程块间是相互独立的。

运行时，每一个线程块会被分派到一个流多处理器SM上运行，它们共享大小为16KB 的共享存储空间。

为了管理运行各种不同程序的数百个线程，SM 采用了一种称为SIMT（single instruction multiple thread，SIMT）的新架构。

SIMT 单元以32 个幵行线程为一组来创建、管理、调度和执行线程，这样的线程组称为warp 块。

多个warp 块可以组成一个线程块，一个线程块将会分派到一个SM 上，SM 会将各线程映射到一个TP核心上，各TP 使用自己的指令地址和寄存器状态独立执行。

构成SIMT warp块的各个线程在同一个程序地址一起启动，也可随意分支、独立执行。

为一个SM 指定了一个或多个要执行的线程块时，它会将其分成warp 块，幵由SIMT单元迚行调度。

将块分割为warp 块的方法总是相同的，每个warp 块都包含连续的线程，递增线程ID，第一个warp 块中包含线程0。

每収出一条指令时，SIMT单元都会选择一个已准备好执行的warp 块，幵将下一条指令収送到该warp 块的活动线程，其执行调度过程示意如下图所示。

图4.CUDA执行模型2.1.3 协作框架由于PCIE 数据传输通道会成为CPU+GPU 异构系统的性能瓶颈，因此，保证通信传输开销取得最优解的情况下，更有利于优化通信开销取得期望解，GPU与CPU如何协作完成求解问题，最大限度较少数据在CPU 与GPU之间的频繁传输显得尤为重要。

为此参考文献之处写作框架如下：图5.CPU+GPU协作框架2.2.3 实验评估分析为了验证本文提出的协作框架的有效性和高效性，选择了计算密集型应用图像置乱变换作为测试用例。

实验环境配置如下：(1) Intel Core2 Quad 2.33Ghz ，4GB内存，Microsoft Visual Studio 2005(2) GeForce GTX280，1GB 显存，16KB Shared Memory，CUDA toolkit 和SDK 2.0，NVIDIA Driver for Microsoft Windows XP(177.98)图6.运行时间比较2.3 基于OpenCL的异构系统并行编程使用GPU进行通用计算是近些年的热点研究领域。