《高等计算机体系结构》文献综述GPU发展

合集下载

计算机文献综述范文3000字

计算机文献综述范文3000字引言计算机科学与技术是一个快速发展的领域，每年都有大量的研究论文涉及到各种各样的主题。

本文旨在对计算机科学与技术领域的一些重要研究进行综述，以探讨当前的研究趋势和未来的发展方向。

一、人工智能人工智能（Artificial Intelligence，AI）是计算机科学与技术领域的一个重要研究方向。

近年来，随着深度学习技术的快速发展，人工智能在图像识别、自然语言处理、智能推荐等方面取得了显著的进展。

例如，深度神经网络在图像识别领域的应用已经达到甚至超过了人类的水平。

此外，强化学习算法在游戏领域的应用也取得了重要的突破，比如AlphaGo在围棋比赛中战胜了世界冠军。

然而，人工智能研究还面临一些挑战。

首先，深度学习算法需要大量的标注数据进行训练，而获取大规模标注数据是一项非常耗时和困难的任务。

其次，深度学习算法的黑盒性质使得其解释性较差，难以理解其决策过程。

此外，人工智能在伦理和法律方面也引发了一系列的讨论和争议，比如自动驾驶汽车的安全性和责任归属等问题。

二、大数据与数据挖掘随着互联网的快速发展，大数据成为了一个热门的研究领域。

大数据的特点是数据量大、数据类型多样、数据生成速度快。

数据挖掘是从大数据中提取有价值信息的一项重要技术。

近年来，大数据与数据挖掘在各个领域的应用越来越广泛，比如金融、医疗、电子商务等。

在大数据与数据挖掘领域，一些重要的研究方向包括数据预处理、特征选择、聚类分析、分类算法等。

例如，数据预处理是在数据挖掘之前对原始数据进行清洗和转换的过程，以提高数据挖掘算法的性能。

特征选择是从众多特征中选择出最有代表性的特征，以减少数据维度和提高分类算法的性能。

三、云计算与边缘计算云计算和边缘计算是计算机科学与技术领域的另外两个热门研究方向。

云计算是一种基于互联网的计算模式，通过将计算和存储资源集中在云端，实现资源的共享和高效利用。

边缘计算是一种将计算和存储资源放置在离用户更近的地方，以减少网络延迟和提高用户体验的计算模式。

CPU和GPU的作用

CPU和GPU的作用CPU（中央处理器）和GPU（图形处理器）是计算机系统中两个关键的组件，它们在不同的领域发挥着不同的作用。

本文将从计算机体系结构、任务分配、性能优化等方面介绍CPU和GPU的作用。

一、计算机体系结构计算机体系结构是指计算机系统中各个硬件组件之间的组织方式和相互关系。

在计算机体系结构中，CPU和GPU起着不同的作用。

1. CPU的作用作为计算机系统的核心组件，CPU负责执行各种指令，控制和协调计算机系统的运行。

它具有较高的单线程性能和通用性能，适用于处理复杂的控制流和各种常规计算任务。

CPU通常由多个核心组成，每个核心都可以执行各种指令。

它用于运行操作系统、执行常规程序和处理大部分的计算任务。

2. GPU的作用GPU是专门设计用于处理图形和并行计算的处理器。

它由多个小型、高并发的处理单元组成，具有较高的并行处理能力和浮点计算能力。

GPU的设计理念是为了加速图形渲染和其他需要大规模并行计算的任务。

它通常用于图像处理、游戏渲染、科学计算等领域。

二、任务分配CPU和GPU在计算机系统中的任务分配有一定的差异。

1. CPU的任务分配CPU主要负责串行计算和控制流任务。

它通过运行操作系统和应用程序来处理各种任务。

CPU具有较高的时钟频率和较大的缓存容量，适合处理需要高频率的算术运算和数据访问的任务。

它能够执行复杂的算法、处理复杂的控制流程和处理器间的通信。

2. GPU的任务分配GPU主要负责并行计算任务，尤其是大规模的数据并行计算。

它通过执行大量的并发线程来处理任务。

GPU具有数百甚至数千个处理单元，可以同时执行多个线程。

它具有较高的并行计算能力和浮点计算能力，适合执行矩阵运算、向量运算、逐点运算等需要大量计算的任务。

三、性能优化在实际应用中，为了充分发挥CPU和GPU的性能，需要进行相应的优化。

1. CPU的性能优化为了提高CPU的性能，可以使用多线程、指令级并行和向量化等技术。

多线程可以利用多核心来并行执行多个任务，提高整体性能。

GPU架构与技术详解

GPU架构与技术详解GPU（Graphics Processing Unit）是一种专门用于处理图形计算的处理器。

GPU的架构与技术一直是图形学和计算机科学研究的重要分支。

本文将从宏观和微观两个层面，详细讲解GPU的架构及相关技术。

一、GPU的宏观架构GPU的宏观架构分为三个部分：处理器、显存和外部接口。

1.处理器GPU内部的处理器架构，主要分为SIMD（Single Instruction Multiple Data）和MIMD（Multiple Instruction Multiple Data）两种。

SIMD在处理数据时仅使用一种指令并且把数据分成多个数据段。

而MIMD则使用不同的指令处理不同的数据，每个线程可以独立运作，相互之间互不干扰。

同时，GPU中的处理器也分为标量、向量和矩阵处理器。

标量是最基本的处理器，向量处理器则可以同时处理多个相同类型的向量数据。

矩阵处理器则适用于大规模矩阵计算，是GPU计算高性能的核心部件。

2.显存GPU的显存是一种特殊的内存，它是专门为图形处理而设计的，并采用非常高效的访问方式。

显存的带宽比普通内存大几倍，使GPU能够更快速地访问和处理图形数据。

同时，显存还采用了多通道和多级缓存技术，进一步提高了图形渲染和计算性能。

3.外部接口GPU的外部接口通常包括PCI-Express和AGP。

PCI-Express是目前最常见的GPU外部接口，它提供高速的数据传输，能够满足大多数应用场景的需求。

而AGP则较少使用，在一些较老的计算机中还可以见到。

二、GPU的微观架构GPU的微观架构主要包括计算单元、纹理单元和像素单元三个部分。

1.计算单元计算单元是GPU中最基本的部件，它主要负责整数和浮点数的计算。

计算单元包括SIMD处理器、标量处理器、向量处理器和矩阵处理器。

计算单元在执行计算任务时，需要高质量的处理器设计，如各种运算单元、指令管理单元、调度单元和寄存器文件等。

2.纹理单元纹理单元是GPU中的特殊部件，它主要负责处理图像数据。

《GPU体系结构》课件2

GPU体系结构
欢迎学习《GPU体系结构》课程。在这个课程中，我们将深入挖掘GPU是什么、它的作用、它如何工作以及在实践中的应用，以及GPU未来的发展方向。
什么是GPU
定义和作用
GPU代表图形处理器。它的作用是为计算机图形学和高性能计算提供快速处理。与CPU相比， GPU可同时进行数百个计算任务。
GPU在未来的应用前景
GPU的发展趋势指向高效数字化、 AI发展和创新的应用，可以考虑在金融、医疗、娱乐、工业、科研等领域中加以应用。
2
深度学习
GPU高速处理矩阵和向量运算来训练深度神经网络以及其他机器学习模型。
3
高性能计算
GPU 可以用于各种科学和工程计算，包括天气模拟、基因组学、流体力学、金融风险建模等。
GPU的性能指标
吞吐量
GPU可以同时执行数百个计算任务，得益于大规模的并行计算性能。
带宽和延迟
VRAM带宽和延迟对GPU性能至关重要。高带宽和低延迟意味着GPU每秒钟可以访问大量数据。
GPU设计的基本原理
GPU的主要组成部分包括GPU芯片，VRAM，像素渲染引擎，调色板，纹理、光线跟踪引擎，可编程着色器以及GPU命令处理器。
GPU设计涉及专业定制的内存、高速专用接口、大规模的并行计算和可编程着色器等原则。
GPห้องสมุดไป่ตู้的应用场景
1
计算机图形学
在数字媒体、动画、游戏等领域中，GPU处理大量图形计算任务。
GPU与CPU的区别
CPU设计用于通用处理，而GPU设计用于特定类型的计算。GPU通过并行处理、专业定制的内存体系结构和硬件调度来优化特定计算类型的处理。
GPU架构和设计
架构的发展历程

gpu显卡

gpu显卡GPU显卡：性能、应用和发展动态摘要：GPU显卡（Graphics Processing Unit）已经成为现代计算机中不可或缺的组成部分。

本文将探讨GPU显卡的性能特点、应用领域以及未来发展的动态。

GPU显卡的主要作用是通过并行计算来加速图形处理和通用计算任务，具有出色的并行处理能力和高性能计算能力。

随着科技的发展和应用需求的不断提升，GPU显卡在游戏、人工智能、加密货币挖矿等领域的应用也越来越广泛。

未来，GPU显卡将继续发展，以满足不断增长的计算需求和新兴技术的需求。

一、GPU显卡的性能特点1.1 并行计算能力GPU显卡的主要特点之一是强大的并行计算能力。

相较于传统的中央处理器（CPU），GPU显卡具有更多的核心和更高的并行处理能力。

GPU显卡采用了多个计算单元，每个计算单元可以处理多个任务，使得显卡能够同时处理多个计算任务，加快计算速度。

1.2 高性能计算能力GPU显卡能够提供高性能计算能力，主要得益于其并行计算能力和高速内存。

通过并行计算，GPU显卡能够在短时间内完成大量的计算任务，加快系统的响应速度。

此外，GPU显卡的高速内存可以提供快速的数据读写能力，进一步提高计算性能。

二、GPU显卡的应用领域2.1 游戏在电子游戏行业中，GPU显卡扮演重要的角色。

游戏图像的渲染、物理模拟和光线追踪等计算密集型任务需要大量的计算能力。

GPU 显卡的并行计算和高性能计算能力使得游戏开发者能够实现更加逼真的图像效果和流畅的游戏体验。

2.2 人工智能随着人工智能的兴起，GPU显卡在深度学习和神经网络训练中起到了至关重要的作用。

深度学习任务通常涉及海量的矩阵运算，而GPU显卡的并行计算能力使得它能够加速这些计算任务。

因此，GPU显卡成为了大部分人工智能开发者的首选硬件。

2.3 加密货币挖矿近年来，加密货币的普及和价值的增长引发了对于加密货币挖矿的热潮。

加密货币挖矿需要进行大量的哈希运算，而GPU显卡的并行计算能力使得它能够高效地进行这些计算任务。

了解电脑显卡中的GPU架构

了解电脑显卡中的GPU架构随着计算机技术的不断发展，电脑显卡已经成为了现代计算机中不可或缺的组件之一。

而在显卡中，GPU（图形处理器）架构则显得尤为重要。

本文将探讨GPU架构的概念、功能以及不同类型的GPU架构。

一、什么是GPU架构GPU架构是指在电脑显卡中用于处理图形和图像数据的架构。

它是显卡的核心组成部分，负责处理和加速计算机图形渲染、3D游戏以及其他图形相关的计算任务。

二、GPU架构的功能1. 并行计算能力：GPU架构具有强大的并行处理能力，能够同时处理多个任务和数据。

与传统的中央处理器（CPU）相比，GPU可以同时处理数百个线程，大大提高了图形处理的效率。

2. 图形渲染：GPU架构专注于图形渲染任务，可以加速计算机中的图形显示。

通过优化渲染算法和提高处理器的时钟频率，GPU可以实现流畅的图形效果和更快的画面刷新率。

3. 通用计算能力：除了图形渲染，现代的GPU架构还具备通用计算能力。

通过开发适用的计算框架和编程模型，GPU可以处理各种复杂的计算任务，如物理模拟、机器学习等。

三、不同类型的GPU架构1. NVIDIA的CUDA架构：CUDA（Compute Unified Device Architecture）是NVIDIA推出的一种GPU计算架构。

它采用了SIMD （Single Instruction, Multiple Data）并行计算模型，并集成了大量的高速缓存和计算单元。

CUDA架构在科学计算和深度学习等领域取得了显著的成果。

2. AMD的GCN架构：GCN（Graphics Core Next）是AMD开发的GPU架构，专注于图形处理和通用计算。

它采用了多核心和多指令流的设计，支持高性能计算和异构计算。

3. 英伟达的Turing架构：Turing架构是英伟达最新的GPU架构，于2018年发布。

它引入了RT Core（用于光线追踪）和Tensor Core （用于深度学习）等新技术，大幅提升了图形渲染和人工智能计算的性能。

gpu 需要掌握的知识

gpu 需要掌握的知识摘要：1.GPU 的概念和历史2.GPU 的主要应用领域3.GPU 的关键技术和架构4.如何学习和掌握GPU 知识5.GPU 的未来发展趋势正文：一、GPU 的概念和历史GPU，全称图形处理器（Graphics Processing Unit），是一种专门用于处理图形和图像任务的微处理器。

GPU 的发展历程可以追溯到上世纪80 年代，从最初的固定功能图形处理器，到90 年代的可编程图形处理器，再到21 世纪初的统一渲染架构，GPU 的性能和功能不断得到提升。

二、GPU 的主要应用领域1.计算机图形学：GPU 主要用于渲染3D 图形和动画，为游戏、电影、广告等提供高质量的视觉效果。

2.机器学习：GPU 可以加速深度学习和其他人工智能任务，提高训练和推理的效率。

3.科学计算：GPU 具有并行处理能力强大的特点，可以高效地处理大规模数据和复杂计算任务，如流体动力学、分子模拟等领域。

三、GPU 的关键技术和架构1.着色器：GPU 的核心部分，负责处理图形和图像的计算任务，包括顶点着色器、片段着色器等。

2.渲染管线：GPU 中用于处理图形和图像的一组指令，包括几何处理、光栅化、纹理贴图等阶段。

3.统一渲染架构：将图形和计算任务统一处理，提高GPU 的通用性和灵活性。

4.并行计算：GPU 具有大量计算单元，可以同时执行多个任务，提高计算效率。

四、如何学习和掌握GPU 知识1.学习基本概念：了解GPU 的定义、历史、应用领域等基本知识。

2.学习GPU 编程：掌握GPU 编程语言（如CUDA、OpenGL 等），编写简单的GPU 程序。

3.学习优化技巧：了解如何优化GPU 程序性能，提高计算效率。

4.实践项目：参与实际项目，积累GPU 编程经验，不断提高自己的技能水平。

五、GPU 的未来发展趋势1.AI 与GPU 的融合：随着人工智能的发展，GPU 将成为AI 计算的重要平台，融合AI 与GPU 技术将是未来的趋势。

GPU架构与技术详解

GPU架构与技术详解GPU（Graphics Processing Unit）是一种专为处理图形和图像数据而设计的处理器。

它具有高度并行化的计算能力，能够在相同的时钟周期内处理多个任务，因此广泛应用于游戏、计算机辅助设计、科学计算等领域。

而GPU架构和技术是指GPU的内部结构和相关的技术细节，下面将详细介绍。

1.GPU架构（1）处理单元：GPU的核心部分是处理单元（Processing Unit），也称为流处理器（Stream Processor）。

处理单元是一个高度并行化的计算单元，它包含多个流多处理器（Streaming Multiprocessor，SM），每个SM包含多个处理核心（Processing Core）。

每个处理核心可以执行单个线程的指令，而SM则能够同时执行多个线程，充分利用GPU的并行计算能力。

（2）内存层次结构：GPU的内存层次结构包括全局内存、共享内存和寄存器等部分。

全局内存用于存储全局变量和数据，可以被所有处理单元访问。

共享内存用于同一个线程块中的线程之间共享数据，访问速度比全局内存更快。

寄存器用于存储线程的局部变量和计算结果。

（3）数据通路：GPU的数据通路包括输入/输出接口、数据总线、内存控制器等部分。

输入/输出接口用于连接GPU与主机系统，数据总线用于传输数据，内存控制器则负责管理内存访问和数据的读写。

2.GPU技术GPU的技术主要包括并行计算、片上内存、纹理映射、着色器等技术。

（1）并行计算：GPU的设计初衷是处理图形数据，但是由于其高度并行化的计算能力，广泛应用于通用计算领域。

GPU通过并行计算能够同时处理多个任务，大大提高计算效率。

（2）片上内存：为了减少对全局内存的访问，GPU引入了片上内存（On-Chip Memory）作为高速缓存。

片上内存位于SM内部，能够快速共享数据，提高访问速度。

（3）纹理映射：纹理映射（Texture Mapping）是一种将二维图像映射到三维模型表面的技术。

高性能计算机体系结构研究综述

高性能计算机体系结构研究综述引言随着计算机技术的不断发展，高性能计算机的应用范围越来越广泛。

高性能计算机是指能够提供高性能计算能力的计算机体系结构，主要用于进行复杂的科学计算、工程仿真等领域。

随着计算机应用场景的不断扩大，如何提高高性能计算机的计算能力和效率成为了计算机领域的核心问题。

本文综述了高性能计算机体系结构相关的研究进展和热点问题。

第一章高性能计算机体系结构概述高性能计算机体系结构是指计算机硬件系统的组成部分和相互连接方式。

高性能计算机与传统计算机系统的差别在于，高性能计算机使用了一种特殊的并行处理技术和高速通信技术。

高性能计算机主要由计算节点、存储节点、网络节点三个部分组成。

其中，计算节点用于执行计算任务，存储节点用于存储数据，网络节点用于实现节点之间的通信。

第二章并行计算体系结构并行计算体系结构是高性能计算机体系结构的重要组成部分，也是高性能计算机计算能力提高的核心。

并行计算体系结构主要有集中式共享存储架构、分布式存储架构、混合存储架构等。

其中，集中式共享存储架构具有计算能力强、资源利用率高等优点，是高性能计算机比较成熟的体系结构之一。

第三章高性能计算机并行计算模型高性能计算机并行计算模型是指对高性能计算机进行并行计算的理论模型和计算模型。

高性能计算机并行计算模型主要包括共享存储模型、分布式存储模型、混合存储模型等。

其中，共享存储模型是高性能计算机并行计算模型中的重要一种模型，具有良好的可扩展性和灵活性。

第四章高性能计算机芯片架构高性能计算机芯片架构是指高性能计算机中的处理器芯片架构。

高性能计算机芯片架构主要采用多核处理器的设计方式，如Intel的Xeon、AMD的Opteron、IBM的PowerPC等。

这些多核处理器的设计方式具有计算能力强、性能高等优点，可以提高高性能计算机的计算能力和效率。

第五章高性能计算机网络架构高性能计算机网络架构是指高性能计算机中节点之间的通信方式和通信协议。

计算机体系结构的发展与趋势

通过流水线技术，计算机的吞吐率可以得到显著提高，从而提高了处理速度。
需要解决相关问题
流水线技术需要解决资源冲突、数据冒险和控制冒险等问题，以确保流水线的顺畅运行。
指令集架构（ISA）
定义
分类
指令集架构是指计算机硬件和软件之间的接口规范，定义了计算机可以执行的所有指令的集合以及这些指令的编码方式。
AI驱动的自主系统
研究基于AI的自主系统设计和实现方法，提高系统的自适应能力和智能化水平。
绿色低碳成为关键
绿色计算技术
研究低功耗、高能效的计算技术和方法，降低计算机系统的能耗和碳排放。
可持续性与可循环性
在计算机系统设计和实现过程中，注重可持续性和可循环性原则，采用环保材料和可再生能源。
节能标准与政策
物联网、自动驾驶等应用对实时计算和边缘计算的需求日益增加，要求
计算机体系结构做出相应的调整。
产业生态挑战
技术更新速度
计算机体系结构的技术更新速度非常快，如何跟上这种发展速度并保持竞争力是一大挑战。
产业链协同
计算机体系结构的发展涉及芯片设计、制造、封装等多个环节，需要产业链上下游的紧密协同。
标准与规范
面临的挑战与机遇
挑战
计算机体系结构面临着性能提升瓶颈、能耗问题、安全性问题、可编程性等方面的挑战。
机遇
新兴技术如量子计算、光计算、生物计算和光量子计算等为计算机体系结构的发展带来了新的机遇。
02
传统计算机体系结构回顾
冯·诺依曼结构
存储程序概念
冯·诺依曼结构中，程序和数据都存储在同一个存储器中，实现了存储程序的概念，使得计算机具有通用性。
光子计算
光子器件与电路

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

四、CUDA简介
CU DA全称统一计算设备框架( Compute UnifiedDevice Architecture,简称CU DA ) ,是NVIDIA公司针对其GPU设计提出的GPGPU编程模型,它也以C语言为基础,降低了编程难度。在CUDA计算模型中,应用程序分为host端和device端,前者是指运行于CPU上的部分,后者则是运行于GPU上的部分,这部分代码称为核心( Kernel)函数。CPU代码准备好数据后,复制到显卡的存储器中,再调用核心函数进行执行,执行完毕后再由CPU代码将计算结果拷贝回主存。
图1AMD APU结构示意图
从图1可以看出, APU处理器将多核的x86 CPU核心、GPU处理器核心( SIMD引擎阵列)、高速总线以及存控融合在一块单一芯片上,可以实现数据在不同处理核心间的高速传输,大大缓解了目前CPU和GPU之间的通信受限于外部总线的问题。
2.NVIDIA: Fermi
Fermi是NVIDIA公司推出的最新一代GPU,提供了强大的双精度浮点计算能力。Fermi较之以往GPU的不同之处在于:首先,为面向对数据精确度要求较高的应用, Fermi首次在GPU的存储器中引入了ECC校验的功能;其次, Fermi在保持了主流GPU中使用的Shared Memory作为片上存储层次外,还首次引入了通用的数据Cache,以更好地支持通用计算。Fermi中的Cache包含被SM私有的L1 Cache和被所有SM共享的L2 Cache。此外, Fermi中的Shared Memory和Cache可以通过配置互相转化。最后, Fermi支持多Kernel同时执行。
三、GPGPU体系结构
目前可以生产支持通用计算的GPU厂家主要有AMD、NVIDIA和Intel。我们将简要介绍这三个厂商目前主流GPU的核心体系结构。
1.AMD: APU
为进一步提升处理器的工作效率, AMD公司将CPU和GPU的核心进行融合( Fusion) ,推出了APU[ 7]( Accelerated Processing Unit s)系列处理器,以加速多媒体和向量处理能力。业界有观点认为,这种融合的体系结构是未来处理器的发展方向。
北京科技大学
《高等计算机体系结构》
文献综述
题目：GPU的发展研究
学院计算机与通信工程学院
班级12402日
一、引言
随着半导体工艺的发展,芯片上集成的晶体管数目按照摩尔定律增加,各种处理器的存储和计算能力也因此不断提高。作为最常用的两类处理器芯片, CPU和GPU的性能发展呈现不同的规律。CPU是计算机的主控处理部件,需要应对各种复杂的控制过程,追求的标量性能,注重通用性,因此在其芯片体系结构设计时,不得不将大量的芯片资源用于分支预测、乱序执行等复杂的控制逻辑,从而限制了其计算性能的提升。而GPU原本只负责加速图形计算,功能相对比较单一,芯片的控制逻辑比较简单,主要的芯片资源都用于提升计算性能,因此其计算能力发展更为迅速。
在CU DA计算模型下, GPU执行的最小单位是线程,多个线程组成一个线程块,线程块中线程可以共享一片存储器,并以任意顺序执行,在硬件资源受限的情况下甚至可以串行执行。一个核心程序由一个或多个线程块组成,一个应用则由若干个核心程序构成。
图3 CUDA计算模型示意图
从CUDA体系结构的组成来说,包含了三个部分:开发库、运行期环境和驱动。开发库是基于CUDA技术所提供的应用开发库。目前CUDA的1.1版提供了两个标准的数学运算库一一C U FF下(离散快速傅立叶变换)和CUBLAS (离散基本线性计算)的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题,也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速方便的建立起自己的计算应用此外开发人员也可以在C U DA的技术基础上实现出更多的开发库。运行期环境提供了应用开发接口和运行期组件,包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于C UDA开发的程序代码在实际执行中分为两种,一种是运行在C户U上的宿主代码,一种是运行在G p U上的设备代码。不同类型的代码由于其运行的物理位置不同,能够访问到的资源不同,因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分,基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口,开发人员可以通过运行期环境的编程接口实现各种类型的计算。
GPGPU[ 5])也成为体系结构、编程及编译等领域热点的研究方向之一。
二、ＣＰＵ／ＧＰＵ协同并行计算研究进展
a)GPU定义及相关技术
GPU英文全称(Graphic ProcessingUnit),中文翻译为“图形处理器”。GPU是相对于CPU的一个概念,由于在现代的计算机中图形的处理变得越来越重要,需要一
图2NVIDIA Fermi体系结构示意图
图2给出了Fermi的体系结构框图。图中包含16个SM,分布在共享的L2 Cache周围,每SM均包含L1 Cache、寄存器文件等私有存储资源, 32个流处理核心构成的计算阵列和线程调度单元。处理器的外围则分布着DRAM、Host和线程调度等接口。值得注意的是, Fermi之前的GPU中SM内大多包含8个流处理核心,如GT 200,因此需要4拍才能发射一个w arp,而Fermi中将流处理核心数提升至32个,而且采用双发射技术,使得每拍可以发射2个warp,极大提升了线程发射效率。
T＆L技术是最近在图形加速卡上都可以看得到的规格名称之一，这个名词的原来意义是：Transforming以及Lighting，光影转换。在图形加速卡中，T＆L的最大功能是处理图形的整体角度旋转以及光源阴影等三维效果。
3D图上有许多的连结点，每一个连结点都可视为一条线的转折点，通过这些连结点，图形芯片可以很清楚地将整个对象的结构辨识出来。然而，这些连结点在这张3D设计图上的位置是固定不动的，换句话说，不管我们从任何一个角度来看这个对象，连结点的位置并没有变动，变动的只有角度的不同。不过，对象图案若只进行到Transforming的阶段，在对象的表面也只有连结点而已，并没有加上颜色色块或任何材质的贴图表现，因此，很像是立体的3D透视图。
五、参考文献
[ 1] GPGPU技术研究与发展*
[ 2]CUDA走向GPGPU新时代
[3]Glaskowsky P N. NVIDIAs Fermi: T he Firs t Complete GPUComputing Architecture[ R] . A Whit e Paper Prepared UnderContract with NVIDIA Corporation, 2009: 1-26.
凹凸贴图（bump mapping），又称为皱面贴图，是一项计算机图形学技术，在这项技术中每个待渲染的像素在计算照明之前都要加上一个从高度图中找到的扰动。这样得到的结果表面表现更加丰富、细致，更加接近物体在自然界本身的模样
b)协同计算概念
ＣＰＵ／ＧＰＵ协同并行计算，其关键在于如何实现两者的高效“协同”。从国内外大量的研究工作来看，“协同”分为两个层次：１）ＣＰＵ仅负责管理ＧＰＵ的工作，为ＧＰＵ提供数据并接收ＧＰＵ传回的数据，由ＧＰＵ承担整个计算任务；２）除管理ＧＰＵ外，ＣＰＵ还负责一部分计算任务，与ＧＰＵ共同完成计算。第一层次的“协同”比较简单，ＣＰＵ与ＧＰＵ间分工明确，但浪费了宝贵的ＣＰＵ计算资源。如ＩＢＭ的Ｐｏｗｅｒ７处理器具有３２个核心，因此ＣＰＵ也具有强大的计算能力。可见，第二层次的“协同”是未来协同并行计算的发展方向
一般来说，T＆L的效能常用「单位时间内所能处理多少个多边形的连结点变化以及光源运算」为基准。像nVidia的GeForce 2便能在每秒钟处理2500万个多边形，而有的产品甚至能达到3000万个多边形的效能。
纹理压缩中将压缩后的数据存储进显存并不是终结。重要的是需要用显示芯片把这些压缩后的数据进行解压缩，再经过运算贴图到3D模型上。这个过程就需要显示芯片在硬件上支持了，如果不支持，对于压缩后的数据无法识别，照样不能完成纹理压缩，也不能发挥出纹理压缩的优势。
例如, AMD公司2009年第一季度发布的专业级流处理GPUFireSt ream 9270[ 1]的单精度浮点峰值性能达到1.2T Flo ps,而Intel公司顶级的Core2 Ex tr eme 9650四核处理器的浮点处理能力仅有96GFlo ps,可见在计算性能方面, GPU要高出CPU整整一个数量级。计算性能增长的同时, GPU的存储性能也在不断提升, 2~ 4GB的存储容量、256~ 512位宽的存储总线都为GPU发挥出强大的计算能力提供了充分的保证。除了计算性能外,从性/价比和性能/功耗比上看, GPU相对于通用CPU同样拥有明显的优势。这些特性都使得GPU成为搭建超级计算机的良好选择,可以在有限的系统规模和金钱开销的限制下达到非常高的峰值计算性能,因此越来越受到高性能计算领域的关注。计算性能不断提升的同时,限制GPU广泛应用的另一制约因素) ) )可编程性,也在不断提高。早期的GPU仅负责图形加速,流水线的功能固定,只能执行有限的几个操作以完成图像的生成。硬件工艺的进步使得GPU内处理单元的结构越来越复杂,功能也越来越灵活,其流水线具备了执行用户自定义程序的能力,从而具备了初步的可编程性。从最初的底层图形API发展到现在高度抽象的CUDA[ 2]、Broo k +[ 3]以及OpenCL[ 4], GPU的可编程性得到了极大的提升,已经具备了开发非图形领域应用的基本能力, GPU上的通用计算( General Purpose computat io n on GPU s,简称
个专门的图形的核心处理器。GPU是显示卡的“大脑”,它决定了该显卡的档次和大部分性能,同时也是2D显示卡和3D显示卡的区别依据。GPU使显卡减少了对C P U的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时。GPU所采用的核心技术有硬体T&L、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图双重纹理四像素256位渲染引擎等,而硬体T&L技术可以说是G P U的标志。