高性能计算机体系结构和设计
超级计算机系统架构分析

–2048颗我国仿制sun公司的UltraSparc T2处理器(飞腾FT-1000) 八核心处理器 –14336颗Intel Xeon X5670 2.93GHz六核心处理器 –7168块NVIDIA Tesla M2050高性能计算卡
自主研发的飞腾FT-1000八核心处理器
“天河一号A”研制之初,除使用了进口CPU和GPU 之外,其他核心器件、互联芯片均为我国自主研 制。随着科研人员的不懈努力,如今“超高性能 CPU”这 道难题也迎刃而解。国产飞腾FT-1000八 核芯片,由国防科技大学专门为“天河”系列计 算机量身定制,已达到了当今世界主流。据了解, 安装飞腾芯片后, 不仅“天河一号A”的峰值运算 速度将在目前每秒1206万亿次的基础上有所提升, 而且其实际运算速度也将提高到每秒千万亿次。 同时,由于关键芯片实现完全 “国产化”,也将 使“天河一号A”在确保信息安全方面拥有更多的 保证。
系统架构
O 组织架构
O 理论基础架构
O 软件架构
组织架构
O “天河一号”系统共有5120个图形加速处理器(GPU)和6144
个通用处理器(CPU),峰值速度达1206TFlops, 内存总容量为 98TB,Linpack实测性能为563.1TFlops。其计算量若由一台 微型计算机来执行大约连续计算160万年才能完成。“天河 一 号”是采用并行体系结构的超级计算机,采用的是AMD的 图形核心。其特殊之处在于多阵列、可配置、协同并行,实 现了“CPU+GPU”的异构协同计算,提 高了计算效能。 O “天河一号”超级计算机采用了多阵列、可配置、协同并行 体系结构,系统由计算阵列、加速阵列和服务阵列组成,其 中计算阵列、服务阵列分别由采用通用处理器 (CPU)的计算 节点机、服务节点机构成,加速阵列则由基于图形加速处理 器(GPU)的大量加速节点机构成,实现了“CPU+GPU”的异构 协同计算,提 高了计算效能。此外,“天河一号”采用了便 于维护和高密度的刀片式(Blade)结构,每个机位都有几十个 可热插拔的刀片,每个“刀片”实际上就相当于一 块计算机 主板,组成一台配置有处理器、内存等模块的节点计算机。
超高性能计算机系统的架构设计与性能优化

超高性能计算机系统的架构设计与性能优化随着科技的不断进步,超高性能计算机系统的需求也日益增长。
无论是科学计算、工程模拟还是大数据分析,超高性能计算机系统都扮演着重要的角色。
因此,对于超高性能计算机系统的架构设计与性能优化显得尤为重要。
在超高性能计算机系统的架构设计中,关键因素包括处理器、内存、存储和互连网络。
首先,选择适当的处理器架构对整个计算机系统的性能至关重要。
例如,在科学计算和大数据分析中,通用处理器(如x86架构)常常无法满足需求,因此需要考虑使用加速器(如GPU、FPGA)或专用处理器(如向量处理器)来提升计算性能。
而随着人工智能的兴起,采用深度学习加速器(如TPU)也成为一种趋势。
处理器的选取要根据系统需求和预算来进行平衡。
其次,内存的选择和配置也会对超高性能计算机系统的性能产生重要影响。
随着计算机系统规模的增大,对内存容量和带宽的要求也随之提高。
传统的内存技术如DDR4已经很难满足大规模计算需求,因此需要考虑使用HBM、GDDR等高带宽内存技术,以及采用多通道和高速互连技术来提供更大的容量和带宽。
此外,在存储方面,超高性能计算机系统往往需要大规模的存储系统来容纳海量数据,同时也需要高速的存取速度。
常用的存储技术包括硬盘、固态硬盘、网络存储和分布式文件系统等。
针对超高性能计算机系统,可以采用分层存储体系结构,将高速存储和低速存储进行有效组织和管理,以提高数据访问效率。
此外,针对大规模数据存储需求,采用分布式文件系统可以提供高性能和高可靠性。
最后,超高性能计算机系统的互连网络也至关重要。
互连网络负责连接处理器、内存和存储等组件,是整个系统的关键性能瓶颈。
因此,在架构设计中,需要综合考虑网络拓扑、路由算法、传输协议等因素,以降低通信延迟和提高带宽利用率。
常见的互连网络拓扑包括矩阵、超立方体、树状等,每种拓扑都有其适用的场景和性能特点。
此外,网络的划分和隔离可以提供更好的资源管理和安全性。
计算机体系结构

计算机体系结构计算机体系结构是指计算机硬件和软件之间的接口、数据传输和运行机制的组织结构。
它决定了计算机系统的性能、可扩展性、可靠性和安全性。
计算机体系结构的设计是计算机科学和工程领域的核心问题之一,它直接影响到计算机的性能和能力。
一、概述计算机体系结构是计算机科学中一个重要的概念,它包括计算机的硬件和软件部分。
计算机硬件包括中央处理器(CPU)、内存、输入输出设备等,而计算机软件则包括操作系统、编译器、应用程序等。
计算机体系结构通过定义指令集架构、存储架构和总线结构等,来决定计算机系统的基本工作原理和功能。
二、指令集架构指令集架构是计算机体系结构的核心部分,它定义了计算机处理器所支持的指令集和指令执行方式。
常见的指令集架构有精简指令集(RISC)和复杂指令集(CISC)两种。
RISC架构采用简化的指令集和固定长度的指令格式,以提高指令执行的效率和速度;而CISC架构则支持更复杂的指令和灵活的地址模式,以提供更强大的功能和灵活性。
三、存储架构存储架构是计算机体系结构中的另一个核心要素,它定义了计算机系统中各种存储器的组织方式和访问机制。
存储器可以分为主存储器(RAM)和辅助存储器(硬盘、固态硬盘等)。
存储架构涉及到存储器的位宽、存储单元的地址和数据传输方式等问题。
不同的存储架构可以影响计算机的内存访问速度和容量。
四、总线结构总线结构是计算机体系结构中用于数据传输和通信的重要组成部分。
它定义了计算机系统中各种硬件组件之间的连接方式和数据传输的规范。
总线结构可以分为系统总线、数据总线和控制总线等不同的层次。
它决定了计算机系统中各个部件之间数据传输的带宽和速度。
五、并行处理并行处理是指利用多个处理器或处理核心同时执行多个任务,以提高计算机系统的性能和并发能力。
计算机体系结构中的并行处理包括指令级并行和线程级并行两种形式。
指令级并行通过同时执行多条指令来提高处理器的效率;线程级并行则利用多个线程并行执行任务,以提高整个系统的吞吐量。
设计高性能并行计算机体系结构

设计高性能并行计算机体系结构高性能并行计算机体系结构是现代科学计算、数据处理和人工智能等领域的核心技术之一。
在大规模计算和高度并行的应用场景下,设计一个高性能的并行计算机体系结构至关重要。
本文将介绍何为高性能并行计算机体系结构,并提出一种设计思路,以实现高性能并行计算。
高性能并行计算机体系结构是指在硬件层面上如何组织计算单元、内存和互联网络等组件,以实现各处理单元之间的高效通信和并行计算能力。
一种常见的高性能并行计算机体系结构是多核处理器集群。
多核处理器集群由多个处理器核心组成,每个核心可以同时处理不同的指令,从而实现并行计算。
每个处理器核心拥有自己的缓存和寄存器,通过共享内存或者消息传递机制进行通信。
通过合理地设计处理器核心的数量和互连网络的结构,可以实现高性能的并行计算。
在设计高性能并行计算机体系结构时,需要考虑以下几个关键因素:首先是处理器核心的设计。
处理器核心是计算机的计算和控制单元,其性能直接决定了并行计算机的性能。
为了实现高性能的并行计算,处理器核心需要具备高性能的浮点计算单元、多级缓存、乱序执行和分支预测等特性。
此外,处理器核心的设计也需要考虑功耗和散热等问题,以保证在高负载下仍能保持良好的性能。
其次是内存子系统的设计。
内存的访问延迟和带宽是限制高性能并行计算的重要因素。
为了减少内存访问的延迟和提高带宽,可以采用多级缓存、高速内存和内存一致性机制等技术手段。
此外,还可以通过将数据和任务分布到不同的内存节点上,以实现更好的负载均衡和并行计算效率。
第三是互连网络的设计。
互连网络负责连接处理器核心和内存节点,为它们提供高效的通信通道。
在设计互连网络时,需要考虑带宽、延迟、拓扑结构和路由算法等因素。
常用的互连网络拓扑结构包括全互连、多维互连和树状互连等,而路由算法则需要根据具体的应用场景和计算需求来选择。
最后是编程模型和软件支持。
并行计算机体系结构需要与相应的软件开发环境相匹配,以提供方便快捷的并行编程接口和工具。
Top500强中超级计算机的体系结构

Top500强中超级计算机的体系结构(1)超级计算机“京”(K Computer)是⽇本RIKEN⾼级计算科学研究院(AICS)与富⼠通的联合项⽬。
“京”(K Computer)没有使⽤GPU加速,⽽是完全基于传统处理器搭建。
“现在的“京”(K Computer)配备了88128颗富⼠通SPARC64 VIIIfx 2.0GHz⼋核⼼处理器,核⼼总量705024个,最⼤计算性能10.51Petaflop/s,峰值性能 11.28038 Petaflop/s,同时效率⾼达93.2%,总功耗为12659.9千⽡。
(2)位于中国天津国家超级计算机中⼼的“天河⼀号系统”计算能⼒达到2.57 petaflop/s。
天河⼀号采⽤了CPU+GPU的混合架构。
配有14336颗Intel Xeon X5670 2.93GHz六核⼼处理器、7168块NVIDIA Tesla M2050⾼性能计算卡,以及2048颗我国⾃主研发的飞腾FT-1000⼋核⼼处理器,总计20多万颗处理器核⼼,同时还配有专有互联⽹络。
(3)“JAGUAR”超级计算机系统⾪属于美国能源部,坐落于美国橡树岭国家实验室。
“JAGUAR XT5”系统由美国国家科学基⾦会出资、Cray公司建造、⽥纳西⼤学和国家计算科学研究院共同拥有。
它曾在2010年6⽉的TOP500排⾏榜中排名第⼀。
“JAGUAR”是⼀台民⽤计算机,采⽤AMD Magny-Cours核⼼六核Opteron处理器,其最⼤计算能⼒为1.75 petaflop/s。
(4)“星云”坐落于我国深圳国家超级计算机中⼼。
“星云”系统运算峰值达到3 petaflop/s,最⼤计算性能1.271 petaflop/s,并且是中国第⼀台、世界第三台实现双精度浮点计算超千万亿次的超级计算机,且其单位耗能所提供的性能达到了4.98亿次/⽡。
“星云”超级计算机采⽤⾃主设计的HPP体系结构,由4640个计算单元组成,采⽤了⾼效异构协同计算技术,系统包括了9280颗通⽤CPU和4640颗专⽤GPU组成。
高性能计算机体系结构研究综述

高性能计算机体系结构研究综述引言随着计算机技术的不断发展,高性能计算机的应用范围越来越广泛。
高性能计算机是指能够提供高性能计算能力的计算机体系结构,主要用于进行复杂的科学计算、工程仿真等领域。
随着计算机应用场景的不断扩大,如何提高高性能计算机的计算能力和效率成为了计算机领域的核心问题。
本文综述了高性能计算机体系结构相关的研究进展和热点问题。
第一章高性能计算机体系结构概述高性能计算机体系结构是指计算机硬件系统的组成部分和相互连接方式。
高性能计算机与传统计算机系统的差别在于,高性能计算机使用了一种特殊的并行处理技术和高速通信技术。
高性能计算机主要由计算节点、存储节点、网络节点三个部分组成。
其中,计算节点用于执行计算任务,存储节点用于存储数据,网络节点用于实现节点之间的通信。
第二章并行计算体系结构并行计算体系结构是高性能计算机体系结构的重要组成部分,也是高性能计算机计算能力提高的核心。
并行计算体系结构主要有集中式共享存储架构、分布式存储架构、混合存储架构等。
其中,集中式共享存储架构具有计算能力强、资源利用率高等优点,是高性能计算机比较成熟的体系结构之一。
第三章高性能计算机并行计算模型高性能计算机并行计算模型是指对高性能计算机进行并行计算的理论模型和计算模型。
高性能计算机并行计算模型主要包括共享存储模型、分布式存储模型、混合存储模型等。
其中,共享存储模型是高性能计算机并行计算模型中的重要一种模型,具有良好的可扩展性和灵活性。
第四章高性能计算机芯片架构高性能计算机芯片架构是指高性能计算机中的处理器芯片架构。
高性能计算机芯片架构主要采用多核处理器的设计方式,如Intel的Xeon、AMD的Opteron、IBM的PowerPC等。
这些多核处理器的设计方式具有计算能力强、性能高等优点,可以提高高性能计算机的计算能力和效率。
第五章高性能计算机网络架构高性能计算机网络架构是指高性能计算机中节点之间的通信方式和通信协议。
计算机体系结构

计算机体系结构计算机体系结构是指计算机硬件、软件和数据组成的结构体系。
它涵盖了计算机内部各个部件的组织方式,以及它们之间的连接和交互方式。
计算机体系结构的设计与实现直接影响计算机的性能、可靠性和可扩展性。
I. 介绍计算机体系结构是计算机科学中的重要研究领域,它关注的是在硬件和软件层面上如何组织计算机系统,以实现高性能、可靠性、可扩展性等要求。
计算机体系结构的研究内容广泛,包括指令集架构、处理器设计、内存层次结构、输入输出系统等等。
II. 指令集架构指令集架构是计算机体系结构的核心部分,它定义了计算机的指令集以及执行这些指令的方式。
指令集架构一般分为精简指令集(RISC)和复杂指令集(CISC)两种。
RISC架构追求指令集的简洁和规整,通过减少指令的种类和提高指令的执行效率来提高计算机的性能。
而CISC架构则倾向于提供更多且复杂的指令,以方便编程和提高代码的密度。
III. 处理器设计处理器是计算机的核心部件,它执行指令、进行数据处理和控制计算机的各个部分。
处理器设计的目标是提高计算速度和性能,并支持更多的并行计算。
现代处理器常采用流水线、超标量、乱序执行等技术,以提高指令的执行效率。
除了性能,处理器设计还需要考虑功耗、散热等问题。
IV. 内存层次结构计算机的内存层次结构包括寄存器、高速缓存、主存和辅助存储等层次。
这些层次的设计目的是提供多级别的存储,以满足不同速度和容量要求的数据访问。
其中,高速缓存是处理器与主存之间的缓冲存储器,它通过存储最常用的数据和指令,减少了处理器对主存的访问次数,提高了数据访问速度。
V. 输入输出系统输入输出系统是计算机与外部设备进行通信的接口,它负责将数据传输到或从外部设备传输到计算机。
现代计算机的输入输出系统包括各种接口标准和协议,如USB、HDMI、以太网等。
输入输出系统的设计需要考虑数据传输速度、可靠性和兼容性等因素,以满足不同的应用需求。
VI. 发展趋势计算机体系结构领域一直在不断发展和创新。
计算机体系结构基本概念

计算机体系结构基本概念计算机体系结构是指计算机系统中的各个组成部分之间的关系和交互方式。
它是计算机硬件与软件之间的接口,决定了计算机系统的工作方式、性能表现以及可扩展性。
本文将介绍计算机体系结构的基本概念和相关内容。
一、计算机体系结构的概述计算机体系结构是指计算机系统的结构组织,包括硬件和软件。
主要由计算机硬件、指令系统、运算方式和数据流组成。
计算机体系结构的目标是提供高性能、可靠性、可扩展性和高效能的计算机系统。
计算机体系结构的设计通常以指令集架构和微架构为基础。
二、指令集架构指令集架构是计算机体系结构中的一个重要概念。
它定义了计算机系统处理信息的方式。
指令集架构包括计算机的指令集、寄存器、数据类型和地址模式等。
根据指令集的不同,可以将计算机体系结构分为复杂指令集计算机(CISC)和精简指令集计算机(RISC)。
三、微架构微架构是指计算机体系结构的实现方式。
它包括处理器的内部结构、数据通路、控制流和存储相关的电路设计。
微架构的设计影响着计算机系统的性能和功能。
常见的微架构包括超标量、乱序执行和流水线等。
四、存储结构与存储器层级存储结构是指计算机系统中用于存储数据的层次结构。
存储器层级分为寄存器、高速缓存、内存和辅助存储器等。
不同层级的存储器具有不同的特点,如容量、速度和价格等。
存储结构的设计旨在提高计算机系统的访问速度和运行效率。
五、总线结构总线结构是计算机体系结构中连接各个组件的通信系统。
它包括地址总线、数据总线和控制总线等。
总线结构的设计影响着计算机系统的数据传输速度和可扩展性。
六、并行处理与多核技术并行处理是指多个处理器或计算单元同时执行指令,提高计算机系统的运行速度和性能。
多核技术则是将多个处理核心集成到同一个芯片上,实现并行运算。
并行处理和多核技术在高性能计算、科学计算和图像处理等领域得到广泛应用。
七、虚拟化技术虚拟化技术是指通过软件将计算机资源抽象为多个逻辑实体,实现多个操作系统和应用程序的隔离和共享。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CPU
cache
......
cache
Bus/cross bar/…
I/O bus
I/O设备
内存
SMP: Symmetric Multi-Processing
缓存一致性(Cache coherence)问题
0, 初始, u=5
1, P1读 u
p1
p2
p3
2, p3读 u
3, p3写7入u
4, p1读 u, 得?
另外, 还有星座(SMP)机群
IA机群系统异军突起、进入主流市场:石油、气象、网格
原因? 原因? 原因?
▪IA CPU 芯片速度赶上/超过了RISC 芯片
▪高速互连网成熟且产品化:Myrinet, Quadrics, InfiniBand
▪开放源码操作系统 Linux 日益成熟
▪性能价格比高: 与UNIX大型机比--- 5.4倍(石油), 6倍(大气所)
1970’s, 1980’s, 1990’s, 21世纪初 小型计算机, 大型计算机 服务器, 高性能服务器, 超级服务器 超级计算机 高端计算机, 世界TOP500, 中国TOP100
–获得高性能的途径
提高部件性能极其限度: CPU, 内存, 磁盘, 网络 并行处理, 设计优化, 性能优化 开发局部性: 空间局部性, 时间局部性 并行性与局部性的矛盾 周期隐藏
Cache: 时间/空间局部性, 存储层次, 组织, 更新, 一致性 程序(program), 进程(process), 线程(thread) 并行编程工具OpenMP 优点 缺点: 可扩展性差 RISC+UNIX 小型机
SMP: Symmetric Multi-Processing
CPU
......
……. ……. …….
…….
如何用数组处理机 进行矩阵运算?
Master processor 主控程序
….
…. …. ….
处理单元(PE)阵列: SIMD
共享存储对称式多处理机
共享存储编程模式 对称式, 紧耦和 连接网络:
总线(图): 流水线结构, 带宽, 延迟 交叉开关Cross Bar(草图) 多级网(草图)
5, p2读u, 得?
u:5
u:?
u:5
Bus/cross bar/…
I/O bus u:5
I/O设备
内存
Cache 一致性问题的解决
存储器更新策略:
“立即写”策略(write-through) WR “后写”策略(Write-back) WB: 缓存块更新时写回
产生的问题:
“立即写”策略时: 一致性问题(cache- cache, cache-内存) “后写”策略时: 一致性(区别?)
SGI: Origin3000, Altix3000
基于指令流/数据流的体系结构分类
指令流(程序流)/数据流并行
单指令流单数据流(SISD): 单CPU计算机 单指令流多数据流(SIMD):数组处理计算机 多指令流单数据流(MISD:栈计算机(无实用机) 多指令流多数据流(MIMD):MPP, cluster SPMD: 单程序/多数据流, MPP, cluster MPMD: 多程序流/多数据流, 高吞吐(事务处理)
IA + Linux/NT: 联想深腾1800 系列,性价比高 RISC + Unix: IBM sp 系列,性价比低 2,UNIX SMP 小型机: IBM 690,SUN,
商务计算为主, 易编程, 可扩展性差 3,(传统)大规模并行机(mpp): T3E,曙光1000
编程不易,曾停止发展 Cray XT系列的Red Storm 重新抬头, TOP10, 原因: 大规模时体积小
局部性(locality)
空间局部性:
cache 内: 数据块 内存中 结点内 本地机器内
时间局部性: 最近用到的数据
并行性与局部性的矛盾
计算机--从串行到并行
基本的串行计算机结构
运算
控制
中央处理机(CPU)
连接总线
存储
输入 输出
从串行到并行
先行控制
运算器
寄存器堆
存数 总线
操作码
取数 总线
地址 总线
高性能计算机分类
4, 向量机(传统超级机):CRAY, 银河I 不再单独发展
5,向量并行机 : NEC地球模拟器, Cray X1 速度高,效率高, 昂贵, 专用, 非产品化 在世界TOP500份额居第二
6, ccNUMA: SGI Qrigin3000, Altix3000 兼顾可扩展性和可编程性
控制器
总线 指令 (内存控制)
总线
交叉存储
内存(多体)
计算机--从串行到并行
并行为什么: 计算量超过串行机能力极限: 蛋白质折叠o(1021 1, 大部件之间的并行 例: 控制器和运算器的并行:
取指令, 译码运算 控制器=>存储器, 运算器: 先行控制 2, 部件内的并行 运算器内多部件间并行: 加法器, 乘法器
服务器聚集 网格计算
云计算
网络计算模式
1,主机(mainframe)/终端 (1980年代中期年以前)
直接I/O连接或互连网连接 效率高, 开放性,扩充性差,技术复杂
2, 客户机/服务器(client/server)(1980年代后期以来) 基于局域网(LAN)或广域网(WAN) 开放、可扩充 难管理 总拥有成本(TCO)高
MIC
Dual XDR
BIC Flex I/O
流水线与向量机
流水线: pipelines 向量处理机: vector processor, 并行向量处理机 (PVP) 数组处理机age queue)
数组处理机
array processor
最终趋势: IA 和 RS6000(IBM Power) 存在和发展
芯片发展趋势
Moore 定律 每18个月(Moore周期)速度翻番, 容量大一倍, 价格降一半. 从1970年代—2000年, 正确 2000年后Moore周期: 22—24个月
Moore 定律适用到何时? 2020年.
Moore 定律不适用的原因?
流水线, 向量机, PVP, 数组处理机 SMP, 紧偶合, 共享存储, Cache 一致性 MPP, 机群,松散偶合, 分布式存储 ccNUMA, 计算资源虚拟化
基本计算模式:
主机/终端, 客户机/服务器,服务器聚集,网格计算,云计算
高性能计算机
–何为高性能计算机 ?
速度, 功能, 存储容量 与时俱进的标准:
– GPU computing is the use of a GPU (graphics processing unit) to do general purpose scientific and engineering computing. The model for GPU computing is to use a CPU and GPU together in a heterogeneous computing model. The sequential part of the application runs on the CPU and the computationally-intensive part runs on the GPU. From the user’s perspective, the application just runs faster because it is using the high-performance of the GPU to boost performance.
选择一致性策略的因素: 复杂性, 性能/效率, 成本
MPP: Massively Parallel Processing
CPU 内存
CPU 内存
......
CPU 内存
连接网络
分布式存储(编程模式), 松散耦合, 消息传递, 粗粒度并行, 可编程性/可扩展性 与数组处理机的区别
机群 (clusters)
网络计算模式(续)
3,服务器聚集(server consolidation)(90年代中后期以来) • 同时提供多种服务 • 基于局域网LAN • 综合1, 2的优点, 去其缺点 • 开放, 可扩充, 易管理, TCO 低 4,网格计算 : 共享资源 • 分布于宽带广域网(WAN)上的“格点”, • 共享地理分布各类资源:服务器, 数据, 贵重仪器等 • 格点内服务器聚集 • 像使用水和电一样, 不关心计算在何处进行 • 网格操作系统(Globus), 网格前端环境
多核芯片
多核芯片Multi-Core解决体积/功耗体积问题
AMD 双核芯片
Intel 4 核 芯片
HT CPU
Cache
Cache
HT: Hyper Transfer
多核芯片功耗同单CPU芯片一样 多线程
Many multi-threads
多核芯片-AMD
– What is GPU Computing?
No. of cores >100 1.0TeraFlpos/chip (single precision)
CELL 芯片结构框图
SIMD, 单精度>256GFlops, 双精度>26GFLOPS
SXU
LS
协处理器/单元 SPU SPE
SMF
EIB (96 bytes/clock)
L2 PPU L1 PXU
7, 专用机: IBM BlueGene, BlueGen/L 解决规模(速度)和体积功耗矛盾
主流高档计算机—机群系统
世界TOP500中(贴标签)的机群
1999年
3套 , 2002年11月: 56套