魔方(曙光5000A)超级计算机的测试与分析

合集下载

曙光5000A天体大规模数值模拟软件性能测试

西安交通大学学报第４３卷在国产百万亿次超级计算机曙光５０００Ａ上对天体大规模数值模拟软件中的旋转行星球壳内的流体动力学程序进行了性能和可扩展性测试．实验结果体现了曙光５０００Ａ良好的性能，同时也对下一步天体大规模数值模拟软件的优化研究有重要的指导意义．曙光５０００Ａ高性能计算机是国家“８６３计划”高性能计算机及其核心软件重大专项支持的研究项目，是面向网格的高性能计算机，可以为网格提供计算服务，同时也是面向信息服务的超级服务器，可以提供多目标的系统服务．曙光５０００Ａ系统峰值运行速度达到２．３３×１０１４次／ｓ浮点操作，Ｌｉｎｐａｃｋ运行速度超过１．８×１０１４次／ｓ浮点操作，是目前国内速度最快的商用高性能计算机系统．２００８年１１月，曙光５０００Ａ在国际超级计算机排名Ｔ（）Ｐ５００中列第１０位，在中国高性能计算机性能排名ＴＯＰｌ００中名列第ｌ位Ｌｌ屯］．在天文学的行星研究中，行星流体和磁流体动力学数值模拟是近年来国际关注的重点之一．行星流体动力学中的时空尺度跨度大、非线性耦合、球形几何形状且快速旋转以及极端的动力学参数等特点，使得必须进行大规模的并行求解［３】．本文对天体大规模数值模拟软件中描述行星快速旋转时流体运动过程的并行程序进行了测试，该程序模拟的不同参数下旋转球壳的温度等值面图如图１所示［４’５］．（ａ）慢速旋转（ｂ）快速旋转低Ｒａｙｌｅｉｇｈ数（ｃ）快速旋转中Ｒａｙｌｅｉｇｈ数（ｄ）快速旋转高Ｒａｙｌｅｉｇｈ数图ｌ旋转球壳内计算结果的温度等值面图１天体大规模数值模拟软件简介天体大规模数值模拟软件包中的测试程序是基于有限差分法求解如下的球壳内行星流体动力学方程组［６＿７］段ｆ譬＋Ｈ・Ｖｕｌ＋２ｋ×Ｈ＝一ｖＰ＋＼ｃ，ｆ／鼢三＠＋ＥｋＶＺｕ（１）ｒｏ塑＋Ⅳ・Ｖ（等１／，・Ｈ＋妻ｌ－＇ｒＶ２＠（２）＼ｒ。

Ｖ・Ｈ一０（３）式中儿０、西分别为球坐标中的半径、余纬度和经度；ｒ为位置矢量，可以写为（ｒ，０，西）；“（ｒ，￡）、＠（，，￡）、ｐ（ｒ，￡）分别为待求的速度矢量、温度和压强，其中比的３个分量为（Ｕ，，ｎｏ，Ｕ。

超级计算技术中的性能评测与性能优化

超级计算技术中的性能评测与性能优化超级计算技术在现代科学和工程领域发挥着重要的作用。

为了充分发挥超级计算机的潜力，性能评测与性能优化是不可或缺的环节。

本文将探讨超级计算技术中的性能评测和性能优化的重要性以及相关方法和工具。

性能评测是评估超级计算机系统性能的过程。

它通过定量和定性分析系统的计算能力、存储能力、通信能力等指标，提供对超级计算机性能的全面了解。

性能评测的目的是为了识别系统的瓶颈，找出性能瓶颈的原因，并寻找性能优化的方法。

性能评测可以从不同的角度进行。

最常用的方法是基准测试，即使用一系列标准化的测试程序来测量系统的性能。

基准测试的优点是简单易行，但也存在一些局限性，如无法涵盖所有应用场景和无法反映实际工作负载。

除了基准测试，还可以使用一些性能分析工具来对超级计算机进行性能评测。

这些工具可以跟踪和分析系统中各个组件的运行状况，帮助确定性能瓶颈的根本原因。

常见的性能分析工具包括TACC、PAPI、MAQAO等。

这些工具提供了丰富的统计信息和可视化界面，帮助用户更好地理解系统性能。

在性能评测的基础上，性能优化成为了提升超级计算机性能的关键环节。

通过识别和解决系统瓶颈，可以提高系统的计算速度、存储效率和通信带宽，从而提升超级计算机的整体性能。

性能优化可以从多个方面进行。

首先，代码优化是提高性能的首要任务。

通过优化算法和数据结构，以及合理利用硬件资源，可以减少计算量和存储需求，从而提高计算速度和内存效率。

此外，合理并行化也是性能优化的重要手段。

通过将任务划分为多个并行的子任务，并使用并行编程模型（如MPI和OpenMP等），可以充分利用计算机集群的计算能力。

此外，还可以通过优化I/O操作、减少通信开销、降低能耗等方式来进一步提高系统性能。

为了实现性能优化，可以借助一些性能优化工具和框架。

例如，Perf、Intel VTune、HPCToolkit等工具提供了丰富的性能分析和调优功能，可以帮助用户找到性能瓶颈和优化的潜在机会。

2011-12学年度第一学期期中初一IT

2011-12学年度第一学期期中初一IT检测题一、选择题：1．开机进入系统画面之前，电脑通常会在DOS界面下显示一些相关的信息，如Main Processor：Intel(R) Pentium(R) 4 3.60GHz(200*18)Memory Testing：1.87GB 其中，1.87GB指的是（）A．内存的大小 B．CPU频率 C．硬盘的大小 D．电源风扇的转速2．在DOS命令用户界面下，如果你输入一条命令后，屏幕够示出“……不是内部或外部命令，也不是可运行的程序或批处理文件”，说明你输入的命令（）。

A．正在运行 B．错误 C．已转入后台 D．正在查询3．想要使大写指示灯变亮，我们应按下（）键。

A．Shift B．Enter C．Tab D．Caps Lock 4．下列（）标记的菜单下有对话框。

A．▲ B．… C．V D． II5．以下设备中属于输出设备的是（） A．键盘 B．鼠标 C．打印机 D．扫描仪6．我们要打开一个文件，通常的操作是（） A．单击 B．双击 C．右击 D．三击7．Delete键的功能是（） A．插入 B．删除 C．复制 D．粘贴8．实现移动的功能，通常的操作步骤是（）。

A．剪切复制 B．复制剪切 C．复制粘贴 D．剪切粘贴9．选择连续的几个文件时，我们一般是选定一个文件后，按住（）键再单击某个文件。

A．Ctrl B．Tab C．Shift D．Alt10．在你遇到技术难题的时候，首先想到的就是要查看软件所提供的（）文档。

A．帮助 B．属性 C．查找 D．主题11．切换输入法时，我们常用的热键是（）A．Ctrl+Shift B．Alt+Shift C．Shift+Caps Lock D．Shift+Tab12．使用智能ABC输入法或全拼输入法时，键入相应的拼音后，若显示的汉字中没有你需要的汉字，可以按（）键前后查找。

A．}或{ B．＼或／ C．］或［ D．+ 或- 13．访问网站常用的方法有两个，一个是通过输入网址来访问，另一个就是通过（）转向相应网站。

初一下册生物第四章随堂检测：第一节信息的获取

[键入文字]
初一下册生物第四章随堂检测：第一节信息的获取
为了让学生尽快进行自我调整，明确奋斗目标，进入最佳的学习状态。

因此，编
辑老师为各位老师准备了这篇初一下册生物第四章随堂检测，希望可以帮助到您! (1)要想获得我国超级计算机曙光5000A(魔方)的相关信息，你认为通过( C )方式最快捷效果最好。

A.向他人请教
B.购买书籍
C.因特网查找
D.阅读报纸
(2)如果你想在网上查找关于徐志摩的诗词《残春》的信息，用全文搜索方式查找，你认为使用关键词( B )最容易得到结果。

A.徐志摩诗
B.徐志摩残春
C.残春
D.徐志摩
(3)在网上看到自己喜欢的图片，想将其下载到自己的电脑里，以下( B )操作能正确的帮助其实现图片的下载。

A.直接单击鼠标左键
B.右击，选择图片另有为命令
C.双击鼠标左键
D.双击鼠标右键
(4)要写一篇有关新能源的论文，现在需要相关的图片，得到网上查找，( C )网站可以帮到他。

①百度②学校的校园网③Google ④搜狐
A.①②
B.①②③
C.①③④
D.①②③④(5)下列关于尊重他人知识产权的说法中正确的是( B)
A.可以复制他人信息作品的内容
B.如果需要在自己的作品中引用他人的作品，应注明引用信息的来源、作者
C.可以使用盗版书籍、软件、光盘等
D.对于作者声明禁止使用的作品，不需要尊重作者的意见
(6)一同学要搜索京剧脸谱，他访问Google 搜索引擎，键入关键词( B )，搜索范围
1。

曙光5000产品介绍

采用天潮机柜系统
环境要求
场地净高度≥2.5m 机柜（组）外围每边应留≥1.0m净空防静电地板距地高度≥200mm 楼层承重≥500Kg/m2（每机柜平均占用空间1.5㎡）机柜进风处环境温度：20℃~24℃
场地
机房温湿度机房灰尘浓度供电
湿度：40%~70% 温度变化率＜5℃/h 机房内尘埃的粒径≥0.5μm的个数≤18000粒/cm3 为保证供电稳定，客户应根据实际情况选配UPS 安全保护地的接地电阻≤4Ω
1. 铝镁合金型材 2. 双路走线槽板 3. 独特的PDU结构设计（每机柜最大支持72个电源插座，增大走线空间） 4. PDU设计不占用19”空间
特色总结
• 曙光机柜系统特色参数：机群控制中心方面：
1. 监控机群系统，无需监控节点 2. 超低功耗45W，超低噪音30dB 3. 人机交互，“一指”操作 4. 丰富IO接口 5. 同时兼容DCMM2与GridView
水冷模块
风扇模块
EC风扇
• 水冷模块截面图
气流方向（进）
气流方向（出）
热交换效率高损耗小水热交换面积大
高效节能性
水冷机柜系统应用示意图
Gridview大型机监控管理系统
Gridview组成 Gridview组成
状态监测告警管理性能报表集群管理集群部署 Mterm
状态监控子系统（Gridview）状态监控子系统（Gridview）
安全
防雷保护地的接地电阻≤10Ω 隔离强电磁场和产生电子噪声的电子设备，例如电梯、大功率电机、广播电视发射设备、大功率高频通信设备等
采用水冷机柜系统
环境要求
场地净高度≥3.4m 机柜（组）外围每边应留≥1.0m净空防静电地板距地高度≥350mm 楼层承重≥500Kg/m2（每机柜平均占用空间3㎡）机房环境温度：25℃以下

曙光5000A

曙光5000A曙光超级计算机相关机构及超算网格介绍2003-12-16 11:20--------------------------------------------------------------南方网讯上海超级计算中心(SSC)是2000年上海市一号工程--上海信息港主体工程之一, 既是上海重要的信息技术基础设施，又是加速上海国民经济和社会发展、提升上海技术创新能力的高科技基础设施。

目前，上海超级计算中心正在为全市各行各业提供海量信息处理，为高科技领域的研究开发和技术创新提供高性能计算服务，在气象预报、地质勘探、生物医药、基因研究、飞机制造、汽车设计、新材料研究等领域已有大量成功应用。

上海超级计算中心在高性能计算领域不遗余力的推广和强大的技术支持促进了上海地区高性能计算用户的不断增长和应用水平的提高。

当前，上海超级计算中心的计算资源已不能满足日益增长的需求，为能更好地满足上海及上海周边地区乃至部分国内的高性能计算用户的需求，上海超算中心订购了10万亿次曙光高性能计算机，作为国内最大的网格主节点，曙光4000A到位后，上海超算将成为我国信息技术领域的三峡大坝。

曙光信息产业有限公司曙光信息产业有限公司成立于1995年6月，是以国家"863"计划重大成果为基础的股份制企业，曙光公司总部设在深圳，在全国20多个省市设有平台办事机构，在全国分布有1000多家代理商并于2001年5月在香港成功上市。

目前曙光为国内服务器领域前三甲的供应商，为国内高性能计算机领域最有影响力的品牌。

曙光公司以中科院计算所、国家智能计算机研究开发中心和国家高性能计算机工程中心强大的技术和人才为后盾，开发推出了三大系列30多种型号的服务器，已经实现了从巨型计算机和超级服务器的供应商到全系列服务器产品供应商的角色转变，向用户提供了从PC服务器到RISC服务器、价格从一万元到一亿元的全系列服务器产品，形成了以曙光天潮系统超级服务器、曙光天阔PC服务器和曙光天演UNIX系列服务器三大系列为主的30余款曙光全系列服务器产品。

超级计算技术的性能评测与优化指南

超级计算技术的性能评测与优化指南超级计算技术在现代科学研究、工程设计和商业决策中起到了至关重要的作用。

性能评测和优化是确保超级计算机系统运行高效且最大化利用其计算能力的关键步骤。

本文将介绍一些评测超级计算机性能的方法，并提供一些优化指南，以帮助提高超级计算技术的效率和性能。

首先，对于性能评测，我们需要了解超级计算机的硬件和软件架构，以便确定评测方法。

在评测过程中，我们关注的主要指标是计算能力、内存访问速度、并行性和通信效率。

1. 计算能力评测:计算能力是指系统每秒能够执行的浮点运算次数。

常见的计算能力评测方法包括LINPACK基准测试和高性能计算基准测试（HPCG）。

通过这些测试，我们可以了解计算系统的基本性能特征，如处理器速度、运算器数量和数据传输速度等。

2. 内存访问速度评测:内存访问速度对超级计算机的性能至关重要。

评测内存访问速度的常用方法有STREAM基准测试和latency测试。

这些测试可以帮助我们确定内存系统的带宽和延迟，从而为优化内存访问提供指导。

3. 并行性评测:并行计算是超级计算技术的核心，也是评测和优化的关键考量之一。

并行性评测可以通过使用OpenMP、MPI和CUDA等并行编程工具和库来实现。

通过编写并行程序，我们可以测量并行运算的性能，并发现瓶颈和优化机会。

4. 通信效率评测:超级计算机中节点之间的通信是系统性能的重要组成部分。

通信效率评测方法包括使用PingPong测试和MPI通信测试。

这些测试能够帮助我们确定节点之间的通信延迟和带宽，以及可能存在的瓶颈。

一旦我们完成了性能评测，就可以利用优化指南来提高超级计算系统的效率和性能。

以下是一些优化指南供参考：1. 并行化和向量化：通过使用并行编程技术，如OpenMP和CUDA，将问题划分为更小的子问题，并使用多个处理器或GPU同时处理。

此外，利用高级语言特性和编译器优化选项，将循环向量化以提高计算效率。

2. 数据局部性优化：提高数据访问局部性可以减少内存访问延迟，通过重用缓存中的数据来实现更快的数据访问速度。

魔方(曙光5000A)超级计算机的测试与分析

另外３个是计算流体力学常用的基本程序，其主要测试特点为：ＬＵ（Ｌｏｗｅｒ－ＵｐｐｅｒＴｒｉａｎｇｕｌａｒ，对称超松弛求解块稀疏方程组），主要测试细粒度的非连续存储访问点到点阻塞通信；ＢＴ（ＢｌｏｃｋＴｒｉｄｉａｇｏｎａｌ，解５ｘ５三对角块方程组），测试通信和计算的平衡，以非连续存储访问点到点长消息通信为主；ＳＰ（ＳｃａｌａｒＰｅｎｔａｄｉａｇｏｎａｌ，解五对角线方程组），测试通信和计算的平衡，以非连续存储访问点到点长消息通信为主，与ＢＴ的通信模式相似，但通信强度比ＢＴ高。
ＳＰ－ＭＺ随着问题规模的增加（如从ＣＬＡＳＳＡ到ＣＬＡＳＳＥ），整个计算域被划分成多个相等大小的子域，这样ＳＰ－ＭＺ就易于达到负载均衡。相比之下，ＢＴ－ＭＺ由于问题的特性产生的ｚｏｎｅ的大小变化很大，使其更接近于真实的应用场景。而ＢＴ－ＭＺ每个ｚｏｎｅ的大小不相同，ｚｏｎｅ的大小变化跨度大，最大的ｚｏｎｅ和最小的ｚｏｎｅ大小比接近２０，这就使得ＢＴ－ＭＺ相比ＳＰ－ＭＺ更难以达到负载均衡。
４．Ｂｅｎｃｈｍａｒｋ结果及分析
４．１Ｓｔｒｅａｍ测试结果及分析在“魔方”刀片上使用１６线程，测试规模
Ｎ＝２２７，Ｓｔｒｅａｍ使用的内存为３ＧＢ，使用ｐｇｃｃ７．０编译器，编译选项为－ｆａｓｔ－ｍｐ－Ｏ２－ｔｐｂａｒｃｅｌｏｎａ－６４－ｍｃｍｏｄｅｌ＝ｍｅｄｉｕｍ，编译Ｓｔｒｅａｍ得到的数据如表１。
文中，以“魔方”作为测试平台，选取单点内存带宽测试程序Ｓｔｒｅａｍ进行单点性能测试，使用ＩｎｔｅｌＭＰＩＢｅｎｃｈｍａｒｋ进行集群系统的组通信性能测试；应用上，选取已被广泛用于评价高性能计算机系统的ＮＡＳＰａｒａｌｌｅｌＢｅｎｃｈｍａｒｋ及ＮＡＳＰａｒａｌｌｅｌＢｅｎｃｈｍａｒｋＭｕｌｔｉ－Ｚｏｎｅ作为测试算例，研究在ＨＰＰ架构下消息传递编程模型、共享内存编程模型及混合编程模型下应用的性能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＮＰＢ－ＭＺ软件包提供两种不同的Ｈｙｂｒｉｄ模式的并行实现，一种是ＭＰＩ＋ＯｐｅｎＭＰ实现，一种是ＳＭＰ＋ＯｐｅｎＭＰ实现。ＭＰＩ＋ＯｐｅｎＭＰ混合编程模式广泛应用用科学计算应用中，且更适合“魔方”的系统架构。在ＭＰＩ＋ＯｐｅｎＭＰ实现中，节点间使用ＭＰＩ进行通信，单个节点内部使用ＯｐｅｎＭＰ实现并行。更多的有关ＮＰＢ－ＭＺ混合编程模式的实现可参考文献［６，７］。本测试中选用ＮＰＢ－ＭＺ问题规模是ＣｌａｓｓＤ。ＢＴ－ＭＺ和ＳＰ－ＭＺ的Ｚｏｎｅ数均为３２ｘ３２，（１０２４个Ｚｏｎｅ），总的计算网格大小（Ｇｘ＊Ｇｙ＊Ｇｚ）为１６３２ｘ１２１６ｘ３４（６７．５Ｍｉｌｌｉｏｎ个网格点）。ＣｌａｓｓＤＰｕｒｅＭＰＩ运行所需内存１２．８ＧＢ，内存的最小要求限制了单节点上可运行的总进程数。
文中，以“魔方”作为测试平台，选取单点内存带宽测试程序Ｓｔｒｅａｍ进行单点性能测试，使用ＩｎｔｅｌＭＰＩＢｅｎｃｈｍａｒｋ进行集群系统的组通信性能测试；应用上，选取已被广泛用于评价高性能计算机系统的ＮＡＳＰａｒａｌｌｅｌＢｅｎｃｈｍａｒｋ及ＮＡＳＰａｒａｌｌｅｌＢｅｎｃｈｍａｒｋＭｕｌｔｉ－Ｚｏｎｅ作为测试算例，研究在ＨＰＰ架构下消息传递编程模型、共享内存编程模型及混合编程模型下应用的性能。
１２ａ
ＣＰＵ０（０，１，２，３），ＣＰＵ１（０，１，２，３），ＣＰＵ２（０，１，２，３）
１２ｂ
ＣＰＵ０（０，１，２），ＣＰＵ１（０，１，２），ＣＰＵ２（０，１，２），ＣＰＵ３（０，１，２）
１６
ＣＰＵ０（０，１，２，３），ＣＰＵ１（０，１，２，３），ＣＰＵ２（０，１，２，３），ＣＰＵ３（０，１，２，３）
魔方（曙光５０００Ａ）专辑
45
魔方（曙光５０００Ａ）超级计算机的测试与分析
徐莹张丹丹徐磊张伟姜恺姚继锋
上海超级计算中心上海２０１２０３ｙｘｕ＠ｓｓｃ．ｎｅｔ．ｃｎ
摘要：本文对“魔方”（曙光５０００Ａ）超级计算机系统从单点性能和应用在集群系统上的性能进行
３．Ｂｅｎｃｈｍａｒｋ程序集简介
３．１访存带宽测试ＳｔｒｅａｍＳｔｒｅａｍｂｅｎｃｈｍａｒｋ用于单节点内测试内存访问的
持续带宽，它通过测试四种向量运算的性能来衡量系统的性能，这四种运算是：（１）ＣＯＰＹ：ａ（ｉ）＝ｂ（ｉ）；（２）ＳＣＡＬＥ：ａ（ｉ）＝ｑ＊ｂ（ｉ）；（３）ＳＵＭ：ａ（ｉ）＝ｂ（ｉ）＋ｃ（ｉ）；（４）ＴＲＩＡＤ：ａ（ｉ）＝ｂ（ｉ）＋ｑ＊ｃ（ｉ）。Ｓｔｒｅａｍ的并行版本基于ＯｐｅｎＭＰ实现，可用于测试多核的ＳＭＰ节点。Ｓｔｒｅａｍ在设计上采用了远远大于Ｃａｃｈｅ容量的大数据集，因此其测试结果更能反映大型向量计算类应用的性能。
３．３计算流体力学应用ＮＰＢＮＰＢ（ＮＡＳＰａｒａｌｌｅｌＢｅｎｃｈｍａｒｋ）［５］所包含的８个程序
来自计算流体动力学应用领域，它们可以很好的表现出一般应用程序的实际性能，已经被普遍接受为高性能计算机的性能测试标准。
ＮＰＢ程序包有５个核心程序，它们是应用较频繁的一些算法，其主要测试特点为：ＩＳ（ＩｎｔｅｇｅｒＳｏｒｔ，整数排序），主要测试整数运算性能和集合通信性能，对通信延迟很敏感；ＥＰ（ＥｍｂａｒｒａｓｓｉｎｇｌｙＰａｒａｌｌｅｌ，无通信并行），主要测试数序函数的浮点运算性能；ＭＧ（３－ＤＭｕｌｔｉｇｒｉｄ，三维多重网格），采用多重网格算法求解三维Ｐｏｉｓｓｏｎ方程，主要测试规则的非连续存储访问集合通信和点到点通信；ＣＧ（ＣｏｎｊｕｇａｔｅＧｒａｄｉｅｎｔ，共轭梯度法），主要测试不规则的集合通信和点到点通信；ＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ，快速傅立叶变换），用ＦＦＴ求解三维偏微分方程，主要测试集合通信。
本文分四部分，第二部分介绍“魔方”集
群系统，第三部分介绍所使用的测试程序及应用Ｂｅｎｃｈｍａｒｋ，第四部分为测试结果及分析，最后一部分为全文结论及未计算中心的“魔方”，系统为ＨＰＰ体系结构，共１９２０个１６计算核心的刀片节点，每个节点通过Ｉｎｆｉｎｉｂａｎｄ高速网络互联。每个节点由４路Ｑｕａｄ－ｃｏｒｅＡＭＤＯｐｔｅｒｏｎ８３４７＠１．９ＧＨｚ构成，６４ＧＢ内存，理论计算峰值达到１２８Ｇｆｌｏｐ／ｎｏｄｅ。“魔方”的计算节点分布在３８个ｒａｃｋ中，每个ｒａｃｋ包含有５箱刀片（每箱１０个刀片），每箱刀片内置有Ｉｎｆｉｎｉｂａｎｄ交换模块和千兆以太网交换模块。
了测试与分析。测试结果为在“魔方”超级计算机进行科学及工程计算应用提供参考。
１．引言
２００８年世界超级计算机ＴＯＰ５００中，采用ＳＭＰ的集群系统所占比例约８２％，采用多核处理器的ＳＭＰ集群系统所占比例近８０％，使用多核处理器的ＳＭＰ集群系统已经成为一种趋势。排名第１０的曙光５０００Ａ，在上海超级计算中心安装之后，取名为“魔方”（ＭａｇｉｃＣｕｂｅ），采用的是新型的“超并行”（ＨｙｐｅｒＰａｒａｌｌｅｌＰｒｏｃｅｓｓｉｎｇ，简称ＨＰＰ）系统架构，具有全局地址空间和三级并行（ＣＭＰ－ＳＭＰ－ＤＳＭ）的分布式系统。这种体系结构结合了ＳＭＰ和ＭＰＰ的优点，同时具备节点间分布式存储和节点内共享存储的层次结构，支持节点间消息传递和节点间共享内存２级至多级混合并行编程模型。目前，对于集群上不同并行编程模型的研究［２，３］都基于某种类型的硬件系统，系统的架构往往成为性能影响的最重要的因素。
测试中ＢＴ和ＳＰ要求处理器网格为方形，ＬＵ和ＭＧ要求处理器数目为２的幂次。３．４混合编程应用ＮＰＢ－ＭＺ
ＮＰＢ－ＭＺ（ＮＡＳＰａｒａｌｌｅｌＢｅｎｃｈｍａｒｋＭｕｌｔｉ－ＺｏｎｅＶｅｒｓｉｏｎ）是ＮＰＢ３．１版本以上的混合并行编程版本。ＮＰＢ－ＭＺ程序包含３个应用的Ｂｅｎｃｈｍａｒｋ：ＢＴ－ＭＺ，ＳＰ－ＭＺ，ＬＵ－ＭＺ。
46
《高性能计算发展与应用》２００９年第三期总第二十八期
进行测试，ＩＭＢ－ＥＸＴ和ＩＭＢ－ＩＯ是针对ＭＰＩ２的测试，分别测试ＭＰＩ２的单边通信和Ｉ／Ｏ性能。
ＩＭＢ既可以对ＭＰＩ在集群中运行的效率做全面的测试，也可以针对特定ＭＰＩ进行测试。通过设定运行时参数，ＩＢＭ可以对纪录运行时间，消息长度，通信子的选择等进行调节。除此之外，ＩＭＢ还有有面向点对点通信以及集合通信的测试项目。本次进行ＩＭＢ测试针对的是ＭＰＩ的集合通信，测试包含两个部分：Ｂａｒｒｉｅｒ和Ｂｃａｓｔ，其中Ｂｃａｓｔ针对不同的消息长度进行了测试。
的函数。其中４０９６核数的情况下，Ｂａｒｒｉｅｒ函数所花时间有比较明显的增加，小于２０４８核情况，从１６到２０４８核，耗费的时间增加了不到六倍。整体来看性能较为出色。
图１ｓｔｒｅａｍ测试结果由测试结果（图１）可以看出，当采用８ｃ方案时（即每个ＣＰＵ的两个核绑定２个线程的情况）此时访存的带宽达到最大值，比１６线程的结果还要好。测试结果说明，使用线程绑定技术能够提高应用程序对内存的访问速度。
面对如此庞大的高性能的计算系统，如何让它的计算能力发挥到最大，更有效的进行利用，尤其是如何利用其为大规模科学及工程计算模拟服务，已经成为研究的热点。为了能有效利用高性能计算资源并提高科学和工程应用的性能，本文从两个角度对“魔方”的使用进行了考查，一方面是系统本身可提供的性能，包括单点性能及集群系统性能；另一方面则是典型应用大规模运行时的可扩展性及加速性能。
注：ＣＰＵ０（０，１，２，３），ＣＰＵ１（０，１，２，３）表示８个线程分别依次绑定到ＣＰＵ０和ＣＰＵ１的所有核。
47
由于ＯｐｅｎＭＰ线程在核间的迁移可能会导致应用性能的下降，所以，同时测试了将线程绑定到核上的情况，如表２所示，分别使用８、１２和１６个线程测试Ｓｔｒｅａｍ，同时设置不同的绑定方案，绑定方案见表２。
另外３个是计算流体力学常用的基本程序，其主要测试特点为：ＬＵ（Ｌｏｗｅｒ－ＵｐｐｅｒＴｒｉａｎｇｕｌａｒ，对称超松弛求解块稀疏方程组），主要测试细粒度的非连续存储访问点到点阻塞通信；ＢＴ（ＢｌｏｃｋＴｒｉｄｉａｇｏｎａｌ，解５ｘ５三对角块方程组），测试通信和计算的平衡，以非连续存储访问点到点长消息通信为主；ＳＰ（ＳｃａｌａｒＰｅｎｔａｄｉａｇｏｎａｌ，解五对角线方程组），测试通信和计算的平衡，以非连续存储访问点到点长消息通信为主，与ＢＴ的通信模式相似，但通信强度比ＢＴ高。
３．２组通信测试ＩＭＢＩＭＢ（ＩｎｔｅｌＭＰＩＢｅｎｃｈｍａｒｋ）［４］是ＩｎｔｅｌＣｌｕｓｔｅｒ
Ｔｏｏｌｋｉｔ的一个组成部分，是由Ｉｎｔｅｌ开发维护的用于测试ＭＰＩ函数在实际运行中的性能的软件包。它包含三个组成部份：（１）ＩＭＢ－ＭＰＩ１；（２）ＩＭＢ－ＥＸＴ；（３）ＩＭＢ－ＩＯ。其中ＩＭＢ－ＭＰＩ１针对不同的ＭＰＩ１函数
ＳＰ－ＭＺ随着问题规模的增加（如从ＣＬＡＳＳＡ到ＣＬＡＳＳＥ），整个计算域被划分成多个相等大小的子域，这样ＳＰ－ＭＺ就易于达到负载均衡。相比之下，ＢＴ－ＭＺ由于问题的特性产生的ｚｏｎｅ的大小变化很大，使其更接近于真实的应用场景。而ＢＴ－ＭＺ每个ｚｏｎｅ的大小不相同，ｚｏｎｅ的大小变化跨度大，最大的ｚｏｎｅ和最小的ｚｏｎｅ大小比接近２０，这就使得ＢＴ－ＭＺ相比ＳＰ－ＭＺ更难以达到负载均衡。