透过天河一号看超级计算机技术
“天河一号”:中国计算机研制的里程碑

目前世界上最快计算机 的 10 0 0倍。 科学 家 的理 由是 , 一些 重大 的科 学研究 , 例如气 候预 } g 灾 害性 天气预报 以及 飞行器 的空气动 力学 En 计算等 , 都需要这个量级 的计算 。 而迫切的现实需要 ,
域 已经对千万亿 次甚至更高性 能的计算机提 出 了现 实需求。 因为在现代科学发展 中, 计算 已经成为与理 论和实验并行的第三 大引擎。 作为我国高技术研发计 划 的一个重大项 目—— “ 天河一号 ”是在中 国国防科 , 技大学 “ 银河” 系列超级计算机 的基础上 , 仅用一年 多 时间便研制完成 的。
的外形设计过去一个 型号 要在风洞做 3 的实验 , 年 现
算研 制中 , 峰值 速度 其实只 是性 能的一个 方面 , 可靠 性、 易用性 、 互联通信 、 能耗 等 问题将更加突 出。百万
万亿次计算机 的功耗将 为几十兆瓦甚至几百兆 瓦 , 如
在运用超级计 算机后 , 设计周期缩短 到 了 6个月。金
.世 , 口 必将加 速 中 国科技 水 平 的整体 提 升 , 中国早一 天成 为科 技 大 国创造 了条件 。 ] 为
. ’ - “ 河 娶-”・ 天
- 一
●
中国计算机研制的里程碑
文 l 光 陆 苏
超级计 算机又称高性能计算机 、巨型计算机 , 是 世界公认的高新技术 制高点和 2 世纪最重要 的科学 1
件
计
爪
: 需整 圈 这 响设 于 要 就到 影
算机将部 署在 天津滨海新区 , 向国内外用户提供高 面
性能计 算服 务 , 向全社会开放 。最可喜 的是直接参与 “ 天河一号 ” 发的科技人 员有 2 0多人 , 均年龄仅 研 0 平 为3岁, 6 中国计算机研 发队伍的年 轻化 , 可见一斑。
关于超级计算机

超级计算机超级计算机通常是指由数百数千甚至更多的处理器(机)组成的、能计算普通PC机和服务器不能完成的大型复杂课题的计算机。
为了帮助大家更好的理解超级计算机的运算速度我们把普通计算机的运算速度比做成人的走路速度,那么超级计算机就达到了火箭的速度。
在这样的运算速度前提下,人们可以通过数值模拟来预测和解释以前无法实验的自然现象。
中国超级计算机“天河一号”超级计算机技术超级计算机技术已不再是一个新鲜的话题,美国IBM、日本NEC、中国曙光都已推出自己的超级计算机,但比较而言,以美国两院院士、“世界超级涡轮式刀片计算机之父”陈世卿博士为首的专家团队回归祖国后研发出的超级计算机仍然具有绝对的优势。
新一代的超级计算机采用涡轮式设计,每个刀片就是一个服务器,能实现协同工作,并可根据应用需要随时增减。
单个机柜的运算能力可达460.8千亿次/秒,理论上协作式高性能超级计算机的浮点运算速度为100万亿次/秒,实际高性能运算速度测试的效率高达84.35%,是名列世界最高效率的超级计算机之一。
通过先进的架构和设计,它实现了存储和运算的分开,确保用户数据、资料在软件系统更新或CPU升级时不受任何影响,保障了存储信息的安全,真正实现了保持长时、高效、可靠的运算并易于升级和维护的优势。
目前(2010年10月)世界最快超级计算机为天津国家超级计算机中心的天河-1A,速度为每秒2.5千万亿次,据悉该计算机采用了逾7000个英伟达生产的图形芯片由日本政府出资、富士通制造的巨型计算机“K Computer”目前落户于日本理化研究所,并成功从中国手中夺回运算速度排行榜第一的宝座。
日本的超级计算机首次重返第一。
“K Computer”当前运算速度为每秒8000万亿次,而到2012年完全建成时,其运算速度将达到每秒一万万亿次。
“K Computer”比现居第二的中国超级计算机速度快出约3倍,甚至比排名第2至第6的计算机运算速度总和还要快。
浪遏飞舟,笑傲天河

浪遏飞舟,笑傲天河——“天河一号”千万亿次计算机总设计师杨学军张利生张羽嘉宾“天河一号”总设计师、国防科技大学副校长杨学军“天河一号”工程办主任李楠“天河一号”副总设计师卢凯“天河一号”编译系统主任设计师杨灿群“天河一号”计算阵列主任设计师蒋句平他年轻有为,31岁身担重任,成为中国巨型计算机的总设计师。
他知难而上,面对国外的重重封锁,锻造独特的中国科技理念,令业界震惊。
从百万亿次飞跃到千万亿次,他为计算机插上了飞翔的翅膀。
2009年11月18日,由中国自主研发的“天河一号”超级计算机,在国际超级计算大会上,凭着每秒钟超千万亿次的运算峰值速度脱颖而出,获得了亚洲第一的证书,排名位居世界第五,中国从此成为除美国之外第二个有能力研制千万亿次计算机的国家。
超级计算大会,也被称为超级计算机领域的奥运会。
超级计算大会所公布的结果,是以国际TOP500组织的排名榜为依据的。
国际TOP500组织是全世界最具权威的超级计算机排名机构。
“天河一号”计算一天时间,就相当于我们一台双核的个人电脑要计算160年时间。
目前全世界Top500里面,前10名里面,只有一台中国“天河一号”是这个非美国的产品,其他的9台都是美国人的产品。
虽然“天河一号”的研制成功令国内外同行们感到震惊,但作为总设计师的杨学军,平日里却是一个非常低调的人,尽管他31岁就担任了银河-III的总设计师,46岁就担任国防科技大学的副校长。
此人要想办法留下来1983年,我国政府开始实行改革开放的政策。
为了适应经济发展的需要,当年国防科技大学研制成功了中国第一台每秒运行亿次的银河-I巨型计算机。
也就在这一年,准备填报研究生志愿的杨学军,在南京通信工程学院里,得知了这个消息。
杨学军非常向往能从事高性能计算机这样的科学研究的事业,于是报考了国防科技大学研究生。
杨学军从小学开始,数学成绩一直就非常好,这与他的母亲不无关系,杨学军的母亲是山东省武城县中学的一位数学老师,而且她在1991年曾被评为全国优秀教师。
探秘世界最快超算天河一号

探秘世界最快超算天河一号处理器的性能提升一直决定着全球超级计算机运算能力的发展。
过去的约10年里,TOP500全球最高速超级计算机的总运算性能提升速度基本上和摩尔定律保持一致。
然而在2007年左右,TOP500超级计算机的性能开始明显的加速上涨,这一时间点,正是GPU被引入超级计算机的开端。
从此GPU作为超级计算机中重要的性能部件彰显着不可替代的作用,CPU+GPU的异构超算能带来比同样规模的纯CPU提供数以倍计的浮点科学计算能力。
这种“异构计算”应用的典型例子就是中国的天河一号A,它使用了超过14000颗CPU,辅以7168颗Tesla M2050 GPU,总运算能力2.5PFLOPS,成为当今全球最强的超级计算机。
天河一号主任设计师,国防科大计算机学院系统软件研究室主任杨灿群今天也到场介绍了该机的设计过程。
据称,从去年的试验性系统,到今年的天河一号A,他们将GPU加速的效率从20%提升到了70%,同时使用自主开发的节点网络系统,规模和性能是去年使用的进口成套网络系统的两倍。
NV创始人黄仁勋在2010高性能计算峰会上专门讲述了天河一号A跟随NVidia2010高性能计算峰会的脚步,我们有幸参观了国家超级计算天津中心,并进距离的深入了解其中的天河一号A超级计算机,这种机会非常难得。
国家超级计算天津中心天河一号所在国家超级计算天津中心天河的命名来自于国防科大“银河”系列超级计算机与天津的结合。
天河一号A配备了14336颗Intel Xeon X5670 2.93GHz六核心处理器(32nm Westmere-EP),2048颗我国自主研发的飞腾FT-1000八核心处理器,以及7168块NVIDIA Tesla M2050高性能计算卡,总计186368个核心,224TB 内存,使用自主研制的互连网络架构、Linux操作系统,Linpack最大性能2.566PFlops(每秒千万亿次浮点运算)、峰值性能4.701PFlops,系统效率54.6%,技压群雄获最新全球超算TOP500排名首位,成为全球最强超级计算机。
超级计算机技术

目录你应该知道的超级计算机 (2)超级计算机的五大形态 (2)当今主流:机群式超级计算机概况 (5)机群的软件系统 (8)衡量机群的计算性能的指标 (9)试试看,构建一个低成本的小型机群系统! (9)“天河一号”的硬件与软件系统有啥不同? (10)超级计算机都有哪些用武之地? (13)写在最后:超级计算机的未来征程 (15)在去年10月底,长沙举办的中国高性能计算学术年会上,国防科技大学研制的千万亿次超级计算机“天河一号”成为焦点,这是我国国内计算能力最高的超级计算机,而且标志着我国超级计算机的研发能力成功实现了千万亿次计算的跨越。
超级计算机不仅体现了一个国家战略性高技术的发展水平,也是与科技创新、国计民生密切相关的重要基础设施。
超级计算机的各种应用,实际上会以不同的方式影响到我们每个人,这些似乎遥不可及的超级计算机实际上离我们“非常近”。
你应该知道的超级计算机目前各种超级计算机的高速处理能力基本上都是利用并行体系结构实现的,并行计算(Parallel Computing)已成为提高处理性能的关键技术之一。
简单地讲,并行计算技术就是用同时运行的多个处理机或计算机来处理同一任务,从而大幅度提高任务的处理速度、缩短了任务的处理时间。
超级计算机的五大形态在超级计算机技术的发展历程中,先后出现过多种超级计算机并行体系结构,主要有如下5种。
●并行向量处理(Parallel Vector Processing,PVP)系统并行向量处理结构采用一定数量的、并行运行的向量处理器和共享式内存(Shared Memory,SM)结构的计算机系统。
PVP系统的SM结构,也就是采用高带宽的交叉开关将各个向量处理器与其共享的内存模块连接。
向量处理器(Vector Processor)的一条指令能够同时对多个数据项(向量矩阵)执行运算,而一般的通用CPU属于标量处理器(Scalar Processor),每次只能对一个数据项进行处理。
千万亿次超级计算机“天河一号”

使 用 。除 了网络视 频 会议 ,将 来 这 一 系 统 还可应用 于通 信服 务 ,对 通话 进 行 即时 翻
译。
日本 信 息 通 信 研 究 机 构 于 2 0 06年 发
起 网络语 音 翻译 系统 的研 究 ,最 初 研究 团 队 由 E本 、韩 国 、泰 国 、印尼 、印 度 和 中 t 国 6个 国家 的研 究 人 员组 成 ,新 加 坡 和越 南 的研究 队伍 于去年加 入 。
20 0 9年 第 3期 ( 总第 14期 ) 1
卫 星遥感数 据 处理 、气 象 预报 、气候 预 测 等领 域 。
网络 语 音 翻 译 系统 问世
据新加坡 《 联合早报》报道 , 新加坡 资讯通 信研 究 院与 其他 7个 亚 洲 国家 的研 究 人员合 作 ,共 同 开发 出 以 8种亚 洲语 言
机需 要不 问 断计 算 10年 ;其 存 储 量 ,相 6 当于 4个 国家 图 书馆 藏 书量 之和 ;可 以 为 全国1 3亿人 民每 人存 储 1张高 清 晰 照 片 。
系统操 作系统 为 自行研 发 ,其 安 全 标 准 达
装备 研 制 领 域 取 得 的一 项 重 大 创 新 成 果 , 实 现 了我 国 自主研 制 超 级 计算 机 能力 从 百
验只 是迈 出 了一 小步 ,实 验 的 最终 目的是 使 人们 能够 即时将 自己大脑 内 的想 法 、话 语 和 图像直 接发 送到 他人 的大脑 内。 该 团 队表示 ,未 来 科 学 家最 终 能够创
话 就可 沟通 的未 来 还有 很 长 的路 要 走 。 未 来 学家伊 安 ・ 尔森 主要研 究 先 进 的计 算 皮
功 。 中国 高性 能计 算 机 T P0 O 10组 织 公 布
中国在计算机发展中作出的成果和贡献

中国在计算机发展中作出的成果和贡献计算机技术是物质文明和信息文明的重要组成部分,也是现代国家综合国力的标志之一。
中国自20世纪70年代开始走上了计算机技术发展之路,凭借自身的技术实力和创新精神,在计算机技术领域取得了一系列重大成果和贡献。
一、成果之一:中山大学同性计算机中山大学同性计算机是中国自主研发的第一台计算机,诞生于1984年。
同性计算机采用了先进的光纤连接技术和多级线性阵列结构,实现了每秒钟10亿次的运算速度,被称为“效能之光”。
同性计算机的成功研发,标志着我国在高科技领域具有了独立自主的创新能力。
二、成果之二:天河系列超级计算机天河一号超级计算机是中国自主研制的第一个超级计算机,于2010年蝉联全球最快计算机的称号。
天河一号采用了30万个处理器核心,峰值计算能力达到1.2千万亿次每秒(1.2 PFlops/s)。
随后的天河二号、天河三号、天河四号等超级计算机也都取得了重大的成果,不断刷新着世界计算机性能排名。
三、成果之三:中国自主操作系统中国自主操作系统的研发始于20世纪90年代,经过多年努力,目前已经取得了重大突破。
目前,中国自主操作系统包括麒麟和中标麒麟两个品牌,已经在政府、银行、军队等多个领域得到了广泛应用。
自主操作系统的推广和应用,有效促进了我国信息安全和自主可控的发展。
四、成果之四:移动互联网技术随着移动互联网的普及,中国在移动互联网技术领域也有了重大突破。
手机支付、共享单车、短信验证码等技术,都是中国自主创新的结果。
在移动互联网应用领域,中国的发展速度远超世界其他国家。
这不仅带动了电子商务、社交媒体等领域的发展,也为人们生活带来了极大的便利。
总之,中国在计算机技术发展中取得的成果和贡献不仅仅是技术实力和创新精神的体现,更是国家软实力和综合国力的体现。
在未来的发展中,我们需要继续加强技术创新和人才培养,发挥自主创新的优势,为推动经济转型升级、促进国家发展做出更多的贡献。
“天河一号”超级计算机揭开神秘面纱

“天河一号”超级计算机揭开神秘面纱从仅用16小时完成我国最大面积的石油地震勘探数据三维处理,帮助石油企业找寻油气资源,到肩负起中国基因组学“思考大脑”的使命,再到为2012年春晚上“天鹅湖”等节目制作绚烂多姿的背景……“天河一号”———我国目前运行速度最快的超级计算机,正揭开它神秘的面纱,成为推动新兴产业发展的重要创新动力。
超级计算机是世界高新技术领域的战略制高点,是体现科技竞争力和综合国力的重要标志。
记者了解到,在“天河一号”正式投入使用前,我国高性能计算资源相对分散,服务对象多为政府、科研单位,未能上升到服务新兴产业,直接为经济建设服务的高度。
“天河一号”的诞生改变了这一状况。
国防科技大学研究员徐炜瑕介绍,在科技部2009年正式批准成立首家国家级超算中心———国家超级计算天津中心后,天津滨海新区和国防科技大学加快了项目建设步伐。
经过一年多努力,成功研制出我国首台千万亿次超级计算机系统“天河一号”。
“为了这一刻我们等了20多年。
”国家超级计算天津中心主任刘光明是“天河一号”发展的见证者。
2010年,他代表天河研发团队赴美领取全球超级计算机500强桂冠证书。
“我们仅用7个月时间就完成机房基础建设,4个月完成‘天河一号’的安装与调试,保证了在超算性能最佳的时期得到充分利用,使其成为当前世界上获得广泛应用的最快的超级计算机系统。
”刘光明自豪地说。
的确“天河一号”投入使用以来,已对我国科研及经济产生较为重大的影响。
它打破了国外在高性能计算核心领域的技术封锁和禁运政策,为解决我国经济、国防、科技等领域的挑战性问题提供了重要手段。
深圳华大基因研究院曾代表我国参与了“国际千人基因组计划”。
院长汪建告诉记者,不断涌现的海量数据成为“基因组学”进一步发展的瓶颈,而高性能计算机为这一领域带来了曙光。
“使用‘天河一号’,过去要一年才能完成的500人基因信息关联性分析,现在只需三个多小时,对于提升我国的综合国力具有重要意义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
透过天河一号看超级计算机技术在去年10月底,长沙举办的中国高性能计算学术年会上,国防科技大学研制的千万亿次超级计算机“天河一号”成为焦点,这是我国国内计算能力最高的超级计算机,而且标志着我国超级计算机的研发能力成功实现了千万亿次计算的跨越。
超级计算机不仅体现了一个国家战略性高技术的发展水平,也是与科技创新、国计民生密切相关的重要基础设施。
超级计算机的各种应用,实际上会以不同的方式影响到我们每个人,这些似乎遥不可及的超级计算机实际上离我们“非常近”。
1.你应该知道的超级计算机目前各种超级计算机的高速处理能力基本上都是利用并行体系结构实现的,并行计算(Parallel Computing)已成为提高处理性能的关键技术之一。
简单地讲,并行计算技术就是用同时运行的多个处理机或计算机来处理同一任务,从而大幅度提高任务的处理速度、缩短了任务的处理时间。
1.1.超级计算机的五大形态在超级计算机技术的发展历程中,先后出现过多种超级计算机并行体系结构,主要有如下5种。
●并行向量处理(Parallel Vector Processing,PVP)系统并行向量处理结构采用一定数量的、并行运行的向量处理器和共享式内存(Shared Memory,SM)结构的计算机系统。
PVP 系统的SM结构,也就是采用高带宽的交叉开关将各个向量处理器与其共享的内存模块连接。
向量处理器(Vector Processor)的一条指令能够同时对多个数据项(向量矩阵)执行运算,而一般的通用CPU属于标量处理器(Scalar Processor),每次只能对一个数据项进行处理。
其代表机型有Cray XMP、Cray YNP、NEC SX2、我国的银河一号和二号等。
●对称式多处理(Symmetric Multi Processing,SMP)系统对称式多处理结构采用一定数量、并行运行的微处理器和共享式内存(SM)结构的计算机系统,各处理器通过系统总线或交叉开关连接共享的内存模块,可“均等”或“对称”地共享内存和其它系统资源并由同一操作系统管理,提高整个系统的数据处理能力,因此SMP属于“一致性内存访问”(Uniform Memory Access,UMA)方式,SMP的代表机型有IBM R50、SGI Power Challenge、Sun SPARC Center 2000、曙光一号等。
●分布式共享内存(DistributedShared Memory,DSM)系统分布式共享内存结构由一定数量的并行处理节点(Node)组成,每个节点都是一个相对完整的计算单元(配置有处理器和内存模块),各节点通过高速网络互连,系统由单一操作系统管理,分布于各个节点的全部内存被统一编址,可由所有用户共享。
与SMP不同,DSM对内存资源的共享是非对称的,因为每个节点访问本地内存与远程节点内存时的延迟和带宽是不同的,故DSM系统属于“非一致性内存访问”(Non-Uniform Memory Access,NUMA)方式,其代表机型有SGI Origin 2000/3000、Sequent NUMA-Q、HP/Convex SPP 1600、银河三号和神威一号等。
●大规模并行处理(Massive Parallel Processing,MPP)系统大规模并行处理结构由成百上千计算节点组成的并行处理计算机系统,每个计算节点配置一个或多个处理器,各个节点相对独立,有各自独立的内存模块和操作系统。
MPP系统的特点是可以获得很高的峰值运算速度,且由于系统的内存分布于各个节点,所以MPP属于“分布式内存”(Distributed Memory,DM)结构,具有易扩展性。
MPP的易扩展性使其能够与SMP、DSM等结合,于是出现了SMP-MPP(各个MPP节点采用SMP并行多处理机)和DSMMPP(各个节点采用DSM并行多处理机)等复合型超级计算机系统。
MPP系统的代表机型主要有IBM SP2、Intel Paragon、CRAY T3E、曙光1000等。
●机群式超级计算机系统机群式结构上世纪90年代中后期,随着Intel芯片等造价低廉的微型计算机组件的出现和网络技术的迅速发展,使采用普通微型机或工作站作为计算节点并采用高速网络互连的并行计算系统成为了可能,超级计算机体系结构由此开始迈入工作站机群(Cluster of Workstations,COW)或工作站网络(Network of Workstations,NOW)时代。
2000年以后,又出现了节点采用商用级处理器的机群系统(Cluster),以及采用SMP并行机作为计算节点的SMP机群或星群(Constellation)。
从内存访问方式上看,机群系统采用了与MPP相同的分布式内存(DM)结构,因而具有很高的可扩展性。
机群系统的代表机型有洛斯阿拉莫斯国家实验室的Avalon Cluster、ASCI Blue Mountain、深腾1800/6800和曙光2000/3000等。
1.2.当今主流:机群式超级计算机概况机群式超级计算机系统具有结构灵活、通用性强、安全性高、易于扩展、高可用性和高性价比等诸多优点,所以目前新建的超级计算机大都使用这种结构,只不过在具体采用的节点机型、拓扑结构及互连技术会有所不同。
机群式系统的基本组成高性能计算专业网站TOP500的全球超级计算机500强排名中,机群式系统所占比率连年上升,现已达到83%以上。
机群是采用高速网络将大量的节点相互连接起来的系统,每个机群节点都是一个配置有处理器、内存、I/O设备、网卡和操作系统的计算机,各个节点以协同方式并行完成计算任务。
机群系统与MPP 一样,也是属于分布式内存结构,因而具有很强的可扩展性。
具体而言,机群系统主要由节点计算机、高速互连网络、操作系统、单一系统映像等中间件、并行编程环境和应用程序等部分组成。
●机群节点的计算机机群节点可以灵活采用高性能的微型机、工作站或SMP并行机等,节点机处理器的处理性能是影响机群系统整体性能的一个最关键的因素。
理论上节点机处理器的主频和浮点运算速度是决定机群计算速度的主要因素(见后面介绍的峰值速度计算公式)。
由于图形加速处理器(GPU)具有很强的浮点和向量(矩阵数组)计算能力,所以在机群中采用一定数量的GPU作为处理器的计算加速节点,将能提升机群的性能,例如“天河一号”就采用GPU加速节点并提升了GPU的计算效率,实现了CPU与GPU融合的异构协同计算。
●机群的互联技术机群系统一般可以采用高带宽的以太网、异步传输模式(ATM)、可扩展一致性接口(SCI)、QsNet、Myrinet和InfiniBand等网络技术实现节点机的互连,其中千兆/万兆级以太网、Myrinet和InfiniBand使用比较广泛,尤其是后者InfiniBand互连技术也被称为“无限带宽”InfiniBand最初由Mellanox公司提出,是一种基于输入输出总线的通用宽带互连技术,原本是为了解决因PCI等并行总线结构速度较慢而导致的服务器CPU输入输出瓶颈问题,这种瓶颈制约了服务器与存储设备、网络节点、其它服务器之间的通信能力,但由于InfiniBand非常适合于高性能计算系统,所以后来便成为一种广泛应用于超级计算机系统的开放性高速互连网络技术标准。
InfiniBand规范中定义了交换机、通道适配卡、线缆和子网管理器等标准设备,InfiniBand交换机在各个节点、各种设备之间建立点对点的串行连接并进行流量控制,可有效避免数据流量的阻塞。
基于交换方式的点对点的串行连接使InfiniBand网络具有极强的可扩展性,一个网络可有数千个子网(Subnet)组成,每个子网有一个子网管理器、可支持上万个节点,这种子网架构实现了更有效的分散管理。
InfiniBand体系架构模型InfiniBand采用串行双向数据传输方式,利用多路复用信号传输技术可实现并发的多通道数据传送,单个InfiniBand连接通道的线缆由4根信号线组成、可达2.5GB/s的基本传输速率,通过增加信号线数目并将多个通道组合成一个端口,就能使传输带宽成倍增加,最新的4倍数据率(QDR)InfiniBand已达到了10Gb/s的通道基本传输率,在1、4、12倍通道连接模式可使传输带宽分别达到10Gb/s、40Gb/s、120Gb/s的传输带宽。
目前,InfiniBand在超级计算机的应用日益广泛,例如2009 China HPC TOP 10排名中有5套超级计算机都采用了InfiniBand互连技术,包括排名前2位的“天河一号”和“曙光5000A”。
1.3.机群的软件系统超级计算机除了具备非常强大的计算能力,对操作系统以及软件的要求也比较高。
●节点机操作系统操作系统为机群提供支持环境,决定了节点机之间的交互方式,应具备较强的适应性和稳定性,机群采用的操作系统主要有Linux、Sun Solaris UNIX和Windows NT等。
其中,Linux因具有支持多种硬件平台、对系统资源的低占用率、开放代码、高安全性、稳定性和可靠性等诸多优点,特别是Linux提供了大量节点并行计算系统所需的标准消息传递机制(如后面介绍的MPI等)和高性能网络支持,使其在越来越多的机群系统中被广为采用。
●SSI和HA等中间件机群系统是由大量节点计算机组成的并行处理系统,但从机群用户和程序员的角度而言,最好能使结构复杂的机群像一台计算机一样便于使用和管理,具有单机式的管理控制、单一的地址空间和单一的文件系统等特性,以有效降低用户操作和程序员编程的复杂度,即具有“单一系统映像”(Single System Image,SSI)特性。
SSI由相应的机群中间件实现,所谓的机群中间件(Middleware)是指在上层连接各个节点机的操作系统、实现对机群系统资源和网络通信等进行有效控制和管理的软件系统或服务程序,并且能提供便于用户管理和配置系统的图形化操作界面的接口。
除了SSI之外,机群一般还有“高可用性”(High Availability,HA)管理等中间件,HA用来快速检测和排除机群系统的故障点,以确保系统能可靠地连续运行。
●并行编程环境适用于机群、MPP等分布式内存结构的并行编程环境,通常可由“并行虚拟机”(Parallel Virtual Machine,PVM)或“消息传递接口”(Message Passing Interface,MPI)等来实现。
利用PVM工具,可以把互连的各种计算机虚拟为一台并行机,从而为编程人员提供了一个便于管理和使用的编程环境,而由PVM的编译库对程序进行转换,将程序的计算任务分解为若干子任务后合理分配到各个节点机进行并行处理。
MPI是一种基于消息传递的并行计算规范,消息(Message)一般包括数据、指令或其它各种控制信号等,MPI提供了一套消息传递库,基于消息传递的并行编程实际上就是通过调用MPI的消息传递库函数实现节点机之间的数据交换,并提供并行处理任务之间的同步等。