集群系统主要分为两种

高可用性集群和高性能集群。

高可用性集群的主要功能就是提供不间断的服务。有许多应用程序都必须一天二十四小时地不停运转,如所有的web服务器、工业控制器、ATM、远程通讯转接器、医学与军事监测仪以及股票处理机等。对这些应用程序而言,暂时的停机都会导致数据的丢失和灾难性的后果。

高性能集群通过将多台机器连接起来同时处理复杂的计算问题。模拟星球附近的磁场、预测龙卷风的出现、定位石油资源的储藏地等情况都需要对大量的数据进行处理。传统的处理方法是使用超级计算机来完成计算工作,但是超级计算机的价格比较昂贵,而且可用性和可扩展性不够强,因此集群成为了高性能计算领域瞩目的焦点。

集群系统采用的操作系统主要有VMS、UNIX、WindowsNT和Linux。

美国DEC公司(Digital Equipment Corporation)开发的VMScluster系统开发最早,技术也很成熟,应用也很广泛,但由于VMS操作系统只能在DEC公司的VAX系列和Alpha系列服务器上运行,VMScluster的应用受到很大限制。

UNIX是服务器或工作站上普遍使用的操作系统,它运行稳定、安全性也比较好,因此许多大的公司都采用了基于UNIX的集群系统解决方案,如DEC、HP、SUN、IBM、NCR和DG等公司,其中在国内影响比较大的主要是DEC、HP、SUN和IBM。其中DEC公司的Trucluster系统提供了由4台Digital Alpha Server组成的集群系统,它集高可靠性、高可用性和易管理性于一身,是关键业务计算机系统的理想解决方案。

基于WindowsNT的集群系统解决方案厂商主要有Mircrosoft和DEC。Microsoft于1995年就开始了集群系统的开发工作。Windows 2000中已经增加了集群功能,该高可用性集群叫做WolfPack,也叫做Microsoft Cluster Server (MCS)。它主要是在企业级对基于Windows NT服务器的应用程序提供可用性和可升级性。WolfPack现在支持两个服务器,一个用来对用户提供服务,另一个作为备份服务器使用。Microsoft下一步的目标是将WolfPack支持的节点数扩展到16个。Wolfpack的缺陷在于:它只提供了两个节点的失败恢复功能,而没有采用复杂的应用程序资源管理功能,因此在一定程度上影响了系统的高可用性、高可靠性和可升级性。Wolfpack不能支持多种操作系统,而只能运行于Windows NT操作系统上。由于WindowsNT操作系统本身在稳定性、大型并行计算上与UNIX系统存在较大差距,目前主要在中小型系统上应用。但是随着WindowsNT系统走向成熟,基于WindowsNT的计算机集群系统将获得更广泛的应用。

九十年代末期,Linux操作系统不断走向成熟,它的健壮性不断增强,并且提供了GNU软件和标准化的PVM、MPI消息传递机制,最重要的是Linux在

普通PC机上提供了对高性能网络的支持,这样就大大推动了基于Linux的集群系统的发展。

Turbolinux公司推出了能够显著地提高基于TCP/IP协议的多种网络服务的服务质量的高可用性集群系统Turbocluster。Red Hat也提供了基于Linux Virtual Server思想构建的高可用性集群系统Piranha。由Ericsson软件工程研究中心开发的高可用性集群系统Eddie的主要目的是提供一个商业级的,能提供较好的服务质量的web服务器的解决方案。

Platform公司开发的高可用性集群系统Lsf提供了分布式集群系统的解决方案,通过将物理上分离的多个集群连接在一起使使多个同构或异构的计算机能够通过局域网或广域网共享计算资源,并能够为用户提供对资源的透明访问。

高性能集群系统MOSIX为Linux核心增添了集群计算的功能。在MOSIX集群环境中,用户无需对应用程序进行修改,或将应用程序与库连接起来,或将应用程序分配到不同的节点上运行。MOSIX会自动将这些工作透明地交给别的节点来执行。

日本的F5公司开发出了高可用性集群BIG-IP,它是使用于本地网络站点或数据中心的高可用的、智能化的负载平衡产品,它提供了对网络流量的自动和智能的管理。与前几种集群系统不同的是,BIG-IP向用户提供的是一个即插即用设备,而其它的提供的都是软件方法。

IBM、Microsoft和Intel于2000年7月联合发布了一种高可用性服务器集群软件及硬件包,这种服务器集群的配置包括32台IBM Netfinity 8500R及Intel Pentium Ⅲ Xeon处理器,运行IBM的DB2 Universal Database和Microsoft Windows 2000 Advanced Server操作系统,每分钟可以执行440879次交易。这套系统面向数据密集的应用,特别是B2B、电子商务和企业资源规划领域。

在科学计算领域中,人们开始把注意力投向通过普通PC机或工作站的集群来代替昂贵的超级计算机。比较成功的例子是高性能集群系统Beowulf,它最初是由NASA的Goddard Flight Center进行开发的,主要目的是支持大规模的科学计算问题,如地球和太空科学面临的一些计算问题。

国内也有不少公司进行了集群系统的研究和开发工作。

联想公司在1999年9月推出了用于分布式高性能计算的NS10000高性能集群服务器,该系统是一个四节点的系统,主要基于联想万全4500R服务器,以总体成本相对较低的设备组合,足以替代传统RISC小型机和中型机的工作,而价格仅为市场上同等性能小型机的1/2--1/4。

朗新公司也推出了类似于Turbocluster的高可用性集群系统LongShine Cluster Server。

1999年9月20日,中国第一家专业面向Linux高端应用市场的集群网络有限公司推出了国内首例Linux安全集群系统。它是国内第一个通过公安

部认证的安全Linux系统,而其集群技术也已应用于诸多国际著名网站,如Linux的门户https://www.360docs.net/doc/4110816165.html,、英国国家JANET Cache网、奥地利的入口站点和瑞士电信等。其核心代码也已被纳入美国Red Hat Linux发布版的核心。

中国自主开发研制的集群式高性能计算机集群系统"自强2000-SUHPCS"于2000年9月在上海大学问世。这一系统的峰值速度达到每秒3000亿次浮点操作。是当前中国国内集群式高性能计算机系统中速度最快的。

方案概述:

目前在国内服务器市场中高性能集群式服务器的应用越来越广泛,气象、石油、生物、核模拟、科研、国家安全、工业设计等行业应用对大规模计算平台的需求持续扩大;互联网的高速爆炸式发展使得服务提供商需要强大可靠、可扩展、同时又极具性价比的大型服务器;移动计算无所不在的发展趋势更需要深度计算的后台服务器支撑;电子商务/企业信息化/电子政务等的迅速发展对高性能服务器的需求。

有鉴于此,金品 与其核心战略合作伙伴英特尔(中国)公司以及第三方设备及软件厂商共同开发出了极具特色的高性价比的高性能计算机集群服务器系统。



方案特点:

金品的高性能计算集群服务器是一种采用IA架构服务器产品为基础构建方式的集群服务器产品,其特点是用高速通信网络将一组多个SU系列IA架构服务器连接起来,形成松耦合的多处理机系统,就像一个单独集成的计算资源一样协同工作。对于用户系统,集群就是一个整体的并行系统,主要通过消息传递方式实现各主机之间的通信。如果将其与传统上的超级计算机比较的话,它的特点主要可概括为:

●高可用性:将多个结点通过网络连接起来如同一个系统一样提供服务。
●高并行处理能力:多结点间通过并行环境和并行程序设计实现应用的高效并行处理。
●负载均衡:通过在多个结点上实现应用的负载均衡实现。
●管理便捷性:通过集群系统软件和集群管理软件对整个集群实现单一管理。

具体可以概括为以下几点:

一、金品的集群服务器产品的单位结点采用了真正的Intel IA架构服务器产品(即金品的SU系列服务器),与其它厂商所采用的第三方厂商的IA产品相比,提供的全面的硬件系统的管理及诊断功能是其它厂商所无法比拟的:

●其管理功能主要有:
●监控服务器的状况。
●当服务器发生故障时报警并通过各种方式接收。
●帮助诊断服务器故障的基本原因。
●指导修复故障。
●主要的监控功能
●主要元件的电压, 风扇转速, 温度, 和系统硬件可以在第一时间探测系统元

件的错误
●服务器管理的元件内建在主板系统之中
●主要的报警功能:
●主动报警,并可以进行相应的配置
●基于系统行为
●内建网络功能和服务器管理软件
●主要的诊断功能:
●系统和元件级别的诊断功能
●元件细节的诊断和确认
●主要的修复功能:
●远程电源控制
●基于温度自动控制
●风扇速度的调整


二、金品服务器产品提供的业内领先特性包括:

●电源和散热空间
●驱动器稳定技术
●驱动器电源隔离
●主动式气流控制
●指示灯引导诊断
●智能前面板
●验证压力测试套件
●多路径启动

三、金品的高性能计算机集群服务器系统采用有一种开放的设计架构,不同于一般厂商比较单一的集群服务器整机或解决方案;而是根据最终用户的具体要求(如对系统构成架构,以及时延和系统处理能力的特殊要求),对整体架构进行全方位的调整优化(定制硬件平台+系统构建平台+技术解决方案)

金品高性能计算集群服务器硬件部分主要可分为:集群通信网络(包括:系统传输网络,系统管理网络);单位元(即结点机,主要包括:计算结点,I/O结点,登录结点,控制结点);存储系统。

基础结构图示




集群通信网络:
-系统传输网络
专用于支持结点间进程高速通信的网络,连接集群系统中所有的计算结点,采用高带宽、低延迟的网络传输技术。

系统管理网络:
专门服务于集群管理通信的管理网络,它连接集群系统中所有的结点,采用可靠性高、背板交换能力强的企业级主干以太网。同时监控集群系统运行环境和软硬件核心部件工作状态等信息的监控网络,采用Intel的网络监控软件以及专用的集群管理软件与其配合对整个集群进行管理。

单位元:
全面采用金品的SU系列IA架构服务器(主要包括64位的至强处理器),并且专门针对集群系统的特点进行了系统的优化处理(诸如散热通道、电源控制、安全性等)

-计算结点
运行计算和应用程序,是数目最多的结点,主要性能体现在运算性能上。

-I/O结点
用来连接存储设备或其本身就用来充当存储设备,为所有结点提供高速的网络文件系统服务的结点,主要性能体现在I/O吞吐速率及带宽上。

-登录结点
外部用户可通过该结点登录使用集群,对性能并无特殊要求。

-控制结点
又可称之为前端机,用于系统管理员控制和管理整个集群的,主要性能体现在整体综合性能上。


存储系统:
存储系统为整个集群系统提供网络文件系统的服务,其性能必须满足可靠性高、容量大、I/O带宽高、延迟低等要求。

存储系统分I/O结点和磁盘阵列两部分,I/O结点的配置、个数以及磁盘阵列的类型、容量都可以根据用户的应用类型和需求进行灵活的配置。

金品计算集群服务器软件系统部分主要可分为:操作系统、集群系统软件、相关的编程器、优化工具、互联设备驱动程序及监控程序,

-操作系统
采用专门针对IA32位或IA64位集群系统而所开发的专用Linux系统。

-集群系统软件

集群系统管理
为方便对集群的管理与使用,可在主节点上实现对整个集群的管理工作。采用NIS/NIS+对集群的用户进行管理。使用NFS等网络文件系统实现单一用户文件空间,方便用户的使用。使用集群命令控制工具(c3)方便集群的使用与管理:在集群的所有结点或指定结点上运行/停止程序、各结点间的文件同步等。

集群作业调度系统
作业调度系统,可以实现交互式及批作业,并发式进程调度。

-集群并行环境
HPC集群支持两种并行环境MPI及PVM

MPI(Message Passing Interface 消息传递接口)是目前标准的并行环境;通过这种程序设计库,编程者可以使用其编程原理设计出可以在集群上运行的并行应用

PVM(Parallel Virtual Machine 并行虚拟机)是HPC集群中的另一种并行通讯环境;是一个在网络上的虚拟并行机系统的软件包,它允许将网络上基于UNIX操作系统的服务器的集合当成一台单一的"并行虚拟机"来使用。

主要应用对象:

石油:地震资料处理/油藏模拟(CGG/Omega)
气象:数值气象预报(MM5/Grads)
CAE:汽车设计结构仿真(MSC/NASTRAN)、碰撞仿真(ESI)
生物基因计算:基因测序、基因比对(Genescan/Balst)、基因定位
通用并行科学计算平台

相关文档
最新文档