超级计算机容错系统设计研究

合集下载

分布式系统中的容错与自适应性技术研究

分布式系统中的容错与自适应性技术研究

分布式系统中的容错与自适应性技术研究分布式系统是由多台计算机互相连接组成的系统,其目的是为了能够处理大量的数据和请求,并提供高可靠性和高性能的服务。

在分布式系统中,容错和自适应性技术是至关重要的,以确保系统能够在面对各种故障和变化时保持稳定运行。

本文将对分布式系统中的容错和自适应性技术进行研究和探讨。

1. 容错技术容错技术是指在分布式系统中,当部分节点发生故障或者通信出现问题时,能够保证系统继续正常运行的技术手段。

常见的容错技术包括:1.1 容错算法容错算法是指通过冗余和备份机制,使得系统能够在部分节点发生故障时仍然能够提供正确的服务。

常见的容错算法包括冗余数据存储、备份节点和数据复制等。

1.2 容错检测与恢复容错检测与恢复技术是指通过监测系统运行状态和错误检测机制,及时发现和修复故障,以确保系统的可用性和稳定性。

常见的容错检测与恢复技术包括故障检测、错误处理、快速恢复和自动故障转移等。

1.3 容错通信容错通信技术是指在分布式系统中保证节点之间可靠通信的技术手段。

常见的容错通信技术包括可靠传输协议、消息队列和消息重发机制等。

2. 自适应性技术自适应性技术是指分布式系统能够在运行过程中根据环境变化和系统状态做出相应的调整和改变,以保持高性能和可靠性。

常见的自适应性技术包括:2.1 资源动态管理资源动态管理是指分布式系统根据当前的负载情况和资源利用情况,自动调整资源分配和使用策略,以保证系统的性能和可用性。

常见的资源动态管理技术包括负载均衡、资源调度和动态切换等。

2.2 自适应优化自适应优化是指分布式系统能够根据用户需求和环境变化自动优化系统的性能和行为。

常见的自适应优化技术包括自动调整算法参数、动态配置和参数优化等。

2.3 自我修复自我修复是指分布式系统能够自动检测和修复故障和错误,以确保系统的连续运行和可用性。

常见的自我修复技术包括错误检测和恢复、自动重启和容错恢复等。

3. 容错与自适应性技术的挑战尽管容错和自适应性技术在分布式系统中具有重要作用,但其实现仍然面临一些挑战和困难:3.1 系统复杂性由于分布式系统涉及多个节点之间的通信和协调,其复杂性较高。

超级计算技术中的容错与故障恢复

超级计算技术中的容错与故障恢复

超级计算技术中的容错与故障恢复超级计算技术作为一项关键的信息技术,被广泛应用于各个领域,包括天气预报、医学研究、工程设计和材料科学等。

然而,由于超级计算机的规模和复杂性,它们往往在运行过程中面临各种故障和错误。

因此,容错和故障恢复成为了超级计算技术中不可忽视的问题。

容错是一种技术,旨在提高系统的可靠性和稳定性。

它可以通过设计和实施冗余机制来预防和纠正错误。

超级计算机的容错技术主要包括硬件和软件层面。

在硬件层面,容错技术着重解决硬件故障对系统正常运行的影响。

例如,通过采用冗余组件,如冗余电源、冗余风扇和冗余硬盘阵列等,可以确保当一个组件发生故障时,系统可以继续运行。

此外,还可以使用错误检测和纠正码(ECC)来检测并纠正内存中的位错误。

这些技术的使用可以极大地减少硬件故障给系统带来的影响。

在软件层面,容错技术主要涉及到系统软件的设计和优化。

例如,通过使用备份系统和热备份机制,可以确保在主系统发生故障时,备份系统可以立即接管工作。

此外,容错技术还包括错误检测和处理算法的设计。

例如,系统可以使用冗余检查点机制来检测和恢复由软件错误引起的系统状态错误。

这些方法可以很好地提高系统的可靠性和稳定性。

当然,容错技术只是预防故障的一种手段,并不能完全消除故障的发生。

因此,一旦故障发生,及时而有效地进行故障恢复变得至关重要。

故障恢复是一种技术,旨在将系统从一个故障状态恢复到正常运行状态。

超级计算技术中的故障恢复主要包括以下几个方面:首先,故障诊断是故障恢复的第一步。

通过使用监控工具和传感器,可以实时监测系统的状态,并及时报告故障。

在诊断过程中,可以使用故障树和故障模式选择合适的恢复策略。

其次,故障隔离是故障恢复的关键步骤。

一旦诊断出故障的位置,需要将故障的影响范围限制到最小,并保护其他部分的功能和性能不受影响。

这可以通过切换到备份系统、用备用组件替换故障组件或重新分配工作负载等方式来实现。

最后,故障修复是故障恢复的最后一步。

软件架构的容错性设计

软件架构的容错性设计

软件架构的容错性设计在软件开发中,容错性设计是一项重要的工作,它能够确保系统在面对错误或故障时能够继续正常运行,从而提高系统的稳定性和可靠性。

软件架构的容错性设计不仅包含了具体的技术手段,还需要考虑各种可能的故障情况和应对策略。

本文将介绍软件架构的容错性设计原则,并探讨一些常见的容错性设计技术。

一、容错性设计原则1. 透明性:容错性设计应该对系统的正常操作不产生任何负面影响,用户不应该察觉到系统中发生了任何故障或错误。

2. 鲁棒性:系统应该能够在面对各种异常情况时保持平稳的运行状态,并尽可能地减少对用户产生影响。

3. 完整性:容错性设计应该覆盖到系统的各个层面,包括硬件、操作系统、中间件、应用程序等,确保整个系统能够在故障发生时进行快速恢复。

4. 可伸缩性:系统的容错性设计应该支持水平和垂直的扩展,以应对系统规模的变化和负载的增加。

二、容错性设计技术1. 冗余备份:通过在系统中引入冗余组件或节点,如备用服务器、冗余存储设备等,来实现容错性设计。

当主节点出现故障时,备用节点可以接替其工作,确保系统的连续可用性。

2. 事务处理:通过采用事务处理机制来保证数据操作的一致性和完整性。

当某个操作发生错误时,事务可以回滚到之前的状态,保证数据的一致性。

3. 异常处理:在系统中加入异常处理机制,对各种异常情况进行捕捉和处理。

例如,当网络连接断开时,系统可以自动尝试重新连接,以保持与外部系统的通信。

4. 监控与恢复:通过实时监控系统的运行状态,并及时发现和处理潜在的故障。

当系统发生故障时,容错性设计应该能够迅速进行故障恢复,并通知管理员进行相应的处理。

5. 负载均衡:通过在系统中引入负载均衡机制,将用户请求分散到不同的服务器上进行处理,以分摊系统的负载,提高系统的容错性和性能。

6. 缓存和代理:通过使用缓存和代理服务器来提高系统的响应速度和容错性。

缓存可以减轻数据库和服务器的负载,提高系统的性能和可用性。

7. 容错算法:在软件开发中,可以采用一些容错算法来增强系统的容错性,如冗余校验、纠错码等。

基于事件触发机制的多智能体系统H_∞容错一致性控制研究

基于事件触发机制的多智能体系统H_∞容错一致性控制研究

基于事件触发机制的多智能体系统H_∞容错一致性控制研究随着多智能体系统的日益普及,保证系统的容错一致性变得至关重要。

容错一致性控制是指在多智能体系统中,当出现单个智能体发生错误或意外情况时,通过系统的自我修复能力,保证整个系统的一致性。

事件触发机制是一种非常有效的控制方法,在多智能体系统中也得到了广泛应用。

事件触发机制是指根据系统状态与其中一种预设条件之间的差异,引发系统的控制动作。

在H_∞容错一致性控制研究中,事件触发机制可以用于检测系统状态的异常或错误,并触发相应的容错控制动作。

在多智能体系统中,由于各个智能体之间存在通信和协调的问题,容错一致性控制会变得非常困难。

而基于事件触发机制的容错一致性控制方法可以有效解决这一问题。

该方法可以根据系统的运行状态,选择合适的事件触发条件,当条件满足时,触发相应的容错控制动作,保证系统的一致性。

在实际应用中,为了保证系统的H_∞容错一致性,需设计合适的事件触发条件。

一种常见的事件触发条件是基于系统的误差信号。

当系统的误差超过一定阈值时,触发容错控制动作。

另一种事件触发条件是基于系统的状态变化。

当系统的状态变化超过一定幅度时,触发容错控制动作。

这些事件触发条件都可以根据具体的系统要求和应用场景,进行合理的选择和设计。

基于事件触发机制的H_∞容错一致性控制还需要考虑容错控制策略的设计。

容错控制策略是指在系统发生错误或意外情况时,选择合适的控制动作以修复系统并保持一致性。

常见的容错控制策略包括重构控制、吸引控制和漂移控制等。

这些策略可以通过事件触发机制来触发,以实现系统的容错一致性控制。

总之,基于事件触发机制的多智能体系统H_∞容错一致性控制是一种非常有效的控制方法。

通过选择合适的事件触发条件和容错控制策略,可以保证系统在出现错误或意外情况时的自我修复能力,从而实现系统的容错一致性。

在未来的研究和应用中,还需进一步研究如何选择合适的事件触发条件和容错控制策略,以提高系统的容错性和一致性。

如何解决超级计算技术中的容错与可靠性问题

如何解决超级计算技术中的容错与可靠性问题

如何解决超级计算技术中的容错与可靠性问题超级计算技术在当今世界发挥着举足轻重的作用,它被广泛应用于天气预报、基因测序、核能模拟等领域。

然而,由于计算任务的复杂性和大规模计算的需求,超级计算机面临着容错性和可靠性等诸多挑战。

本文将从多个方面探讨如何解决超级计算技术中的容错与可靠性问题。

首先,容错技术是确保超级计算机运行正常的关键之一。

由于超级计算机的规模巨大,其中的组件数量众多,硬件故障的风险也相应增大。

为了解决这一问题,超级计算机中采用冗余技术是一种常见的策略。

通过将计算任务分配给多个处理器并在系统级别上进行监控,可以实现任务的容错和部分自动恢复。

此外,使用断点续算功能,可以在出现故障时将计算任务暂停并恢复到故障前的状态,从而避免数据丢失。

其次,软件容错也是超级计算技术中的一个重要问题。

为了保护计算任务免受软件错误的影响,超级计算机需要具备可恢复性和可重现性。

可恢复性指的是系统在出现错误时能够自身进行修复,并继续运行。

可重现性则要求在出现错误后,系统能够复现相同的错误现象,以便进行调试和修复。

为了实现软件容错,可以使用错误检测码和纠错码等技术,对计算任务和数据进行检测和修复。

此外,超级计算机的网络通信也是容错性和可靠性的关键因素。

因为实际应用中,超级计算机往往由多个节点组成,节点之间需要进行大量的数据交换和通信。

为了保证通信的可靠性,可以采用冗余路径和多路径传输机制。

冗余路径指的是在网络中设置多个备用路径,以备主路径发生故障时使用。

多路径传输则利用多个路径同时传输数据,提高传输的可靠性和带宽的利用率。

此外,超级计算技术中的错误预测与避免也是解决容错与可靠性问题的重要手段。

通过对计算任务和系统状态的监控,可以提前预测可能发生的错误,并采取相应措施进行避免。

例如,当超级计算机的负载过高时,可以将部分任务转移到其他节点上,以避免系统崩溃。

此外,利用历史数据和模型,可以对计算任务进行预测,进一步优化系统的容错性和可靠性。

容错系统的设计与实现

容错系统的设计与实现

容错系统的设计与实现谈宏华;杨志方【摘要】以直流系统在线绝缘监测仪为对象,分析了以89C52单片机为主机构成的双机容错系统的结构及工作原理.该系统在双机控制器的控制下,配以各种可靠性措施,成功地解决了系统在各种干扰作用下系统输出的连续性问题.【期刊名称】《长江大学学报(自然版)理工卷》【年(卷),期】2005(002)007【总页数】3页(P235-237)【关键词】容错计算机;容错技术;双机控制器;μP监控器;软件抗干扰【作者】谈宏华;杨志方【作者单位】武汉化工学院电气信息学院,湖北,武汉,430074;武汉化工学院电气信息学院,湖北,武汉,430074【正文语种】中文【中图分类】TP302.8来自空间电磁场和电源的干扰、元器件老化和失效以及系统软件设计不合理,均会造成系统工作可靠性明显下降。

因此,系统的可靠性问题已成为每个设计者必须认真考虑的问题。

笔者在直流系统绝缘在线监测仪的设计中,采用容错技术,以89C52单片机为智能部件组成的容错系统,在核心部件双机控制器(DSC)的控制下,很好地解决了在各种干扰作用下系统输出的连续性问题[1~3]。

实践证明,该容错系统具有实时性好、可靠性高、组装方便、可维修性好、成本低、体积小等特点,适用于工业控制和国防应用的容错计算机系统。

1 容错系统的功能单片机容错系统是以双机系统为基础,其关键部分是双机控制器,它具有监视系统工作状态、切换双机工作方式、完成仲裁的作用。

当系统启动后,控制器将系统全部资源供给A机使用,B机处于检测A机故障状态。

在正常情况下,控制器不影响整个系统完成各种功能的操作,它只对系统工作状态进行监视和处理。

当A机发生故障时,在控制器的控制下,系统资源交给B机控制,这时B机开始工作。

由于数据存贮器采用双端口RAM结构,则双机可在任意时刻共享数据缓存区。

因此,B机可接着A机运行的状态继续运行,从系统外部看不出整个切换过程。

对发生故障的硬件可以在线插拔,进行离线维护,并允许其维护好后在线加入。

超级计算机的研究和应用

超级计算机的研究和应用

超级计算机的研究和应用现代社会,高效的信息处理和计算能力是各个行业追求的目标。

而超级计算机作为当代高性能计算的代表,已经成为了众多科研机构、高校、企事业单位追逐的热点。

本文主要从两方面分析超级计算机的研究和应用,其中第一部分着重介绍超级计算机的发展历程和技术特点,第二部分阐述了超级计算机在各个领域的应用现状和前景。

一、超级计算机的发展历程和技术特点1.发展历程超级计算机自20世纪60年代由美国加州大学伯克利分校研制以来,经历了近50年的发展,已经成为当今计算机科学和电子工程领域最前沿的研究领域之一。

1960年代初,第一台超级计算机CDC6600诞生,它是当时最快的计算机,主频为10MHz。

之后,1970年代,Cray Research公司研制出Cray-1,它采用了机器全向流通的超级流水线技术,频率达80MHz,速度提高23倍。

1980年代初,Crays的商业产品Cray-2研制成功,它采用了立方体结构,可实现64个处理器实现的并行计算,直到20世纪80年代,半导体、通信技术和算法的进步以及高性能计算的广泛应用,超级计算机的速度和性能逐步提高。

21世纪初,全球超级计算机的性能飞跃式地提升,2009年6月1日,中国神舟六号云台发射成功,配备了数量和性能居世界顶尖的震旦FT1000A全球金,在2013、2014、2015年表现一直居世界第一,当时的超算“天河二号”期待在2020年前实现突破,未来会有更多超级计算机新的领域。

2.技术特点超级计算机的技术特点主要包括以下几个方面。

(1)高可靠性和高稳定性。

超级计算机的稳定性和可靠性非常高,硬件组成和系统架构做到高度可靠、容错和红外冗余,确保数据处理和计算结果的准确性和稳定性。

(2)计算和性能强大。

超级计算机采用了多个CPU的并行计算和按需调度的技术,实现多维高度超大规模的复杂计算模型,极大地提升了计算速度和数据处理的性能。

(3)大容量存储和高速数据传输。

如何进行计算机系统的容错和冗余设计

如何进行计算机系统的容错和冗余设计

如何进行计算机系统的容错和冗余设计计算机系统是现代社会中不可或缺的一部分,它们承担着重要的任务和功能。

然而,计算机系统也存在着硬件或软件故障的风险,这可能会对系统的正常运行和数据的完整性造成严重影响。

为了应对这些风险,容错和冗余设计成为一种常见的解决方案。

本文将介绍如何进行计算机系统的容错和冗余设计。

一、容错设计容错设计是指在计算机系统中加入一定的机制,使其能够在面对硬件或软件故障时保持正常运行。

容错设计的关键目标是确保系统的可用性,即系统能够持续提供服务而不中断。

以下是一些常见的容错设计技术:1. 容错硬件:容错硬件是指采用特殊设计的硬件组件,能够在硬件故障发生时进行自动修复或切换,以保持系统的正常运行。

例如,采用冗余电源、磁盘阵列等硬件设备可以实现故障切换,从而避免单点故障。

2. 容错软件:容错软件是指在系统的设计和编程过程中采用特殊的算法和技术,以实现故障的自动检测、纠正和恢复。

例如,使用冗余数据和校验位进行数据校验和纠错,可以保证数据的完整性。

3. 容错网络:容错网络是指通过网络协议和拓扑设计来提高系统的可靠性和容错性。

例如,采用双机热备份、链路冗余等技术可以防止网络故障对系统的影响。

二、冗余设计冗余设计是指在计算机系统中增加额外的硬件或软件资源,以实现故障恢复和性能提升。

冗余设计的关键目标是提高系统的可靠性和可用性。

以下是一些常见的冗余设计技术:1. 硬件冗余:硬件冗余是指在计算机系统中加入备用的硬件设备,以备份主要设备的功能。

例如,采用双电源供电、磁盘镜像等技术可以确保系统在硬件故障时正常运行。

2. 数据冗余:数据冗余是指在计算机系统中保存备份数据的副本,以保证数据的可靠性和安全性。

例如,数据库的备份和复制可以避免数据丢失。

3. 服务冗余:服务冗余是指在计算机系统中提供备用的服务节点,以确保系统在主服务不可用时仍能继续提供服务。

例如,通过部署多个服务器节点和负载均衡技术,可以实现服务的冗余和故障切换。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

超级计算机容错系统设计研究
监控与管理,确保系统各类节点处于监控之下, RAS网络通常采用单独的以太网络,只用于各种 管理功能。
采用独立维护监测:通过独立的维护监测网络 实现对全机系统中各个硬件设备、部件的实时监 测,提供各种硬故障信息,与RAS网络分别构成 独立的基础可用性管理网络、
4结构模型
可持续计算能力是衡量一台大型计算机系统 性能的重要指标,凶此,在各种大型计算机系统的 设计中,可用性设计是不可缺少且相当关键的部 分。一般的容错系统都分为两个部分。
他硬件的正常运行。 RU是系统中具有独立自治和可管理、可维护、
可动态重构特性的独立单元。:其划分至少应该满足 3个原则:1)满足硬件可设计、可维护陆要求;2) 满足软件最小影响单元设计需求;3)具有自愈、 故障传播抑制能/J。,通过RU划分和最小RU确立, 实现系统级的模块化设计,提高整体可用性水件的设计 支持,要建立在硬件设计的基础上,凶此,这里专 门分析一些基本的硬件设计要求。
31硬件IqU设计
硬件的可替换部件(Replaceable Unit,简称 RU)设计是系统高可用的基础,也是系统高可用 的基础,软件高可用也是建立在硬件RU设计的基 础上的、这样的部件能够在系统运行过程中与其他 硬件部分动态断连,并单独关电维修而不会影响其
系统内的各个节点、节点上的CPU、节点上 的一些专用设备、网络模块或网络芯片等硬件在设 计中需要具备基本的RU特征。
3.2易管理的可容错网络
系统网络(用于课题运行时进程问通信的计算 网络)在结构上要具有高冗余度、可容错件与易管 理性。网络是连通各个节点互连的基础,需要具备 下列容错特性:1)具备易管理性、易用性,支持 简单的局部化状态管理与初始化,支持网络降级和 重构的易操作性,否则再优秀的网络也可能凶为管 理和使用的复杂性而失去生命II,J,进而影响系统的 可用性;2)网络中的芯片模块或者芯片组具备RU 特性,从而具备网络故障抑制和独立更换能力;3) 当网络部分芯片故障时,对故障芯片降级(即避开 故障芯片)之后,剩余的冗余通路可以继续保持连 通性,提供节点之间的通信,支持系统的正常运行; 4)网络部分芯片故障后,在启动网络容错机制的 情况下,可以绕开故障芯片点,仍然保证网络畅通; 5)网络应该具备灵活的智能寻址算法(如自适应 路由等),在发生链路故障时,自动选择最佳路径, 完成数据传递;6)具备消息包的自动重传功能, 当系统中m现偶发性故障时,系统部件支持重传功 能,不会丢失数据。
}t厶 A,*一 L~各种容错一 控制接— 插件L—一**、orA
——jL—一——JL—一——jL—一——L—一——L—一
系统管理 资源管理...作业管理
软件监删系统维护
用户课题(MPI、OPEN肝等)及系统硬件环境(节点、阿络) 罔2容错控制流程示意冈
在这个架构中,可以完成从故障发现、故障分 类、信息存储、故障仲裁到故障处理之间的全部流 程,是一个比较通用的容错控制流故障发现由软 件的心跳检测和硬件的维护系统完成(简单的系统 也可以只具备其中一种),而故障仲裁后的处理策 略根据不同系统的需求和设计能力,可以有不同的 容错手段,在本模型中,容错处理措施都是以接捕 件的形式纳入到系统中的,接捕件可以根据需要进 行扩展,以实现容错功能的增强。
2.3可靠的信息中心
大型系统中各种硬部件、元器件个数比较多, 软件配置也比较丰富,这样,在系统的管理、维护 以及使用期问,各种配置的、实时的、历史的信息 都比较多,不同的软件之问往往需要交互这些信 息。无论是从系统数掂的一致性考虑,还是考虑到 系统容错中各种软件数据的可靠交互,都需要为系 统建立可靠的信息中心,用于存储和维护系统生命 周期中的一些重要信息。信息中心不是数据中心, 它为系统提供关键信息的可靠存储,还应该提供标 准、易用的数据访问接口。目前,主流的大型计算 机都是以数据库的形式提供可靠的信息中心。
作业运行过程中,当作业的部分资源发生故障 时,一日.指示了作业可以进行局部恢复,作业管理 对该作业的控制自动进入局部恢复容错流程。容错 过程中,如果当前环境中存在剩余的冗余节点资源 时,作业管理自动分配新的冗余资源代替作业已经 发生故障的节点,并将作业本来在故障节点上运行 的作业任务迁移到新分配的冗余节点上运行,完成 作业任务的局部迁移。:作业局部恢复之后,作业不 问断运行,能够得到正确结果,并能够顺利退卅、 作业的局部恢复过程向用户完全透明,用户只需要 在作业运行前指定是否需要在节点故障时执行局 部恢复容错即可,这种容错模型需要并行_f_ft言库的 支持,在国际上已经有相应的模型(MPICH—V2), 理论上,只要并行tn言库进行相应的支持,所有并 行课题都适合这种模型,但实现的代价比较高。
系统往往需要多种容错手段,各种容错手段最好能
够纳入到统一的控制架构之中,这样既方便各种功
能的协同设计,进行统一规划,又可以避免各个软
件模块之间可能造成的冲突、建立在这个思想的基
础上,我们给卅图2所示的一个比较通用的基本容
错系统架构。
…*.矗.磊厂i磊r—磊毒—丽—L——一 系统售息库}1}
窖错总控}:__”自十“叶
容错思想是容错设计的基础,决定设计思路和 方向。不同的系统也有不同的设计要求、不同的设 计思想和理念。:在标准化集群系统中,容错往往只 有一些系统级或应用级的保留恢复;而在高端超级 计算机系统的设计中,很多硬件单元都需要定制, 软件往往也需要重新设计,必然会降低成熟度与可 靠性,这给容错设计带来了机遇和挑战。
超级计算机容错系统设计研究
制模型,进而指导具体的软件架构和容错方法设 计,是一种高屋建瓴的容错设计思想,可有效指导 系统的结构设计。
2J2模块与结构化设计
在大系统中,良好的容错系统应该是模块化与 结构化的。模块化设计可以使得软件各个子模块的 功能相对单一,从而降低软件设计的复杂度,并提 高稳定性。采用模块化、结构化的设计思想,设计 统一的系统架构,并将系统功能逐个分解,形成一 个个小的软件单元,在每一个模块引入可用性设 计,通过将各个子模块以各种方式组合在一起,构 成完整的系统,从而将容错深入各个模块,与正常 的管理、运行控制融为一体、无缝整合,避免单独 的容错系统与『F常的非容错环境之问容易产生的 相互隔离,衔接不畅的问题、
(4)系统级保留恢复 是作业管理系统自动完成的一种容错措施。系 统级保留恢复是指在作业运行过程中周期性或者 事件触发地对作业进行全局的保留,形成检查点, 以便保留作业运行的阶段成果。成功保留过的作 业,可以继续运行,也可以根据需要(机时不满足 或者环境故障)停止运行,并可以在机时满足时从 成功的检查点恢复作业的继续执行,从而阶段性保 留作业运行成果的一种手段、作业恢复时,作业管 理可以设计成自动检查作业是否存在检查点文件, 一Et存在,则自动作业从检查点恢复执行。作业保 留恢复支持在提交时指示周期性保留,也可以作业 运行时重新定义保留周期,或者可以在作业运行的 任意时刻触发作业进入保留。相比应用级保留恢 复,系统级保留恢复往往开销较大,但向用户透明、j (5)作业局部降级 作业运行过程中,当作业部分资源发生故障 时,一日指示了作业可以进行局部降级,则作业管 理对该作业的控制自动执行局部降级容错流程,作 业管理将甩掉故障节点,通知作业,并由作业在低 层的tn言库中重构作业环境,完成降级、j作业降级 过程中,作业继续运行,降级完成后,作业剩余的 任务可以继续运行,直到作业完成并结束,能够得 到正确结果并退卅。这种容错措施是根掂某些特定 _f_f÷言的容错特征而特别提供的一种容错手段,作业 局部降级尤其适用于某些动态分发任务的课题。 (6)作业局部恢复
1引言
目前,超级计算机系统的规模越来越大,结构 甘益复杂,硬件可靠性和软件可用性都面临着严峻 的威胁和挑战、系统高可用性是研制超大规模并行
作为系统设计的重要组成部分,高可用系统的 目的是在软硬件发生故障时,系统能够通过各种容 错措施使得用户课题得以顺利运行完,且在总的运 行时间上不受大的损失,从而提高整机的可用性、 由于系统运行中软硬件的各种故障和异常不可避 免,容错也就不可缺少。
计算机系统必须解决的一项关键性技术,在国际超 级计算机技术研究领域也是一个|‘分令人关注的 前沿性课题。
在超级计算机的容错技术中,相关的措施有很 多,但将各种措施形成完整体系的并不多本文拟 结合1。作实践,从容错思想、模型、具体措施等方 面进行分析,并给卅相应的总结。
2容错思想
~一~一
一~ ~一 一 一~一一一一一一一一~一一一一一一一

超级计算机容错系统设计研究
路由重构是指在部分网络芯片故障导致无法进行消 息传递时,触发系统软件容错,设法重新构造可用 的网络通路,满足课题消息的『F常使用需求
(3)作业回卷 是作业管理系统自动完成的一种容错措施,适用 于所有类型的作业,是作业终止并再次提交的自动化 过程过程。.在作业运行过程中作业盼自B分资源发生故 障,若作业提交时指示了回卷属性(或配置了回卷属 性),则作业管理系统自动触发作业进入回卷流 程,回卷之后的作业运行与回卷之前的作业运行方 式、参数完全相同,并自动避开已经发生故障的节 点。如果作业在发生故障之前已经有过成功的保 留,则回卷后作业的运行还可以根据需要设计成从 最近一次成功的检查点开始继续运行,确保不丢失 已经获得的部分成果、
容错控制采用带外控制部分和带内受控的容 错模型、带外的管理控制部分是系统的各种基础管 理软件,包括资源管理、作业管理、系统维护、高 可用管理等可用性的管理模块;带内受控部分是各 种受管理的子系统和软件模块,包括消息库、各种 应用等、如图1所示
罔1系统容错控制模型
良好的容错系统结构是容错成功的关键,大型
5软件容错
不同系统容错措施各不相同,有硬件层、软件 层、或者软硬件协同完成的,有的是透明的,有些 则是需要人T干预的。:从友善性来说,系统的容错 功能要尽可能地做到透明化(可以是全透明或者向 用户透明),这样才能减轻用户使用的负担。
硬件容错的措施通常包括:CRC、ECC校验、 存储器清洗、内存冗余、端到端重传、自适应路由、 多网络路径、消息重传、消息排重等,单纯硬件层 次的容错大部分是向软件透明的,只有少部分影响 比较大的措施需要软件配合。
相关文档
最新文档