计算机冗余容错

合集下载

计算机系统容错技术分析及研究

计算机系统容错技术分析及研究

• 177•计算机是一个较为复杂的系统,为确保其运行稳定性和可靠性,应当在系统设计时,对容错技术进行合理运用。

基于此点,文章从容错的常用方法分析入手,论述了容错技术在计算机系统中的具体应用。

期望通过本文的研究能够对计算机系统性能的提升有所帮助。

1 容错的常用方法对于计算机系统而言,容错是系统应当具备的一种能力,具体是指当出现故障问题时,系统仍然能够完成预定任务的功能。

在计算机系统中,描述故障问题的专业术语有以下三个:即故障、错误和失效,三者之间存在较为密切的关系,如故障会导致错误,而错误又会导致失效。

错误是系统故障后所产生的一种现象。

引起系统故障的原因较多,如设计、装配以及使用中外部因素的影响等等。

由于故障的发生具有随机性的特点,因此,想要在计算机系统设计之初对可能出现的故障问题进行检测是非常困难的,为避免故障对系统的运行造成影响,需要在设计时,加入合理可行的容错技术(李其蔚,计算机系统容错技术研究:电脑知识与技术,2016)。

目前,计算机系统中较为常用的容错技术有以下几种:1.1 冗余这是计算机系统容错最为基本的途径之一,通过冗余可以大幅度提升系统的容错性能。

大体上可将冗余分为两类,一类是时间冗余,另一类是空间冗余。

前者是指借助重复计算过程来实现系统容错;后者是指利用额外的资源来实现系统容错,按照使用的冗余资源,可将之细分为硬件冗余、软件冗余、信息冗余等等。

1.2 回滚恢复容错这是一种通过对计算状态进行周期性保存来达到容错目的的方法。

计算机系统在运行的过程中,如果出现故障问题,通过回滚恢复,可以使应用程序回到之前保存的某个状态处,重新对程序进行执行。

该容错方法是时间冗余与空间冗余的有机结合,最早出现在分布式系统当中,随着技术的逐步完善,其在并行计算领域中得到广泛应用。

1.3 TRM容错这是目前计算机系统中应用最为广泛的容错技术,一个基本的TRM系统由三个完全相同的模块和一个投票器组成,三个模块会同时对输入的数据进行接收,每个模块将生成的结果发送给投票器,并由投票器通过投票的方式进行表决,其输出的数据主要取决于三个输入中多数一方的结果。

局域网组建的网络容错和冗余配置

局域网组建的网络容错和冗余配置

局域网组建的网络容错和冗余配置现代社会中,计算机网络的重要性不言而喻。

无论是企业、学校还是家庭,都离不开一个稳定、安全的局域网。

然而,网络故障或中断可能导致数据丢失、业务中断等问题,因此,局域网的网络容错和冗余配置显得尤为重要。

本文将探讨局域网组建中的网络容错和冗余配置,以确保网络运行的稳定性和可靠性。

一、网络容错技术概述网络容错是指在网络设备或连接出现故障时,能够自动检测并转移数据流量,从而在不影响业务的前提下保证网络的可靠运行。

常见的网络容错技术包括冗余设备、链路故障切换和负载均衡等。

1. 冗余设备冗余设备是指在一个网络节点出现故障时,能够自动切换到备用设备,以保证网络的正常运行。

例如,通过配置冗余路由器和交换机,当主设备损坏时,备用设备能够立即接管主设备的功能,从而避免网络中断。

2. 链路故障切换链路故障切换是指当一个网络链路出现故障时,能够自动转移数据流量到备用链路,以确保网络的可用性。

通过配置链路故障检测机制和备用链路,可以在主链路故障时快速切换到备用链路,避免数据丢失和业务中断。

3. 负载均衡负载均衡是指将网络流量均匀分配到多个网络设备上,以避免某个设备负载过重而导致性能下降或故障。

通过配置负载均衡算法,可以根据网络设备的负载情况智能地将流量分担到各个设备上,提高网络的可用性和性能。

二、网络容错和冗余的部署实践在局域网组建过程中,如何合理地配置网络容错和冗余设备,以达到最佳的网络可用性是关键。

下面将介绍一些常见的网络容错和冗余配置实践。

1. 设备冗余部署在局域网中,可以通过配置双机热备、主备模式等方式来实现设备的冗余部署。

双机热备是指在局域网中设置两台主机,一台作为主机提供服务,一台作为备机,当主机故障时,备机会自动接管主机的功能。

主备模式则是在局域网中设置一台主设备和一台备设备,当主设备故障时,备设备会自动切换为主设备。

通过这种方式,可以保证在设备故障时网络的正常运行。

2. 多链路冗余备份在局域网中,可以通过配置多个链路和链路故障检测机制来实现链路的冗余备份。

计算机系统的容错和恢复机制

计算机系统的容错和恢复机制

计算机系统的容错和恢复机制计算机系统的容错和恢复机制是保证系统稳定性和可靠性的重要组成部分。

随着计算机技术的发展和应用范围的扩大,系统出现错误和故障的概率也随之增加。

因此,对于计算机系统的容错和恢复机制的研究和应用变得尤为重要。

本文将介绍计算机系统的容错和恢复机制,包括硬件容错和软件容错两个方面,并探讨它们在保障系统可靠性上的应用。

一、硬件容错机制硬件容错主要是通过硬件设计和电路布线来提高计算机系统的稳定性和可靠性。

常见的硬件容错技术包括冗余和错误检测与纠正。

1. 冗余技术冗余技术是通过增加系统中的冗余组件来提高系统的可靠性。

常见的冗余技术包括备份冗余、硬件冗余和时钟冗余等。

备份冗余是指利用主备份设计来实现系统在主组件失效时能够自动切换到备份组件上继续工作。

硬件冗余是指在关键组件上增加冗余元件,一旦某个元件出现故障,系统可以自动切换到备用元件上。

时钟冗余是指通过多个时钟发生器保证系统中的时钟信号可用性,以防止由于单一时钟发生器故障而导致整个系统的停机。

2. 错误检测与纠正错误检测与纠正技术是通过校验码、纠错码和检错电路等方式来检测和纠正系统中的错误。

校验码主要是通过对数据进行校验和计算,以确定数据在传输过程中是否发生错误。

纠错码是一种能够自动检测和纠正数据传输中的错误的编码方式。

检错电路则是通过一系列的逻辑电路来检测系统电路中的错误。

二、软件容错机制软件容错机制是通过软件设计和程序算法来提高系统的可靠性。

软件容错技术主要包括多线程、异常处理和事务处理。

1. 多线程多线程是指在一个程序中同时运行多个线程,当某个线程出现错误或异常时,不会影响到整个程序的运行。

多线程技术可以提高系统的并发性和吞吐量,并且在某个线程出现故障时可以进行错误恢复。

2. 异常处理异常处理是指在程序运行过程中遇到异常情况时,能够捕捉并妥善处理异常,以保证程序的正常执行。

通过合理设置异常处理程序,可以在系统出现异常情况时尽快进行错误恢复,避免系统崩溃或数据丢失。

数据中心的容错设计与冗余策略

数据中心的容错设计与冗余策略

数据中心的容错设计与冗余策略数据中心作为现代信息技术基础设施的核心,承载着大量重要数据和系统运行。

为了确保数据中心的高可用性和稳定性,在设计和构建过程中,需要考虑容错设计与冗余策略。

本文将对数据中心的容错设计和冗余策略进行探讨,重点介绍冗余电源、网络和存储方面的应用。

一、容错设计容错设计是指利用不同技术手段,保证数据中心在遭受硬件故障或人为错误时,仍然能够保持正常运行。

容错设计的目标是最大程度地降低故障对系统运行的影响,提升系统的可用性和可靠性。

1. 冗余电源对于数据中心来说,电力是最基础的要素之一。

因此,在容错设计中,冗余电源是必不可少的。

常见的冗余电源包括主电源、备用电源和UPS(不间断电源)系统。

主电源是指数据中心主要使用的供电系统,备用电源一般为发电机组,可以在主电源故障时继续供电。

UPS系统则可以提供临时电源,以便在主电源故障后有足够的时间完成切换操作。

2. 冗余网络冗余网络是指在数据中心中设置多个网络路径,以增加网络的可靠性。

这是通过使用冗余的网络设备、链路以及交换机实现的。

当一个网络设备或链路出现故障时,数据中心可以通过备用路径继续进行通信,不会导致服务中断。

此外,还可以利用网络负载均衡技术,将流量分散到不同路径上,提高网络带宽利用率。

3. 冗余存储冗余存储是为了防止数据中心在存储设备故障时丢失数据。

一种常用的冗余存储策略是使用RAID(独立冗余磁盘阵列)技术。

RAID通过将数据分布在多个物理磁盘上,实现数据冗余和故障恢复。

在RAID 中,常见的级别包括RAID 0、RAID 1、RAID 5和RAID 6等,每种级别都有其特定的容错能力和性能特征。

二、冗余策略冗余策略是指通过备份和复制等手段,保证数据在数据中心中的安全性和可用性。

冗余策略的实施可以分为数据冗余和服务冗余两个方面。

1. 数据冗余数据冗余是指将数据备份到多个物理设备中,以防止单点故障。

常见的数据冗余策略包括:(1) 数据备份:在数据中心中设置备份存储设备,将数据进行定期备份,以防止数据丢失。

了解计算机网络中的网络容错技术

了解计算机网络中的网络容错技术

了解计算机网络中的网络容错技术计算机网络中的网络容错技术在计算机网络中,网络容错技术是指在网络出现故障或其他异常情况时,能够保持网络功能正常运行的一系列技术手段。

这些技术旨在提高网络的可靠性、稳定性和可用性,确保网络能够维持正常的数据传输和通信。

1. 冗余技术冗余技术是一种常见的网络容错技术,在计算机网络中被广泛应用。

它的核心思想是通过备份或复制网络中的关键组件,确保在某个组件故障时能够自动切换到备用组件。

常见的冗余技术包括:硬件冗余、网络链路冗余和数据冗余等。

(1)硬件冗余硬件冗余是指通过使用备用设备或组件来替代故障的设备或组件,以保证网络的连续运行。

常见的硬件冗余技术包括:热备插槽、热备插件和热备份电源等。

通过使用这些技术,当主设备出现故障时,备用设备能够立即接管主设备的工作,确保网络的连贯性和可用性。

(2)网络链路冗余网络链路冗余是指在网络拓扑中增加冗余链路,以保证网络中断时能够自动切换到备用链路。

常见的网络链路冗余技术包括:备份链路、双链路和多链路等。

通过配置这些冗余链路,当主链路发生故障时,数据能够自动切换到备用链路,从而保证网络的可靠性和可用性。

(3)数据冗余数据冗余是指将数据存储在多个位置,以提供冗余和备份。

常见的数据冗余技术包括:磁盘阵列、数据镜像和数据备份等。

通过使用这些技术,即使某个存储位置出现故障,数据仍然可以从其他位置进行恢复,确保数据的完整性和可靠性。

2. 容错路由技术容错路由技术是一种能够在网络节点故障或网络拥塞时自动调整路由路径来维持网络性能的技术。

容错路由技术基于网络拓扑的实时状态信息,能够选择出合适的路径来传输数据,以提高网络的可靠性和性能。

(1)备份路径备份路径是指在网络中设置多个具有相同源和目的地的路径,以备份主路径。

当主路径上出现故障时,备份路径能够自动接替主路径,确保数据的连续传输。

备份路径的选择通常基于网络状态信息和链路状况,以选出最佳的备份路径。

(2)动态路由动态路由是一种根据网络状态动态调整路由路径的容错路由技术。

冗余设计如何提高系统的可靠性和容错性

冗余设计如何提高系统的可靠性和容错性

冗余设计如何提高系统的可靠性和容错性
冗余设计通过以下方式提高系统的可靠性和容错性:
1. 备份功能:冗余设计可以在系统中增加额外的硬件、软件或设计等,作为主系统的备份。

当主系统出现故障时,备份系统可以立即启动并代替工作,从而保证系统的正常运行。

2. 故障隔离:冗余设计可以将系统中的各个部分进行隔离,当某个部分出现故障时,不会影响到其他部分的正常运行。

这样可以降低故障对整个系统的影响,提高系统的容错性。

3. 负载均衡:冗余设计可以通过负载均衡的方式,将系统的负载分散到多个处理器或网络节点上,从而避免单个处理器或节点过载而导致的系统故障。

4. 故障检测与恢复:冗余设计可以增加故障检测和恢复机制,当某个部分出现故障时,可以快速检测到并采取相应的措施进行恢复。

这样可以减少故障对系统的影响时间,提高系统的可靠性。

总之,冗余设计是一种通过增加额外的硬件、软件或设计等来提高系统可靠性和容错性的有效方法。

它可以降低故障对整个系统的影响,提高系统的容错性和可靠性,广泛应用于各种领域,包括计算机存储、通信网络、航空航天等。

互联网行业的网络容错与冗余技术

互联网行业的网络容错与冗余技术

互联网行业的网络容错与冗余技术互联网的快速发展和普及给人们的生活带来了很多便利,但同时也带来了一些问题,比如网络的不稳定性和数据的丢失。

为了解决这些问题,互联网行业不断在网络容错和冗余技术上进行创新和改进。

本文将探讨互联网行业中常见的网络容错和冗余技术,并分析其应用和优势。

一、网络容错技术1. 高可用性技术高可用性技术是指互联网系统在面对网络中断或硬件故障时仍然能够运行的能力。

在实现高可用性的过程中,主要有以下几种技术:(1)负载均衡:通过将请求分发到多个服务器上,以实现对用户请求的平衡负载,提升系统的处理能力和稳定性。

(2)故障转移:一旦服务器出现故障,系统能够自动将请求转移到备份服务器上,确保服务的连续性。

(3)热备份:在主服务器发生故障时,备份服务器能够立即接管主服务器的工作,避免服务中断。

主备服务器之间通过心跳机制实现实时的状态同步。

2. 容错路由技术容错路由技术是指通过多条路径将数据传输到目的地,当某一条路径发生故障时,可以选择备用路径进行数据传输。

容错路由技术主要有以下几种:(1)多路径路由:源节点将数据同时发送到多个相邻节点,并根据不同的路径质量选择最优路径进行传输。

(2)路由备份:当某一节点发现网络中断时,可以选择备份节点进行数据传输,确保数据能够准确快速地到达目的地。

3. 容错协议技术容错协议技术是指通过合理设计和选择网络协议,使得互联网能够在面对故障和攻击时自动恢复或提供可靠的数据传输。

常用的容错协议技术包括:(1)UDP容错协议:UDP协议在数据传输过程中不对数据进行确认和重传,速度快,但不保证数据的可靠传输。

通过在应用层使用冗余校验方法,可以提高UDP传输的可靠性。

(2)TCP容错协议:TCP协议通过使用确认、重传和拥塞控制等机制,保证了数据的可靠传输。

当网络中断时,TCP协议能够自动重传丢失的数据,确保数据的完整性。

二、网络冗余技术网络冗余技术主要是为了保证系统的可用性和数据的安全性,在网络出现故障或攻击时能够进行自我修复和保护。

计算机系统的容错与可靠性

计算机系统的容错与可靠性

计算机系统的容错与可靠性计算机系统的容错与可靠性一直是计算机科学领域的重要研究方向。

随着计算机技术的不断发展和广泛应用,对于计算机系统的可靠性要求也越来越高。

本文将从容错技术的定义、常见的容错技术以及容错与可靠性的关系等方面进行探讨。

一、容错技术的定义容错技术是指在计算机系统中通过一系列的设计和措施,使系统能够在部分或者全部组件失效的情况下,仍能够正确地运行并完成预期的功能。

容错技术的目标是确保系统的可靠性,防止系统因故障而导致数据丢失、计算错误或者系统崩溃等问题的发生。

二、常见的容错技术1. 冗余技术:冗余技术是指在计算机系统中引入冗余的组件或者信息,以实现系统的容错。

常见的冗余技术包括硬件冗余和软件冗余。

硬件冗余包括备份电源、磁盘镜像、冗余控制器等;软件冗余包括备份系统、数据镜像、容错编码等。

2. 容错设计:容错设计是指通过改进系统的结构和算法,提高系统抵御故障的能力。

常见的容错设计包括错误检测和错误修复。

错误检测可以通过校验和、循环冗余校验(CRC)等方式实现,用于发现系统中的错误。

错误修复可以通过重传、纠错码等方式实现,用于纠正系统中的错误。

3. 容错恢复:容错恢复是指在系统发生故障时,通过相应的恢复措施将系统恢复到正常工作状态。

常见的容错恢复方案包括备份与恢复、热备插拔、故障转移等。

备份与恢复是指定期备份系统数据,并在系统故障时将备份数据恢复到系统中。

热备插拔是指在系统运行期间替换故障组件以保证系统的连续性。

故障转移是指在系统发生故障时,将任务自动转移到备用系统上继续执行。

三、容错与可靠性的关系容错技术是保证计算机系统可靠性的重要手段。

容错技术可以提高系统的抗干扰能力和容错能力,减少系统因故障而导致的停机时间和数据丢失风险。

因此,容错技术与系统的可靠性密切相关。

容错技术不仅可以提高系统的可靠性,还可以提升系统的稳定性和安全性。

容错技术可以预防系统因硬件故障、恶意攻击或者人为失误等原因而导致系统的异常崩溃或者数据损坏。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机冗余容错fault-tolerant computerrongCUO llSUQn』l 容错计算机(fault-tol~t computer)在硬件发生故障或软件产生错误时仍能继续运行并完成其既定任务的计算机系统。

容错计算机的主要设计目标是为了提高计算机系统的可靠性、可用性和可信性等性能。

提高计算 ·600· 容机可靠性的方法可以分为两大类:一类是排错技术,主要是通过使用可靠性高的元器件,严格的老化筛选等方法达到尽量减少发生故障的可能性;另一类是容错技术,主要是运用元余技术来抵消由于故障而引起的影响。

所谓冗余技术,简单地说,是在正常系统运行所需的基础上加上一定数量的信息、时间或后备硬件、后备软件的方法。

冗余技术是容错计算机中容错技术的基础。

冗余大致上可以分为下列几种类型: (l)硬件冗余以检测或屏蔽故障为目的而添加一定硬件设备的方法; (2)软件冗余为了检测或屏蔽软件中的错误而添加一些在正常运行时不需要的软件的方法; (3)信息冗余在实现正常功能所需的信息以外,再附加一些信息的方法,例如纠错码就是信息冗余的一种形式; (4)时间冗余使用附加一定的时间来完成系统的功能,这些附加的时间主要是用在故障检测或故障屏蔽上。

最常用的硬件冗余是硬件的重复。

硬件冗余一般可以分为3种类型:静态冗余(也称为被动冗余)、动态冗余(也称为主动冗余)和混合冗余。

静态冗余将已发生的故障屏蔽起来,使不影响运行的结果。

被动冗余主要是依靠表决机制来屏蔽发生的故障,因而这种方法不需要故障检测也不必进行系统的重新配置等就可以获得容错的效果。

被动冗余技术中使用最广的是三模元余TM[R。

TMR的基本概念是使用3套完全相同的硬件系统执行相同的任务,然后由1个多数表决器对这3套系统的输出进行表决以确定整个系统的输出。

多数表决器的表决原则是三中取二。

也就是说三模冗余系统可以容许有1个模块发生故障而不至于影响到整个系统运行的正确性。

三模冗余的关键是多数表决器本身的可靠性问题。

提高多数表决器可靠性的方法有多种,其中最常用的方法是多数表决器本身也使用三模冗余,即利用3个独立的多数表决器,每个多数表决器分别接受来自3个模块的输出作为它的输人,然后再分别输出。

这种系统通常被称为带三重多数表决器的三模冗余系统。

除了三模冗余系统外,还有多于三模的冗余,称为N模冗余。

主动冗余技术与被动冗余技术相反,它是通过故障检测、故障定位及故障恢复等手段达到容错的目的。

因而在主动冗余技术中不是去防止故障引发的错误,而是暴露由故障引发的错误,从而去纠正错误。

主动冗余技术中最典型的方法是构造带有比较器的双工系统。

在这种方法中,使用两套完全相同的硬件,且同时完成完全相同的任务,然后对它们的结果作比较。

当然,仅仅有1 个比较器的双工系统只能检测到有无故障,尚不足以确定哪一个模块出了故障。

所以在这样的系统中还必须增加一定的措施才能作故障定位。

动态冗余技术除了上述方法以外,还有诸如热备份、使用把关定时器等都是较为常用的方法。

硬件冗余的第三种类型是混合冗余。

这种技术是将主动冗余和被动冗余结合起来,且取二者之长处。

它先使用被动冗余中的故障屏蔽技术,使系统免受某些可以被屏蔽的故障的影响。

而对那些无法屏蔽的故障则采用主动冗余中的故障检测、故障定位、故障恢复等技术,并且对系统可以作重新配置。

因此,混合冗余的效果要大大优于主动和被动冗余。

然而,由于混合冗余既要有被动冗余的屏蔽功能,又要有主动冗余的各种检测、定位等功能,它的附加硬件的开销是相当大的,所以混合冗余的成本很高,仅在对可靠性要求极高的场合中采用。

混合冗余的方法也有多种,例如,带热备份的N模冗余技术,自清洗冗余技术、筛选模块冗余技术等。

信息冗余是一种将冗余信息添加到数据上从而达到故障检测、故障屏蔽和容错的目的。

信息冗余最好的例子就是检错码和纠错码。

这是将冗余的信息加到一个数据字上使每一个数据字变为一个新的带有冗余信息的字。

这种冗余信息的添加方法是按照一组预定的规则进行的。

符合添加规则而形成的带有冗余信息的字称为码字,而那些虽带有冗余信息但不符合添加规则的字则称为非码字。

按添加冗余信息的规则加上冗余信息的过程称为编码。

反之,将已编码的字恢复成原来形式的过程则称为译码。

一般来说,经过编码的码字只是全部编码的子集,另一部分则是非码字,当系统出现故障时,可能会将码字变成非码字,于是在译码过程中会将引起非码字的故障检测出来。

这就是检错码的基本思想。

至于纠错码则不仅可以将错误检测出来,而且还能将由故障引起的非码字纠正成正确的码字。

由此可见,信息冗余的主要任务在于研究出一套理想的编码和译码技术来提高信息冗余的效率。

编码技术中最简单、最常用的检错码是奇偶校验码。

奇偶校验的基本思想是在二进制的信息字上附加一位冗余位,称为校验位,使得该码字(这里的码字是信息位加上冗余位而形成的信息字)中所含有的1的个数为偶数或为奇数b如果码字中的1的个数为偶餐·60 1. 容数,则称这种校验为偶校验。

如果码字中的1的个数为奇数,则称这种校验为奇检验。

由于奇偶校验码简单实用,便于硬件的实现,因而在计算机系统中被广泛使用。

但是奇偶校验码存在一定的缺点,例如它不能检测偶数个同时发生的故障,因而在它的基础上又发展了多种不同的奇偶校验码,例如分段奇偶校验码、分字节奇偶校验码等。

除此以外,还有、中取m”码、双重码、检查和以及循环码等都是常用的检错码。

汉明码(参见存储器差错校验)是纠错码中最典型的代表。

它不仅能够检测出1个甚至两个故障,而且还能将错误纠正过来,将非码字改正为码字,因而被广泛采用。

时间冗余是以时间(即降低系统运行速度)为代价以减少硬件冗余和信息冗余的开销来达到提高可靠性的目的。

在某些实际应用中,硬件冗余和信息冗余的成本、体积、功耗、重量等开销可能过高,而时间并不是太重要的因素时,可以使用时间冗余。

时间冗余的基本概念是重复多次进行相同的计算,或称为重复执行,简称复执,以达到故障检测的目的。

实现时间冗余的方法很多,但是其基本思想不外乎是对相同的计算任务重复执行多次,然后将每次的运行结果存放起来再进行比较。

若每次的结果相同则认为无故障;若存在不同的结果则说明检测到了故障。

不过,这种方法往往只能检测到瞬时型故障而不宜检测永久型的故障。

这是因为瞬时型故障会使各次运行产生不同的结果。

若不仅要检测瞬时型故障,而且还要检测固定故障等永久型故障,则单靠时间冗余是有困难的。

因此,在系统中还必须附加少量的冗余硬件。

时间冗余与硬件冗余的结合,既能检测瞬时型故障,又能检测永久型故障。

软件冗余是利用冗余的软件来检测硬件和软件故障的方法。

利用冗余软件进行故障检测的方法很多。

常用的有一致性检查、能力检查和多版本程序设计等。

一致性检查是对某一运行结果先作一定的预测,然后在程序运行中和运行后对其结果与预测的结果作比较。

若实际结果在期望值的范围内,则一认为正常,若实际结果超越了期望值的范围,则认为有故障。

能力检查是用检查程序去检查系统中各个部件应有的能力,例如用程序来读写某一个存储单元,以检查该单元的存储和读写能力,又如用一组特定的数据去检查运算逻辑部件,以判断该部件能否进行正常的运算等。

多版本程序设计是对一个相同的任务(或算法)用不同的方法进行程序设计,然后对不同版本的程序运行后得到的结果进行比较,若所有版本运行的结果相同,则认为无故障,否则,就认为有故障存在。

值得注意的是,这种方法实际上是来自于硬件冗余技术中的N模冗余的思想。

多版本程序设计不仅能检查硬件故障,也可以检查软件本身的故障,因此,在软件容错技术中经常使用。

上述的冗余技术,即硬件冗余、信息冗余、时间冗余和软件冗余是使系统获得容错功能和提高可靠性的基本措施和手段。

在实际应用中,上述4种冗余技术经常是结合起来使用的。

将这些冗余技术融合在一个计算机系统中,就称这个系统为冗余系统。

一般说来,一个较为完整的冗余系统,在处理运行中出现的故障时,大体上有以下10个步骤: (l)故障检测这是处理故障的基础,因为要容错就先要将故障检测出来。

故障检测的方法很多,如上述的奇偶校验就是检测故障的一种方法。

故障检测一般分为两类:联机检测和脱机检测。

前者提供了实时检测的能力,这种检测工作与系统的正常工作同时进行。

后者在进行检测时,系统必须停止正常工作。

(2)故障屏蔽这与故障检测正好相反,它不是将故障检测出来,而是将出现的故障屏蔽起来,使系统不受故障的影响。

(3)故障限制限制故障影响的范围,防止已发生的故障影响到系统的其它部分。

(4)复执这是一种检测瞬时型故障的有效措施。

它可以提高计算机抗瞬时型故障干扰的能力。

(5)故障诊断在故障检测的基础上,对故障进行定位。

这对以后的修复、重配置等有很重要的意义。

(6)系统重配置若故障一旦被检出并定位,系统应有能力将发生故障的元件或部件替换下来,或将故障部件与其它部分隔离开来。

当故障部件被替换下来后,系统中可能缺少了这一部件,但系统仍应能保持正常运行,只是系统运行速度下降、功能减弱。

这一现象称为系统降级使用。

(7)系统恢复当检测出故障,必要时在系统重配置后即可消除故障引发的差错。

这时,系统应能返回到出现故障断点前的情况继续运行。

这个过程称为系统恢复。

(8)系统重新启动如果系统由于出现过多的故障而造成大量的错误,以致破坏了许多无法恢复的信息时,就不能再使用上述的系统恢复的办法,而必须重新启动运行。

重新启动分为热启动和冷启动。

前者是在部分信息遭到破坏但还有一部分可以利用的情况时使用,而后者则是在几乎所有信息均遭破坏的情况下使用。

(9)修复凡是已确定有故障的部件必须进行修复。

修复分为脱机修复和联机修复二种。

若要修复的部件卸下后对系统影响不大,或者修复这些部件时系统必定会停机,就使用脱机修复。

联机修复通常是指系统能自动启用备份部件替代有故障部件,并保持系统继续运行,然后再修复切换下来的故障部件。

(10)系统重组合当上述各步完成后,系统必须重新组合,以便完全恢复正常运行。

容错计算机主要应用于工业生产、医疗、航空、航天、军事、公安、交通、金融、机要等部门对计算机的可靠性要求很高的场合。

在应用需求的推动下,容错计算机的理论和技术在不断发展。

尤其是在硬件和软件容错理论、测试算法、诊断技术等方面,尚需继续深人研究。

相关文档
最新文档