计算机冗余容错

计算机冗余容错
计算机冗余容错

计算机冗余容错

fault-tolerant computer

rongCUO llSUQn』l 容错计算机(fault-tol~t computer)在硬件发生故障或软件产生错误时仍能继续运行并完成其既定任务的计算机系统。容错计算机的主要设计目标是为了提高计算机系统的可靠性、可用性和可信性等性能。提高计算 ·600· 容机可靠性的方法可以分为两大类:一类是排错技术,主要是通过使用可靠性高的元器件,严格的老化筛选等方法达到尽量减少发生故障的可能性;

另一类是容错技术,主要是运用元余技术来抵消由于故障而引起的影响。所谓冗余技术,简单地说,是在正常系统运行所需的基础上加上一定数量的信息、时间或后备硬件、后备软件的方法。冗余技术是容错计算机中容错技术的基础。冗余大致上可以分为下列几种类型: (l)硬件冗余以检测或屏蔽故障为目的而添加一定硬件设备的方法; (2)软件冗余为了检测或屏蔽软件中的错误而添加一些在正常运行时不需要的软件的方法; (3)信息冗余在实现正常功能所需的信息以外,再附加一些信息的方法,例如纠错码就是信息冗余的一种形式; (4)时间冗余使用附加一定的时间来完成系统的功能,这些附加的时间主要是用在故障检测或故障屏蔽上。

最常用的硬件冗余是硬件的重复。硬件冗余一般可以分为3种类型:静态冗余(也称为被动冗余)、动态冗余(也称为主动冗余)和混合冗余。静态冗余将已发生的故障屏蔽起来,使不影响运行的结果。被动冗余主要是依靠表决机制来屏蔽发生的故障,因而这种方法不需要故障检测也不必进行系统的重新配置等就可以获得容错的效果。被动冗余技术中使用最广的是三模元余TM[R。TMR的基本概念是使用3套完全相同的硬件系统执行相同的任务,然后由1个多数表决器对这3套系统的输出进行表决以确定整个系统的输出。多数表决器的表决原则是三中取二。也就是说三模冗余系统可以容许有1个模块发生故障而不至于影响到整个系统运行的正确性。三模冗余的关键是多数表决器本身的可靠性问题。提高多数表决器可靠性的方法有多种,其中最常用的方法是多数表决器本身也使用三模冗余,即利用3个独立的多数表决器,每个多数表决器分别接受来自3个模块的输出作为它的输人,然后再分别输出。这种系统通常被称为带三重多数表决器的三模冗余系统。除了三模冗余系统外,还有多于三模的冗余,称为N模冗余。主动冗余技术与被动冗余技术相反,它是通过故障检测、故障定位及故障恢复等手段达到容错的目的。因而在主动冗余技术中不是去防止故障引发的错误,而是暴露由故障引发的错误,从而去纠正错误。主动冗余技术中

最典型的方法是构造带有比较器的双工系统。在这种方法中,使用两套完全相同的硬件,且同时完成完全相同的任务,然后对它们的结果作比较。当然,仅仅有1 个比较器的双工系统只能检测到有无故障,尚不足以确定哪一个模块出了故障。所以在这样的系统中还必须增加一定的措施才能作故障定位。动态冗余技术除了上述方法以外,还有诸如热备份、使用把关定时器等都是较为常用的方法。硬件冗余的第三种类型是混合冗余。这种技术是将主动冗余和被动冗余结合起来,且取二者之长处。它先使用被动冗余中的故障屏蔽技术,使系统免受某些可以被屏蔽的故障的影响。而对那些无法屏蔽的故障则采用主动冗余中的故障检测、故障定位、故障恢复等技术,并且对系统可以作重新配置。因此,混合冗余的效果要大大优于主动和被动冗余。然而,由于混合冗余既要有被动冗余的屏蔽功能,又要有主动冗余的各种检测、定位等功能,它的附加硬件的开销是相当大的,所以混合冗余的成本很高,仅在对可靠性要求极高的场合中采用。混合冗余的方法也有多种,例如,带热备份的N模冗余技术,自清洗冗余技术、筛选模块冗余技术等。

信息冗余是一种将冗余信息添加到数据上从而达到故障检测、故障屏蔽和容错的目的。信息冗余最好的例子就是检错码和纠错码。这是将冗余的信息加到一个数据字上使每一个数据字变为一个新的带有冗余信息的字。这种冗余信息的添加方法是按照一组预定的规则进行的。符合添加规则而形成的带有冗余信息的字称为码字,而那些虽带有冗余信息但不符合添加规则的字则称为非码字。按添加冗余信息的规则加上冗余信息的过程称为编码。反之,将已编码的字恢复成原来形式的过程则称为译码。一般来说,经过编码的码字只是全部编码的子集,另一部分则是非码字,当系统出现故障时,可能会将码字变成非码字,于是在译码过程中会将引起非码字的故障检测出来。这就是检错码的基本思想。至于纠错码则不仅可以将错误检测出来,而且还能将由故障引起的非码字纠正成正确的码字。由此可见,信息冗余的主要任务在于研究出一套理想的编码和译码技术来提高信息冗余的效率。编码技术中最简单、最常用的检错码是奇偶校验码。奇偶校验的基本思想是在二进制的信息字上附加一位冗余位,称为校验位,使得该码字(这里的码字是信息位加上冗余位而形成的信息字)中所含有的1的个数为偶数或为奇数b如果码字中的1的个数为偶餐·60 1. 容数,则称这种校验为偶校验。如果码字中的1的个数为奇数,则称这种校验为奇检验。由于奇偶校验码简单实用,便于硬件的实现,因而在计算机系统中被广泛使用。但是奇偶校验码存在一定的缺点,例如它不能检测偶数个同时发生的故障,因而在它的基础上又发展了多种不同的奇

偶校验码,例如分段奇偶校验码、分字节奇偶校验码等。除此以外,还有、中取m”码、双重码、检查和以及循环码等都是常用的检错码。汉明码(参见存储器差错校验)是纠错码中最典型的代表。它不仅能够检测出1个甚至两个故障,而且还能将错误纠正过来,将非码字改正为码字,因而被广泛采用。

时间冗余是以时间(即降低系统运行速度)为代价以减少硬件冗余和信息冗余的开销来达到提高可靠性的目的。在某些实际应用中,硬件冗余和信息冗余的成本、体积、功耗、重量等开销可能过高,而时间并不是太重要的因素时,可以使用时间冗余。时间冗余的基本概念是重复多次进行相同的计算,或称为重复执行,简称复执,以达到故障检测的目的。实现时间冗余的方法很多,但是其基本思想不外乎是对相同的计算任务重复执行多次,然后将每次的运行结果存放起来再进行比较。若每次的结果相同则认为无故障;若存在不同的结果则说明检测到了故障。不过,这种方法往往只能检测到瞬时型故障而不宜检测永久型的故障。这是因为瞬时型故障会使各次运行产生不同的结果。若不仅要检测瞬时型故障,而且还要检测固定故障等永久型故障,则单靠时间冗余是有困难的。因此,在系统中还必须附加少量的冗余硬件。时间冗余与硬件冗余的结合,既能检测瞬时型故障,又能检测永久型故障。

软件冗余是利用冗余的软件来检测硬件和软件故障的方法。利用冗余软件进行故障检测的方法很多。常用的有一致性检查、能力检查和多版本程序设计等。一致性检查是对某一运行结果先作一定的预测,然后在程序运行中和运行后对其结果与预测的结果作比较。若实际结果在期望值的范围内,则一认为正常,若实际结果超越了期望值的范围,则认为有故障。能力检查是用检查程序去检查系统中各个部件应有的能力,例如用程序来读写某一个存储单元,以检查该单元的存储和读写能力,又如用一组特定的数据去检查运算逻辑部件,以判断该部件能否进行正常的运算等。多版本程序设计是对一个相同的任务(或算法)用不同的方法进行程序设计,然后对不同版本的程序运行后得到的结果进行比较,若所有版本运行的结果相同,则认为无故障,否则,就认为有故障存在。值得注意的是,这种方法实际上是来自于硬件冗余技术中的N模冗余的思想。多版本程序设计不仅能检查硬件故障,也可以检查软件本身的故障,因此,在软件容错技术中经常使用。

上述的冗余技术,即硬件冗余、信息冗余、时间冗余和软件冗余是使系统获得容错功能和提高可靠性的基本措施和手段。在实际应用中,上述4种冗余技术经常是结合起来使用的。将这些冗余技术融合在

一个计算机系统中,就称这个系统为冗余系统。

一般说来,一个较为完整的冗余系统,在处理运行中出现的故障时,大体上有以下10个步骤: (l)故障检测这是处理故障的基础,因为要容错就先要将故障检测出来。故障检测的方法很多,如上述的奇偶校验就是检测故障的一种方法。故障检测一般分为两类:联机检测和脱机检测。前者提供了实时检测的能力,这种检测工作与系统的正常工作同时进行。后者在进行检测时,系统必须停止正常工作。(2)故障屏蔽这与故障检测正好相反,它不是将故障检测出来,而是将出现的故障屏蔽起来,使系统不受故障的影响。(3)故障限制限制故障影响的范围,防止已发生的故障影响到系统的其它部分。(4)复执这是一种检测瞬时型故障的有效措施。它可以提高计算机抗瞬时型故障干扰的能力。(5)故障诊断在故障检测的基础上,对故障进行定位。这对以后的修复、重配置等有很重要的意义。(6)系统重配置若故障一旦被检出并定位,系统应有能力将发生故障的元件或部件替换下来,或将故障部件与其它部分隔离开来。当故障部件被替换下来后,系统中可能缺少了这一部件,但系统仍应能保持正常运行,只是系统运行速度下降、功能减弱。这一现象称为系统降级使用。(7)系统恢复当检测出故障,必要时在系统重配置后即可消除故障引发的差错。这时,系统应能返回到出现故障断点前的情况继续运行。这个过程称为系统恢复。(8)系统重新启动如果系统由于出现过多的故障而造成大量的错误,以致破坏了许多无法恢复的信息时,就不能再使用上述的系统恢复的办法,而必须重新启动运行。重新启动分为热启动和冷启动。前者是在部分信息遭到破坏但还有一部分可以利用的情况时使用,而后者则是在几乎所有信息均遭破坏的情况下使用。(9)修复凡是已确定有故障的部件必须进行修复。修复分为脱机修复和联机修复二种。若要修复的部件卸下后对系统影响不大,或者修复这些部件时系统必定会停机,就使用脱机修复。联机修复通常是指系统能自动启用备份部件替代有故障部件,并保持系统继续运行,然后再修复切换下来的故障部件。(10)系统重组合当上述各步完成后,系统必须重新组合,以便完全恢复正常运行。容错计算机主要应用于工业生产、医疗、航空、航天、军事、公安、交通、金融、机要等部门对计算机的可靠性要求很高的场合。在应用需求的推动下,容错计算机的理论和技术在不断发展。尤其是在硬件和软件容错理论、测试算法、诊断技术等方面,尚需继续深人研究。

计算机容错技术作业

1、故障的本质是什么? 故障指硬件元件损坏(或软件中的BUG),使该元件(或软件模块)不能完成指定逻辑功能的事件。它存在于“物理空间” (构成计算机的硬、软件全体组成它的物理空间)中,是客观存在的事件。其中:硬件故障一般是由元件的物理缺陷导致的,或因运行环境恶劣而引发的随机的故障,这些是可以通过冗余同样硬件加以蔽屏掉的;软件故障一般是由设计错误造成的,是设计时固有的而与干扰无关,一般采用异样的或非相似的软件设计来进行冗余管理。 2、举例说明故障、差错及失效有何不同,举例说明故障潜伏期和差错潜伏期有何不同,举例说明永久故障、间歇故障、瞬时故障有何不同。 故障:是系统的硬件中发生的物理缺陷,设计制造的不完善或软件中隐含的错误。 硬件故障的例子如线路的短路或开路、晶体管不能正常导通或截止等。软件故障的例子如程序的死循环等。 差错:差错是系统中由于故障而造成的信息或状态的不正确。 故障是差错的原因,而差错是故障的结果,如:计算机运行过程中指令区“漂”至数据区。 失效:失效是指系统未能正确提供预先指定的服务。 差错是失效的原因,而失效是差错的结果,如:系统不能正常工作。 从故障发生到由于该故障而产生差错的时间间隔称为故障潜伏期(fault latency)。 从差错出现到由于该差错而导致失效的时间间隔称为差错潜伏期(error latency)。 故障不一定立即引起差错,比如一个与门输出端发生了s-a-0故障,如果很长一段时间,该与门的n个输入不都为1,则在它的输出端并没有…错误?信号出现,因而也不会有差错信息产生。从差错产生后,并不一定立即失效,只有当错误的结果输出,或差错使系统无法继续运行下去,才会发生失效。 永久性故障:一旦发生即永久存在,如s-a-1/s-a-0 间歇性故障:重复的发生/消失,间竭地活动,如接触不良。依一定条件有时发生,条件成立就发生,如串扰故障。 瞬时故障:发生后很快就消失,持续时间短,如受电磁干扰、雷电干扰,空间粒子轰击存储器单元。 3、说明门级故障模型,它适合于什么场合? 门级故障模型指:门级逻辑网络中每个门的每根输入输出线均可能发生两种故障,即该线固定为逻辑1或逻辑0;故障不改变门的基本功能;故障是永久故障。除逻辑固定型故障模型外,比较重要的门级故障模型还有桥接故障模型和信号翻转模型。 该故障模型的建立使用方便,可用布尔代数处理,为复杂的系统产生测试码,故适于不同电路技术。

容错方案和双机热备方案的对比 2

为什么选择容错 Stratus容错服务器与双机热备方案比较

一、容错技术和集群的比较: 1、可靠性比较:

容错服务器的可靠性可达到99.999%以上,其设计原理是“容错原则---容忍错误发生,当出现任意单点故障时,不会对系统造成任何影响,系统仍然连续工作”。而集群方案的可靠性只能在99.9%~99.99%之间,其设计原理是“避错原则----当系统出现故障时,如何补救错误、避免错误进一步扩大”。 2、拓扑结构比较: 计算机业界对可靠性的定义 容错服务器独立服务器 阵的独立服务器 系统 消除单点心 系统结构复杂 环节过多,外部连接 故障发生点多 系统结构简单 如同单机,内部连接 故障发生点少 无单点故障的集群方案 无单点故障的容错方案

3、软硬件架构: 在系统架构中,容错服务器结构简单,且是单软件映像。 1、 工作原理比较: 硬软件结构复杂 依赖集群软件 对所有软件和硬件要求苛刻 切换机制只能覆盖部分实际应用情况 硬软件结构简单 纯硬件容错结构 对所有软件无特殊要求 时钟同步,无需切换

容错方案在出现任何单点故障的情况之下系统工作状态均不会中断,且是零切换时间,进而完整的保护了静态数据及动态数据。 2、维护管理及实施比较: 由于容错服务器的冗余全部是依靠硬件完成的,避免了对软件及人为因素的依赖,因此,其实施及维护非常简单、方便。 3、集群和容错软硬件可靠性实测比较: System Application Fault-Tolerant Cluster Conventional 容错方案的软硬件可靠性是最高的;集群方案虽然略微提高了硬件的可靠性,但却牺牲了软件本身的可靠性。

Stratus (美国容错)ftServer -“最可靠的 计算机系统”

Stratus ftServer –世界上最可靠的计算机系统 一.Sales points ftServer采用Stratus Technologies,Inc(美国容错技术公司)30年的可靠性设计技术,在Intel的IA架构上推出的具有无可匹敌的稳定性的计算机运行平台。同时得益于Intel Xeon 多核芯片技术的强大处理能力,保障用户对运算能力需求。 容错— Fault Tolerance 设计方案(永不停顿方案) 在计算机系统的设备或某一部件出现故障的情况下,计算机系统仍能保持程序的正确运行,并给出正确结果。可靠性达到99.999或以上。 高可用性-High Availability 设计方案(故障恢复方案) 采用内部冗余的计算机或部件,通过硬件组合软件的方法,在运行模块(服务器主机)出现问题时,通过另外备用的模块或机器来恢复原来的程序运行。可靠性达到99.9或99.99。 “真正”容错服务器– ftServer 1)通过芯片和高效的容错技术设计,在一个或多个不同设备产生故障的情况下,系统运行稳如泰山; 2)像单机一样的使用和管理环境,极大降低IT部署,操作和维护难度; 3)全部在线维护故障设备,系统不会停止运行。 二.ftServer 体系结构(DMR双模设计)

三.Stratus (美国容错)ftServer的技术特点及优势 1) Stratus ftServer 采用全冗余的部件级别容错技术设计,使得整台服务器的任何部件不会出现单点故障。 2) ftServer采用Stratus独有的时钟同步(lock step)专利技术,让整台服务器时刻在双工状态下运行,为你提供业界具有最高可靠性的计算机运行平台。 3) ftServer的独特技术设计,使得整套系统变成一个像单机一样的平台,操作系统和应用软件的使用就像单机,安装,维护,使用简单;应用部署快捷,简便。 4) ftServer提供整套系统所有主要部件的联机更换。 包括CPU, 内存,I/O控制器,主板,磁盘,网卡,电源等。更换部件自动 回复同步,无需太多人工干预;应用系统不会产生任何切换,动态运算数据 和静态磁盘数据完整保护,绝无丢失。 5) ftServer提供状态指示灯和图形化的状态管理,机器运行状态一目了然。 6) ftServer可以提供联机的实时故障自动报告,并可提供随时的强有力的远程服务支持,让你使用更加放心。 7) ftServer采用开放式平台设计架构,支持Windows,Redhat Linux, VMWare等主要操作系统应用平台,应用程序方案简单,不需要为在操作系统之上复杂的高可用设计方案付出额外的软件和维护成本。 8) Stratus ftServer是为用户的生产、IT运行环境中提供安全为稳定运行环境的理想选择。

容错关键技术

容错关键技术 一个容错系统包含四个要素:首先是故障检测,这是容错系统必不可少的环节,其他环节以此为基础;其次是对出现的故障所造成的影响进行评估并限制其进一步传播;最后是对确定为不可恢复的故障进行处理。 容错的基本步骤概括起来是故障检测→处理故障→系统恢复。 防止故障造成系统失效有两种基本技术:即是故障掩蔽技术和系统重组技术。 故障掩蔽是防止故障造成差错的各种技术,换句话说要将发生的故障隐蔽起来。这类技术不要求在容忍故障前检测故障,但要求做到故障包容。故障包容是指使故障的影响局部化,不希望一个故障全局地影响整个系统的性能。在故障效应达到模块的输出之前,通过隔离或校正来消除它们的影响,从而达到容错的目的。 掩蔽技术不改变系统的结构,即系统部件的逻辑关系相对固定,因此掩蔽技术又称静态冗余技术。当掩蔽冗余因模块中的故障而耗尽时,再发生故障就会在输出产生错误。 系统重组是防止差错导致系统失效的各种技术。系统重组技术首先做到故障检测,然后做到故障定位,最后做到系统恢复。 系统重组技术称动态冗余技术。 故障掩蔽技术及系统重组技术是达到容错的两种基本途径。而它们又建立在资源冗余的基础上的。资源冗余主要有两种基本形式:硬件冗余和软件冗余。 1、硬件冗余 实时系统中应用最广泛的冗余形式是硬件的物理重复。随着半导体元件体积的缩小及成本的下降,硬件冗余成为更实用的一种冗余方法。硬件冗余有两种形式:被动冗余和主动冗余。 被动硬件冗余又称静态硬件冗余,是指冗余结构并不随故障情况的变化的冗余的形式。被动硬件冗余应用了故障掩蔽的概念,将发生的故障隐蔽起来,防止故障造成差错。被动硬件冗余的基本机理是通过多数表决隐蔽发生的故障。这种冗余方法一般用于多机系统。 主动硬件冗余又称动态硬件冗余,是通过故障检测,故障定位及系统恢复来

冗余设计与容错设计

冗余设计与容错设计 1.冗余与容错的概念 提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容 错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出 现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义:用多于一种的途径来完成一 个规定功能。“容错”反映了产品或系统在发生故障情 况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。 从原理上讲,冗余作为容错设计的重要手段,其实施流 程和原则也同样适用与其他容错设计活动。

2.冗余设计 2.1.目的 冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象 (a) 通过提高质量和基本可靠性等方法不能满足任务可靠性 要求的功能通道或产品组成单元; (b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元; (c)影响任务成败的可靠性关键项目和薄弱环节; (d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目; (e)其他在设计中需要采用冗余设计的功能通道或产品组 成单元。

计算机容错技术课后习题

第1章绪论 1、为什么说可靠度高的系统其安全度必然高,但安全度高的系统其可靠度不一定高? 答:可靠度:设在时刻t0系统正常运行,则系统在整个时间区间[t0 ,t]内正常运行的条件概率,称为系统在时刻t的~,记为R(t)。 安全度:设在时刻t0系统正常运行,则系统在时刻t的安全度S(t)指系统在[t0 ,t]内正常运行的条件概率加上系统在时刻t处于失效安全状态的条件概率,即S(t) = R(t) +FS(t)。 由二者的定义可以看出,当R(t)的值越大,即可靠度越高,且FS(t)值一定时,S(t) = R(t) +FS(t)的值必定会越大,即安全度会很高;反之,安全度高的系统是由R(t)和FS(t)两项参数共同决定的,R(t)的值可以是一个定值,而FS(t)的值可以取一个较高值时,可以满足高可靠度的要求。 2、可靠度高的系统是否可用度一定高?可用度高的系统是否可靠度一定高,为什么? 答:设在时刻t0系统正常运行,则系统在整个时间区间[t0 ,t]内正常运行的条件概率,称为系统在时刻t的可靠度,记为R(t)。系统在时刻t的可用度:指系统在该时刻正确执行其功能的概率,记为A(t),瞬时可用度。系统处于稳定状态时,其可用度不再随时间变化,称为稳态可用度,记为Ass。 可靠度高的系统,可用度一定高,而可用度高的系统,可靠度不一定高。 注意:可用度与可靠度的区别,可用度只考虑时刻t系统正确执行功能的概率,并不关心时刻t以前系统是否发生过时效。而可靠度则要考虑在整个时间区间【t0,t】内系统正常运行的概率。 3、系统可维度是如何影响系统的可用度的,试用公式予以说明。 答:系统的可维度M(t)是指系统失效后,在时间间隔t=Tf内被修复的概率。可用度A=T0/(T0+Tf),T0:正常运行时间,系统完成功能的时间。Tf:故障时间,故障修理时间之和。 4、实现冗余有哪几种方式? 答:(1)硬件冗余:应用附加硬件来实现故障检测及容错:典型的列子如双机比较系统,三模表决系统等。 (2)软件冗余:应用附加软件来实现故障检测及容错。典型例子如故障诊断程

关于计算机服务器系统的容错技术

关于计算机服务器系统的容错技术 摘要随着时代的发展,信息技术的进步,计算机已经逐渐的成为了各行各业中不可取代的一部分,我国对于计算机技术的应用也十分的广泛。其中,计算机服务器系统是计算机中十分重要的一个技术,能够为国防、医疗以及金融等各个行业为计算机系统提供不间断的服务,如果它出现问题那么会造成十分严重的损失,因此应该对于计算机服务器系统的容错技术进行足够的重视并且对其进行进一步的发展。本文主要对其进行了详细的阐述。 关键词计算机服务器系统容错技术 中图分类号:TP302.8 文献标识码:A 1容错必要性 随着计算机技术的普及,通过计算机系统来进行信息的传输并提供服务逐渐应用的越来越广泛,但是计算机的软硬件都有可能会发生故障,这些故障如果没有及时的进行解决很容易造成巨大的损失,甚至会造成整个服务的终止网络也会因此而瘫痪,因此产生难以估量的损失。因此,系统的容错性以及不间断的性质显得尤为重要,为了能够更好地保证系统安全、可靠地运行,必须要采取一定的措施来保证计算机系统能够在出现故障的时候已然可以正常的使用。经过人

们地长时间的研究,总结出来了两种方法,一种叫做避错,就是使用正确的设计并且进行相应的质量控制尽可能的避免系统产生错误,防止将错误引进系统之中,但是在实际的运行中难免会产生一些意料之外的事情,因此这种方法在实施起来有着很大的难度。另外一种就是容错,在系统中出现了某些硬件或者软件的错误的时候,系统能够执行规定的一组程序,或者说这种程序不会因为系统的故障而被中断或者在中途被修改,且其执行的结果也不包含系统中的故障引起的差错。 随着科技的不断发展,计算机技术的逐渐普及,设备的安全性以及可靠性逐渐的引起了越来越多的人的重视,因此计算机服务器系统的容错技术十分重要。当系统的内部出现故障的时候,通过容错技术能够消除故障产生的影响并且使系统最终仍然能够给出正确的结果。按照时间进行故障的划分,故障可以分为以下几种类型:永久性的故障、间歇性的故障以及偶然性的故障。随着计算机的硬件技术的不断发展,容错计算机的系统开销逐渐的降低,同时纠错的速度变得越来越快。而软件方面的容错,对于硬件不会提出过高的要求。 2容错技术概述 容错指的是计算机系统的一个或者多个关键的部件发生故障或者将要发生故障的时候,仍然能够保持正常的工作

容错与冗余技术(DOC)

容错与冗余技术 容错控制的研究虽然面临着空前的挑战,但近些年来,相关研究领域,如鲁棒控制理论,模糊控制,神经网络控制研究的不断深入和发展,也给容错控制的研究带来了良好的机遇,提供了充分的条件。 而计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。 1.1 容错概念的提出 提高系统的可靠性一般有两种办法:1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。 利用前一种方法来提高系统的可靠性是有限的,要想进一步的提高必须采用容错技术。 容错控制技术在国外发展的比较早,是由冯·诺依曼提出的。随着八十年代微型计算机的迅速发展和广泛应用,容错技术也得到了飞速的发展,容错技术被应用到各个环境中。 我国的容错技术现在发展的也很迅速,一些重要的工作场合如航天、电厂等现在都采用了容错技术。 所谓容错:就是容许错误,是指设备的一个或多个关键部分法生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。 错误一般分为两类:第一类是先天性的固有错,如元器件生产过程中造成的错、线路与程序在设计过程中产生的错。这一类的错误

需对其拆除、更换或修正,是不能容忍的。第二类的错后天性的错,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。 容错技术是提高系统可靠性的重要途径。常采用的容错方法有硬件容错、软件容错、信息容错和时间容错。 1.1.1 智能容错的定义 智能容错IFT(Intelligent Fault-Tolerance):就是设备在运行过程中一个或多个关键部件发生故障或即将发生故障之前,利用人工智能理论和方法,通过采取有效措施,对故障自动进行补偿、抑制、消除、修复,以保证设备继续安全、高效、可靠运行,或以牺牲性能损失为代价,保证设备在规定的时间内完成其预定功能。 智能容错技术的构成方法可以采用以下三步来实现: (1)建立系统的设计目标; (2)设计智能容错处理机构; (3)根据设计目标对所作的设计进行评价,如果满足目标则设计成功,否则将返回第二步进行重新设计,直到满足设计目标要求。 硬件智能容错HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。图1 所示为二冗余结构原理图:

计算机冗余容错

计算机冗余容错 fault-tolerant computer rongCUO llSUQn』l 容错计算机(fault-tol~t computer)在硬件发生故障或软件产生错误时仍能继续运行并完成其既定任务的计算机系统。容错计算机的主要设计目标是为了提高计算机系统的可靠性、可用性和可信性等性能。提高计算 ·600· 容机可靠性的方法可以分为两大类:一类是排错技术,主要是通过使用可靠性高的元器件,严格的老化筛选等方法达到尽量减少发生故障的可能性; 另一类是容错技术,主要是运用元余技术来抵消由于故障而引起的影响。所谓冗余技术,简单地说,是在正常系统运行所需的基础上加上一定数量的信息、时间或后备硬件、后备软件的方法。冗余技术是容错计算机中容错技术的基础。冗余大致上可以分为下列几种类型: (l)硬件冗余以检测或屏蔽故障为目的而添加一定硬件设备的方法; (2)软件冗余为了检测或屏蔽软件中的错误而添加一些在正常运行时不需要的软件的方法; (3)信息冗余在实现正常功能所需的信息以外,再附加一些信息的方法,例如纠错码就是信息冗余的一种形式; (4)时间冗余使用附加一定的时间来完成系统的功能,这些附加的时间主要是用在故障检测或故障屏蔽上。 最常用的硬件冗余是硬件的重复。硬件冗余一般可以分为3种类型:静态冗余(也称为被动冗余)、动态冗余(也称为主动冗余)和混合冗余。静态冗余将已发生的故障屏蔽起来,使不影响运行的结果。被动冗余主要是依靠表决机制来屏蔽发生的故障,因而这种方法不需要故障检测也不必进行系统的重新配置等就可以获得容错的效果。被动冗余技术中使用最广的是三模元余TM[R。TMR的基本概念是使用3套完全相同的硬件系统执行相同的任务,然后由1个多数表决器对这3套系统的输出进行表决以确定整个系统的输出。多数表决器的表决原则是三中取二。也就是说三模冗余系统可以容许有1个模块发生故障而不至于影响到整个系统运行的正确性。三模冗余的关键是多数表决器本身的可靠性问题。提高多数表决器可靠性的方法有多种,其中最常用的方法是多数表决器本身也使用三模冗余,即利用3个独立的多数表决器,每个多数表决器分别接受来自3个模块的输出作为它的输人,然后再分别输出。这种系统通常被称为带三重多数表决器的三模冗余系统。除了三模冗余系统外,还有多于三模的冗余,称为N模冗余。主动冗余技术与被动冗余技术相反,它是通过故障检测、故障定位及故障恢复等手段达到容错的目的。因而在主动冗余技术中不是去防止故障引发的错误,而是暴露由故障引发的错误,从而去纠正错误。主动冗余技术中

对容错服务器的正确理解

被误读的NEC容错服务器 误读一:容错很好很昂贵 由于容错服务器采用的是硬件全冗余的技术,而且在两套硬件之间还通过独立芯片和软件保证故障时零时间切换,因而其价格要比同规格的PC服务器高出许多。 更为典型的一个用户反馈是:NEC容错服务器产品很好,可用性很高,但是不是像IBM的z系列和HP的NonStop系列动辄都是百万美元? 从上述两种态度可以看出中国用户对容错的应用定位尚属模糊。根据IDC 数据,广义概念上的容错市场约占整个服务器市场的4%,包括IBM的System z、HP的NonStop和NEC的Santa Clara、Express 5800/ft以及Stratus的ftServer 6200,前三者为传统大型主机,后二者为容错服务器。显而易见,这一市场面对的是属于中高端的窄众用户。 而了解上述用户特征后自然明白,容错所谓的昂贵其实纯属误读:如果只需要进行基础IT建设的成长型企业,完全可以采用普通的塔式和机架式服务器,而不必使用容错产品;如果是需要高可用性的中高端用户,那么容错服务器相对大型主机而言,其实相当便宜。以NEC的容错服务器Express 5800/ft为例,目前最低配置的成本甚至已经与同规格的双机热备方案相当。 误读二:虚拟化取代容错 随着用户对计算资源利用率、灵活调度的高度渴求,导致近几年来虚拟技术在PC服务器上快速增长,VMware、Citrix等技术供应商也迅速走红,由此也产生了这样一种观念:虚拟万能,即通过虚拟就能实现计算资源的灵活配置、调度并保证故障时的自动迁移。 虚拟化真是万灵丹吗?显然不是。从硬件架构的层次上看,虚拟层位于底层硬件之上,只能解决虚拟机及其应用的故障迁移。如果是底层硬件故障,诸如主板故障、电源故障、CPU损坏等,虚拟技术是无能为力的。 随着虚拟化技术的普及,容错服务器会变得越来越重要。因为当物理机宕掉的时候,它会影响运行在其上的虚拟机,所以越是依赖虚拟技术的用户越需要保证底层硬件的高可用。 误读三:容错使用很复杂 对于使用过大型主机和双机热备等高可用方案的用户来说,配置及管理系统绝对是一个技术上的考验。这也使得一些用户产生了“高可用等于高复杂”的观点。

容错服务器技术vs双机冗余

容错服务器技术vs双机冗余 2009-05-21 来自:网界网作者:宋家雨收藏 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术

双机热备份和单机容错技术的比较

目前主流应用的服务器容错技术有三类,它们分别是:服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的,也就是说服务器群集技术容错级别最低,而单机容错技术级别最高。由此可知它们各自应用的行业容错级别需求也是从低到高的。本文主要介绍后两种容错技术,先来看一下双机热备份容错技术。 一、双机热备份技术 双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜(也可没有,而是在各自的服务器中采取RAID卡)及相应的双机热备份软件组成,如图1所示。 图1(点击看大图) 在这个容错方案中,操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。 双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳” 信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。 双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍。 双机热备模式即目前通常所说的active/standby 方式,active服务器处于

容错控制简介

1.2容错技术简介 容错控制及其系统组成 容错控制的发展及研究现状 1.2.1容错控制的概念和任务 容错概念最初来源于计算机系统设计领域,是指系统内部环节发生局部故障或失效情况下,计算机系统仍能继续正常运行的一种特性。后来人们逐渐把容错的概念引入到控制系统,这样人们虽然无法保证控制系统每个环节的绝对可靠,但是构成容错控制系统后,可以使系统中的各个故障因素对控制性能的影响被显著削弱,从而间接地提高了控制系统的可靠性。特别是控制系统的重要部件的可靠度未知时,容错技术更是在系统设计阶段保证系统可靠性的必要手段。 容错控制的指导思想是在基于一个控制系统迟早会发生故障的前提下,在设计控制系统初期时就将可能发生的故障对系统的稳定性及静态和动态性能影响考虑在内。最简单的情况,如果传感器或执行器发生故障,在故障后不改变控制律的情况下,如何来维持系统的稳定性就是控制器设计过程中值得注意的问题。在容错控制技术中,这种问题属于完整性控制的范畴。 在某种程度上,容错控制系统是指具有内部冗余(硬件冗余、解析冗余、功能冗余和参数冗余等)能力的控制系统,即在某些部件(执行器、传感器或元部件)发生故障的情况下,闭环系统仍然能保持稳定,并在原定性能指标或性能指标有所降低但可接受的条件下,安全地完成控制任务,并具有较理想的特性。动态系统的容错控制是伴随着基于解析冗余的故障诊断技术的发展而发展起来的。 1.2.2容错控制的现状研究 容错控制系统的基本结构为:传感器、故障检测与诊断子系统、执行器和控制器。其中,故障检测与诊断子系统能够对控制系统进行实时故障监测与辨识等;控制器则根据故障诊断信息作出相应的处理,实施新的容错控制策略,保证系统在故障状态下仍能获得良好的控制效果。在实际控制系统中,各个基本环节都有可能发生故障。 容错控制系统有多种分类方法,如按系统分为线性系统容错控制和非线性系统容错控制,确定性系统容错控制和随机系统容错控制等;按克服故障部件分类为执行器故障容错控制,传感器故障容错控制,控制器故障容错控制和部件故障容错控制等;按控制对象不同分为基于硬件冗余和解析冗余的容错控制分类。一般,为了全面反映容错控制系统的特性,常将上述各种分类方法组合运用。 1.硬件冗余方法 硬件冗余是指对系统的重要部件及易发生故障部件设置各种备份,当系统内某部件发生故障时,对故障部分进行隔离或自动更换,使系统正常工作不受故障元器件的影响,保证系统的容错性能。硬件冗余方法根据备份部件是否参与系统工作可分为静态硬件冗余和动态硬件冗余。 l)静态硬件冗余:并联多个相同的组件,当其中某几个发生故障时并不影响其它组件的正常工作。 2)动态硬件冗余:在系统中不接入备份组件,只有在原组件发生故障后,才把输入和输出端转接到备份组件上来,同时切断故障组件的输入和输出端,即运行模块的失效,备用模块代替运行模块工作。系统应该具有自动发现故障的能力与自动转接设备。 硬件冗余方法可以用于任何硬件环节失效的容错控制,建立起来的控制系统将具有较强

计算机数据库以及系统容错性处理

龙源期刊网 https://www.360docs.net/doc/833695612.html, 计算机数据库以及系统容错性处理 作者:洪雄 来源:《科教导刊·电子版》2018年第07期 摘要计算机在现在的生活中是非常普遍存在的事物,也是我们的生活工作所必需的,计算机是一个多种先进技术结合的产物,计算机中的很多应用对于其他领域来说,会有很大的借鉴意义。计算机的图形处理技术是一种很复杂的技术应用,在数据计算领域的应用,是此技术的一种有效利用,同时对于数据计算来说,也是一种有益的借鉴来源,二者在一定程度上,可以说是有效的结合使用,相互促进,相互提高。本文通过对计算机交互式的图形技术的分析,引出可视化技术在数据的挖掘中所起到的重要作用,进而阐述交互式技术在计算机的图形处理中的重要作用。 关键词计算机算法数据计算可视化 中图分类号:TP302 文献标识码:A 0引言 几年来,计算机的图形处理技术越来越频繁的被人们应用于其他的领域,也是现在这个科学技术非常发达的社会的一种形势所在。现代一种相对比较常见的数据的可视化技术,指的就是运用计算机的图形学和图像处理的技术,把数据转化为可以被识别的图像或者图形,进而可以在显示器的屏幕上显示出来,被看见的使用者所理解和接受,同时还要进行交互处理的技术。这样一种技术涉及的技术和领域比较广泛,计算机的图形学、图像处理技术、计算机设计、计算机视觉技术、人机交互技术等,多个领域的结合才是一种比较实用的技术。今年以来,随着网络科学技术和网上电子商务技术的发展,在以往科学计算可视化的基础之上,出现了信息可视化的概念,并且逐渐在吸引人们的眼球,成为科学技术领域研究的焦点问题。我们都知道,“可视化”就是使之可见,可以被看见,就是可视化的最基本的含义,那么,数据在挖掘过程中,很多活动都可以被认为是可视化,利用可视化的技术进行信息的传递、知识的发现等。 1计算机服务器系统容错系统的概述 我们所说的计算机故障,指的是由于计算机不见的物理实现、操作错误或者是设计错误等原因引起的计算机系统硬件或者是软件错误的状态。故障的诊断、检测和恢复技术主要是作为计算机容错技术的重要组成部分,如果计算机系统要进行故障恢复的操作,首先就要进行检测、诊断的技术来对故障所处的位置进行定位。作为恢复的前提,我们还应该在恢复技术的作用下使得计算机系统能够恢复到无故障时候的状态并且开始正常工作。当前运用的计算机容错技术最基本的方法是冗余技术,而硬件冗余、软件冗余、信息冗余以及时间冗余技术是作为冗余技术的四个主要组成部分。

冗余与双机热备

冗余与双机热备 冗余: 指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间 Redundan,自动备援,即当某一设备发生损坏时,它可以自动作为后备式设备替代该设备。 冗余系统配件主要有: 电源:高端服务器产品中普遍采用双电源系统,这两个电源是负载均衡的,即在系统工作时它们都为系统提供电力,当一个电源出现故障时,另一个电源就承担所有的负载。有些服务器系统实现了DC的冗余,另一些服务器产品如 Micron公司的NetFRAME 9000实现了AC、DC的全冗余。 存储子系统:存储子系统是整个服务器系统中最容易发生故障的地方。以下几种方法可以实现该子系统的冗余。磁盘镜像:将相同的数据分别写入两个磁盘中。磁盘双联:为镜像磁盘增加了一个I/O控制器,就形成了磁盘双联,使总线争用情况得到改善; RAID:廉价冗余磁盘阵列(Redundant array of inexpensive disks)的缩写。顾名思义,它由几个磁盘组成,通过一个控制器协调运动机制使单个数据流依次写入这几个磁盘中。RAID3系统由5个磁盘构成,其中4 个磁盘存储数据,1个磁盘存储校验信息。如果一个磁盘发生故障,可以在线更换故障盘,并通过另3个磁盘和校验盘重新创建新盘上的数据。RAID5将校验信息分布在5个磁盘上,这样可更换任一磁盘,其余与RAID3相同。 I/O卡:对服务器来说,主要指网卡和硬盘控制卡的冗余。网卡冗余是在服务器中插上双网卡。冗余网卡技术原为大型机及中型机上的技术,现在也逐渐被PC服务器所拥有。PC服务器如 Micron公司的NetFRAME9200最多实现4个网卡的冗余,这4个网卡各承担25%的网络流量。康柏公司的所有 ProSignia/Proliant服务器都具有容错冗余双网卡。 PCI总线:代表Micron公司最高技术水平的产品NetFRAME 9200采用三重对等PCI 技术,优化PCI总线的带宽,提升硬盘、网卡等高速设备的数据传输速度。 CPU:系统中主处理器并不会经常出现故障,但对称多处理器(SMP)能让多个CPU 分担工作以提供某种程度的容错。 双机热备: 所谓双机热备就是使用互为备份的两台服务器共同执行同一服务,其中一台主机为工作机(Primary Server),另一台主机为备份机(Standby Server)。在系统正常情况下,工作机为应用系统提供服务,备份机监视工作机的运行情况(工作机同时也在检测备份机是否正常),当工作机出现异常,不能支持应用系统运

容错服务器的简单理解

美国stratus公司:容错服务器的简单理 【IT168 资讯】美国stratus容错公司出品的容错服务器是一种可以实现零时间停机的服务器,在一些关键性领域里应用非常广泛,例如:电信、机场、银行、冶金行业、安全、医院的HIS系统、电视台、公安、电力行业、大的零售业,等一切要求高可用性的行业, 这类用户以前在没有办法的情况下选用的是高可用性集群,英文原文为High Availability Cluster, 简称双机HA Cluster,是指以减少服务中断(宕机)时间为目的的服务器集群技术,简称双机,这种方式实现起来非常复杂,后期维护成本也很高,对技术人员的依赖也非常严重,而且因为cluster不能实现0时间停机(消除单点故障的集群可用性是99.99%),所以他的设计目标是减少停机时间而不是避免停机时间,而容错服务器设计上就是避免停机,高可用性的时间是99.9998%,如果2个方案价格相当,您选择减少停机还是选择避免停机的服务器呢? 容错的优势 容错服务器的几点优势简单说说!(主要是和双机的区别说一下) 1:国际著名检测组织IDC公布:容错服务器的高可用性是99.9998%,而消除单点故障的集群是99.99%,IBM的大型机为99.995% 2:设计上容错的目标是避免停机,而集群是减少停机(当我们有避免停机的方案,我们为什么还要选择减少停机的方案呢?) 3:容错能有效的保护动态数据不丢失,而双机只能保证写入硬盘的数据; 4:容错能支持热插拔任意的硬件,包括主板,CPU等关键性硬件, 5:布置非常简单,只需要装单套系统,数据库也只需要一套,免去双机软件和研发代码的麻烦,从而大大的减少工程师的工作量,也大大的减少了软件成本. 6:速度比同配置的双机要快20%以上. 7:后期维护成本几乎为零,而双机的话需要工程师的支持,或许由于系统补丁的升级需要额外的研发双机代码来保证系统的切换成功; 8:容错是没有切换时间的,而双机由于硬件宕机后会发生停顿的情况,还有就是双机切换工作是有可能不成功的. 9.容错的windows系统因为有容错揪错芯片,所以容错的windows系统比传统的windows系统稳定,也许您用很多年都不需要重起windows,因为它永远和刚开机一样快,容错因此承诺容错的windows比IBM的AIX还稳定.因为您用上了容错就不知道什么叫停机. 上面说了很多与双机对比的优势,下面我们通过案例来实际了解容错到底有多好:

计算机网络安全容错技术解析

4 计算机网络安全课程设计 容错技术浅析 班级: 学号: 姓名: 分数: 2013年12月16日

容错技术浅析 摘要:计算机技术的发展是日新月异的,与此同时计算机系统的可靠性越来越受到人们的重视,而容错技术是提高可靠性的一种有效方法。本文首先阐述了计算机容错技术的历史和概念,而后还展示了两种容错技术的完成方法和现如今运用于网络上的容错技术产品,最后简要的概括了容错技术未来的发展趋势。 关键字:容错技术、冗余、磁盘镜像 1 引言 性能、价格和可靠性是评价一个网络的三大要素,为了提高网络系统上午高可靠性,人们进行了长期的研究,并总结了两种方法。一种叫做避错,即采用正确的设计和质量控制尽量避免把故障引进系统,但实际上这是不可能的。还有一种方法就是容错,所谓容错是指当系统出现某些指定的硬件或软件的错误时,系统能执行规定的一组程序,或者说程序不会因系统中的故障而中断或被修改,并且执行结果也不包含系统中故障引起的差错。随着现代工业技术的发展和计算机的普及,工业设备运行的安全性和可靠性越来越引起人们的重视,为了保证其安全、高效和可靠地运行,必须采用与之相适应的管理模式,容错技术为计算机系统提供了这样的能力:当计算机内部出现故障的情况下,计算机系统仍能正确工作。计算机容错技术是计算机系统可靠性提高的重要手段。

2 容错技术的历史 上世纪80年代,第一代容错技术就开始进入商用领域。美国Stratus(容错公司)在Stratus 独特的硬件级容错技术及VOS专有操作系统环境下,采用了Motorola M68000处理器。 1993年,英特尔I860处理器在Stratus的硬件级容错体系结构中成功应用,在软件环境方面,还能满足业界对开放性要求的Unix操作系统FTX,即AT&T UNIX SVR4。 1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA-RISC对称多处理技术。 进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA 服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,同时他们不可能配备更多的专业人员来进行专职维护。双机热备、集群服务器遇到难题。 如今,NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准操作系统环境的容错服务器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99.999%,这种实时保护技术来源于STRATUS连续处理技术(Fundamentals of Continuous Pro-cessing Design),包括LOCKSTEP 技术,安全故障(FAILSAFE)软件激活服务(ACTIVE SERVICE )。

容错服务器技术vs双机冗余

容错之"错" 容错服务器技术vs双机冗余 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9 的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术 美国容错公司技术顾问高峰在接受记者采访时表示,容错服务器的技术并不难理解,计算机自诞生之日起,其系统结构并没有发生任何改变,仍然是冯诺依曼教授所提出的由运算器(CA)、控制器(CC)、存储器M和输入/输出装置所组成,而容错服务器的思路就是把所

相关文档
最新文档