&技术的高可靠通用容错计算机容错机制研究$!欧中红#"!!袁由光!!赵晓勇O!哈尔滨工程大学计算机科学与技术学院!哈尔滨#KJJJ#"#!中船重工武汉LJ"所!QOJ" />

基于COTS技术的高可靠通用容错计算机容错机制研究

$!

本文受国防重点预先研究项目"Q #O #N J !J #!资助#欧中红!博士研究生$主要研究方向%容错技术与可信计算$分布计算&袁由光!研究员$主要研究方向%计算机系统机构$可信计算#

计算机科学!J J N _’+a O O b a Q !

基于.J >&技术的高可靠通用容错计算机容错机制研究$

!

欧中红#"!!袁由光!!赵晓勇

O

!哈尔滨工程大学计算机科学与技术学院!哈尔滨#K J J J #

"#

!中船重工武汉L J "所!Q O J J L Q "!!!

三峡大学软件工程研究中心!宜昌Q Q O J J J "O

!

摘!要!本文提出并实现了一种基于$X <4部件!容错机制智能实现的!新颖的通用高可靠容错计算机系统"基于容错功能与用户应用相分离的原则#应用自主设计的智能管理模块#实现对$X <4部件内部状态的可观察性"详细分析了系统的容错机制"利用提出的故障逃逸模型#分析了系统中的层次化故障检测和保护措施并估计了系统故障覆盖率"

关键词!智能容错#$X <4部件#故障逃逸模型#故障覆盖率#容错开销!

;*4*/(%#$&.$A 0

$<*<-4N /4*"K *<*(1%E 1@#3+;*31/83*S /’3-H -$3*(/<-.$A 0

’-*(X \d 2’:F (U ’:F #$

!!^\8W ^’0(=0,:F !!d U8X Y *,’(^’:F

O

"V :A C *C 0C 6’7$’?10C 6-45*6:56,:.<652:’+’F 3$U ,-)*:;:F *:66-*:F \:*@6-A *C 3

$U ,-)*:#K J J J #!#"T 02,:L J "C 2V :A C *C 0C 6’7$4V $$T 02,:Q O J J L Q

!!"4’7C H ,-6;:F *:66-*:F &6A 6,-52$6:C 6-$<2-66(=’-F 6A\:*@6-A *C 3$^*52,:F Q

Q O J J J !O !

!84-(/%-!$0A C ’?*Z 6.7,0+C (C ’+6-,:C 5’?10C 6-*A 5’A C +3$2,-.C ’.6@6+’1,:.2,A 1’’-A 5,+,)*+*C 3

D 9,A 6.’:$X <45’?(1’:6:C A ,:.A 61,-,C *’:’77,0+C (C ’+6-,:56,:.,11+*5,C *’:A $,B *:.’7,-52*C 65C 0-6’7F 6:6-*52*F 2+3-6+*,)+65’A C (67765C *@67,0+C (C ’+6-,:C 5’?10C 6-*A 1-’1’A 6.,:.*?1+6?6:C 6.D V :’-.6-C ’*:5-6,A 6C 26’)A 6-@,)*+*C 3,:.5’:C -’++,)*+*C 3’

7C 26*:(C 6-:,+A C ,C 6A ’7$X <4$,:*:C 6++*F 6:C 7,0+C (C ’+6-,:56?,:,F 6?6:C?’.0+6*A .6@*A 6.D 9*+6$("4!V :C 6++*F 6:C 7,0+C C ’+6-,:56$$X <45’?1’:6:C A $>,0+C 6A 5,16?’.6+$>,0+C (C ’+6-,:565’@6-,F 6$>,0+C (C ’+6-(,:565’A C !

!!引言

为克服专门定制的高可靠容错计算机’#$!(

容错计算的成

本过高)可扩展能力弱)编程复杂$使用不方便以及升级能力差等缺陷$容错计算机设计人员开始研究低成本)扩展灵活)紧跟技术进步和通用的容错计算机$这种容错计算机以商用成熟硬件软件"$’??6-5*,+’77(C 26(426+7$$X <4!为基础#硬件技术和软件技术的进步使得这种可能性可以成为现实#美国W 848的I R S 实验室等在航空航天应用领域’O !K (

)欧洲面

向多种应用领域都在研究和研制高性价比的容错计算机并取

代专用容错计算机

’N $L (

#

但是$由于$X <4硬件是面向大众化的市场需求$低成本的市场压力大$

因此他们在设计时就很少考虑有关可靠性方面的需求#采用$X <4技术来构造高可靠容错计算机有许多关键技术需要解决#

内部状态一致性问题%由$X <4硬件构造高可靠容错计算机时一般为松散耦合的结构#传统专门定制的"50A C ’?(*Z 6.

!容错计算机采用紧耦合的方式来保证每一个冗余模块保持状态的一致性#要达到松散耦合的内部状态完全一致性是非常困难的#但是通过重新定义状态或者限制状态涵盖范围$辅助硬件和软件手段可以达到系统在输入*输出)内存关键区等状态的一致性#

容错开销">,0+C C ’+6-,:565’A C !问题%容错是以牺牲系统一定的资源"包括时间资源)存储资源)计算资源等!为代价的#可以采用减少比较表决模块间状态次数的方法或者加快比较表决速度的办法来尽量减少容错开销#但是减少比较表决模块间状态次数的方法将会导致错误不能及时地检测出来$即错误潜伏期";--’-S ,C 6:53!长$导致错误的传播$受错误污染的区域扩大$系统恢复难度加大$时间延长#因此$容错开销需要与系统所要求的可靠性指标$故障模型$实时性指标等一起综合进行考虑#

故障覆盖率">,0+C C ’+6-,:565’@6-,F 6!问题%衡量一个容错计算机性能的好坏$除可靠性)可用性指标外$故障覆盖率是一个更基本的指标"0:.6-+3*:F !#故障覆盖率包括故障假设覆盖率">,0+C ,A A 0?1C *’:5’@6-,F

6!和故障*错误处理覆盖率";--’-*7,0+C 2,:.+*:F 5’@6-,F

6!’M (

#故障假设覆盖包括失效模式覆盖和失效独立性覆盖#由于$X <4部件本身的故障检测和处理机制很弱$需要采取额外的措施来提高系统的故障覆盖率#

容错透明性">,0+C C ’+6-,:56C -,:A 1,-6:53!问题%容错计算对用户透明$用户和应用程序开发人员就像使用普通计算机一样使用该容错计算机#所以容错机制必须与应用分开#容错必须实现在硬件)设备驱动和操作系统以下#

本文提出并实现了一种新颖的)基于$X <4部件)

容错+

Q M !+万方数据

相关文档
最新文档