处理器容错技术研究与展望[1]
计算机研究与发展
!""#$%%%&$’()!*#$$&$+++!,-./01234/5*/670891:9;931<=32>?9@94/7
6928A A
($):$B A "$C %,’%%+收稿日期:’%%B D %E D ’C ;修回日期:’%%C D %B D ’A
处理器容错技术研究与展望
傅忠传陈红松崔刚杨孝宗
(哈尔滨工业大学计算机科学与技术学院哈尔滨$B %%%$
)(50F =/2G
<=032#=H 8I 9>0I <2)!"#$%&"’()*+,-#*%"(.$%-%$/.#*#012%&%("$/(.3!"#&4
%$+J 0K =/2G <=032,*=92L /2G ;/2G ,*0H M 32G ,32>N 32G O H 3/F /2G
(!"##$%$"&!"’()*$+,-.$/-$0/12$-3/"#"%4,50+6./7/8*.*)*$"&2$-3/"#"%4,
50+6./$B %%%$)56&+"($+P ;89<=2/4/G Q 3>@32<9;32>;H 4H 25938019;H F 9;=1H 2R ;,670891;Q ;896H ;53<9>S H 8=H 29@H 83T 4Q
H 2<193;H 2G 1H ;R ;/58132;H 928&53048;0;<978H T H 4H 8Q IP <1>H 2G 4Q ,71/<9;;/1>9792>3T H 4H 8Q 32>810;8S /18=H 29;;=3@9T 9698=963U /171/T 496;/58=93774H <38H /2;Q ;896;I :9<9284Q
,60<=S /1R=3;T 992>/2938>H 559192849@94;8/3<674H ;=53048&8/49132<9H 271/<9;;/1;Q ;896;3G 3H 2;88132;H 928&53048;I !28=H ;73791,32/@9432>6719=92;H @983V /2/6Q /
58=94389;871/<9;;/153048&8/49132<919;931<=9;H ;7085/1S 31>IW 3;9>/28=H ;83V /2/6Q ,8=989<=2H X 09;/5H 217/138H 2G 53048&8/49132<9,9;79
/1832871/<9;;/153048&8/49132<931<=H 89<8019;32>19719;92838H @919;931<=9;31934;/T 1H 954Q H 281/>0<9>32>3234Q F 9>IJ H 2344Q ,;/69@3403T 493>@H <932>7/;;H T 498192>;H 271/<9;;/153048&8/49132<919;931<=9;31971/7/;9>,=/7H 2G 8=9Q S H 44T 9295H 8194389>19;931<=91;I
7%18
#"3&810;8S /18=Q 6708H 2G ;71/<9;;/153048&8/49132<9;=H G =7915/1632<9;4/S 7/S 91;8132;H 92853048;53048&8/49132<9T 9=3@H /1
摘
要
随着生产工艺的进步和硅形体尺寸的缩小,计算机系统面临着前所未有的瞬态故障影响,可信
计算已经成为桌面级和嵌入式系统设计和应用的热点,其中以处理器的可信设计为核心I 首先,从容错技术角度对处理器提出了一种新颖的、比较全面的分类方法;在此基础上,以处理器容错技术发展趋势为线索,对目前流行的处理器结构、微结构的容错机制和容错技术以及不同层次上有代表性的最新研究成果做了介绍和分析;最后,对处理器容错技术研究新趋势及其发展方向提出了意见和建议I
关键词
可信计算;处理器容错;高性能;低功耗;瞬态故障;容错行为
中图法分类号,-(%’
随着集成电路工艺的进步,处理器系统的瞬态故障率"Y :(;/58911/11389)将急剧增加,其原因包括以下几方面因素:$晶体管工作电压的减小降低了集成电路噪声容限,使芯片更易受瞬态故障影响;%处理器主频的提高使其故障率增加;&集成度的提高使芯片中晶体管数量呈指数性增长,使整个芯片的故障率增加I 据"=H @3R 0631等人预测,从$))’"’%$$年芯片瞬态故障率将增加)个数量级,
也就是说那时由于空间粒子辐射等因素造成的芯片瞬态故障率可以与现在不加任何防护措施的存储器相
比[$]I 近年来,
处理器系统的可信性,尤其瞬态故障的容错问题引起了人们极大关注,处理器可信性已经像高性能、低功耗一样成为业界关注的热点I
!
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!本文首先从容错技术角度提出了一种处理器分
万方数据
类方法,就我们所知这是目前较完整的一种分类!在此基础上,以处理器容错研究趋势为线索,对目前流行的处理器结构、微结构容错机制,以及业界在不同层次上有代表性的最新研究成果做了介绍和分析;最后,对处理器容错研究的新趋势、新方法和热点提出了我们的意见和建议!
!处理器容错技术分类
瞬态故障对存储系统的影响以及存储系统的防护问题人们研究已久["#$],然而对于处理器本身的容错近年来才引起人们足够的重视!存储系统固有的规则结构使得信息冗余技术使用非常普遍,但由于处理器本身结构的不规则性,人们常采用硬件或软件的方法实现容错,如图%所示!
软件实现的容错&’()(*+,-./0123451316-17 ,/85--+510/691)常常应用于计算机系统,对于处理器本身的容错可以采用软件或者软件与硬件相结合的方式实现[:#;]!&’()的优势主要在于软件的自动实现和与硬件无关性,并且它可以在不同的级别,例如在操作系统级、高级语言级,或者通过编译器的编译甚至以不同级别技术相互协同的方式实现!
处理器的硬件容错也可以在如电路级、微结构级、结构级或者系统级[%<]等不同级别实现!其中结构级、微结构级容错机制已经成为近年的研究热点,常采用时间冗余技术和空间冗余技术实现!
空间冗余技术通过在不同的部件上执行同一个任务或线程实现容错,其特点是执行速度快,但需要相应冗余硬件的支持!按照冗余部件的不同,空间冗余可以在功能单元级、特殊部件级或流水线级等
不同的级别以不同的粒度实现!
时间冗余技术可以在指令级或线程级通过在相同的硬件上多次执行同一个任务实现容错!它通过牺牲执行时间换取硬件成本,时间代价较高,因此如何以最小的硬件代价换取容错和高性能已经成为一个研究热点!指令级容错(-134+0/5017867/69=)常用于单线程的超标量处理器中利用多个指令流的执行实现容错!处理器中的多个指令流从本质上来说利用’>?(26*-089-2+651@154/0/55152*3)实现容错,因此我们把它划为指令级容错技术!
硬件实现的线程级容错主要应用于如&A)(*2385-/61+8*385-2-B01/726C)或D A?(9B24
385-240+91**26C)等多线程处理器在真正的线程级实现容错!对于在单线程的处理器上引入真正的线程级机制实现容错人们研究较少!
值得注意的是人们常采用多种技术的协同在不同级别实现处理器容错!例如在电路级使用信息冗余技术,在结构或微结构级使用时间或空间冗余技术,甚至利用软硬件协同的方式实现容错!
"处理器容错技术
本节以我们提出的分类法为基础,以处理器容错技术的趋势为线索,对目前流行的处理器结构、微结构的容错机制,以及业界在不同层次上有代表性的研究成果进行介绍和分析!
"#!容错与高性能技术的融合
如图%所示,时间冗余可以在指令级或线程级等不同的级别实现!
(2C!%)/E+6+3=+,-B140+91**+0,/85-#-+510/691-19B6+5+C=!
图%处理器容错技术分类
"!%!%指令级容错
指令级容错主要利用处理器已有的高性能技
术,在对其结构、微结构做最小改动的情况下利用’>?实现容错!近年来许多高性能技术已经应用到
:
:
%
傅忠传等:处理器容错技术研究与展望
万方数据
容错领域,例如指令重发[!!]、指令复制[!"]、指令重用(#$%&’()*$’+(%+
)[!,-!.]以及/#&-%0#)+1技术[!2-!3]等4!)指令重发与指令复制技术(#$%&’()*$’+#%%(+
5$1#$%&’()*$’+6
0#)5*$)时间冗余技术的典型作法是使指令执行两遍并对两次执行结果进行比较,实现以指令为单位的“细粒度”容错4这可以通过指令重发或指令复制机制实现4
!指令重发:在处理器的调度段使指令重复执行
[!!];"指令复制:在解码段利用指令注入技术(#$%&’()*$#$7
+)*$)在处理器中形成多个指令流实现[!"]4该方法利用指令注入逻辑从主线程生成!8!个冗余指令流,并为每条指令的!个拷贝分配连续的9:/(’+*’1+’;(<<+’)单元分别进行解码并分派到功能单元执行,起到了重复执行的效果4当多个指令流的执行结果一致时,在处理器提交段又合成为一个指令流,即每条指令只提交一次;不一致时则利用分支回绕(;’5$)=’+>#$1)机制将处理器恢复到正确状态4
总之,指令重新执行的方式以时间为代价换取了处理器的高可信性4
")指令重用?9(#$%&’()*$’+(%+)@#A
4"9+(%+;(<<+’4图"指令重用缓冲
动态指令重用是一种非前瞻技术,原理类似于备忘录4指令重用利用程序本身固有的冗余特征,即一个静态指令的实例会以相同操作数多次执行,来消除处理器冗余计算提高性能4为降低其时间代
价,人们把?9指令重用技术应用于容错领域[!
,-!.]4如图"所示4重用缓冲(’+(%+;(<<+’)包括一个操作码、两个操作数和一个执行结果4指令执行时会检索重用缓冲,命中则直接利用查找的结果进行提交;否则指令正常执行,并将指令执行结果写入重用缓冲4重用也可以在不同的级别实现,如块重用、踪迹重用等4
,)位片机制(;#&-%0#)+1
)位片机制固有的高性能特性将容错与高性能技
术融合在一起[!2-!3]4位片结构将处理器的数据通路
分成多个子数据通路,每个子数据通路专门负责不同的运算,这加速了处理器故障检测和恢复4图,示出包括两个位片结构的处理器,处理器中的发射队列、指令唤醒逻辑、物理寄存器文件以及功能单元都被分成小的位片,在派发段两位片独立执行并将执行结果写入相应的位片寄存器4该结构的优点是:!在缺少数据相关信息的情况下,指令被看做两个不相关的单元并行执行;"可以利用操作数的部分信息获得更高的并发性,例如用于尽早解析分支误预测等4
@#A
4,/#&-%0#)+16’*)+%%*’5’)=#&+)&(’+4图,位片处理器结构
实际上,指令级容错是处理器容错中极富挑战
性的研究领域之一4"4!4"线程级容错
利用B C D 或E C F 的多线程特性实现容错人们研究已久4冗余多线程9C D (’+1($15$&G (0-&=’+51#$A
)用于B C D 处理器实现容错[!H -!I ],基于E C F 的容错称为芯片级冗余多线程()=#60
+J +0’+1($15$&&=’+51#$A
,E 9D )[!K -"L ]4傅忠传与陈红松等人将微线程技术引入到容错领域,提出了一个崭新的基于微线程的粗粒度超标量容错结构C D /(G #)’*&=’+51;5%+1)*5’%+A ’5#$+1%(6
+’%)505’5’)=#&+)&(’+
)并探讨了实现细节["!]4硬件实现的真正线程级容错是一种有前途的、可行的和高效的处理器容错解决方案4
总之希望更多的高性能技术和潜在的新技术的出现,并将其应用于容错领域,在提供容错能力的同时获得高性能4!"!容错与低功耗技术的融合
和高性能一样,低功耗和可信性已经成为下一
代处理器设计的两个重要指标4因此,
正确地理解3
2!计算机研究与发展"L L H ,..(!
) 万方数据
处理器中各组成部件的功耗与可信性的关系及其交互具有重要意义!
人们对"#$%&中的功耗与容错交互问题进行了
深入研究[’’(’)]!*%#+,等人提出一种通过保护复制
数据实现低功耗的机制[’’];-./#+0等人对使用频率高的"#$%&行进行保护降低功耗[’
1]
;20等人在电路级和微结构级研究了可信性与低功耗的交互与均
衡问题,并提出了一种自适应的、利用不同复杂度编码实现对"#$%&中干净数据($3+)和脏数据(40567
)保护的机制[’8]!*%#+,等人提出了一种检测点($%&$9:.0+60+,)与动态电压调整;<-(47+#/0$=.36#,&>$#30+,
)相结合的方法在实现容错的同时对"#$%&进行动态功耗管理[’)]
!功耗感知的(&+&5,7
(#?#5&
)自适应检测点在任务级对功耗动态管理的同时实现了容错!
不同的低功耗技术具有不同的可信行为,低功耗与可信性的交互与均衡已经受到业界的高度关注!
!"#性能!功耗!容错的交互@0,!8;7+#/0$=.36#,&>$#30+,
$.+65.3/&$%#+0>/!图8;<-控制策略机制
网络处理器A B (+&6?.59:5.$&>>.5
)的出现为路由器等高性能网络设备的构建提供了灵活、高效的平台,目前已成为嵌入式领域的热点!典型的A B 集多处理与多线程技术与一身,在一个芯片中集成了多个利用包级并行性快速执行的可编程微引擎C D (/0$5.&+,0+&)提供强大的网络处理能力!E +6&3公司的E F B G ’H H 是A B 结构的代表,它由一个
-65.+,
I J C 处理器核、K 个微引擎、一个标准内存接口和一个高速总线接口组成[’K ]!随着主频的提高和复杂性的增加,功耗已经成为A B 设计中的重要因
素之一!
在这样的背景下,2L .等人开发了一个基于
E F B G ’H H 的定时准确的、开源的结构级性能!
功耗A B 仿真框架———A &B -0/,在性能与功耗方面获得了满意的准确度[’M ]!如图8所示,2L .模拟了;<-
技术对降低功耗空间进行了优化,以H !)N 的性能
代价获得了O !G N 的功耗收益!
目前我们正在从事A B 中性能!功耗!
容错交互与均衡的深入研究[’O ]!
!"$软件与硬件技术的交互-E @P 备受青睐的主要原因在于其采用纯软件的方法及其实现的与硬件无关性!-E @P 可以分成1类:"通过复制程序并对其运行结果进行比较检测
故障,如J &$.=&57Q 3.$9>和A (<&5>0.+B 5.,5#//0+,[K ];
#在程序中引入控制代码,
如基于算法的容错(#3,
.506%/R #>&4S #L 366.3&5#+$&)、I >>&560.+>和".4&@3.?"%&$90+,[M ];$在语言级对程序转换实现容错等!-E @P 也可以按实现层次分为语言级、
编译级或操作系统级的容错!-E @P 以时间复杂性换取了高可信性和与硬件无关的快速实现,目前已经成为各国航天领域的核心机密技术之一!
综上所述,软件实现的容错与硬件机制在不同层次上的协同与交互将成为一个不可避免的、合理的容错解决方案,C L 9%&5T
&&提出的关于J C P 软件版本的研究是又一例证[’U ]!!"%处理器结构!
微结构容错行为的量化研究人们对处理器结构!
微结构级容错行为的研究由来已久[1H (1’],在前人基础上C L 9%&5T
&&从结构角度提出了量化的方法来准确刻画处理器各组成部件
的容错行为[’U ,11]!
研究表明,并非所有故障都会引起程序执行错误,C L 9%&5T
&&等人把某一部件的一个故障能够引起程序执行结果错误的概率称为该部件的结构易感因子I <@(#5$%06&$6L 5#3=L 3+&5#R 03067S #$6.5),并通过仿真对指令队列和执行单元的I <@进行估计!C L 9%&5T &&在结构级和微结构级识别非结构正确执行位L +(I "D (#5$%06&$6L 5#337$.55&$6&V &$L 60.+)揭示了影响I <@的多种因素!之后引入了一个新指标———平均无故障指令数C E P @(/+0+>65L $60.+>6.S #03L 5&),为处理器可信性评价和性能!可信性均衡提供了依据!
如图)所示,C L 9%&5T &&等人对处理器中的单位错进行了分类,该分类为处理器粗粒度检错奠定
了基础[18],但如何识别和利用恶性与良性;W D
(4&6&$6&4L +5&$.=&5#R 3&&55.5>)事件尚有待探讨!他采用了P L 33>&+为提高-C P 性能和降低功耗而使用的
“节流取指”(S &6$%6%5.6630+,
)和“指令废止”(0+>65L $60.+>X L #>%0+,
)[1)]技术来降低指令队列的故障率,这是容错与高性能、低功耗技术融合的又一例证!
M
)G 傅忠传等:处理器容错技术研究与展望
万方数据
!"#$%&’())"*"+(,"-.-*-./0",*’"1*(2’,".13-+/))-3$
图%处理器单位错分类
与此同时,许多研究者利用统计学方法在456级进行故障注入揭示处理器结构、微结构级的容错行为特征[7897:]$处理器456级故障注入与仿真研究相结合将成为准确评估处理器可信性不可或缺的一步$
!"#软件容错行为研究
屈延文教授提出软件行为的概念,并使软件行为学作为一个独立的学科成为业界关注的热点$目前软件行为研究主要集中于建立和理解软件在不同环境下的行为方式及其可预测性、时变性等特征$我们借鉴软件行为的概念提出在容错领域“软件容错行为”研究的课题$
;(.#等人揭示了一个惊人属性:大约<=>的动态分支和%=>的误预测分支的执行结果不影响程序的正确性[7?],他称之为“@分支”$我们对“@9分支”的概念进行扩展提出“@9行为”研究的课题$“@9行为”是指处理器不同部件以及不同类型指令的容错行为,它可以分为软件级、结构级、微结构级等不同级别并且相互作用$例如针对超标量或A B5等不同结构进行“@9行为”研究,针对不同类型指令如访存指令即“@9’-(C!),-3/”,分支指令即“@9分支”进行研究等$“@9行为”将成为处理器容错领域一个新的亮点[7D]$
$处理器容错技术研究趋势展望
下面就处理器容错领域的最新动向对其研究趋势做一展望:
E)处理器结构!微结构级容错行为的量化研究从结构、微结构的角度,在正确理解处理器各组成部
件容错行为的基础上进一步发掘各种新机制仍然是处理器容错研究的主流$目前处理器容错量化评价体系还有待进一步完善,处理器各组成部件容错行为的量化研究才刚刚开始,各种结构、微结构容错机制仍有待深入发掘$
F)软件与硬件技术的协同与交互
A G!5在航天领域得到了各国的重视,已经成为一项重要的核心技术和竞相研究的热点$实际上,大量处理器研究事实已经证明,软件的方法与硬件机制在不同层次上的协同与交互是处理器容错不可避免的、合理的解决途径$
7)性能!功耗!容错的融合与均衡
容错正如高性能和低功耗一样已经成为处理器设计、生产的重要指标之一,容错与高性能、低功耗技术的融合,性能!功耗!容错的交互与均衡已势在必行,人们在该领域进行了大量研究[<=9 <)线程级容错 我们把时间冗余技术分为指令级和线程级,实际上线程级技术也可以分为显式(/H1’"+",)与隐式("I1’"+",)多线程两种$利用A B5或&B J显式多线程实现容错已有很多成功的例子,但利用隐式多线程的却很少$正是基于我们从容错技术角度提出的处理器分类,傅忠传、陈红松等人提出了基于硬件实现的线程级处理器容错方案———B5K结构$我们认为硬件实现的线程级容错是一个可行的、有前途的和高效的途径$ %)“@9行为”研究 我们提出的“@9行为”研究将成为处理器容错领域一道新的风景,为高性能和低功耗技术开拓广阔的应用前景$ %结论 本文从容错技术角度提出了一种处理器的分类方法;并以此为基础,以处理器容错技术的发展趋势为线索,如容错与高性能、低功耗技术的融合;处理器结构!微结构容错行为量化研究;软件容错行为以及线程级容错等,对目前流行的处理器结构、微结构容错技术以及不同层次上的最新研究进展做了介绍和分析$最后,对处理器容错研究的新趋势及其发展方向提出了笔者的意见和建议$ 参考文献 [E]J3/I L")M-3/A M"N(L2I(3,B"+M(/’O"),’/3,A,/1M/.;O/+L’/3,!"#$$B-C/’".#,M//**/+,-*,/+M.-’-#P,3/.C)-.,M/)-*,/33-3 3(,/-*+-I0".(,"-.(’’-#"+[&]$F==F G.,’’&-.*-.Q/1/.C(0’/ A P),/I)(.CR/,S-3L),K/,M/)C(,T A U,F==F ? % E计算机研究与发展F==:,<<( E) 万方数据 [!]""#$%&’()%,*+,-./012345"67838-(-$3:6)39:(0/; ;3&()-3;3-$)%=03:<&-(-$3>3><&%31[.]5?***@A;$B C#? D31;#4>E<1%0>,#()7%3F<,@G G G [H],I3J(083)F<,,#<)K(I3<&8(,,B%();356)(--0&(;3 ()(/41%1<:;$33::3-;1<:1<:;3&&<&1%);$3%)1;&0-;%<)()88(;( -(-$31<:(E%E3/%)38>%-& ()8D31;%)*0& M3&>()4,!N N H [O]#$0J$3)80#,02$3&P33,+<3/*>3&,D&4F F’3Q<110>,!"#$5 .(-$31-&0J J%)F%)>%-& D$3@N;$?);’/#4>E<)"(-%:%-I%>73E3)8(J/3.<>E0;%)F ("I7.),"(E33;3,!N N O [R]ST%-31-0,""3&<))(&8,I B3/(K-<,!"#$5*::%-%3)-4<: ;&()1%3);J%;U:/%E183;3-;%<)J41<:;9(&3>3()1:6-<>E/3;31;084 [.]5D$3@V;$?***?);’/#4>E<)73:3-;()8Q(0/;D3&()-3 %)B C#?#41;3>1(7Q D’N H),.(>J&%8F3,!N N H [W]66’%K%3)%15D$3T U’3&1%<)(E E&<(-$;<:(0/;U;3&();1<:;9(&3[+]5?***D&()1<)#<:;9(&3*)F%)33&%)F,@G V R,@@(@!): @O G@X@R N@ [A]Y6/2$(/%:(,B##T(%&,TZ&%1$)(>0&;$4,!"#$5731%F)()8 3’(/0(;%<)<:141;3>/3’3/-$3-21:<&<)U/%)3-<);& 83;3-;%<)[+]5?***D&()1<)"(&(//3/()87%1;&%J0;38#41;3>1, @G G G,@N(W):W!A X W O@ [V]S T%-31-0,I B3/(K-<573;3-;%)F1<:;3&&<&1J4(E0&3/4 1<:;9(&3(E E&<(-$:>3;$<8,;<1()83L E3&%>3);(/&310/;1[.]5 731%F)60;<>(;%<)()8D31;%)F%)*0& ,3113,0)%-$,M3&>()4,!N N H [G][T(2(><;<5\E3&(;%)F141;3>10E E<&;1;<3)$()-3:(0/; ;3&()-3<:&3(/U;%>3141;3>1[.]5D$3V;$?);’/]<&21$ \J P3-;U\&%3);38I3(/U;%>373E3)8(J/3#41;3>1,M0(8(/(P(&(, ,3L%-<,!N N H [@N]D+#/3F3/,!"#$5?S,’1#!H G NM R,%-& ?***D&()1<),%-&<,@G G G,@G(!):@!X!H [@@]QI(1$%8,Z Z#(/0P(,!"#$5Q(0/;;3&()-3;$&<0F$&3U 3L3-0;%<)%)>0/;%1-(/(&(&-$%;3-;0&3[,]573E3)8(J/3#41;3>1 ()8T3;9<&215T39[<&2,!N N N [@!]+I(4,+.^<3,SQ(/1(:%570(/013<:10E3&1-(/(&8(;(E(;$:<& ;&()1%3);U:(0/;83;3-;%<)()8&3-<’3&4[.]5D$3H O;$6.,! ?***?);’/#4>E<),%-&<(&-$%;3-;0&3,601;%),D3L(1,!N N@[@H]D<1$%)<&%5*L E/<%;%)F%)1;&0-;%<)&380)8()-4:<&;&()1%3);:(0/; ;3&()-3[.]5D$3@V;$?***?);’/#4>E<)73:3-;()8Q(0/; D3&()-3%)B C#?#41;3>1,S<1;<),,6,_#6,!N N H [@O]6)F1$0>()"(&(1$(&,#08$()’(M0&0>0&;$%,6)()8 #%’(10J&(>()%(>56-<>E/3L%;4U3::3-;%’3(E E&<(-$;<6C_ J()89%8;$3)$()-3>3);:<&%)1;&0-;%<)U/3’3/;3>E<&(/ &380)8()-4[.]5D$3H@1;?);’/#4>E<).<>E0;3& 6&-$%;3-;0&3(?#.6),,0)%-$,M3&>()4,!N N O [@R]*&%2(M0)(8%,,%22<^C%E(1;%5.(-$3E%E3/%)%)F9%;$E(&;%(/ *::3-;%’3731%F),,0)%-$,M3&>()4,!N N O [@W]S,31;(),,^C%E(1;%5*L E/<%;%)FE(&;%(/ [.]5?);’/.<):<)"(&(//3/"&<-311%)F,Z(<$1%0)F,D(%9(), !N N H [@A]#I3%)$(&8;,#,02$3&P335D&()1%3);:(0/;83;3-;%<)’%( 1%>0/;()3<01>0/;%;$&3(8%)F[.]5D$3!A;$?);’/#4>E<) .<>E0;3&6&-$%;3-;0&3(?#.6),B()-<0’3&,S&%;%1$.0>J%(, .()(8(,!N N N [@V]DB%P(420>(&,?"<>3&()K,Z.$3)F5D&()1%3);U:(0/;&3-<’3&4’%(1%>0/;()3<01>0/;%;$&3(8%)F[.]5D$3!G;$?);’/#4>E<) .<>E0;3&6&-$%;3-;0&3(?#.6),6)-$<&(F3,6/(12(,!N N![@G],M<>((,.#-(&J&<0F$,DB%P(420>(&,!"#$5D&()1%3);U:(0/; &3-<’3&4:<&-$%E>0/;%E&<-311<&1[.]5D$3H N;$?);’/#4>E<) .<>E0;3&6&-$%;3-;0&3(?#.6),#()7%3F<,!N N H [!N]##,02$3&P33,,Z<);K,#ZI3%)$(&8;573;(%/38831%F)()8 3’(/0(;%<)<:&380)8();>0/;%;$&3(8%)F(/;3&)(;%’31[.]5D$3 !G;$6))0(/?);’/#4>E<).<>E0;3&6&-$%;3-;0&3(?#.6), 6)-$<&(F3,6/(12(,!N N! [!@]Q0Y$<)F-$0(),.$3)^<)F1<)F,.0%M()F5,%-&<;$&3(8J(138(,D S)-<(&13F&(%)38:(0/;;3&()-310E3&1-(/(&E&<-311<& (&-$%;3-;0&3[+]5+<0&)(/<:*/3-;&<)%-C3;;3&1,!N N W,H(!H): O W@X O W W [!!]]Y$()F,#M0&0>0&;$%,,Z()83>%&,!"#$5?.I:?)U-(-$3,&3E/%-(;%<):<&3)$()-%)F8(;(-(-$3&3/%(J%/%;4[.]5D$3?);’/ .<):<)73E3)8(J/3#41;3>1()8T3;9<&21,#()Q&()-%1-<, !N N H [!H]6Z#<>()%,#Z%>56&3(3::%-%3);(&-$%;3-;0&31:<&%):<&>(;%<) %);3F&%;4-$3-2%)F%)-(-$3>3><&%31[.]5D$3!W;$?);’/#4>E <).<>E0;3&6&-$%;3-;0&3(?#.6),6;/();(,M3<&F%(,_#6, @G G G [!O]C%)C%,B%P(473F(/($(/,T5B%P(42&%1$)(),!"#$5#<:;3&&<& ()83)3&F4-<)10>E;%<)%);3&(-;%<)1:68(;(-(-$3E3&1E3-;%’3 [.]5?);’/#4>E<)C<9"<93&*/3-;&<)%-1()8731%F) (?#C"*7’N O),T39E<&;,.(/%:<&)%(,!N N O [!R][%)F Y$()F,Z&%1$)3)80^(2&(J(&;4574)(>%-(8(E;(;%<):<& :(0/;;3&()-3()8E<93&>()(F3>3);%)3>J38838&3(/U;%>3 141;3>[+]56.,D&()1<)*>J38838.<>E0;%)F#41;3>1, !N N O,H(!):H H W X H W N [!W]?);3/.<&E<&(;%<)5?‘"@!N N T3;9<&2"&<-311<&Q(>%/4 ^(&89(&3I3:3&3)-3,()0(/[\C]5$;;E:!!83’3/ -<>,!N N@ [!A][C0<,+[()F,C S$04(),!"#$5T3"#%>:6)3;9<&2 E&<-311<&1%>0/(;<&9%;$E<93&3’(/0(;%<):&(>39<&2[+]5?*** D&()1<),%-&<,!N N O,!O(R):H O X O O [!V].$3)^<)F1<)F,+%Y$3)K$<0,^0,%)F K3)F5"3&:<&>()-3! E<93&1%>0/;()3<01 E&<-311(&-$%;3-;0&3831%F)[+]5+<0&)(/<:^(&J%)?)1;%;0;3<: D3-$)/ [!G]#,02$3&P33,+<3/*>3&,#;3’3)Z I3%)$(&8;5D$31<:;3&&<& E& #4>E<)^%F$U"3&:<&>()-3.<>E0;3&6&-$%;3-;0&3(^".6), #()Q&()-%1-<,!N N R [H N]*I<;3)J3&F56I U#,D:6>%-&<(&-$%;3-;0&(/(E E&<(-$;<:(0/; ;3&()-3%)>%-& Q(0/;U D3&();.<>E0;%)F,,(8%1<),]%1-<)1%),_#6,@G G G G R @ 傅忠传等:处理器容错技术研究与展望 万方数据 [!"]#$%&’(&,)*%+,-&-.//&012,34/0(+5(&678’0%,2/ 9’:;<’0&(-.<&/=(’’/&’[>]7?1(!!&,8++%-:@333!8>A@+0’:*2.+A ;=&/-&=1;0(=0%&(,A /+0(&(2 ,>-:;9/&+;-,B C C C [!B ]?A 8%’0;+7D @E 8:8&(:;-5:(’%5’0&-0(9/&,((<’ %5.;=&/+.;=&/-&=1;0(=0%&(,(’;6+[>]7@+:$&/=/901(!B +,@+0’:*2.< /+A ;=&/-&=1;0(=0%&(,F -;9-,@’&-(:,"G G G [!!]**A %H 1(&I ((,>?J (-K (&,L3.(&,!"#$78’2 ’0(.-0;=.(01/,/:/620/=/.<%0(01(-&=1;0(=0%&-:K %:+(&-5;:;029 -=0/&’9/&-1;61<(&9/&.-+=(.;=&/< &/=(’’/&[>]7?1(!M 018++%-:@+0’:*2.+A ;=&/-&=1;0(=0%&((A @>4N ),*-+D ;(6 /,B C C ![!O ]>1&;’0/<1(&J (-K (&,L /(:3.(&,*1%51(+,%*A %H 1(&I ((,!"#$7?(=1+;P %(’0/&(,%=(01(’/90(&&/&&-0(/9-1;6 1Q <(&9/&.-+=(.;=&/<&/=(’’/&[>]7?1(!"’08++%-:@+0’:*2.< /+>/.< %0(&8&=1;0(=0%&((@*>8),A %+;=1,R (&.-+2,B C C O [!S ]D ?%::’(+,L 8T &/U +7F -+,:;+6:/+6Q :-0(+=2: /-,’;+-’;.%:0-+(/%’.%:0;01&(-,(,<&/=(’’/&[>]7?1(!O 018++%-: @+0’:*2.+A ;=&/-&=1;0(=0%&((A @>4N ),8%’0;+,?(V -’,B C C " [!M ]*);.,8)*/.-+;7*/90(&&/&’(+’;0;K ;02= 1-&-=0(&;W -0;/+9/&.;=&/<&/=(’’/&,(<(+,-5;:;02(+1-+=(.(+0’0&-0(62 [>]7@+0’:>/+9/+D (<(+,-5:(*2 ’0(.’-+,X (0U /&H ’(D *X ),T (01(’,-,A -&2 :-+,,B C C B [!Y ]X ;=1/:-’J -+6,Z %(HL %’0;+,A ?/,,,!"#$7>1-&-=0(&;W ;+6 01((99(=0’/90&-+’;(+09-%:0’/+-1;61Q <(&9/&.-+=(<&/=(’’/&<;< (:;+([>]7@+0’:>/+9/+D (<(+,-5:(*2’0(.’-+,X (0U /&H ’,[:/&(+=(,@0-:2 ,B C C O [!\]X ;=1/:-’J -+6,A ;=1-(:[(&0;6,*-+I -2$ -0(:7]Q T &-+=1(’:J 1(+2 /%=/.(0/-9/&H ;+01(&/-,,0-H (;0[>]7?1("B 01@+0’:>/+9/+$-&-::(:8&=1;0(=0%&(-+,>/.<;:-0;/+?(=1+;P %(’($8>?),X (UN &:(-+’,^/%;’;-+-,B C C ! [!G ][%#1/+6=1%-+,>1(+F /+6’/+6,>%;R -+67A ;=&/< &/=(’’/&-&=1;0(=0%&(Q :(K (:“]Q 5(1-K ;/&”&(’(-&=19/&5&-+=1;+’0&%=0;/+’ [L ]7@+0’:L /%&+-:/9J *38*?&-+’/+@+9/&.-0;/+*=;(+=(-+,8<< :;=-0;/+’,B C C M ,!(M ):"C S !_"C S G [O C ]>1(+F /+6’/+6,L ;#1(+W 1/%,F %A ;+6W (+6,!"#$7D (’;6 +-+,<(&9/&.-+=((K -:%-0;/+/9-.%:0;Q -6(+05-’(,,2 +-.;=:;9(0;.(’(=%&;02’=1(.(9/&8N D E &/%0;+6<&/0/=/:[N ^]7@+0’:L /%&+-:/9X (0U /&H -+,>/.<%0(&8<<:;=-0;/+’7100<:!!-%01/&’‘(:’(K ;(&‘=/.!’,!-&0;=:(!"C \O \C O S C S C C C S G Y ,B C C S [O "]>1(+F /+6’/+6,F %A ;+6W (+6 ,L ;#1(+W 1/%7X (U 6(+(&-0;/+<&/=(’’/&-&=1;0(=0%&(&(’(-&=1[L ]7F ;61?(=1+/:/62^ (00(&’,B C C !,G (O ):G O _G M [O B ]L ;-+6L ;-+1%;,]%-+>1%+V ;+7N +:;+(0(’0;+60(=1+;P %(’9/&=1; ’0(.’[L ]7L /%&+-:/9>/.<%0(&4(’(-&=1-+,D (K (:/< .(+0,B C C O ,O "(G ):"S G !_"M C !(;+>1;+(’()(江建慧,员春欣7芯片级系统的在线测试技术[L ]7计算机研究与发展,B C C O ,O "(G ):"S G !_"M C ! )!"#$%&’($")&,5/&+;+"G Y C 7$17D 7,-’’/=;-0(<&/9(’’/&-+,.-’0(&’%<(&K ;’/&;+01(D (<-&0.(+0/9>/.<%0(&*=;(+=(-+,?(=1+/:/62/ 9F @?7F ;’&(’(-&=1;+0(&(’0’;+=:%,(1;6 1<(&9/&.-+=(!9-%:0Q 0/:(&-+=(<&/=(’’/&,(’;6 +,+/+K /+X (%.-++(V (=%0;/+./,(:,-+,=/.<%0(&6&-< 1;=’,(0=7傅忠传,"G Y C 年生,博士,副教授,硕士生导师,主要研究方向为高性能!容错处理器、非冯诺依曼计算模型、计算机图形学等7 *$+&,%&’-%&’,5/&+;+"G Y Y 7$17D 7F ;’&(’(-&=1;+0(&(’0’;+=:%,(1;6 1<(&9/&.-+=(-+,:/U 0(=1+/:/62 ,(0=7陈红松,"G Y Y 年生, 博士,主要研究方向为高性能低功耗网络处理器设计与应用、-,1/=网络安全路由协议、@$K M 路由技术等7 *"./)&’,5/&+;+"G S C 7$&/9(’’/&-+,$17D 7’%<(&K ;’/&/9F @?‘*(+;/&.(.5(&/9>1;+->/.< %0(&[(,(&-0;/+7F ;’&(’(-&=1;+0(&(’0’;+=:%,(,;’-’0(&0/:(&-+=(,,(<(+,-5:(=/.<%0;+6 ,(0=7崔刚,"G S C 年生, 教授,博士生导师,中国计算机学会高级会员,主要研究方向为容灾、可信计算等7 0)&’1.)%2%&’,5/&+;+"G !G 7$&/9(’’/&-+,$17D 7’%<(&K ;’/&/9F @?‘*(+;/&.(.5(&/9>1;+->/.< %0(&[(,(&-0;/+7F ;’&(’(-&=1;+0(&(’0’;+=:%,(./5;:(=/.<%0;+6,U (-&-5:(=/.<%0;+6 ,(0=7杨孝宗,"G !G 年生, 教授,博士生导师,中国计算机学会高级会员,主要研究方向为容错计算技术、移动计算技术、可穿戴计算技术等7 3+-+)4($5)(6’ 4%"&78’0(=1+/:/62-,K -+=(’U ;01,((<’%5.;=&/+6(+(&-0;/+’,9%0%&(<&/=(’’/&’U ;::5(=/.(./&(’%’=(<0;5:(0/0&-+’;(+09-%:0’,U 1;=1U ;::=/+’0;0%0(01(K -’0.-I /&;02/ 91-&,U -&(9-;:%&(’7@+01;’<-<(&,-+/K (:-+,=/.<&(1(+’;K (=:-’’;9;=-0;/+/901(:-0(’0<&/=(’’/&9-%:0Q 0/:(&-+=(&(’(-&=1(’;’<%09/&U -&,7T -’(,/+01;’=:-’’;9;=-0;/+,01(0(=1+;P %(’/9;+=/&&-0;+69-%:0Q 0/:(&-+=(;+./,(&+<&/=(’’/&’-0,;99(&(+0:(K (:’-&(&(K ;(U (,7*/.(0(=1+/:/620&(+,’,’%=1-’01(0&-,(/99-+,=/+K (&6(+=(/91;61<(&9/&.-+=(,:/U W (,;+,(0-;:’7C M "计算机研究与发展B C C Y ,O O (" ) 万方数据 处理器容错技术研究与展望 作者:傅忠传, 陈红松, 崔刚, 杨孝宗, Fu Zhongchuan, Chen Hongsong, Cui Gang,Yang Xiaozong 作者单位:哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001 刊名: 计算机研究与发展 英文刊名:JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT 年,卷(期):2007,44(1) 引用次数:3次 参考文献(42条) 1.Premkishore Shivakumar.Michael Kistler.Stephen W Keckler Modeling the effect of technology trends on the soft error rate of combinational logic 2002 2.P P Shirvani.E J McCluskey PADded cache:A new fault tolerance technique for cache memories 1999 3.M Rebaudengo.M Sonza Reorda.M Violante An accurate analysis of the effects of soft errors in the instruction and data caches of a pipelined microprocessor 2003 4.Shubhendu S Mukherjee.Joel Emer.Tryggve Fossum Cache scrubbing in microprocessors:Myth or necessity 2004 5.B Nicolescu.P Peronnard.R Velazco Efficiency of transient bit-flips detection by software means:A complete study 2003 6.A Avizienis The N-version approach to fault-tolerant software 1985(12) 7.Z Alkhalifa.V S S Nair.N Krishnamurthy Design and evaluation of system level checks for on-line control flow error detection 1999(6) 8.B Nicolescu.R Velazco Detecting soft errors by a purely software approach:method,tools and experimental results 2003 9.Y Nakamoto Operating system supports to enhance fault tolerance of real-time systems 2003 10.T J Slegel IBM's S/390 G5 Microprocessor Design 1999(2) 11.F Rashid.K K Saluja Fault tolerance through re-execution in multiscalar architectureDependable Systems and Networks 2000 12.J Ray.J C Hoe.B Falsafi Dual use of superscalar datapath for transient-fault detection and recovery 2001 13.Toshinori Exploiting instruction redundancy for transient fault tolerance 2003 14.Angshuman Parashar.Sudhanva Gurumurthi.Anand Sivasubramaniam A complexity-effective approach to ALU bandwidth enhancement for instruction-level temporal redundancy 2004 15.Erika Gunadi.Mikko H Lipasti Cache pipelining with partial operand knowledge 2004 16.B Mestan.M H Lipasti Exploiting partial operand knowledge 2003 17.S Reinhardt.S Mukherjee Transient fault detection via simultaneous multithreading 2000 18.T Vijaykumar.I Pomeranz.K Cheng Transient-fault recovery via simultaneous multithreading 2002 19.M Gomaa.C Scarbrough.T Vijaykumar Transient-fault recovery for chip multiprocessors 2003 20.S S Mukherjee.M Kontz.S K Reinhardt Detailed design and evaluation of redundant multithreading alternatives 2002 21.Fu Zhongchuan.Chen Hongsong.Cui Gang Microthread based (MTB) coarse grained fault tolerance superscalar processor architecture 2006(23) 22.W Zhang.S Gurumurthi.M Kandemir ICR:In-cache,replication for enhancing data cache reliability 2003 23.A K Somani.S Kim Area efficient architectures for information integrity checking in cache memories 1999 24.Lin Li.Vijay Degalahal.Nvijaykrishnan Soft error and energy consumption interactions:A data cache perspective 2004 25.Ying Zhang.Krishnendu Hakrabarty Dynamic adaptation for fault tolerance and power management in embedded real-time system 2004(2) 26.Intel Corporation IXP1200 Network Processor Family Hardware Reference Manual 2001 27.Y Luo.J Yang.L Bhuyan NePSim:A network processor simulator with power evaluation framework 2004(5) 28.Chen Hongsong.Ji Zhenzhou.Hu Mingzeng Performance/power simultaneous optimization in network processor parallel process architecture design 29.S Mukherjee.Joel Emer.Steven K Reinhardt The soft error problem:An architectural perspective 2005 30.E Rotenberg AR-SMT:A microarchitectural approach to fault tolerance in microprocessors 1999 31.Z Purser.K Sundaramoorthy.E Rotenberg A study of slipstream processors 2000 32.T M Austin DIVA:A reliable substrate for deep submicron microarchitecture design 1999 33.S S Mukherjee.C T Weaver.J Emer A systematic methodology to compute the architectural vulnerability factors for a high performance microprocessor 2003 34.Christopher Weaver.Joel Emer.Shubhendu S Mukherjee Techniques to reduce the soft error rate of a high-performance microprocessor 2004 35.D Tullsen.J A Brown Handling long-latency loads in a simultaneous multithreaded processor 2001 36.S Kim.A K Somani Soft error sensitivity characterization for microprocessor dependability enhancement strategy 2002 37.Nicholas Wang.Quek Justin.M Todd Characterizing the effects of transient faults on a high-performance processor pipeline 2004 38.Nicholas Wang.Michael Fertig.Sanjay Patel Y-Branches When you come to a fork in the road take it 2003 39.Fu Zhongchuan.Chen Hongsong.Cui Gang Microprocessor architecture-level "Y-behavior" research for branch instructions 2006(6) 40.Chen Hongsong.Ji Zhenzhou.Hu Mingzeng Design and performance evaluation of a multi-agent based dynamic lifetime security scheme for AODV routing protocol 2005 41.陈红松.Hu Mingzeng.Ji Zhenzhou New Generation Processor Architecture Research[期刊论文]-高技术通讯(英文版) 2003(4) 42.江建慧.员春欣芯片级系统的在线测试技术[期刊论文]-计算机研究与发展 2004(9) 相似文献(0条) 引证文献(3条) 1.郭益林.郑杰.吴爱华可信计算[期刊论文]-信息系统工程 2009(8) 2.熊光泽.常政威.桑楠可信计算发展综述[期刊论文]-计算机应用 2009(4) 3.孙秀娟基于双模冗余容错技术的数据采集系统设计[期刊论文]-电测与仪表 2008(8) 本文链接:https://www.360docs.net/doc/0d10254480.html,/Periodical_jsjyjyfz200701022.aspx 下载时间:2010年4月15日