计算机系统结构_第六章练习 答案讲课稿

合集下载

计算机系统结构(第五版)第6章

计算机系统结构(第五版)第6章

【例 6-1】 计算D=A×(B+C),其中A、B、C、D都是有N个元素的
如果采用逐个求D向量元素的方法,即访存取ai、bi、ci 元素求di,再取ai+1、bi+1、ci+1求di+1, 则这种处理方式称为 横向(水平)处理方式。
6.1.2
向量流水处理机的结构因具体机器的不同而不同。 图6 - 1只画出了CRAY-1中央处理机中有关向量流水处 理部分的简图。
所谓Vi冲突,指的是并行工作的各向量指令的源向量或结果 向量使用了相同的Vi。所谓功能部件冲突,指的是同一个功 能部件被要求并行工作的多条向量指令所使用。
第一、二条指令无任何冲突,可以并行执行。第三条指 令与第一、二条指令出现Vi冲突,存在先写后读数相关,本 来是不能并行执行的,但若能把第一、二条指令的结果分量 直接链接进第三条指令所用的功能部件,那第三条指令就能 与第一、二条指令在大部分时间内并行。它们的链接过程如 图6 - 3所示。
(V061)=(V053)+(V161) =(V15)+(V113)+(V121)+(V129)+(V137) +(V145)+(V153)+(V161)
第八部分(结果部分)
(V062)=(V054)+(V162) =(V16)+(V114)+(V122)+(V130)+(V138) +(V146)+(V154)+(V162)
(V05
)
(V00
)
(V15
)
0(V15
)
(V06 ) (V00 ) (V16 ) 0(V16 )
(V07 ) (V00 ) (V17 ) 0(V17 )

计算机体系结构课后习题原版答案

计算机体系结构课后习题原版答案

第1章计算机系统结构的基本概念1.1 解释下列术语层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。

这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。

虚拟机:用软件实现的机器。

翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。

解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。

执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。

计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。

透明性:在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。

计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。

计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。

系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。

Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。

程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。

包括时间局部性和空间局部性。

CPI:每条指令执行的平均时钟周期数。

测试程序套件:由各种不同的真实应用程序构成的一组测试程序,用来测试计算机在各个方面的处理性能。

存储程序计算机:冯·诺依曼结构计算机。

其基本点是指令驱动。

程序预先存放在计算机存储器中,机器一旦启动,就能按照程序指定的逻辑顺序执行这些程序,自动完成由程序所描述的处理工作。

系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。

计算机系统结构 第6章PPT课件

计算机系统结构 第6章PPT课件
对已生成的trace进行指令调度和优化,尽可能地缩短其 执行时间;
跨越trace内部的入口或出口调度指令时必须非常小心, 有时还需要增加补偿代码 。
B1
N
Y
B3
B2
B4
N Y
B5
Y
N
B6
B7 (a) 部 部 部 部

B1: x = x + 1 y=x–y if x<5 goto B3
B2: z = x * z y=y+1 goto B5
B3: y = 2 * y x=x-2
部部部
B1: x = x + 1
if x<5 goto B3
B2: y = x – y z=x*z y=y+1 goto B5
B3: y = x – y y=2*y x=x-2
部部部
(b) 部 部 部 部 部 部 部 部 部 部 B1部 B2部 B3
三条trace:B1-B3、B4以及B5-B7 指令“y = x - y”被从B1调度到B3 中,跨越了trace的一个出口; 需要向块B2中增加补偿代码,即 将指令“y = x - y”复制到B2的第 一条指令之前 。

1177/89
6.2 跨越基本块的静态指令调度
3. 全局指令调度是一个很复杂的问题 以I1的调度为例: ➢ 需要确定分支中基本块thenpart和elsepart的执行 频率各是多少? ➢ 在分支语句前完成I1所需的开销是多大? ➢ 调度I1是否能够缩短thenpart块的执行时间? ➢ I1是否是最佳的被调度对象? ➢ 是否需要向elsepart块中增加补偿代码,补偿代码 开销如何?怎样生成补偿代码?
SD
0(R1),R4

计算机系统结构 第六章自考练习题答案

计算机系统结构 第六章自考练习题答案
2计算机系统结构自考复习资料
5.阵列处理机是( 单 )指令流( 多 )数据流的计算机。 6.ILLIAC IV 8×8 的阵列中,任意两个处理单元之间通信的最大距离不会超过( 步。推广到一般, n × n 的阵列中,则为(
n -1
7 )
)步。 ) ,Shuffle(Shuffle
7.8 个节点混洗网络, 其混洗函数为 Shuffle P 2 P1 P 0 ) ( P1 P 0 P 2 ( = ( P 2 P1 P 0 )) =( P 0 P 2 P1 ) 。
N /2
) 。
不同的多级互连网络,在所用的( 交换开关 ) 、拓扑结构和( 控制方 式 )上各有不同。 4. 阵列处理机按存储器的组织方式不同,分为两种不同的基本构形,一种是采用( 分 布 )存储器的阵列处理机构形,另一种是具有( 集中 )共享存储器的阵列处理机 构形。 5. 简述去安排列网络的概念及实现全排列网络的两种方法。 (P174-175) 6.
(参考 P176-177)
同步强化练习
一.单项选择题。
1. 2. ( 3. 4. 多级混洗交换网络又称为( B ) 。 A.移数网络 B.Omega C.STARAN 网络 D.数据交换网络 存储器分体数 m 为质数时,访问一维数组的元素无冲突,要求数组变址的跳距为 A ) 。 A.与 m 互质 B.是 m 的倍数 C.与 m 不等 D.与 m 相等 ILLIAC IV 是一种( C ) 。 A.流水线处理机 B.指令重叠处理机 C.阵列处理机 D.多处理机 N 个结点的单级立方体网络,互连函数种数为( B ) 。 A.N 5. B. log
计算机系统结构自考复习资料
第六章 阵列处理机 历年真题精选
1. 拓 扑 结 构 用 多 级 立 方 体 网 络 , 二 功 能 交 换 单 元 , 级 控 制 方 式 , 这 种 网 络 称 为 ( B ) 。 A. Omega 网络 B. 交换网络 C. 间接二进制 n 方体网络 D. 数据变换网络 2.N 个结点的 PM2I 单级网络的最短距离是( 3. log 2

计算机组成原理习题答案第六章

计算机组成原理习题答案第六章

1.如何区别存储器和寄存器?两者是一回事的说法对吗?解:存储器和寄存器不是一回事。

存储器在CPU 的外边,专门用来存放程序和数据,访问存储器的速度较慢。

寄存器属于CPU 的一部分,访问寄存器的速度很快。

2.存储器的主要功能是什么?为什么要把存储系统分成若干个不同层次?主要有哪些层次?解:存储器的主要功能是用来保存程序和数据。

存储系统是由几个容量、速度和价存储系统和结构各不相同的存储器用硬件、软件、硬件与软件相结合的方法连接起来的系统。

把存储系统分成若干个不同层次的目的是为了解决存储容量、存取速度和价格之间的矛盾。

由高速缓冲存储器、主存储器、辅助存储器构成的三级存储系统可以分为两个层次,其中高速缓存和主存间称为Cache -主存存储层次(Cache 存储系统);主存和辅存间称为主存—辅存存储层次(虚拟存储系统)。

3.什么是半导体存储器?它有什么特点?解:采用半导体器件制造的存储器,主要有MOS 型存储器和双极型存储器两大类。

半导体存储器具有容量大、速度快、体积小、可靠性高等特点。

半导体随机存储器存储的信息会因为断电而丢失。

4.SRAM 记忆单元电路的工作原理是什么?它和DRAM 记忆单元电路相比有何异同点?解:SRAM 记忆单元由6个MOS 管组成,利用双稳态触发器来存储信息,可以对其进行读或写,只要电源不断电,信息将可保留。

DRAM 记忆单元可以由4个和单个MOS管组成,利用栅极电容存储信息,需要定时刷新。

5.动态RAM 为什么要刷新?一般有几种刷新方式?各有什么优缺点?解:DRAM 记忆单元是通过栅极电容上存储的电荷来暂存信息的,由于电容上的电荷会随着时间的推移被逐渐泄放掉,因此每隔一定的时间必须向栅极电容补充一次电荷,这个过程就叫做刷新。

常见的刷新方式有集中式、分散式和异步式3种。

集中方式的特点是读写操作时不受刷新工作的影响,系统的存取速度比较高;但有死区,而且存储容量越大,死区就越长。

分散方式的特点是没有死区;但它加长了系统的存取周期,降低了整机的速度,且刷新过于频繁,没有充分利用所允许的最大刷新间隔。

计算机系统结构_第六章练习 答案

计算机系统结构_第六章练习 答案

计算机系统结构_第六章练习答案计算机系统结构_第六章练习答案第六章向量处理机1.在大型数组的处置中常常涵盖向量排序,按照数组中各排序相继的次序,我们可以把向量处置方法分成哪三种类型?横向处理方式,纵向处理方式,纵横处理方式纵向处理方式:向量排序就是按行的方式从左至右纵向的展开横向处理方式:向量排序就是按列的方式自上而下横向的展开四海处理方式:纵向处置和横向处置结合的方式2.表述以下与向量处置有关的术语。

(1)向量和标量的平衡点:为了使向量硬件设备和标量设备的利用率相等,一个程序中向量代码所占的百分比(2)用户代码的向定量比值:用户代码可以向定量的部分占到全部的比重(3)向量化编译器或量化器:将标量运算进行向量化或者将向量运算进行适当的修改使之能够进入向量处理进行向量处理的编译器3.详细描述提升向量处理机性能的常用技术(1)链接技术(2)向量循环或分段开采技术(3)向量递归技术(4)稠密矩阵的处置技术4.下述的几个需要解决的问题中,那个是向量处理机所最需要关心的?a.计算机指令的优化技术b.设计满足用户运算器频宽建议的存储器c.如何提高存储器的利用率,增加存储器系统的容量d.纵横处理方式的划分问题5.假设系统在向量模式下面能达至9mflops,在标量模式下能达至1mflops速度,而代码的90%就是向量运算,10%就是标量运算,这样花掉在两种模式上的排序时间成正比。

那么向量平衡点就是:a.0.1b.0.9一个程序中向量代码所占的百分比c.0.5d.以上都不是6.查看下面三条指令:v3←av2←v0+v1v4←v2*v3假设向量长度大于64,且前后其他的指令均没相关性,数据步入和流入每个功能部件,包含出访存储器都须要一拍摄的时间,假设向量的长度为n。

三条指令全部使用以太网的方法,那么继续执行的时间就是:a.3n+20b.3n+21c.3n+22d.3n+237.下面一组向量操作能分成几个编队?假设每种流水功能部件只有一个。

“计算机组成与系统结构”(第6章)课件

“计算机组成与系统结构”(第6章)课件
• 包括时钟信号线、电源线、地线、系统 复位线以及加电或断电的时序信号线等
28
6.1.5 总线结构实例
• 大多数计算机采用了分层次的多总线结构
– 在这种结构中,速度差异较大的设备模块使用 不同速度的总线,而速度相近的设备模块使用 同一类总线
– 显然,这种结构不仅解决了总线负载过重的问 题,而且使总线设计简单,并能充分发挥每类 总线的效能
而当不再使用总线时能迅速放弃总线控制权15然而只有与出现在总线上的地址相对应的设备才执行数据传送操作对输入输出设备的操作完全和主存的操作方法一样来处理当cpu把指令的地址字段送到总线上时如果该地址字段对应的地址是主存地址则主存予以响应从而在cpu和主存之间发生数据传送如果该指令地址字段对应的是外围设备地址则外围设备译码器予以响应从而在cpu和与该地址相对应的外围设备之间发生数据传送16如果一个由外围设备指定的地址对应于一个主存单元则主存予以响应于是在主存和外设之间将进行直接存储器传送dma由于所有逻辑部件都挂在同一个总线上因此总线只能分时工作即某一时间只能允许一对部件之间传送数据这就使信息传送的吞吐量受到限制17p215图62cai演示18双总线结构保持了单总线系统简单易于扩充的优点在cpu和主存之间专门设置了一组高速的存储总线使cpu可通过专用总线与存储器交换信息并减轻了系统总线的负担主存仍可通过系统总线与外设之间实现dma操作而不必经过cpu当然这种双总线系统以增加硬件为代价19p216图63cai演示20三总线结构是在双总线系统的基础上增加io总线形成的系统总线是cpu主存和通道iop之间进行数据传送的公共通路而io总线是多个外部设备与通道之间进行数据传送的公共通路21在dma方式中外设与存储器间直接交换数据而不经过cpu从而减轻了cpu对数据输入输出的控制而通道方式进一步提高了cpu的效率通道实际上是一台具有特殊功能的处理器又称为iopio处理器它分担了一部分cpu的功能以实现对外设的统一管理及外设与主存之间的数据传送然而这是以增加更多的硬件代价换来的22614614当代总线的内部结构23p217图64cai演示24早期总线实际上是处理器芯片引脚的延伸是处理器与io设备适配器的通道这种简单的总线按其功能可分为三类

《计算机系统的体系结构》课后答案_李学干_清华大学出版社

《计算机系统的体系结构》课后答案_李学干_清华大学出版社

《计算机系统的体系结构》课后答案1-8章第1章计算机系统结构的基本概念1、有一个计算机系统可按功能分成4级,每级的指令互不相同,每一级的指令都比其下一级的指令在效能上强M倍,即第i级的一条指令能完成第i-1级的M条指令的计算量。

现若需第i级的N条指令解释第i+1级的一条指令,而有一段第1级的程序需要运行Ks,问在第2、3和4级上一段等效程序各需要运行多长时间?答:第2级上等效程序需运行:(N/M)*Ks。

第3级上等效程序需运行:(N/M)*(N /M)*Ks。

第4级上等效程序需运行:(N/M)*(N/M)*(N/M)*Ks。

2、硬件和软件在什么意义上是等效的?在什么意义上又是不等效的?试举例说明。

答:软件和硬件在逻辑功能上是等效的,原理上,软件的功能可用硬件或固件完成,硬件的功能也可用软件模拟完成。

只是反映在速度、价格、实现的难易程度上这两者不同。

3、试以实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系与影响。

答:计算机系统结构、计算机组成、计算机实现互不相同,但又相互影响。

(1)计算机的系统结构相同,但可采用不同的组成。

如IBM370系列有115、1 25、135、158、168等由低档到高档的多种型号机器。

从汇编语言、机器语言程序设计者看到的概念性结构相同,均是由中央处理机/主存,通道、设备控制器,外设4级构成。

其中,中央处理机都有相同的机器指令和汇编指令系统,只是指令的分析、执行在低档机上采用顺序进行,在高档机上采用重叠、流水或其它并行处理方式。

(2)相同的组成可有多种不同的实现。

如主存器件可用双极型的,也可用MO S型的;可用VLSI单片,也可用多片小规模集成电路组搭。

(3)计算机的系统结构不同,会使采用的组成技术不同,反之组成也会影响结构。

如为实现A:=B+CD:=E*F,可采用面向寄存器的系统结构,也可采用面向主存的三地址寻址方式的系统结构。

要提高运行速度,可让相加与相乘并行,为此这两种结构在组成上都要求设置独立的加法器和乘法器。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机系统结构_第六章练习答案第六章向量处理机1.在大型数组的处理中常常包含向量计算,按照数组中各计算相继的次序,我们可以把向量处理方法分为哪三种类型?横向处理方式,纵向处理方式,纵横处理方式横向处理方式:向量计算是按行的方式从左至右横向的进行纵向处理方式:向量计算是按列的方式自上而下纵向的进行纵横处理方式:横向处理和纵向处理相结合的方式2.解释下列与向量处理有关的术语。

(1)向量和标量的平衡点:为了使向量硬件设备和标量设备的利用率相等,一个程序中向量代码所占的百分比(2)用户代码的向量化比值:用户代码可向量化的部分占全部的比重(3)向量化编译器或量化器:将标量运算进行向量化或者将向量运算进行适当的修改使之能够进入向量处理进行向量处理的编译器3.简要叙述提高向量处理机性能的常用技术(1)链接技术(2)向量循环或分段开采技术(3)向量递归技术(4)稀疏矩阵的处理技术4.下述的几个需要解决的问题中,那个是向量处理机所最需要关心的?A.计算机指令的优化技术B.设计满足运算器带宽要求的存储器C.如何提高存储器的利用率,增加存储器系统的容量D.纵横处理方式的划分问题5.假设系统在向量模式下面能够达到9Mflops,在标量模式下能够达到1Mflops速度,而代码的90%是向量运算,10%是标量运算,这样花在两种模式上的计算时间相等。

那么向量平衡点是:A.0.1B.0.9 一个程序中向量代码所占的百分比C.0.5D.以上都不是6.查看下面三条指令:V3←AV2←V0+V1V4←V2*V3假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。

三条指令全部采用串行的方法,那么执行的时间是:A.3N+20B.3N+21C.3N+22D.3N+237.下面一组向量操作能分成几个编队?假设每种流水功能部件只有一个。

LV V1,Rx ;取向量MULTSV V2,F0,V1;向量和标量相乘LV V3,Ry ;取向量YADDV V4,V2,V3;加法SV Ry,V4;存结果可以划分成四个编队:(1)LV (2)MULTSV LV (3)ADDV (4)SV8.在一台向量处理机上实现A=B×s操作,其中A和 B是长度为200的向量,s是一个标量。

向量寄存器长度为64。

功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期。

总的执行时间是?A.784B.783C.785D.7809.简述三种向量处理方式,他们对向量处理机结构要求有什么不同。

解:水平处理方式:向量长度为N,则水平处理方式相当于执行N次循环。

不适合对向量进行流水处理。

(或者叫做横向处理方式)垂直处理方式:将整个向量按相同的运算处理完毕之后,再去执行其他的运算,适合对向量进行流水处理,向量运算指令的源/目向量都放在存储器内,使得流水线运算部件的输入输出端直接与存储器相联,构成M-M型的运算流水线。

分组处理方式:把长度为N的向量分为若干组,每组按照纵向处理10.解释下列与向量处理有关的术语。

(1)向量规约指令(2)收集和散播指令解:(1)将向量化转化为标量的指令(2)收集指令可以把非连续存储单元的内容传送到向量寄存器组中若干个连续的寄存器;散播指令与此相反。

他们用于稀疏矩阵的存储与运算,可以节省空间。

11. 查看下面三条指令:V3←AV2←V0+V1V4←V2*V3假设向量长度小于64,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间,假设向量的长度为N。

三条指令采用链接的方法,那么执行的时间是:A.3N+22B.2N+15C.N+16D.N+1712.在一台向量处理机上实现A=B×s操作,其中A和 B是长度为200的向量,s是一个标量。

向量寄存器长度为64。

功能部件的启动开销为:取数和存数部件为12个时钟周期,乘法部件为7个时钟周期,加法部件为6个时钟周期。

那么一个结果元素的平均执行时间(包括启动开销)为:A.3.7B.3.9C.4.1D.4.313.某向量处理机有16个向量寄存器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍。

采用类似CRAY-1的链接技术,先计算(A+B)*C,在流水线不停的情况下,接着计算(D+E)*F。

求此链接流水线的通过时间是多少拍?(设寄存器出入各需1拍)A.8B.9C.17D.1814.名词解释向量流水处理机解:处理机具有向量数据表示,并通过向量指令对向量的各元素进行处理。

15.某向量处理机有16个向量寄存器,其中V0-V5种分别存放有向量A,B,C,D,E,F,向量的长度是8,向量各元素均为浮点数;处理部件采用两个单功能流水线,加法功能部件时间为2拍,乘法功能部件时间为3拍。

采用类似CRAY-1的链接技术,先计算(A+B)*C,在流水线不停的情况下,接着计算(D+E)*F 。

每拍时间是50ns,完成这些计算并且把结果存进相应的寄存器,此处理部件实际吞吐率是多少MFLOPS?(设寄存器出入各需1拍)A.26.67B.29.C.24.6D.25.8316.一台单处理机可以以标量方式运行,也可以以向量方式运行。

在向量方式情况下,计算可比标量方式快9倍。

设某基准程序在此计算机上运行的时间是T 。

另外,已知T 的25%用于向量方式,其余机器时间则以标量方式运行。

请计算在上述条件下与完全不用向量方式条件下相比的加速比,并计算上述程序中向量化代码所占的百分比。

加速比=(0.25T*9+0.75T*1)/T=3由于T 中向量化代码所占的时间为0.25T ,则串行代码用时=T-0.25T=0.75T ,所以完全不用向量方式执行该段代码用时= 0.75T+9*0.25T=3T, 因此加速比=3T/T=3.根据Amdahl 定律.17.一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速度v R 为10Mflops ;另一种是标量方式,执行速度s R 为1Mflops 。

设α是该计算机的典型程序代码中可以向量化部分的百分比。

如果要使平均执行的速度达到7.5Mflops,那么向量化百分比应该多大?1/[a/Rv+(1-a)/Rs]=7.5所以a=0.96318.在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。

则下面的指令组完成所需要的拍数是: V3←存储器打入1,启动1,读数6V2←V0+V1s0←s2+s3V3←V1×V4A.111B.110C.78D.798+31+9+3119.在CRAY-1机器上,链接方式执行下面4条向量指令(括号中给出相应功能部件的时间),如果向量寄存器和功能部件之间的数据传输需要1拍,试求此链接流水线的流过时间为多少拍?V0←存储器(存储器取数7拍)9V1←V0+V1 (向量加3拍)5V3←V2<A3 (按照A3左移4拍)6V5←V3∧V4 (向量逻辑乘2拍)4A.23B.24C.30D.3120. 一台单处理机可以以标量方式运行,也可以以向量方式运行。

在向量方式情况下,计算可比标量方式快18倍。

设某基准程序在此计算机上运行的时间是T 。

另外,已知T 的25%用于向量方式,其余机器时间则以标量方式运行。

那么在上述条件下与完全不用向量方式的条件下相比的加速比是:A.3B.3.43C.3.33D.以上均不正确1/[0.75/18+0.25/1]21.一台向量计算机一次只能以下述两种方式中的一种运行:一种是向量方式,执行速度v R 为10Mflops ;另一种是标量方式,执行速度s R 为1Mflops 。

设α是该计算机的典型程序代码中可以向量化部分的百分比。

求平均执行速度的计算公式。

1/[a/Rv+(1-a)/Rs]=10/(10-9a)22.向量处理机有那两种最基本的结构?存储器--存储器结构寄存器--寄存器结构23.研制高性能的向量处理机主要需要解决哪几个问题?(1) 较好的维持向量/标量性能平衡(2) 可扩展性随处理机数目的增加而提高(3) 增加存储器系统的容量和性能(4) 提供高性能的I/O 和易访问的网络24.为了提高向量处理机的性能,会采用一些特殊的技术,下面那一项不是提高向量处理机性能而采用的技术?A.链接技术B.向量递归技术C.cache缓存技术D.稀疏矩阵的处理技术25.在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。

则下面的指令组完成所需要的拍数是: V0←存储器V2←V0+V1V3←V2×V1V5←V3×V426.若要进行向量运算D=A×(B+C),假设向量长度N<64,且B和 C已经存至V0和V1,则下面三条指令就可以完成上述的运算。

V3←A (6拍)V2←V0+V1 (6拍)V4←V2×V3 (7拍)分别求三条指令全部用串行的方法和链接技术执行的时间(读写各需1拍)。

27.在某台向量处理机上执行DAXPY代码,即完成Y=a×X+Y,其中X和Y是向量,最初存放在内存,a是一个标量,他们的向量指令如下:LV V1,Rx ;取向量MULTSV V2,F0,V1 ;标量和向量相乘LV V2,Ry ;取向量YADDV V4,V2,V3 ;相加SV Ry,V4 ;存结果求总的执行时间。

假设其中存取数需要12拍,乘法需要7拍,加法需要6拍,向量长度是n。

28.假设某向量处理机上执行DAXPY代码所需要的时钟周期是4n+64,其中n 是向量长度,时钟频率是200MHz,那么最大性能是多少?A. 90MFLOPSB. 80MFLOPSC.50 MFLOPSD.100MFLOPS29.假设某向量处理机上执行DAXPY代码所需要的时钟周期是4n+64,其中n 是向量长度,时钟频率是200MHz,那么半性能向量长度是:A.12.8B.10.7C.12D.1330.日本FOCOM向量处理机VP-200具有流水线链接和并行化功能。

它有2条存储流水线到向量寄存器,两者可以并行工作。

此外尚有加法和乘法流水线。

各流水线间均可以链接操作。

若现在要在Vp-200向量机上实现以下的向量操作:A(I)=B(I) ×C(I)+D(I) ×E(I)+F(I) ×G(I)I=1,2,…,N。

相关文档
最新文档