高级计算机体系结构作业汇总(非标准答案)

合集下载

计算机体系结构作业

计算机体系结构作业

Homework 11. Explain the Concepts○1系统结构(CA :Computer Architecture ):是指从程序设计者的角度看到的一个计算机系统的属性,即计算机的概念性结构和功能特性,它是计算机系统的软硬件界面,通过研究系统结构来建立完整系统的计算机软硬件体系。

○2高级系统结构(Advanced CA ):即并行系统结构,是指由多个处理单元组成的相互通信和协作的计算机系统,该系统能快速、高效地求解大型复杂问题。

○3Amdahl law :阿姆达尔定律,指系统中某一部件采用更快执行方式改进后使整个系统性能获得的改进程度,取决于该种执行方式被使用的频率大小,或者是它占整个执行时间的比例。

该定律定义了改进后和改进前的加速比s 如下,(其中a 为串行计算部分所占比例,n为并行的节点个数)。

))1((1na aS -+=○4SCALAR PROCESSING :标量处理,是最简单的计算机处理类型,与向量处理相对。

是指在同一时间内只处理一条数据,对应的标量处理器是单指令流单数据流处理器(SISD )。

○5LOOK-AHEAD :先行技术,用来预处理指令,使得后续操作可以重叠,实现并行。

○6PVP :parallel vector processor 并行向量处理机,是采用先行控制技术、流水线运算技术以及交叉访问的并行处理计算机,主要以流水线结构为主,有效提高运算速度。

○7SMP :symmetrical multi-processor 对称多处理机,是指两个或多个相同的处理机由同一操作系统控制,通过一个互联网络,共享同一主存储器,拥有该种系统的处理机为对称多处理机。

○8MPP :massively parallel processing 大规模并行处理,是指采用大量处理器并行工作的处理方式,其特点是高速度,在极大运算量领域有着重要应用。

○9DSM :distributed shared memory 分布共享内存,是指在分布式操作系统中(或不共享物理内存的计算机之间)实现共享数据的一个抽象,即提供一块虚拟的地址空间,使得各计算机进程可以像访问自己的地址空间一样进行读写操作。

计算机体系结构考试卷子及答案

计算机体系结构考试卷子及答案

1.某台主频为1GHz的计算机执行标准测试程序,程序中指令类型、执行数量和平均时钟周期数如下:求该计算机的有效CPI、MIPS和程序执行时间。

(10分)2.将计算机系统中某一功能的处理速度加快15倍,但该功能的处理时间仅占整个系统运行时间的40%,则采用此增强功能方法后,能使整个系统的性能提高多少?3.如果某计算机系统有3个部件可以改进,则这3个部件进改进后达到的加速比分别为:S1=30,S2=20,S3=10。

(1)如果部件1和部件2改进前的执行之间占整个系统执行的时间比例都为30%,那么,部件3改进前的执行时间占整个系统执行时间的比例为多少,才能使3个部件都改进后的整个系统的加速比Sn达到10?(2)如果3个部件改进前执行时间占整个系统执行时间的比例分别是30%,30%和20%,那么,3个部件都改进后系统的加速比是多少?未改进部件执行时间在改进后的系统执行时间中占的比例是多少?(10分)4.假设某应用程序中有4类操作,通过改进,各操作获得不同的性能提高。

具体数据如下表所示:(1)改进后,各类操作的加速比分别是多少?(2)各类操作单独改进后,程序获得的加速比分别是多少?(3)4类操作均改进后,整个程序的加速比是多少?5.一台模型机的9条指令的使用频度如下:(10分)ADD(加):26%SHR(右移):2%SUB(减):17%CLL(循环左移):5%JOM(按页转移):11%CLA(累加器清零):15%STO(存):2%STP(停机):12%JMP(转移):10%试设计这9条指令的Huffman编码的操作码表示以及其等长扩展操作码表示,并计算这两种表示的平均操作码长度。

6.有一个“Cache-主存”存储层次。

主存共分为8个块(0~7),Cache为4个块(0~3),采用直接映像方式。

(1)对于如下主存块地址流:0、2、6、1、3、7、0、1、4、5、4、6、0、7、2,如主存中内容一开始未装入Cache,请列出每次访问后Cache中各块的分配情况;(2)对于(1),指出既发生块失效又发生块争用的时刻;(3)对于(1),求出此期间的Cache命中率。

计算机体系结构答案

计算机体系结构答案

计算机体系结构答案2021 福师网院一、填空题(每空1分,共14分)1.高速缓冲存储器的地址映象方式有三种,它们分别是:全向量方式,直接相联方式,组相联方式。

2. 虚拟存储器的三种管理方式是段式管理,页式管理和段页式管理。

3.从主存的角度来看,“Cache—主存”层次的目的是为了提高速度,而“主存—辅存”层次的目的是为了扩大容量。

4.根据指令间的对同一寄存器读和写操作的先后次序关系,数据相关冲突可分为RAW 、WAR 和WAW 三种类型。

5.当代计算机体系结构的概念包括指令集结构、计算机组成和计算机实现三个方面的内容。

二、名词解释(每题2分,共16分)计算机体系结构:答:计算机体系结构包括指令集结构、计算机组成和计算机实现三个方面的内容。

兼容机:答:不同厂家生产的具有相同计算机结构的计算机;系列机:同一厂家生产的具有相同计算机结构,但具有不同组成和实现的一系列不同档次不同型号的机器;写直达法:答:执行“写”操作时,不仅写入Cache,而且也写入下一级存储器。

高速缓冲存储器:答:为解决CPU与主存储器间速度差而在内存储器和CPU之间增加的一种存取速度远高于普通内存的特殊存储器。

延迟转移技术:答:为了使指令流水线不断流,在转移指令之后插入一条不相关的有效的指令,而转移指令被延迟执行,这种技术称为延迟转移技术。

线性流水线:答:指各段串行连接、没有反馈回路的流水线。

数据通过流水线中的各段时,每一个段最多只流过一次;非线性流水线:指各段除了有串行的连接外,还有反馈回路的流水线。

流水线的吞吐率:答:在单位时间内流水线所完成的任务数量或输出结果的数量。

并行性:答:计算机系统在同一时刻或者同一时间间隔内进行多种运算或操作。

只要在时间上相互重叠,就存在并行性。

它包括同时性与并发性两种含义。

三、简答题(每题5分,共30分)1. 如有一个经解释实现的计算机,可以按功能划分成4级。

每一级为了执行一条指令需要下一级的N条指令解释。

计算机系统结构课后习题答案(第2版)

计算机系统结构课后习题答案(第2版)

习题一1、解释下列术语计算机系统的外特性:通常所讲的计算机系统结构的外特性是指机器语言程序员或编译程序编写者所看到的外特性,即由他们所看到的计算机的基本属性(概念性结构和功能特性)。

计算机系统的内特性:计算机系统的设计人员所看到的基本属性,本质上是为了将有关软件人员的基本属性加以逻辑实现的基本属性。

模拟:模拟方法是指用软件方法在一台现有的计算机上实现另一台计算机的指令系统。

可移植性:在新型号机出台后,原来开发的软件仍能继续在升级换代的新型号机器上使用,这就要求软件具有可兼容性,即可移植性。

可兼容性是指一个软件可不经修改或只需少量修改,便可由一台机器移植到另一台机器上运行,即同一软件可应用于不同环境。

Amdahl定律:系统中对于某一部件采用某种更快的执行方式所能获得的系统性能改进程度,取决于这种执行方式被使用的频度或占总执行时间的比例。

虚拟机(Virtual Machine):指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。

6、7、假定求浮点数平方根的操作在某台机器上的一个基准测试程序中占总执行时间的20%,为了增强该操作的性能,可采用两种不同的方法:一种是增加专门的硬件,可使求浮点数平方根操作的速度提高为原来的20倍;另一种方法是提高所有浮点运算指令的速度,使其为原来的2倍,而浮点运算指令的执行时间在总执行时间中占30%。

试比较这两种方法哪一种更好些。

答:增加硬件的方法的加速比Sp1=1.23, 另一种方法的加速比Sp2=1.176,经计算可知Sp1=方法更好些。

Sp2>Sp2第一种9、假设高速缓存Cache的工作速度为主存的5倍,且Cache被访问命中的概率T=为90%,则采用Cache能使整个存储系统获得多高的加速比?答:加速比,其中tm=5tc,代入公式、得到加速比S=3.33。

11、Flynn分类法的依据是什么,它与按“并行级”和“流水级”的分类方法有什么不同?答:Flynn分类法的依据是指令流和数据流多倍性概念进行分类的。

[整理版]计算机体系结构试题汇总

[整理版]计算机体系结构试题汇总

计算机系统结构姓名:学号:一、简答题(每小题10分,共20分)1.简述使用物理地址进行DMA存在的问题,及其解决办法。

2.从目的、技术途径、组成、分工方式、工作方式等5个方面对同构型多处理机和异构型多处理机做一比较(列表)。

二、(60分)现有如下表达式:Y=a ×X其中:X和Y是两个有64个元素的32位的整数的向量,a为32位的整数。

假设在存储器中,X和Y的起始地址分别为1000和5000,a的起始地址为6000。

1.请写出实现该表达式的MIPS代码。

2.假设指令的平均执行时钟周期数为5,计算机的主频为500 MHz,请计算上述MIPS 代码(非流水化实现)的执行时间。

3.将上述MIPS代码在MIPS流水线上(有正常的定向路径、分支指令在译码段被解析出来)执行,请以最快执行方式调度该MIPS指令序列。

注意:可以改变操作数,但不能改变操作码和指令条数。

画出调度前和调度后的MIPS代码序列执行的流水线时空图,计算调度前和调度后的MIPS代码序列执行所需的时钟周期数,以及调度前后的MIPS流水线执行的加速比。

4.根据3的结果说明流水线相关对CPU性能的影响。

三、(20分)请分析I/O对于性能的影响有多大?假设:1.I/O操作按照页面方式进行,每页大小为16 KB,Cache块大小为64 B;且对应新页的地址不在Cache中;而CPU不访问新调入页面中的任何数据。

2.Cache中95%被替换的块将再次被读取,并引起一次失效;Cache使用写回方法,平均50%的块被修改过;I/O系统缓冲能够存储一个完整的Cache块。

3.访问或失效在所有Cache块中均匀分布;在CPU和I/O之间,没有其他访问Cache 的干扰;无I/O时,每1百万个时钟周期中,有15,000次失效;失效开销是30个时钟周期。

如果替换块被修改过,则再加上30个周期用于写回主存。

计算机平均每1百万个周期处理一页。

试题二计算机系统结构姓名:学号:一、名词解释(每题3分,共15分)1. Cache 2:1 经验规则3. 同构型多处理机5. 堆栈型机器2. 计算机体系结构4. 通道处理机二、填空(每空1分,共20分)1.设计I/O系统的三个标准是()、()和()。

(完整版)计算机系统结构考试题目及参考答案

(完整版)计算机系统结构考试题目及参考答案

一:名词解释1:虚拟机:由软件实现的机器。

2:CPI:是衡量CPU执行指令效率的重要标志,指执行每条指令所需的平均时钟周期数。

3:摩尔定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。

4:并发性:指两个或多个事件在同一时间间隔内发生的并行性。

5:程序局部性原理:是指程序在执行时呈现出局部性规律,即在一段时间内,整个程序的执行仅限于程序中的某一部分。

相应地,执行所访问的存储空间也局限于某个内存区域。

局部性原理又表现为:时间局部性和空间局部性。

6:CISC/RISC:CISC:即复杂指令系统计算机,指在系统中增加更多和复杂的指令,来提高操作系统效率的计算机。

RISC:即精简指令系统计算机,指在系统中选取使用一些频率最高的、长度固定的、格式种类少的简单指令的计算机。

7:计算机系统结构:指对机器语言计算机的软、硬件功能的分配和对界面的定义。

8:系列机:指先设计好一种系统结构,而后就按这种系统结构设计它的系统软件,按器件状况和硬件技术研究这种结构的各种实现方法,并按照速度、价格等不同要求,分别提供不同速度、不同配置的各档机器。

9:模拟:用机器语言程序解释实现程序移植的方法。

10:仿真:用微程序直接解释另一种机器的指令系统。

11:寻址方式:寻找操作数或指令的有效地址的方式。

12:替换算法:在存储体系中,当出现页面失效时或者主存的所有页面已经全部被占用而又出现页面失效时,按照某种算法来替换主存中某页。

[由于主存中的块比Cache中的块多,所以当要从主存中调一个块到Cache中时,会出现该块所映象到的一组(或一个)Cache块已全部被占用的情况。

这时,需要被迫腾出其中的某一块,以接纳新调入的块。

]二:选择题1,直接执行微指令的是(C)A 汇编程序B 编译程序C 硬件D微指令程序2,对汇编语言程序员不透明的是(C)A 程序计数器B主存地址寄存器C条件码寄存器D指令寄存器3,最早的冯·诺依曼型计算机是以(B)为中心的A运算器B控制器C存储器 D I/O设备4,计算机系统结构的角度的结构来看,机器语言程序员看到的机器属性是(C )A 计算机软件所要完成的功能B 计算机硬件的全部组成C 编程要用到的硬件组织D计算机各部分硬件的实现5,不同系列计算机之间实现可移植性的途径,不包括(B )A 采用统一的高级语言B采用统一的汇编语言C 模拟D仿真6,利用时间重叠原理,实现并行处理的是(A)A流水处理机B多处理机 C 阵列处理机D集群系统7,多处理机实现的并行主要是(B)A指令级并行 B 任务级并行C 操作级并行D操作步骤的级并行8计算机系统结构不包括(B)A信息保护B存储速度C数据表示D机器工作状态9,不需要编址的数据存储空间(D )A CPU通用寄存器B 主存储器C I/O寄存器D堆栈10,RISC执行程序的速度比CISC 快的原因是(C)A RISC指令系统中条数较少B 程序在RISC编译生成的目标程序较短C RISC指令平均执行周期数较少D RISC中只允许LOAD和STORE指令存储11,程序员在编写程序时,使用的访存地址是(B)A主存地址B逻辑地址C物理地址D有效地址12,虚拟存储器主要是为了(A)A扩大存储器系统容量B提高存储器系统速度C扩大存储器系统容量和提高存储器系统速度D便于程序的访存操作13,与全相联映像相比,组相联映像的优点是(B)A目录表小B块冲突概率低C命中率高D主存利用率高14,输入输出数据不经过CPU内部寄存器的输入输出方式是(C )A程序控制方式B中断 C DMA方式D上述三种方式15,在配置了通道的计算机系统中,用户程序需要输入输出时引起的中断是(A)A访管中断 B I/O中断C程序性中断D外部中断16,当计算机系统通过执行通道程序,完成输入输出工作时,执行通道程序的是(B)A CPUB 通道C CPU和通道D指定的外设三:填空1,常见的计算机系统结构的分类法有两种:Flynn分类法,冯氏分类法冯氏分类法是根据系统的最大并行度对计算机系统结构进行分类,大多数的位并行的单处理机属于字串位并的处理机方式2,由软件实现的机器称为:虚拟机3,在一个计算机系统中,低层机器的属性往往对高层机器的程序员是透明的。

高级计算机体系结构作业汇总(非标准答案)

高级计算机体系结构作业汇总(非标准答案)

1.Explain the ConceptsComputer Architecture系统结构由程序设计者所看到的一个计算机系统的属性。

即计算机系统的软硬件界面。

Advanced CA高级系统结构新型计算机系统结构。

基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。

为非冯式系统结构。

Amdahl lawAmdahl定律系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。

SCALAR PROCESSING标量处理机在同一时间内只处理一条数据。

LOOK-AHEAD先行技术通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。

PVP向量型并行计算处理机以流水线结构为主的并行处理器。

SMP对称多处理机系统任意处理器可直接访问任意内存地址,使用共享存储器,访问延迟、带宽、机率都是等价的。

MPP大规模并行计算机系统物理和逻辑上均是分布内存,能扩展至成百上千处理器,采用专门设计和定制的高通信带宽和低延迟的互联网络。

DSM分布式共享存储系统内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。

COW机群系统每个节点都是一个完整的计算机,各个节点通过高性能网络相互连接,网络接口和I/O总线松耦合连接,每个节点有完整的操作系统。

GCE网格计算环境利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。

CISC复杂指令集计算机通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。

RISC精简指令集计算机尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。

VMM虚拟机监视器作为软硬件的中间层,在应用和操作系统所见的执行环境之间。

SUPERCOMPUTER超级计算机数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。

计算机体系结构复习题(有答案)

计算机体系结构复习题(有答案)

计算机体系结构复习题(有答案)《体系结构复习题》⼀、选择题(15分)1.计算机系统多级层次中,从下层到上层,各级相对顺序正确的应当是()A.汇编语⾔机器级---操作系统机器级---⾼级语⾔机器级B.微程序机器级---传统机器语⾔机器级---汇编语⾔机器级C.传统机器语⾔机器级---⾼级语⾔机器级---汇编语⾔机器级D. 汇编语⾔机器级---应⽤语⾔机器级---⾼级语⾔机器级2.对系统程序员不透明的是()A.Cache 存储器B.系列⼏各档不同的数据通路宽度C.指令缓冲寄存器D.虚拟存储器3.在计算机系统设计中,⽐较好的⽅法是()A.从上向下设计B.从下向上设计C.从两头向中间设计D.从中间开始向上、向下设计4.不同系列的机器之间,实现软件移植的途径不包括()A.⽤统⼀的⾼级语⾔B.⽤统⼀的汇编语⾔C.模拟D.仿真5.堆栈型机器⽐通⽤寄存器型机器优越的是()A.⽀持先进先出类接替算法的求解B.能更好地⽀持向量的运算C.⽀持由逆波兰表达式将⾼级语⾔多元赋值语句直接编译⽣成堆栈指令程序D.能优化存储器的空间利⽤率6.浮点数尾数基值 r m=8,尾数数值部分长 6 位,可表⽰的规格化最⼩正尾数为()A.0.5B.0.25C.0.125D.1/647.在尾数下溢处理⽅法中,平均误差最⼤的是()A.截断法B.舍⼊法C.恒置“1”法D.ROM 查表法8.ILLIAC Ⅳ是⼀种()A.流⽔线处理机B.指令重叠处理机C.阵列处理机D.多处理机9.能实现作业、任务级并⾏的异构型多处理机属()A.MISDB.SIMDC.MIMDD.SISD10.⾮线性流⽔线是指()A.⼀次运算中使⽤流⽔线中多个功能段B.⼀次运算中要多次使⽤流⽔线中的某些功能段C. 流⽔线中的某些功能段在各次运算中的作⽤不同D. 流⽔线中的各个功能段在各种运算中有不同的组合11.流⽔机器对全局性的相关处理不包括()A.猜测法B.提前形成条件码C.加快短循环程序的执⾏D.设置相关专⽤通路12.外部设备打印机适合于连接()A.数组多路通道或选择通道B.字节多路通道或选择通道C.选择通道D.任意⼀种通道13.虚拟存储器常⽤的地址映像⽅式是()A.全相联B.段相联C.组相联D.直接14.下列关于虚拟存储器的说法,⽐较正确的是()A.访主存命中率随页⾯⼤⼩增⼤⽽提⾼B.访主存命中率随贮存容量增加⽽提⾼C.更换替换算法能提⾼命中率D.在主存命中率低时,改⽤堆栈型替换算法,并增⼤主存容量,可提⾼命中率15.Cache 存储器常⽤的地址映像⽅式是()A.全相联映象B.页表法映象C.组相联映象D.段页表映象16.对系统结构透明的是()A.字符⾏运算指令B.主存地址寄存器C.虚拟存储器D.VLSI 技术17.汇编语⾔源程序变换成机器语⾔⽬标程序是经()来实现的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.Explain the ConceptsComputer Architecture系统结构由程序设计者所看到的一个计算机系统的属性。

即计算机系统的软硬件界面。

Advanced CA高级系统结构新型计算机系统结构。

基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。

为非冯式系统结构。

Amdahl lawAmdahl定律系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。

SCALAR PROCESSING标量处理机在同一时间内只处理一条数据。

LOOK-AHEAD先行技术通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。

PVP向量型并行计算处理机以流水线结构为主的并行处理器。

SMP对称多处理机系统任意处理器可直接访问任意内存地址,使用共享存储器,访问延迟、带宽、机率都是等价的。

MPP大规模并行计算机系统物理和逻辑上均是分布内存,能扩展至成百上千处理器,采用专门设计和定制的高通信带宽和低延迟的互联网络。

DSM分布式共享存储系统内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。

COW机群系统每个节点都是一个完整的计算机,各个节点通过高性能网络相互连接,网络接口和I/O总线松耦合连接,每个节点有完整的操作系统。

GCE网格计算环境利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。

CISC复杂指令集计算机通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。

RISC精简指令集计算机尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。

VMM虚拟机监视器作为软硬件的中间层,在应用和操作系统所见的执行环境之间。

SUPERCOMPUTER超级计算机数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。

SVM共享虚拟存储器存储器虚拟化为一个共享的存储器,并提供单一的地址空间。

MAINFRAME大型计算机作为大型商业服务器,一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面。

COMPUTER SYSTEM ON CHIP片上计算机系统在单个芯片上集成的一个完整系统。

PARALLEL ARCHITECTURE INTO SINGLE CHIP单片并行结构在单个芯片上采用的并行体系结构MOORE lawMoore定律当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。

UMA一致存储访问采用集中式存储的模式,提供均匀的存储访问。

NUMA非一致存储访问内存模块局部在各个结点内部,所有局部内存模块构成并行机的全局内存模块。

COMA全高速缓存存储访问采用分布式存储模式,通过高速缓存提供快速存储访问。

CC-NUMA全高速缓存非一致性均匀访问存在专用硬件设备保证在任意时刻,各结点Cache中数据与全局内存数据的一致性。

NORMA非远程存储访问利用私有的存储器通过互联网络进行消息传递。

SHELL ARCHITECTUREShell结构用专门定制的Shell电路将商用微处理器和节点的其它部分(包括板级Cache、局存、NIC 和DISK)连接起来。

PRAM随机存取并行机器模型共享存储的SIMD模型,假定存在一个容量无限大的共享存储器,有有限或无限个功能相同的处理器,且他们都具有简单的算术运算和逻辑判断功能,在任何时刻处理器都可以通过共享存储单元相互交互数据。

BSP整体同步并行计算模型分布存储的MIMD计算模型,将处理器和路由器分开,强调了计算任务和通信任务的分开。

采用障碍同步的方式以硬件实现的全局同步是在可控的粗粒度级,从而提供了执行紧耦合同步式并行算法的有效方式。

LOG P分布存储的、点到点通信的多处理机模型L (Latency) 表示信息从源到目的地所需的时间;O (Overhead) 表示处理器接受或发送一条消息所需额外开销,并且在此期间处理器不能做作任何操作;G (Gap)表示处理器连续进行两次发送或接收消息之间必须有的时间间隔;P (Processor) 表示处理器的数目。

2.Explain the Flynn classify and its semantics.1)单指令流单数据流(Single Instruction Stream Single Data Stream,SISD)SISD其实就是传统的顺序执行的单处理器计算机,其指令部件每次只对一条指令进行译码,并只对一个操作部件分配数据。

2)单指令流多数据流(Single Instruction Stream Multiple Data Stream,SIMD)SIMD以并行处理机为代表,结构如图,并行处理机包括多个重复的处理单元PU1~PUn,由单一指令部件控制,按照同一指令流的要求为它们分配各自所需的不同的数据。

3)多指令流单数据流(Multiple Instruction Stream Single Data Stream,MISD)MISD的结构,它具有n个处理单元,按n条不同指令的要求对同一数据流及其中间结果进行不同的处理。

一个处理单元的输出又作为另一个处理单元的输入。

4)多指令流多数据流(Multiple Instruction Stream Multiple Data Stream,MIMD)MIMD的结构,它是指能实现作业、任务、指令等各级全面并行的多机系统,多处理机就属于MIMD。

3.Where are the difficulties of Parallel Processing? What is ‘Parallel(并行)、concurrent(并发)and Simultaneous(同时)’separately?1)并行处理的难度:a)处理单元的多少以及其功能的强弱;b)处理单元的连接方式以及其处理结构;c)同步与互斥的实现;d)处理单元之间的数据传输;e) 不同存储层次上的数据一致性。

2) 并行:两个或多个事件在同一时刻发生;并发:两个或多个事件在同一时间间隔内发生; 同时:两个或多个事件在同一时间内完成。

4. Assume that a system component be speeded to 10 times ,Its past processing timeaccounts for 40% of the system ,how much will be the system performance improved ?1;40%,101Sp f n ff n ===-+11.56250.410.410Sp ==-+5. Please draw the memory Hierarchy chart 。

6. Explaining ConceptionsRISC精简指令集计算机尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。

CISC复杂指令集计算机通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。

VLIW超大规模集成电路指几毫米见方的硅片上集成上万至百万晶体管、线宽在1微米以下的集成电路。

SUPER-SCALAR超标量通过内置多条流水线来同时执行多个处理器,其实质是以空间换取时间。

SUPER-PIPELINE超流水线通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个操作,其实质是以时间换取空间。

SUPER-SCALAR-SUPER-PIPELINE超标量超流水线在一个基本时钟周期内能够分时发送多组指令,并且每组指令又可包涵一条或多条指令。

IPC单位时钟周期内所执行的指令数SINGLE ISSUE单发射结构在一个时钟周期内只从存储器中取出一条指令,并且只对一条指令进行译码,只执行一条指令,只写一个运算结果。

MULTIPLE ISSUE多发射结构在一个基本时钟周期内同时从指令Cache中读出多条指令,同时对多条指令进行译码。

OOO乱序执行结构能够不按照程序提供的顺序完成计算任务,是一种加快处理器运算速度的架构。

Multi-Threading多线程同时运行多个轻量级任务。

7.In ideal case, please give the performances for SUPER-SCALAR, SUPERPIPELINE,SUPER-SCALAR-SUPER-PIPELINE, and give N=8 examples and their average IPC.1)性能超标量性能:S(m,1) = T(1,1) / T(m,1) = (K+N-1) / (K+(N-m)/m)超流水性能:S(1,n) = T(1,1)/T(1,n) = n(k+N-1) / nk+N-1超标量超流水性能:S(m,n) = T(1,1)/T(m,n) = (K+N-1) / (K+(N-m)/(mn))其中,N表示不相关指令数,m表示指令的并行度,n表示指令流水线的并行度,K表示指令流水线的阶段数2)N=8的周期图超标量:F- D- E- WF- D- E- WF- D- E- WF- D- E- WF- D- E- WF- D- E- WF- D- E- WF- D- E- W1 2 3 4 5 6 7IPC = 8 /7 = 1.14超流水:F |D |E |W | | | |F | D |E| W| | | ||F |D |E |W | | || F| D | E| W| | || |F |D |E |W | || | F| D | E| W| || | |F |D |E |W || | | F| D | E| W|1 2 3 4 5 6 7IPC = 8 / 7 = 1.14超标量超流水:F |D |E |W | |F |D |E |W | |F | D |E| W| |F | D |E| W| ||F |D |E |W ||F |D |E |W || F | D | E | W|| F | D| E | W|1 2 3 4 5IPC = 8 / 5 = 1.608.Please describe the CPU technology in recent years, and give an example to illustratetheir technical parameters.1)Hyper threadingThreads are independent parts of a computer program. Multi-tasking operating systems (e.g. Windows or Linux) work by allocating each thread a certain amount of "CPU time" in which to execute some instructions. This means that they can run dozens of programs "at the same time".Multi-processor systems allow the OS to literally run two or more program threads simultaneously on different CPUs. This means that there is less competition for CPU time and therefore the computer should operate more quickly. However, multiprocessor systems areexpensive.Hyper-Threading Technology (HTT) was introduced by Intel to give a cost-effective compromise. By duplicating some of the parts of the main core it pretends to be two processors. This gives a small speed increase (up to 30%).2)Dual Core & multi-coreDual core designs have two cores on a single chip, sometimes sharing L2 cache memory and always sharing bus interfaces. A dual-core chip is not as good as having two processors; however it gives typically 25%–75% faster performance than a single core processor.The Athlon 64 X2 and Pentium D were the first dual-core processors released for the PC, followed by the Intel Core Duo, Core 2 Duo and AMD Athlon FX60. Intel has released a four-core Core 2 Quadro processor.core name process processor socket typical L2 cache Willamette 180nm Pentium 4 478 256 KBNorthwood 130nm Celeron 478 128 KBPrescott 90nm Celeron D / P4 478 256 KB / 1MB Prescott 2M 90nm Pentium 4 (6xx) 775 2 MBCedar Mill 65nm Pentium 4 (6xx) 775 2 MBSmithfield 90nm Pentium D (8xx) 775 2 MBPresler 65nm Pentium D (9xx) 775 4 MBYonah 65nm Core Duo / Solo 775 4 MBConroe 65nm Core 2 Duo 775 4 MBcore name process processor socket typical L2 cache Thoroughbred 130nm Athlon XP A 256 KB Barton 130nm Athlon XP A 512 KBPalermo 90nm Sempron 754 128 KBClawhammer 130nm Athlon 64 754 1 MBNewcastle 130nm Athlon 64 754 512 KBSledgehammer 130nm Athlon 64/FX 939 1 MBWinchester 90nm Athlon 64 939 512 KBVenice 90nm Athlon 64 939 512 KBManchester 90nm Athlon 64 X2 939 1 MBToledo 90nm Athlon 64 X2 939 2 MBThe diagram below shows the architecture of a Conroe core:9.Please give computing trace of a[i+7]=b[j+1]+c[k+8]+d[m+10] for T9000a[i+7]=b[j+1]+c[k+8]+d[m+10]1 |2 |3 |4 |5 |6 |7 |8 |9 |…Fj | | | | | | | | | Fb | | | | | | | | | |Fb[j] | | | | | | | || |Fb[j+1] | | | | | | ||Fk | | | | | | | ||Fc | | | | | | | || |Fc[k] | | | | | | || | |Fc[k+8] || | | | || | | |Eadd | | | | || |Fm | | | | | | || |Fd | | | | | | || | |Fd[m] | | | | | || | | |Fd[m+10]| | | | || | | | |Eadd | | | || | |Fi | | | | | || | |Fa | | | | | || | | |Fa[i] | | | | || | | | | | |Wa[i+7] | | 2 |3 |4 |4 |3 |1 | |1 | |10.How to solve the multicore memory wall problem?解决“内存墙”问题包括内存带宽和内存等待时间两大基本途径,前者的应对方法是采用提高内存总线位宽和传输倍率的技术;后者是采用多级缓存和数据预取、多线程和乱序执行等技术。

相关文档
最新文档