第七章指令级并行

合集下载

精品文档-计算机组成与系统结构(裘雪红)-第7章

TCLK = τ = max{τi}
第7章流水线技术与指令级并行
41
从时-空图中可以看到，当流水线被启动后，需要经过一个启动阶段流水管道才能被充满，这个启动阶段所用时间称为通
过时间(或填充时间)。在理想的情况下，通过时间= (流水线级数－1)×时钟周期 (7-2)
在通过时间之后，流水线达到稳定而被充分利用，并且每个时钟周期输出一个新的结果。
第7章流水线技术与指令级并行
35
2. 增加指令流水线条数以Intel微处理器为例，80486及之前的x86微处理器中只有
一条指令流水线，程序中的所有指令都是通过这唯一的指令流水线来执行的。而在Pentium处理器中设置了两条指令流水线，分别叫U指令流水线(主流水线)和V指令流水线(副流水
线)。每个流水线都拥有自己的算术逻辑运算部件ALU、地址生成逻辑以及与数据Cache的接口。U指令流水线可以执行所有的指令，而V指令流水线只能执行简单的指令。
当选择截断法时，舍弃部分自然丢弃，所以不需要任何舍入处理操作或电路。
第7章流水线技术与指令级并行
15
图 7.6 IBM System 360/91的浮点加/减法单元
第7章流水线技术与指令级并行
16
图 7.7 浮点加/减法单元的流水线结构
第7章流水线技术与指令级并行
17
7.2.2 浮点乘除运算流水线
所以
(7-11)
第7章流水线技术与指令级并行
54
对于指令流水线而言，当加速比S作为指令数n的函数时，则理论上有
(7-12) 当加速比S作为指令流水线级数m的函数时，则理论上有
(7-13)
第7章流水线技术与指令级并行
55

指令级并行的概念

指令级并行的概念
目录
• 指令级并行简介 • 指令级并行技术 • 指令级并行应用场景 • 指令级并行面临的挑战与解决方案 • 指令级并行未来展望
01
指令级并行简介
定义与特点
定义
指令级并行是指计算机在执行程序时，通过同时执行多个指令来提高处理速度的一种并行处理技术。
特点
指令级并行主要依赖于处理器中的指令流水线，通过并行执行多个指令，实现处理速度的提升。
详细描述
超线程技术允许在一个物理处理器核心上同时运行多个线程，从而实现指令级的并行处理。通过精细的调度和管理，超线程技术可以有效地利用处理器资源，提高处理器的整体性能。
VLIW（Very Long Instruction Word）技术
总结词
VLIW技术是一种将多个操作码和操作数组合到一个长指令中，由处理器一次执行的方法。
VS
详细描述
EPIC技术强调在编译阶段对程序进行并行化处理，通过分析程序中的指令关系和数据依赖关系，自动地生成并行执行的代码。EPIC技术的目标是最大化处理器的并行执行能力，从而提高程序的执行效率。
03
指令级并行应用场景
科学计算
科学计算是利用计算机进行大规模数值计算以解决科学研究和工程领域中的复杂问题。指令级并行技术可以提高科学计算的效率和精度，例如在气候模拟、流体动力学模拟、物理模拟等领域的应用。
指令缓存失效问题
指令缓存失效问题
由于指令的执行结果可能被缓存在缓存中，当指令并行执行时，缓存失效可能导致指令重新读取数据，从而影响并行执行的效率。
解决方案
通过缓存行对齐技术，将并行执行的指令对齐到同一缓存行，以减少缓存失效的次数。此外，可以使用写回策略来将指令的执行结

计算空气动力学并行编程基础

计算空气动力学并行编程基础空气动力学是研究空气对运动物体的作用和运动物体对空气的作用的学科。

在过去的几十年里，计算空气动力学已经成为了航空航天、汽车工程、风力发电等领域中不可或缺的一部分。

随着计算机性能的不断提升，空气动力学模拟已经成为了研究和开发新产品的重要手段。

然而，由于空气动力学计算的复杂性，传统的串行计算方式已经无法满足实际应用的需求。

因此，并行计算已经成为了空气动力学研究中的关键技术。

并行计算是一种将任务分解为多个部分，然后让不同的处理器同时处理这些部分的计算方法。

通过并行计算，可以大大降低计算时间，提高计算效率。

在空气动力学中，常见的并行计算思想有以下几种：1.基于数据的并行计算：该方法将数据分成多个部分，不同的处理器同时对这些数据进行计算。

这种方法适用于计算量大、独立性强的问题。

例如，对于流体力学问题，可以将流场网格划分为多个子域，不同的处理器对各个子域进行计算。

2.基于任务的并行计算：该方法将任务分成多个部分，不同的处理器同时处理这些任务。

这种方法适用于计算量大、相互依赖性高的问题。

例如，对于空气动力学中的求解方程问题，可以将方程分成多个部分，不同的处理器分别求解这些方程。

3.混合并行计算：该方法将基于数据和基于任务的并行计算结合起来。

这种方法适用于需要兼顾计算负载平衡和通信开销的问题。

例如，在计算流体力学中，可以将网格划分为多个子域，并行地求解每个子域中的方程。

为了实现空气动力学的并行计算，需要使用并行编程技术。

常见的并行编程技术包括：1.线程级并行编程：通过使用多线程，将任务分配给不同的处理器核心进行计算。

线程级并行编程在计算密集型任务中效果较好，可以充分利用多核心处理器的性能。

2.指令级并行编程：通过使用单指令多数据（SIMD）指令，将同一指令同时应用于多个数据元素，从而实现并行计算。

指令级并行编程适用于数据并行的任务，如向量运算。

3.进程级并行编程：通过将任务分配给多个进程，利用多台计算机进行计算。

计算机组成原理专升本试题解析指令流水线与并行处理

计算机组成原理专升本试题解析指令流水线与并行处理计算机组成原理是计算机专业学生必修的一门基础课程，对于理解计算机的组成和工作原理非常重要。

在计算机组成原理的学习中，指令流水线与并行处理是一个重要的概念和技术。

本文将对指令流水线与并行处理进行详细解析。

一、指令流水线指令流水线是一种通过将处理器的执行过程划分为多个子阶段，并行执行这些子阶段来提高处理器性能的技术。

在指令流水线中，每个指令在执行的过程中经过取指令、译码、执行、访存和写回等多个阶段，不同指令在不同阶段同时执行，从而在单位时间内处理更多的指令。

指令流水线的优势在于充分利用了处理器的硬件资源，提高了指令的执行效率。

但是在实际应用中，由于指令间有数据依赖关系等问题，可能会导致流水线的阻塞和冒险，进而影响性能。

为了解决这些问题，人们提出了一系列的技术和策略，比如数据旁路、预测执行和乱序执行等，来提高指令流水线的性能。

二、并行处理并行处理是指通过同时执行多个任务来提高系统的处理能力和性能的技术。

在计算机组成原理中，主要涉及到的并行处理包括指令级并行和线程级并行。

指令级并行是通过在一个指令的执行过程中同时执行多个子指令来提高处理器性能的技术。

一种实现指令级并行的方法是超标量处理器，它能够在一个时钟周期内同时发射多条指令，并行执行这些指令。

另一种实现指令级并行的方法是超流水线处理器，它将处理器的执行流程进一步细分为多个较短的子阶段，以便更多地重叠执行。

线程级并行是通过同时处理多个线程来提高系统性能的技术。

在多核处理器和多线程处理器中，可以同时执行多个线程，从而实现线程级并行。

通过合理的线程调度和资源分配，可以充分利用处理器的硬件资源，提高系统的吞吐量和响应速度。

指令流水线和并行处理是计算机组成原理中的两个重要概念和技术，它们可以相互结合，共同提高计算机系统的性能。

指令流水线通过划分指令执行过程为多个子阶段并行执行，提高了指令的执行效率；而并行处理通过同时处理多个任务或线程，提高了系统的处理能力和性能。

单片机指令的并行执行技术

单片机指令的并行执行技术单片机指令的并行执行技术是一种提高单片机性能和效率的重要方法。

通过同时执行多个指令，可以大大加快程序运行速度，提高系统的响应能力。

本文将介绍单片机指令的并行执行技术以及其应用。

一、指令的并行执行原理指令的并行执行是指在一个时钟周期内同时执行多个指令。

实现指令的并行执行需要满足以下几个条件：1. 数据无相关性：同时执行的指令之间不能有数据相关性，即后续指令不依赖于前面指令的结果。

否则会导致数据错误。

2. 硬件支持：需要具备支持并行执行的硬件结构，包括有多个执行单元和数据通路。

基于以上原理，下面将介绍几种常见的单片机指令并行执行技术。

二、指令级并行执行技术指令级并行执行技术是指在一个时钟周期内同时执行多条指令的技术。

常见的指令级并行执行技术包括：1. 流水线技术：将指令执行过程分为多个阶段，每个阶段由不同的硬件执行，实现多个指令的同时执行。

比如Fetch（取指令）、Decode （解码）、Execute（执行）和Write Back（写回）等阶段。

2. 超标量技术：通过增加硬件资源，同时从指令存储器中提取多条指令并行执行。

不同于流水线技术，超标量技术可以并行执行多个指令的某个或全部阶段。

三、循环级并行执行技术循环级并行执行技术是指在一个循环中同时执行多条指令的技术。

常见的循环级并行执行技术包括：1. 向量处理器：通过并行处理多个数据元素来加速程序运行速度。

向量处理器可以一次性处理多个相同类型的指令，提高程序的执行效率。

2. SIMT技术：Single Instruction Multiple Thread，即单指令多线程技术。

通过将多个线程分配给不同的处理单元，实现多个线程的同时执行。

这种技术广泛应用于图形处理器（GPU）等领域。

四、应用领域指令的并行执行技术在多个领域都有广泛应用，特别是对于对计算能力要求较高的应用场景。

下面列举几个典型的应用领域：1. 数字信号处理（DSP）：在音频和视频处理等领域，需要高效处理大量数据，指令的并行执行技术可以提高处理速度和实时性。

现在微处理机-指令级并行-记分牌算法

循环展开（2/3) • Example:A,B,C,D distinct & nonoverlapping
• for (i=1; i<=100; i=i+1) { A[i] = A[i] + B[i]; /* S1 */ B[i+1] = C[i] + D[i];} /* S2 */ 1. S1和S2没有相关，S1和S2互换不会影响程序的正确性 2. 在第一次循环中，S1依赖于前一次循环的B[i].
– Itanium & Transmeta: Crusoe
一个循环的例子 for (i = 1; i <= 1000; i++) x(i) = x(i) + y(i);
• 特征
– 计算x(i)时没有相关
• 并行方式
– 最简单的方法，循环展开。 – 采用向量的方式 X=X+Y 60年代开始 Cray HITACHI NEC Fujitsu 目前均采用向量加速部件的形式 GPU DSP
} B[101] = C[100] + D[100];
4.2 硬件调度方案:
• 为什么要使用硬件调度方案?
– 在编译时无法确定的相关，可以通过硬件调度来优化 – 简化了编译器的设计 – 代码在不同组织结构的机器上，同样可以有效的运行
Rewrite loop to minimize stalls?
名相关如何解决
15 + 4 x (1+2) + 1 = 28 cycles, or 7 per iteration Assumes R1 is multiple of 4
Stalls数最小的循环展开
1 Loop: 2 3 4 5 6 7 8 9 10 11 12 13 14 LD LD LD LD ADDD ADDD ADDD ADDD SD SD SUBI SD BNEZ SD F0,0(R1) F6,-8(R1) F10,-16(R1) F14,-24(R1) F4,F0,F2 F8,F6,F2 F12,F10,F2 F16,F14,F2 0(R1),F4 -8(R1),F8 R1,R1,#32 16(R1),F12 R1,LOOP 8(R1),F16

并行计算基础知识

并行计算基础知识在计算机科学领域中，随着计算需求的增加和任务的复杂化，人们开始寻找更高效的计算方式。

并行计算作为一种重要的计算模式，在多个处理单元同时进行计算操作，大大提高了计算速度和效率。

本文将介绍并行计算的基础知识，包括并行计算的定义、分类、应用领域以及相关技术等。

一、并行计算的定义和分类并行计算是指通过将一个计算问题划分为多个子问题，并在多个处理单元上同时进行计算操作，从而加快计算速度的一种计算方式。

与之相对的是串行计算，即按照顺序逐一执行计算任务的方式。

根据并行计算的规模和任务划分方式，可以将并行计算分为以下三种分类：1. 指令级并行计算：该种并行计算方式主要是对计算机中的单个指令进行并行处理，即同时执行多个指令操作。

它通过优化处理器的执行流水线、指令突发处理等技术实现加速。

2. 数据级并行计算：该种并行计算方式主要是对大规模的数据集进行划分，将数据分配给多个处理单元同时进行计算操作，最终将各个处理结果进行合并得到最终结果。

这种方式主要用于解决一些数据密集型的计算问题，如图像处理、数据挖掘等。

3. 任务级并行计算：该种并行计算方式是将一个复杂的计算任务划分为多个子任务，并将不同的子任务分配给不同的处理单元进行计算。

各个处理单元之间通过通信来交换计算结果或者协同工作，最终得到整体的计算结果。

这种方式主要用于解决一些计算复杂度高、任务独立的问题，如天气预报、分布式数据库查询等。

二、并行计算的应用领域并行计算广泛应用于各个领域，尤其是那些需要大规模计算和高性能计算的领域。

以下是几个常见的应用领域：1. 科学计算：并行计算在科学计算领域发挥着重要作用，能够加速复杂的数值计算和模拟实验，例如天气预报、地震模拟、宇宙学研究等。

2. 人工智能：并行计算可以加速机器学习、神经网络训练等人工智能任务，提高算法的训练效率和模型的准确性。

3. 数据分析：对于大规模数据的处理和分析，通过并行计算可以提高数据处理的速度和效率，如数据挖掘、图像处理、自然语言处理等。

指令级并行名词解释

指令级并行名词解释
嘿，朋友们！今天咱来聊聊指令级并行呀！这玩意儿就好像是一场精彩的音乐会。

你看哈，在一个计算机程序里，那一条条指令就像是一个个乐手。

平常呢，它们就按部就班地一个一个来演奏。

但有了指令级并行，那就不一样啦！这就好比这些乐手突然之间有了默契，能同时演奏不同的乐章，而且还配合得特别好，一点儿都不混乱。

咱想想，如果乐手们都只能一个接一个地演奏，那这场音乐会得多无趣呀，得等老半天才能听到完整的旋律。

但有了指令级并行，就像一下子有了好多精彩同时呈现，多带劲呀！
再打个比方，这就像是一个高效的工厂生产线。

没有指令级并行的时候，就像是工人一个一个地加工零件，慢悠悠的。

可一旦有了它，就好像工人们突然学会了分工合作，同时进行不同的工序，那生产效率不得蹭蹭往上涨啊！
指令级并行能让计算机变得更厉害呀！它能让计算机在同一时间处理好多事情，这速度，这效率，不就提上去了嘛！这就好像咱跑步，本来是一步一步地跑，现在突然能同时迈好几步，那不得一下子就冲到前面去啦！
它就像是给计算机开了个加速外挂，让计算机能快速地完成各种任务。

咱平时用电脑的时候，是不是希望它能快点儿，再快点儿呀？指令级并行就能帮我们实现这个愿望呀！
你说这指令级并行是不是很神奇？它让计算机的世界变得更加丰富多彩，让我们的生活也变得更加便捷高效。

所以呀，咱可得好好感谢那些研究出指令级并行的科学家们，是他们让我们的科技不断进步，让我们能享受到这么好的技术成果。

总之呢，指令级并行就是计算机领域里的一个大宝贝，它让计算机变得更强大，更有用！咱可得好好珍惜它，利用它，让它为我们的生活带来更多的便利和惊喜呀！。

并行计算机体系结构的分类

并行计算机体系结构的分类并行计算机体系结构是指在计算机系统中，通过多个处理单元同时执行任务以提高计算性能的架构框架。

根据不同的设计思想和实现方式，可以将并行计算机体系结构分为多种分类。

本文将介绍几种常见的并行计算机体系结构分类，并对其特点和应用进行讨论。

1.指令级并行体系结构指令级并行体系结构（ILP）是基于指令级并行技术的一种体系结构。

ILP通过将单个指令分解为多个子操作，并在不同的处理单元上同时执行这些子操作，从而实现指令级并行。

这种体系结构适用于需要大量计算的应用，如科学计算和图像处理。

其中，超标量和超流水线是常见的ILP体系结构。

超标量体系结构通过在一个时钟周期内同时发射多条指令，利用指令之间的独立性实现指令级并行。

而超流水线体系结构则通过将指令的执行过程分解为多个阶段，并在每个阶段上同时执行不同的指令，进一步提高了并行度。

这两种体系结构能够充分利用处理器资源，提高计算性能。

2.向量处理体系结构向量处理体系结构是基于向量处理器的一种体系结构。

向量处理器是一种特殊的处理器，能够同时处理多个数据元素。

在向量处理体系结构中，处理器通过执行向量指令，对向量数据进行并行操作。

这种体系结构适用于需要对大规模数据进行相同类型操作的应用，如科学计算和图像处理。

向量处理体系结构具有高度的并行性和数据吞吐量，能够充分利用数据级并行性，提高计算性能。

然而，由于向量处理器对数据的访问具有一定的限制，对于不适合向量化的应用，其性能优势可能会受到限制。

3.多核体系结构多核体系结构是指在一个计算机系统中，使用多个处理核心来执行任务的体系结构。

每个处理核心都具有独立的处理器和内存，能够同时执行不同的指令流。

多核体系结构适用于需要同时执行多个任务的应用，如服务器和大数据处理。

多核体系结构具有良好的可扩展性和并行性，能够提供更高的计算性能。

通过将任务分配给不同的处理核心，可以充分利用系统资源，提高系统的吞吐量和响应速度。

然而，多核体系结构也面临着任务调度和数据共享的挑战，需要采用合适的并行编程模型和调度算法来优化性能。

cpu多核工作原理

cpu多核工作原理
CPU多核工作原理是指在一个CPU芯片中集成多个处理器核心，每个核心都可以独立进行指令的处理和执行。

多核CPU
的工作原理可分为线程级并行和指令级并行两个方面。

线程级并行：多核CPU可以同时运行多个线程，每个核心可
以独立处理一个线程的指令，这样就实现了线程级的并行处理。

每个核心都有自己的寄存器和执行单元，可以独立取指、解码和执行指令。

多核CPU通过硬件调度器将不同的线程分配给
不同的核心运行，以提高系统的并行处理能力和吞吐量。

指令级并行：在一个线程中，多核CPU可以同时执行多条指令，这称为指令级并行。

多核CPU通过分派单元将指令流分
成多个微指令组，并同时将它们分配给多个核心执行。

每个核心内部都有多个处理单元，可以同时执行不同的指令，如整数运算单元、浮点运算单元、向量运算单元等。

通过指令级并行，多核CPU能够提高每个核心的执行效率和吞吐量。

多核CPU的工作原理在于将任务划分为多个线程，然后同时
使用多个核心运行这些线程，从而实现了并行的处理和执行。

这样可以大大提高CPU的处理能力和效率，同时也能更好地
满足多任务和多线程的需求。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

有可能有多个功能部件挂起在这一步。解决写后读相关。
(3)执行(EX)：对浮点运算来讲，这一步可能要化多个时钟周期，由于功能部件独立，不会发生冲突。 (4)写结果(WR)：记分牌知道功能部件执行完成后，检查目标寄存器，如果前面没有指令读该寄存器或已完成对该寄存器的读操作，则完成这一步骤，否则将该功能部件挂起在这一步。
水线的指令序列运行时能有更好的并行性
2. 本章所研究的提高指令级并行的技术
(1)循环展开: (2)基本流水线调度: (3)指令动态调度: (4)分支预测: (5)推断: (6)多指令流出: 其他技术: 研究范围: 控制相关停顿数据写后读停顿各种数据相关停顿控制相关停顿所有数据/控制相关停顿提高理想CPI
(9) (10) (11) (12) (13) (14)
SD SD SD
0(R1),F4 -8(R1),F8 -16(R1),F12
SUBI R1,R1,#32 BNEZ R1,LOOP SD 8(R1),F16
一共 14 个时钟周期，平均每次循环使用14/43.5个周期。所有“空转”消失，即数据相关和控制相关被消除，达到完全指令级并行。结论：由编译器所完成的循环展开和指令调度(静态调度)，能有效提高指令级并行。
4.2.2 动态算法之一：记分牌
1. 命名(Scoreboard)起源于CDC 6600 2. 将管理由指令移向功能部件 3. 采用尽可能多的功能部件
CDC 6600采用16个功能部件：4个浮点部件，5个存储器访问部件，7个整数操作部件。
在DLX中，用于浮点部件：一个浮点乘法器，一个浮点加法器，一个浮点除法器，一个整数部件。
指令调度：
(1) (2) (3) (4) (5) (6) LOOP: LD F0,0(R1) (空转) ADDD F4,F0,F2 SUBI R1,R1,#8 BNEZ R1,LOOP SD 8(R1),F4
一共 6 个时钟周期，其中有 1 个空转周期。
这种指令调度由编译器完成的，其基本思想是将指令序列中的“无关”指令调入空转周期。
4.2 指令的动态调度
1. 基本流水线的数据相关解决方法：
• • 采用定向技术（相关隐藏）停顿
2. 解决停顿的方法：
•
静态调度方法（编译器）产生于60年代，目前比较流行。
动态调度方法（处理器）产生于更早时期，目前在一些RISC机中仍在采用。
•
3. 动态调度的优点： • • • 能处理某些在编译时无法知道的相关情况能简化编译器的设计使代码适合移植
循环展开+指令调度要注意这几方面问题： (1)正确性(主要是循环控制和操作数偏移量修改) (2)有效性(主要是不同循环次之间的无关性) (3)使用不同的寄存器(避免冲突) (4)尽可能减少循环控制中的测试和分支 (5)注意对存储器数据的相关性分析 (6)注意新的相关性
关键：要分析清指令之间存在怎样的相关性以及在这种相关性下指令应该如何被修改和调度。
4. 动态调度的主要缺点： • • 硬件复杂度大调度的范围比较小
4.2.1 动态调度的原理
1. 基本流水线的最大问题是指令必须顺序流出: 例如： DIVD F0,F2,F4 ADDD F10,F0,F8 SUBD F12,F8,F14
SUBD指令并不与前面指令数据相关，但仍需等待。 2.动态调度的解决方法： (1)结构相关：设置多个功能部件或功能部件流水化 (2)数据相关：挂起
LOOP: LD F0,0(R1) ADDD F4,F0,F2 SD 0(R1),F4 LD F0,-8(R1) ADDD F4,F0,F2 SD -8(R1),F4 ......
名相关不能改变指令顺序，但由于没有数据流，但可以通过改变操作数名来消除名相关，称为重命名 (renaming)技术： LOOP: LD F0,0(R1) ADDD F4,F0,F2 SD 0(R1),F4 LD F8,-8(R1) ADDD F12,F8,F2 SD -8(R1),F12 ......
例： for (i=1; i<=1000; i++) x[i]=x[i] + s; 考虑对应的DLX汇编语言实现. 约定：x[0] 的内存地址为 0 （为简单起见） R1的初值为x[1000]的地址 F2中存放的值为常量 s LOOP: LD ADDD SD SUBI BNEZ F0,0(R1) F4,F0,F2 0(R1),F4 R1,R1,#8 R1,LOOP
4. 指令运行过程
(1)指令流出(IS)：如果指令所需的功能部件空闲，并且其他正在运行的指令与它不发生目的寄存器冲突，则记分牌将向该功能部件流出指令，功能部件被置成准备运行该指令状态(纪录于记分牌)
解决了结构相关和写后写相关。
(2)读操作数(RO)：如果前面已流出的正在运行的指令不对本指令的源操作数进行写操作，或者一个正在工作的功能部件已完成对该寄存器的写操作，则进行读操作数，并完成该步骤(离开挂起状态)。
一共 27 个时钟周期，平均每次循环使用27/46.7个周期。循环展开+指令调度(循环展开调度)： (1) (2) (3) (4) (5) (6) (7) (8) LOOP: LD LD LD LD ADDD ADDD ADDD ADDD F0,0(R1) F6,-8(R1) F10,-16(R1) F14,-24(R1) F4,F0,F2 F8,F6,F2 F12,F10,F2 F16,F14,F2
有可能有多个功能部件挂起在这一步。解决读后写相关。
5. 例子：
LD LD MULD SUBD DIVD ADDD
F6,34(R2) F2,45(R3) F0,F2,F4 F8,F6,F2 F10,F0,F6 F6,F8,F2
(1)指令状态表：表示正在执行的各指令处于四步中的哪一步。 (2)功能状态表：表示各功能部件的状态，每个功能部件一共有九个域： Busy: 该功能部件是否在工作(被分配) Op: 该功能部件当前操作
4.1.2 相关性相关性指的是一条指令的运行如何依赖于另一条指令的运行。研究相关性，不但可作为是否可指令调度的依据，而且可了解程序固有的并行性以及可以获得的并行性。
相关
意味指令的运行、结果产生的顺序有要求，意味指令的并行运行和改变顺序可能会产生问题，不意味指令的流水线运行一定会产生停顿。
Fi: 目的寄存器编号 Fj,Fk:源寄存器编号 Qj,Qk:向源寄存器写结果的功能部件 Rj,Rk:源寄存器是否就绪并且还未被使用
Yes: No:
就绪并且还没有被使用过 (后面指令不可改写它) (1)未就绪 (前面指令可改写它) (2)已被使用过 (后面指令可改写它)
(3)结果寄存器状态表：表示每个寄存器是当前哪一个功能部件的目的寄存器 (不是则为零)。
而对DLX整型流水线,除了分支指令有一个时钟周期延迟，其余指令没有延迟（为方便起见）。
4.1.1 循环展开调度的基本方法提高指令级并行的最基本方法:
(1)指令调度 (2)循环展开
一般由编译器来完成。指令调度：通过改变指令在程序中的位置，将相关指令之间的距离加大到不小于指令执行延迟的时钟数，使相关指令成为实际上的无关指令。
实际运行：
(1) (2) (3) (4) (5) (6) (7) (8) (9) LOOP: LD F0,0(R1) (空转) ADDD F4,F0,F2 (空转) (空转) SD 0(R1),F4 SUBI R1,R1,#8 BNEZ R1,LOOP (空转)
一共 9 个时钟周期，其中有 4 个空转周期。
如向量计算机(不在本章讨论) 一个基本程序块,如一个循环体
3. 本章主要针对 DLX浮点流水线来进行研究 ,并作如下的假设:
产生结果指令浮点计算浮点计算浮点取操作(LD) 浮点取操作(LD) 使用结果指令另外的浮点计算浮点存操作(SD) 浮点计算浮点存操作(SD) 停顿周期数 3 2 1 0
(13) (14) (15) (16) (17) (18)
LD F0,-16(R1) (空转) ADDD F4,F0,F2 (空转) (空转) SD -16(R1),F4
(19) (20) (21) (22) (23) (24) (25) (26) (27)
LD F0,-24(R1) (空转) ADDD F4,F0,F2 (空转) (空转) SD -24(R1),F4 SUBI R1,R1,#32 BNEZ R1,LOOP (空转)
分析数据相关的主要工作： (1)确定指令的相关性 (2)确定数据的计算顺序 (3)确定最大并行性
数据相关是程序相关性中最本质的相关性之一。
2.名相关两条指令使用相同的寄存器或内存单元(称为名)，但它们之间没有数据流。
指令j和指令i之间的名相关有以下两种： (1)反相关：指令i先执行，指令j写的名是指令i读的名(读后写相关)。 (2)输出相关：指令i和指令j写的是同一个寄存器或内存单元(写后写相关)。
相关类型数据相关(data dependence) 名相关(name dependence) 控制相关(control dependence)
1. 数据相关对指令i和j，如果 (1)指令j使用指令i产生的结果，或 (2)指令j与指令k数据相关，指令k与指令i数据相关(传递性)
例 LOOP:
停顿：后续指令全部被停顿挂起：后续指令仍可执行，被流出(如果没有数据相关)或也被挂起(如果有数据相关) 处理器中： • 可以有多条指令同时被执行(多个功能部件) • 可以有多条指令被挂起(一旦解除数据相关则运行) • 指令运行乱序
乱序带来的问题：异常处理比较复杂，难以确定和恢复现场。
3.指令译码阶段分成两个阶段： • 流出(Issue,IS):指令译码，检查结构相关(停顿) • 读操作数(Read Operands,RO):检查数据相关(挂起)