流水线与并行处理技术

合集下载

Intel系列CPU流水线技术的发展与展望

Intel系列CPU流水线技术的发展与展望流水线技术是指在程序执行时多条指令重叠进行操作的一种准并行处理实现技术。

在计算机中，把一个重复的过程分解为若干子过程，每个子过程由专门的功能部件来实现。

将多个处理过程在时间上错开，依次通过各功能段，这样，每个子过程就可以与其他子过程并行进行。

其中，流水线中的每个子过程及其功能部件称为流水线的级或段，段与段相互连接形成流水线。

流水线的段数称为流水线的深度。

把流水线技术应用于指令的解释执行过程，就形成了指令流水线。

其中可以把指令的执行过程分为取指令、译码、执行、存结果4个子过程。

把流水线技术应用于运算的执行过程，就形成了运算操作流水线，也称为部件级流水线。

Inter Pentium 系列中采用的流水线技术流水线技术早在Intel的X86芯片中均得到了实现。

而Pentium系列CPU产品更是一个高级的超标量处理器。

奔腾处理器可以在一个时钟周期内完成两条指令，一个流水线完成一条指令。

具有MMX技术的奔腾处理器为整型流水线增加了一个额外的处理阶段。

在486芯片中，一条指令一般被划分为五个标准的部分，奔腾亦是如此，而在P6中，由于采用了近似于RISC的技术，一条指令被划分成了创纪录的十四个阶段，这极大地提高了流水线的速度。

P6系列处理器使用动态执行结构，该结构通过硬件寄存器重命名和分支预测的方法，将乱序执行和推测执行合成在一起。

奔腾Ⅲ处理器使用了P6中的动态执行技术，增加了超标量双流水线结构、分支预测技术、通过乱序来优化指令流水线、将指令划分为更细的阶段。

而奔腾Ⅳ新增的技术有使用高级动态执行、执行跟踪缓存、快速执行引擎、超长管道处理技术、超线程技术。

它基本的指令流水线长度达到了20级，更长的流水线可以使处理器运行在更高的主频下，从而提高处理器的性能，但有可能带来一些指令执行上的延迟。

提高流水线性能的方法及相关技术从不同的角度和观点，可以把流水线分成多种不同的种类。

按照流水线所完成的功能来分，可以分为单功能流水线和多功能流水线。

中央处理器CPU——指令流水线

中央处理器CPU——指令流⽔线指令流⽔线概念：⼀条指令的执⾏过程划分为不同阶段，占⽤不同硬件资源，多条指令重叠操作实现并⾏处理1.顺序执⾏：⼜称串⾏执⾏⽅式；传统的冯诺依曼机器优点:控制简单，硬件代价⼩缺点：速度慢，各功能部件利⽤率低2.⼀次重叠执⾏⽅式：优点：时间缩短三分之⼀，各功能部件利⽤效率提⾼缺点：控制复杂，硬件开销增⼤3.⼆次重叠执⾏⽅式：优点：时间缩短三分之⼆，理想状态指令执⾏过程图:⽤于分析指令执⾏过程和影响流⽔线因素时空图：⽤于分析流⽔线的性能吞吐率TP:单位时间内流⽔线完成的任务数量或输出结果的数量加速⽐S：同⼀任务下，不使⽤流⽔线⽤时与使⽤流⽔线⽤时之⽐效率E：流⽔线的设备利⽤率锁存器（缓冲寄存器）：作⽤是保存本流⽔段的执⾏结果，提供给下⼀流⽔段使⽤。

影响因素：结构相关（资源冲突）：多条指令同⼀时间争⽤同⼀资源解决：1.后⼀相关指令暂停⼀周期；2.资源重复配置（数据存储器+指令存储器）数据相关（数据冲突）：在⼀个程序中，上⼀条指令执⾏完才能执⾏下⼀条指令（这两条指令即为数据相关）解决：将数据相关的指令和后续指令暂停时钟周期到问题消失再执⾏；1.硬件阻塞stall和软件插⼊NOP；2.数据旁路技术；3.编译优化：通过编译器调整指令顺序控制相关（控制冲突）：转移指令和改变PC值的指令造成断流解决：1.尽早判别转移是否发⽣，尽早⽣成转移⽬标地址2．预取转移成功和不成功两个控制流⽅向上的⽬标指令3．加快和提前形成条件码4．提⾼转移⽅向的猜准率流⽔线的分类1.根据流⽔线使⽤级别:部件功能级、处理机级和处理机间级流⽔线部件功能级流⽔：将复杂的算术逻辑运算组成流⽔线⼯作⽅式处理机级流⽔：把⼀条指令解释过程分成多个⼦过程，如取指、译码、执⾏、访存及写回5个⼦过程。

处理机间流⽔：是⼀种宏流⽔，其中每⼀个处理机完成某⼀专门任务，各个处理机所得到的结果需存放在与下⼀个处理机所共享的存储器中2，按流⽔线可以完成的功能分为：单功能流⽔线和多功能流⽔线单功能流⽔线：指只能实现⼀种固定的专门功能的流⽔线；多功能流⽔线：指通过各段间的不同连接⽅式可以同时或不同时地实现多种能的流⽔线。

计算机组成原理中的流水线与并行处理

计算机组成原理中的流水线与并行处理计算机组成原理是指计算机的各个组成部分及其相互关系的原理。

其中，流水线与并行处理是计算机组成原理中的两个重要概念。

本文将从流水线和并行处理的定义、特点、应用以及优缺点等方面进行论述。

一、流水线的定义和特点流水线技术是一种将复杂的任务分解为若干个互相依赖的子任务，并通过时序控制将其分别交给不同的处理单元进行执行的技术。

它可以提高计算机的执行效率和吞吐量。

与串行处理相比，流水线处理具有以下特点：1.任务分解：将复杂的任务分解为多个子任务，每个子任务由不同的处理单元负责执行。

2.流水线寄存器：通过在流水线各个阶段之间插入流水线寄存器，实现了各个阶段之间的数据传递和暂存，确保了数据的正确性和稳定性。

3.并行操作：不同的处理单元可以并行执行不同的任务，提高了计算机的并行处理能力。

4.随机任务执行：由于流水线中的各个阶段是独立的，因此可以随机运行和停止任务，提高了计算机的灵活性。

二、并行处理的定义和特点并行处理是指同时利用多个处理器或者多个处理单元并行执行多个任务的处理方式。

它可以大幅提升计算机系统的运算速度和处理能力。

并行处理的特点如下：1.任务分配：将大任务分解为多个小任务，并分配给多个处理单元同时执行。

2.任务协调：通过合理的任务调度算法，协调各个处理单元之间的任务执行顺序和数据传递，确保整个系统的稳定性和正确性。

3.资源共享：各个处理单元之间可以共享资源，如内存、缓存等，提高资源利用率。

4.计算效率提高：通过多个处理单元同时执行任务，大幅提高了计算效率和处理速度。

三、流水线与并行处理的应用流水线和并行处理在计算机领域被广泛应用，以下是几个常见的应用示例：1.超级计算机：超级计算机通常采用并行处理的方式，利用多个处理器同时进行计算，以提高计算能力。

2.图形处理器：图形处理器（GPU）采用流水线技术，将图像处理任务分解为多个子任务，通过流水线处理实现高效的图形渲染和计算。

流水线技术-向量处理机

流水线技术广泛应用于计算机硬件和软件领域，如CPU、GPU和编译器优化等。通过合理地划分任务和调度执行顺序，流水线技术可以显著提高程序的执行效率和响应速度。
向量处理机概述
向量处理机是一种专门用于处理大规模向量运算的计算机系统。它通过并行处理多个数据元素，能够高效地完成矩阵运算、信号处理、图像处理等计算密集型任务。
流水线并行处理
01
02
03
数据并行
将数据划分为多个子集，每个子集在流水线的一个阶段进行处理，实现数据并行处理。
任务并行
将任务划分为多个子任务，每个子任务在流水线的一个阶段进行处理，实现任务并行处理。
指令并行
在同一时间内，流水线可以执行多个指令，实现指令并行处理。
流水线冲突解决
数据冲突
并行处理单元
增加并行处理单元，如多核处理器、GPU等，进一步提高计算性能。
05
流水线技术-向量处理机的应用场景
科学计算
数值模拟
向量处理机在科学计算中广泛应用于数值模拟，如流体动力学、气象预报、地震数据处理等。
VS
统计分析
向量处理机能够高效处理大规模数据集，适用于统计分析、数据挖掘等领域。
图像处理
图像增强
向量处理机能够并行处理像素数据，适用于图像增强技术，如锐化、色彩校正等。
图像分析
在图像识别和目标检测等任务中，向量处理机能够加速特征提取和比对过程。
机器学习
模型训练
向量处理机能够高效处理大规模数据和矩阵运算，适用于机器学习模型的训练和推理。
并行算法
向量处理机支持并行算法，能够加速机器学习算法的实现和优化。
向量处理机通常采用特殊的硬件架构和指令集，以最大化并行处理能力。它通过将数据存储在特殊的向量寄存器中，并执行一组长指令来处理这些数据，从而实现高效的向量计算。

流水线实验报告

流水线实验报告一、实验目的本次实验旨在探究流水线技术在计算机体系结构中的应用，并了解流水线的工作原理与效果。

通过对流水线的实验，掌握流水线操作的过程和相关概念，并通过实践了解其对计算机性能的提升作用。

二、实验器材与软件环境实验使用的器材为一台配有Intel Core i7处理器的计算机。

软件环境为Windows 10操作系统，使用C语言编译器进行代码编写和实验运行。

三、实验内容1. 流水线概述流水线是一种用于提高计算机处理器效率的技术。

它将任务划分为多个阶段，使得每个阶段都能并行地处理不同的任务。

通过将多个任务拆分并在不同的阶段同时进行，可以显著提高计算机处理速度。

2. 流水线原理流水线工作原理如下：1) 将任务划分为多个子任务，并在不同的阶段上并行执行。

2) 每个阶段的任务之间通过专门的寄存器传递数据。

3) 每个阶段的任务完成后，将结果写入寄存器，供下一个阶段使用。

4) 流水线的效果取决于各个阶段的任务执行时间，如果存在某个阶段的任务耗时较长，则可能导致整个流水线效率下降。

3. 流水线的实现实验中我们使用C语言编写一段简单的代码来模拟流水线的实现过程。

我们通过将输入的整数加1后输出，来模拟流水线的工作状态。

cinclude <stdio.h>int main() {int input[5] = {1, 2, 3, 4, 5};int output[5];int i;for (i = 0; i < 5; i++) {output[i] = input[i] + 1;}for (i = 0; i < 5; i++) {printf("%d\n", output[i]);}return 0;}上述代码将输入数组中的每个元素加1后，输出到屏幕上。

在这个过程中，我们可以将输入和输出视为流水线中的阶段，每个阶段都有固定的任务。

4. 实验结果与分析在实验中，我们输入数组为{1, 2, 3, 4, 5}，运行结果如下：23456可以看到，实验结果符合我们的预期，每个输入元素都成功地加1后输出。

计算机体系结构——流水线技术（Pipelining）

2.按功能分
单功能流水线：流水线只完成一种固定功能多功能流水线：流水线可以完成多种功能，如 TI公司的ASC机，8段流水线，能够实现：定点加减法、定点乘法、浮点加法等功能 3.按同一时间内各段之间的连接方式分静态多功能流水线：同一时间内，多功能结构只能按一种功能的连接方式工作。动态多功能流水线：在同一时间内，可以有多种功能的连接方式同时工作 4.按处理的数据类型标量流水线向量流水线 5.按控制方式同步流水线异步流水线：当Si功能段要向Si+1段传送数据时，首先发出就绪信号，Si+1功能段收到信号后，向Si回送一个回答信号。 6.按任务从输出端的流出顺序顺序流水方式：指令流出顺序 = 指令流入顺序乱序流水方式：指令流出顺序！= 指令流入顺序 7. 线性流水线——不带反馈回路的流水线
三、流水线的分类（了解）
四、流水线相关及冲突（重点） 1.流水线相关 2.流水线冲突 3.流水线冲突带来问题 4.数据冲突及其解决方案 5.结构冲突及其解决方案 6.控制冲突及其解决方案
五、流水线性能分析(含例题讲解) 1.流水线的基本参数——吞吐率 2.流水线的基本参数——加速比 3.流水线的基本参数——效率 4.结果分析 5.有关流水线性能的若干问题
整体评估、反馈、再改进
3. 指令周期
单周期处理机模型：一个周期完成一个指令（每个周期是等长的），指令长度可能不一样，会造成很大的浪费多周期处理机模型：将一个指令的完成划分成若干个周期来实现流水线模型
二、流水线技术 1. 什么是流水线？计算机中的流水线是把一个重复的过程分解为若干个子过程，每个子过程与其他子过程并行进行。由于这种工作方式与工厂中的生产流水线十分相似，因此称为流水线技术从本质上讲，流水线技术是一种时间并行技术。

流水线CPU技术讲解

局部性相关：数据相关
(2) I3: STA M(x)，R3 ；（R3)->M(x)，M(x)是存储器单元 I4: ADD R3，R4，R5 ； (R4)+(R5)->R3
第(2)组指令中，I3指令应先读出R3内容并存入存储单元M(x)，然后在I4指令中将运算结果写入R3。但由于I4指令进入流水线，变成I4指令在I3指令读出R3内容前就写入R3，发生WAR
(1) I1: ADD R1，R2，R3 ； (R2) + (R3)->R1 I2: SUB R4，R1，R5 ； (R1) - (R5)->R4
(2) I3: STA M(x)，R3 ； R3)->M(x)，M(x)是存储器单元
I4: ADD R3，R4，R5 ；
(R4)+(R5)->R3
(3) I5: MUL R3，R1，R2 ； I6: ADD R3，R4，R5 ；
（2）空间并行—— 资源重复用多个相同部件处理多个事件。
实现方式：多处理器系统和多计算机系统或单处理器系统。
(3) 时间并行+空间并行既采用时间并行性又采用空间并行性。
例：奔腾CPU采用的超标量流水技术。
流水线CPU的结构
现代流水线计算机系统组成原理如左图所示。其中 CPU按流水线方式组织，通常由三部分组成：指令部件、指令队列、执行部件。这三个功能部件可以组成一个3级流水线。
流水线CPU
流水CPU
并行性概念
1．并行性的含义同时性——指两个或者两个以上事件在同一时刻发生。并发性——指两个或者两个以上事件在同一时间间隔内发生。
2 并行性概念
2．并行处理技术的主要形式
（1）时间并行— 时间重叠让多个处理过程在时间上相互错开，轮流重叠地使用

计算机组成原理专升本试题解析指令流水线与并行处理

计算机组成原理专升本试题解析指令流水线与并行处理计算机组成原理是计算机专业学生必修的一门基础课程，对于理解计算机的组成和工作原理非常重要。

在计算机组成原理的学习中，指令流水线与并行处理是一个重要的概念和技术。

本文将对指令流水线与并行处理进行详细解析。

一、指令流水线指令流水线是一种通过将处理器的执行过程划分为多个子阶段，并行执行这些子阶段来提高处理器性能的技术。

在指令流水线中，每个指令在执行的过程中经过取指令、译码、执行、访存和写回等多个阶段，不同指令在不同阶段同时执行，从而在单位时间内处理更多的指令。

指令流水线的优势在于充分利用了处理器的硬件资源，提高了指令的执行效率。

但是在实际应用中，由于指令间有数据依赖关系等问题，可能会导致流水线的阻塞和冒险，进而影响性能。

为了解决这些问题，人们提出了一系列的技术和策略，比如数据旁路、预测执行和乱序执行等，来提高指令流水线的性能。

二、并行处理并行处理是指通过同时执行多个任务来提高系统的处理能力和性能的技术。

在计算机组成原理中，主要涉及到的并行处理包括指令级并行和线程级并行。

指令级并行是通过在一个指令的执行过程中同时执行多个子指令来提高处理器性能的技术。

一种实现指令级并行的方法是超标量处理器，它能够在一个时钟周期内同时发射多条指令，并行执行这些指令。

另一种实现指令级并行的方法是超流水线处理器，它将处理器的执行流程进一步细分为多个较短的子阶段，以便更多地重叠执行。

线程级并行是通过同时处理多个线程来提高系统性能的技术。

在多核处理器和多线程处理器中，可以同时执行多个线程，从而实现线程级并行。

通过合理的线程调度和资源分配，可以充分利用处理器的硬件资源，提高系统的吞吐量和响应速度。

指令流水线和并行处理是计算机组成原理中的两个重要概念和技术，它们可以相互结合，共同提高计算机系统的性能。

指令流水线通过划分指令执行过程为多个子阶段并行执行，提高了指令的执行效率；而并行处理通过同时处理多个任务或线程，提高了系统的处理能力和性能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

流水线与并行处理1. 概述流水线技术导致了关键路径的缩短，从而可以提高时钟速度或采样速度，或者可以在同样速度下降低功耗。

在并行处理中，多个输出在一个时钟周期内并行地计算。

这样，有效采样速度提高到与并行级数相当的倍数。

与流水线类似，并行处理也能够用来降低功耗。

考虑3阶有限冲激响应（FIR ）数字滤波器：y(n) = ax(n) + bx(n-1) + cx(n-2) （1-1）其框图实现示意图如图1所示：图1 一个3阶FIR 滤波器关键路径（或者处理一个新样点所需要的最小时间）由1个乘法与2个加法器时间来限定。

如果T M 是乘法所用的时间，T A 是加法操作需要的时间，T sample 是采样周期，则必须满足：T sample ≥ T M + 2T A （1-2）因而，采样频率（f sample ）（也称为吞吐率或迭代速率），由下式给出：f sample ≤ A M T T 21 （1-3）流水线采用沿着数据通路引入流水线锁存器（本人理解是寄存器）的方法来减小有效关键路径（effective critical path ）。

并行处理提高采样频率是采用复制硬件的方法，以使几个输入能够并行的处理，而几个输出能够在同一时间产生出来。

2. FIR 数字滤波器的流水线其流水线实现是通过引入两个附加锁存器而得到的，如图2所示：图2 流水线FIR滤波器，其中垂直虚线代表一个前馈割集关键路径现在由T M + 2T A减小为T M + T A。

在这种安排下，当左边的加法器启动当前迭代计算的同时，右边的加法器正在完成前次迭代结果的计算。

必须注意到，在一个M级流水线系统中，从输入到输出的任一路径上的延时原件数目是（M-1）,它要大于在原始时序电路中同一路径上的延时元件数。

虽然流水线技术减小了关键路径，但是它付出了增加迟滞（latency）的代价。

迟滞实质上是流水线系统第一个输出数据的时间与原来时序系统第一个输出数据时间相比的滞后。

流水线技术缺点：增加了锁存器数目和增加了系统的迟滞。

下面要点需要注意：（1）一个架构的速度（或时钟周期）由任意两个锁存器间、或一个输入与一个锁存器间、或者一个锁存器与一个输出间、或输入与输出间路径中最长的路径限定。

（2）这个最长的路径或“关键路径”可以通过在架构中适当插入流水线锁存器来减小。

（3）流水线锁存器只能按照穿过任一图的“前馈割集（feed-forward cutset）”的方式插入。

割集：割集是一个图的边的集合，如果从图中移去这些边，图就成为不相连的了。

前馈割集：如果数据在割集的所有边上都沿前进的方向移动，这个割集就称为前馈割集。

3.并行技术注意到并行处理与流水线技术互为对偶的这一特点是十分有趣，若一个计算能够排成流水线，它也能并行的处理。

两种技术都发掘了计算中可供利用的并发性，只是方式不同。

当一组互不相关的计算能够在一个流水线系统中按交替方式计算时，则它们也能够利用重复的硬件按并行处理的模式计算。

3阶FIR滤波器系统是一个单输入单输出（SISO）系统，可描述如下：y(n) = ax(n) + bx(n-1) + cx(n-2) （3-1）为了获得一个并行处理结构，SISO系统必须转换为MISO（多输入多输出）系统。

例如，下列方程组描述一个每个时钟周期由3个输入的并行系统（即并行处理的级数L=3）。

此处k表示时钟周期。

可以看出，在第k个时钟周期，有三个输入x(3k), x(3k+1), x(3k+2)被处理，同时输出中产生3个样点。

并行处理系统也称为块处理系统，而每个时钟周期内处理的输入个数被称为块尺寸。

由于MISO的结构，在任意一条线处插入一个锁存器会产生一个有效延时，等于L个对应于采样率的时钟周期。

每个延时原件称为一个块延时（也称为L级减慢，L-slow）。

例如，把信号x(3k)延迟一个时钟周期将导致信号x(3k-3)而非x(3k-1),因为x(3k-1)已经是另一条输入线的输入。

3级并行FIR滤波器的框图架构如图3所示：图3 一个块处理的例子其细节图如图4所示：图4 块尺寸为3的3阶FIR滤波器的并行结构处理注意，块或并行处理系统的关键路径保持不变，而且时钟周期（T clk）必须满足：T clk≥ T M + 2T A （3-2）但是，由于3个样点是在同一个时钟周期内而不是三个时钟周期处理的，因此迭代周期由下式确定：Titer = Tsample=L1Tclk≥31(TM+ 2TA) （3-3）重要的是要理解在并行系统中T clk≠T sample，而在流水线系统中T clk＝T sample，下图给出了一个完整的并行处理系统，它包含串-并转换器和并-串转换器：图5 块尺寸为4的完全并行处理系统其细节如下图所示：现在人们会问，当能够用流水线达到同样好的效果时，为什么还要并行处理呢？为什么要复制和使用这么多硬件呢？回答是，流水线存在一个基本的限制，就是输入/输出（I/O）的瓶颈问题。

考虑图6的芯片组：图6 一个芯片组图例如,若假定输出管腿、输入管腿和两个芯片之间连线的延时总和为8ns，必须大于或等于8ns。

若关键路径的计算时间小于8ns，则I/O延时的那么Tclk限制将占主导地位，该系统为通信受限的系统。

这实质上意味着，流水线仅在关键路径计算时间大于通信或I/O延时边界时才可以使用，一旦达到此边界后，流水线就不能进一步提高速度了。

这时，流水线必须结合并行处理才能进一步提高该架构的速度。

作为一个例子，考虑图7的并行滤波器：图7 块尺寸为3的3阶FIR滤波器的并行处理架构假定一个乘法的计算时间（TM）是10ut，一个加法的计算时间为2ut。

细粒流水线可用到并行滤波器中来进一步缩小关键路径。

在这种情况下，乘法器分拆为两个较小的单元m1和m2，其计算时间分别为7ut和3ut。

流水线锁存器插入到穿过乘法器的水平割集上，如下图所示。

虽然这些水平割集看起来似乎是无效的，但是实际上它们是有效的，因为去掉这些割集的边就断开了元件间的连接。

于是通过并行处理与流水线的结合，采样周期减至：(3-4) 并行处理也被通过减慢是中来减少功耗，这种方法减少功耗是由于时钟方面的原因，相比之下，流水线系统需要工作在更快的时钟下，才能保持等价的吞吐率或采样速度。

进一步说，更不希望使用细粒度流水线，如位级流水线，因为硬件开销与迟滞时间都会由于锁存器的显著增加而增加。

4.流水线与并行处理的功耗减低利用流水线和并行处理有两个主要的优点：1）高速度2）低功耗由前面章节已经看出流水线与并行处理能够增加采样速度。

现在考虑在采样速度不需要增加的情况下如何利用这些技术来降低功耗。

回顾一下两个公式，一个是计算CMOS电路传播延时的公式，另一个是计算功耗的公式。

传播延时Tpd与在关键路径上各种晶体管栅极和杂散电容的充放电荷密切相关，对CMOS电路，传播延时可写为：T pd =2arg)(techVVkVC(4-1)其中Ccharge表示在单个时钟周期里充放电的电容，即沿着关键路径的电容，V 0是电源电压，Vt是阈值电压。

参数k是工艺参数μ、W/L和Cox的函数。

CMOS电路的功耗可用下列方程来估计：P = Ctotal2V f (4-2)其中Ctotal 代表电路中的总电容，V是电源电压，f是电路的时钟频率。

图8 3阶FIR滤波器细粒度流水线与并行处理相结合的架构4.1 用流水线降低功耗：流水线结构可以用来降低FIR滤波器的功耗，令P seq = Ctotal2V f (4-3)表示原始滤波器的功耗。

注意f = 1/Tseq ，其中Tseq原始时序滤波器的时钟周期。

现在考虑一个M级流水线系统，其关键路径缩短为原始路径长度的1/M，一个时钟周期内充放电电容减小为Ccharge/M，注意总电容没有变化。

如果时钟速度保持不变，即时钟频率f保持不变，在原来对电容Ccharge充放电的同样时间内，现在只需对Ccharge /M进行充放电，这意味着，电源电压可以降低到βV，其中β是一个小于1的常数。

这样，流水线滤波器的功耗将为：P pip = Ctotalβ22V f = β2P seq (4-4)因此，和原始系统相比流水线系统的功耗降低了β2倍。

图9 原始系统和3级流水线系统的关键路径功耗降低因子β可以通过考察原始滤波器和流水线滤波器传播时之间的关系来确定。

原始滤波器的传播延时是（4-5）流水线滤波器的传播延时是(4-6)应该注意的是，时钟周期Tclk 通常被设置为等于电路中的最大传播延时Tpd。

因为对于这两个滤波器来说使用相同的时钟速度，根据上述两个公式，从下列二次方程可以解出β，(4-7) 一旦得到了β，流水线滤波器降低的功耗就可以由下面公式算出：P pip = Ctotalβ22V f = β2P seq (4-8)4.2 用并行处理降低功耗和流水线一样，并行处理也可以通过降低电源电压来降低功耗。

在一个L 路并行系统中，充电电容通常不变，而总电容增大L倍。

为了保持同样的采样速度，L级并行电路的时钟周期必须增加到LTseq ，其中Tseq是由公式4-5决定的时序电路的传播延时。

这意味着Ccharge的充电时间是LTseq 而不是Tseq。

换句话说，同样的电容有了更长的充电时间。

这就意味着电源电压可以降低到βV。

图10 顺序流水线系统和3级流水线系统的关键路径对传播延时的考虑可以再次用来计算L级并行系统的电源电压。

原始系统的传播延时由公式3-13给出，而L级并行系统的传播延时由下式给出：(4-9)根据公式3-13和3-22可以得到下列二次方程来就出β：(4-10)一旦求出β，L路并行系统的功耗可以计算如下：(4-11) 其中Pseq是由4-3给出的原始时序系统的功能。

所以，和流水线系统一样，L路并行系统功耗为原时序系统的β2倍。

4.3 流水线和并行处理的结合流水线技术和并行处理技术可以结合起来降低功耗。

原理是一样的，即流水线降低1个时钟周期内充放电电容，而并行处理则增加对原电容的充电放电时钟周期。

图11并行流水线滤波器的传播延时如下：(4-12)根据该方程，得到下列二次方程：(4-13) 应该注意的是，电源电压并不能通过使用更多级的流水线和并行处理而无限地降低，因为存在一个由工艺参数和噪声容限决定的电源电压下限。

结论：本节内容介绍了非递归数字滤波器中的流水线和并行处理方法。

这两种方法都可以用来提高滤波器的采样频率。

在流水线中，流水线锁存器放置在SFG中的前馈割集处，是关键路径的计算时间降低。

其结果使时钟频率的以提高，从而采样频率提高。

在并行处理中，复制原始的串行系统的硬件，得到一个MIMO并行系统。

在这种情况下，时钟频率不变，采样频率却增加了。

此外，还说明了流水线和并行处理在低功耗设计中的应用。