流水线乘法器

合集下载

加法乘法动态多功能流水线调度

实验报告学生姓名：学号：一、实验室名称：计算机学院计算中心二、实验项目名称：加法乘法动态多功能流水线调度三、实验原理：把加法和乘法流水线分开，完成乘法流水线后再进行加法流水线。

把一个乘法任务分成三个部分，然后同时执行多个任务以模拟指令的流水线调度。

三个步骤每同时完成一次任务执行总时间就加一，直到最后一个操作数进入流水线，此时加法流水线开始工作。

把一个加法任务分成四个部分，然后同时执行多个任务以模拟指令的流水线调度。

四个步骤每同时完成一次任务执行总时间就加一，直到没有任务时停止，看此时的时间与理论上的流水线调度时间的差距来判别程序是否成功模拟了流水线指令的调度。

四、实验目的：1、掌握加法乘法动态双功能指令调度的方式，2、理解静态多功能流水线和动态多功能流水线在调度模式上的区别，3、了解指令并行度上限的概念。

五、实验内容：（一）给定要执行的任务和执行该任务的流水线结构流水线的调度方式能够提高任务的并行度，但是针对不同的任务，由于相关的存在，其并行度的提高是不一致的。

在开始程序设计前，我们首先要给定所要完成的任务：这里我们使用矩阵点积运算任务，∑=n1i aibi 。

n 的数值可以变化，通过变换n 的值用同一程序进行多次模拟。

给定流水线：流水线分五个步骤，每个步骤的执行时间均为一个单位时间；其中1-2-3-5组成加法流水线，1-4-5组成乘法流水线。

加法和乘法可以同时执行（二）对任务进行分解动态多功能流水线不同于静态多功能流水线，流水线中同时只能有多种种操作的指令，因此不能将其划分为两个相互独立的加法流水线和乘法流水线。

我们考虑设计一个加法乘法混合运算器，加法4步，乘法三步，在送入源数据时应指明执行哪种运算。

（三）任务分解程序模拟的思路在实验二的基础上。

我们对设计进行变更。

加法乘法有一个类实现，称之为加乘法类。

乘法的数据源为两个队列，加法的数据源为一个队列。

加法器的源数据队列初始为空，乘法器的源数据队列初始分别放入A1－An 和B1－Bn 。

一种支持无符号数的流水线乘法器

关键词：乘法器，ｏｔ算法，ｌｃ树，水线ＢｈＷａｌｅ流ａ
１引言
乘法器是ＣＵ中一个重要的基本运算部件。Ｐ所
有的乘法器都有同样的处理过程，首先生成部分
通用ＣＵ的要求。在本文的乘法器设计中，Ｐ通过在Ｂｏｈ算法中增加一些简单的逻辑，不但简化了部ｏｔ分积的符号扩展，而且可以使用同样的电路来处理有符号数和无符号数乘法。同时，该乘法器作为某ＣＵ的一部分，为了满足总体时延的要求，ＷａＰ在ｌ —
性能可以采用树形结构把这Ｎ个部分积并行相加，
图１述了乘法器的整体结构，其中数据通路描
包括Ｂｏ编码器，部分积生成电路，符号修正电ｏｔｈ路，ｌｃ树和６加法器。Ｗａｌｅａ４位寄存器包括输入寄存器Ａ、输出寄存器Ｃ，Ｂ，以及流水级间的寄存器Ｃｒａ－ｒ和Ｓｍ。另外还有一些控制电路和标志位控制乘ｙｕ
位传播，这样只需要在归约过程的最后一步使用ＣＡ把２个数相加为一个数而在中间过程使用ＰＣＡ来减少进位传播的时间【。Ｐ３】．国内在上世纪９０年代以来，已有多个采用大规模或超大规模集成电路设计乘法器的实例。例
航天应用的３专用ＣＵ中的乘法器［。中科院２位Ｐ６１计算所在１９９４应用最大时间差的技术设计了流水线乘法器【。这些乘法器都应用于ＤＰ芯片或专用７】Ｓ

基于FPGA的流水线单精度浮点数乘法器设计

基于FPGA的流水线单精度浮点数乘法器设计彭章国;张征宇;王学渊;赖瀚轩;茆骥【摘要】针对现有的采用Booth算法与华莱士(Wallace)树结构设计的浮点乘法器运算速度慢、布局布线复杂等问题,设计了基于FPGA的流水线精度浮点数乘法器.该乘法器采用规则的Vedic算法结构,解决了布局布线复杂的问题;使用超前进位加法器(Carry Look-ahead Adder,CLA)将部分积并行相加,以减少路径延迟;并通过优化的4级流水线结构处理,在Xilinx(R)ISE 14.7软件开发平台上通过了编译、综合及仿真验证.结果证明,在相同的硬件条件下,本文所设计的浮点乘法器与基4-Booth算法浮点乘法器消耗时钟数的比值约为两者消耗硬件资源比值的1.56倍.【期刊名称】《微型机与应用》【年(卷),期】2017(036)004【总页数】5页(P74-77,83)【关键词】浮点乘法器;超前进位加法器;华莱士树;流水线结构;Vedic算法;Booth 算法【作者】彭章国;张征宇;王学渊;赖瀚轩;茆骥【作者单位】西南科技大学信息工程学院,四川绵阳621010;西南科技大学信息工程学院,四川绵阳621010;中国空气动力研究与发展中心,四川绵阳621000;西南科技大学信息工程学院,四川绵阳621010;西南科技大学信息工程学院,四川绵阳621010;西南科技大学信息工程学院,四川绵阳621010【正文语种】中文【中图分类】TP331.2浮点乘法器(eFloating Point Multiplier，FPM)是数字信号处理(eDigital Signal Processing，DSP)、视频图像处理以及信号识别等应用邻域重要的运算单元。

尤其是在视频图像处理领域，随着对高速海量图像数据处理的实时性要求逐渐提高，设计一种具有更高速率、低功耗、布局规律、占用面积小和集成度高的浮点乘法器极其重要。

阵列乘法器是采用移位与求和的算法而设计的一种乘法器[1]。

流水线乘法累加器的混合输入设计

１乘法累加器的基本原理在二进制乘法中，乘法的基本算法常可用所谓的一位乘法和两位乘法进行。进行这种乘法运算时，通常分别用乘数的一位或二位与被乘数相乘，再把部分积加起来。移位相加是最基本的乘法器设计思路，实现起来较为简单。它的设计思想就是根据乘数的每一位是否为１行计算，若为１则将进被乘数移位相加。这种方法硬件资源耗用较少。以８位移位相加乘法器为例，其实现过程如下。先对乘数的最低位进行判断是否为ｌ如果为ｌ则把被乘数相加，然。，后被乘数向高位移１，乘数向低位移１：如果为０则被乘数不相加而位位，仍然向高位移１，乘数向低位移１。如此循环判断８次，结束运算。位位纯组合逻辑电路构成的乘法器虽然工作速度比较快，但过于占用硬件资源，于实现多为乘法器：难因此本课题将介绍由８位加法器构成的来设计流水线乘法累加器的混合输入，这种设计能够比较方便实现两个８二进制数的位乘法运算。２设计思路用ＶＤ文本输入设计方法，计一个８流水线乘法累加器的混合输入，ＨＬ设位进行系统仿真。算术流水线主要是指运算操作步骤的并行。如流水乘法器，例如：ＴＲＳＡ～１０４０为级流水运算器，ＩＡＣ为８Ｔ—Ｓ级流水运算器，ＲＹ１ｌ级流水运算器ＣＡ为４等：设ｌ先６位初始和为零，１键和键２分别输入乘数的低４位、高４位：３键和键４输入被乘数的低４位、高４位。由波形可见，１ｃｃｏｋ的第一上升沿个由锁存器输入的乘数和被乘数为０所以在第二个上升沿后得到结果为ＳＯ× ，０２＋３× １＝４，５３５而第三个上升沿后得到结果为Ｓ２３× １＋３× １＝９，第５２５６０而四个上升沿后得到结果为Ｓ２：３× １＋６× ２：８，此等等。如此往复，５１１６１如直至８个时钟脉冲后，流水线乘法累加器过程终止。２设计文件２１顶层原理图如图ｌ所示，ｌ由６位加法器（ＤＥ１Ｂ、８锁存器（ＡＣ８１和调入ＡＤＲ６）位ＬＴＨ）

串行乘法器与并行乘法器的设计

count <= count + 1;
state <= s1;
end
end
s2: begin
result <= P;
input [7:0] x, y;
output [15:0] result;
reg [15:0] result;
parameter s0 = 0, s1 = 1, s2 = 2;
reg [2:0] count = 0;
state <= s0;
end
default: ;
endcase
end
endmodule
module multi_CX(clk, x, y, result);
reg [1:0] state = 0;
reg [15:0] P, T;
reg [7:0] y_reg;
always @(posedge clk) begin
case (state)
s0: begin
input clk;
input rst_n;
output [7:0] mul_out;
reg [7:0] mul_out;
reg [7:0] stored0;
reg [7:0] stored1;
下面是用Verilog HDL实现一个4位的流水线乘法器：
Java代码
module multi_4bits_pipelining(mul_a, mul_b, clk, rst_n, mul_out);
input [3:0] mul_a, mul_b;
法器的Verilog HDL实现
博客分类： FPGA

Radix-16 Booth流水线乘法器的设计

ｐｅｓｏｒａ．Ｂｙｏｔｉｉｇｔｅｃｍｐｅｓｏｒａｎｈ４ｂＣＬ（ａｒ－ｏｋｈａ）ａｄｒｉｒｓｉｎａｒｙｐｉｚｎｈｏｒｓｉｎａｒｙａｄｔｅ６一Ａｃｒｙｌｏａｅｄｄｅｍｎ
ＤｅｉｎｆＲａｉ一６ＢｏｔｐｅｉｅＭｕｔｐｌｅｓｇｏｄｘ１ｏｈＰｉｌｎｌｉｉｒ
Ｌｉｎｅｇ，ＳａｈｂａａｇＦｎｈｏＺｉｉｏ，ＬｉｎｉａｇＪｎ
（．ｃｏｌｆｌｃｒｎｃｎｎｏｍａｉｎＥｇｎｅｉｇｉｎＪａｔｎｉｅｓｙＸｉｎ７０４，ｉａ１ＳｈｏｅｔｏｉｓａｄＩｆｒｔｎｉｅｒ，ＸｉｏｇＵｎｖｒｉ，１０９ＣｈｎｏＥｏｎａｏｔａ２ＳｈｏｆｃａｉａＥｇｎｅｉｇＸｉｎＪｏｏｇＵｎｖｒｉ，Ｘｎ７０４，ｉａ．ｃｏｌｏＭｅｈｎｃｌｎｉｅｒｎ，ｉｔｎｉｅｓｙｉ１０９Ｃｈｎ）ａａｔａ
维普资讯
第４０卷
第１０期
西
安交通
大
学
学报
Ｖｏ．０Ｎ１１４ｏ０Ｏｃ．２０ｔ０６
２０年１０６０月
ＪＯＵＲＮＡＬＯＦＸＩＡＮＩＪＡＯＴＯＮＧＵＮＩＶＥＲＳＴＹＩ
Ｒａｉ一Ｂｏｈ流水线乘法器的设计ｄｘ１ｏｔ６
梁峰，邵志标，梁晋
（．１西安交通大学电子与信息工程学院，７０４，１０９西安；２西安交通大学机械工程学院，１０９西安）．７０４，

一种可重构的高速流水线乘法器

维普资讯
第１２卷第３期２０年６月０７
文章编号：１０－２９（０７０－０３００７０４２０）３０３－４
电路与系统学报
ＪＯＵＲＮＡＬＯＦＣＩＲＣＵＩＴＳＡＮＤＹＳＥＭＳＳＴ
＝ｔ＋ｘｔｔｔ—Ⅳ ＋ｍａ（，ｔ）ｔｌ２＿（）４
ＩＮＤＡＴＡＶＡＬＩＤＣＬ０ＣＫ
其中ｍａ（，３』）ｘｔｔｔ．为Ⅳ部分中的最大延时【。。２．Ⅳ ＩＪ
公式（）＝ａｔ，３中 ∑ｍｘ这样流水设计就有效地降低了乘法器ｎ
ｎ－Ｉ
的时延，提高了运算速度。
３１逻辑设计．
两比特流水乘法器流水结构如图ｌ示【３输出样本结果的时钟所Ｊ】＇，
图１流水结构乘法器逻辑图
ＳＬ周期与电路的时钟周期相同。Ｅ当使用流水乘法器处理低速信号
３高速可重构流水线乘法器
本节将介绍一种高速可重构流水线乘法器，它不仅能实现较高的电路频率，还具可变速率数据。通常电路设计中，“ 水 ” 构由于其高速、高效，流结及低输入电压的特点，在乘法电路的设计中受到广泛的应用，。
摘要；本文针对在语音、视频等信号处理中出现的变速率信号处理，提出了一种新型的高速高效可重构流水线乘
法器电路，并在０２哪．５工艺条件下对电路进行了仿真。该电路通过控制流水级数处理变速信号，可有效地节约电路资源约３％，同时可保证频率达１Ｇ４．Ｈｚ的高运算速度。８关键词；可重构；高速；乘法器；流水线

数字系统高级设计技术(第4讲)

流水线乘法器的结构图
对应的Verilog HDL代码
并行和流水线
--流水线设计
module top( input [7:0] a, input [7:0] b, input clk, output reg [15:0] y );
reg [7:0] a1,b1; reg [15:0] prod,prod1;
由此可见，在不提高系统运行频率的情况下，提高流水线
的级数将成倍地提高系统处理的效能。但是流水线的设计
也是有一定的限制的：
只有对那些能分成n个步骤完成，并且对每个步骤都需要固定相同处理时间的操作来说才能采用流水线设计；
受硬件资源的限制，流水线的级数是有限制的；对于存在处理分支预测流水线的设计（广泛应用于微处理器的设
采用流水线后，数据通道将会变成多时钟周期，所以要特别考虑设计的其余部分，解决增加通路带来的延迟。
并行和流水线
--流水线设计
流水线基本结构是将适当划分的N个操作步骤串连起来。
流水线操作的最大特点是数据流在各个步骤的处理，从时间上看是连续的；
其操作的关键在于时序设计的合理安排、前后级接口间数据的匹配。如果前级操作的时间等于后级操作的时间，直接输入即可；
input [7:0] b2,
input [7:0] a3,
input [7:0] b3, output [17:0] y
对应的并行乘法器结构
);
assign y=a0*b0+a1*b1+a2*b2+a3*b3;
endmodule
并行和流水线 --并行设计
下图给出了实现该功能的并行结构。
通过使用多个乘法器，使得四个乘法运算可以同时进行。但是这种速度的提高是以面积为代价的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

流水线乘法器
一般的快速乘法器通常采用逐位并行的迭代阵列结构，将每个操作数的N位都并行地提交给乘法器。

但是一般对于FPGA来讲，进位的速度快于加法的速度，这种阵列结构并不是最优的。

所以可以采用多级流水线的形式，将相邻的两个部分乘积结果再加到最终的输出乘积上，即排成一个二叉树形式的结构，这样对于N位乘法器需要log2（N）级来实现。

一个8位乘法器，如图所示。

module mux_4(mul_a,mul_b,mul_out,clk,rst_n);
parameter MUL_WIDTH = 4;
parameter MUL_RESULT = 8;
input [MUL_WIDTH-1:0] mul_a;
input [MUL_WIDTH-1:0] mul_b;
input clk;
input rst_n;
output [MUL_RESULT-1:0] mul_out;
reg [MUL_RESULT-1:0] mul_out;
reg [MUL_RESULT-1:0] stored0;
reg [MUL_RESULT-1:0] stored1;
reg [MUL_RESULT-1:0] stored2;
reg [MUL_RESULT-1:0] stored3;
reg [MUL_RESULT-1:0] add01;
reg [MUL_RESULT-1:0] add23;
always @(posedge clk or negedge rst_n)
begin
if(!rst_n)
begin
mul_out <= 8'b0000_0000;
stored0 <= 8'b0000_0000;
stored1 <= 8'b0000_0000;
stored2 <= 8'b0000_0000;
stored3 <= 8'b0000_0000;
add01 <= 8'b0000_0000;
add23 <= 8'b0000_0000;;
end
else
begin
stored3 <= mul_b[3] ? {1'b0,mul_a,3'b0} : 8'b0;
stored2 <= mul_b[2] ? {2'b0,mul_a,2'b0} : 8'b0;
stored1 <= mul_b[1] ? {3'b0,mul_a,1'b0} : 8'b0;
stored0 <= mul_b[0] ? {4'b0,mul_a} : 8'b0;
add01 <= stored1 + stored0;
add23 <= stored3 + stored2;
mul_out <= add01 + add23;
end
end
endmodule。