浮点数加减法

合集下载

浮点数的运算方法

浮点数的运算方法浮点数是计算机中一种表示实数的数据类型，其特点是可以表示带有小数部分的数字。

在进行浮点数的运算时，需要考虑到浮点数的精度问题、舍入误差以及运算顺序等因素。

浮点数的表示方法为：±m×be，其中m为尾数（即小数部分的数值），b为基数或底数，e为指数（表示位移的量）。

1.浮点数加法运算：-对两个浮点数的指数进行比较，将较小指数的浮点数的尾数左移指数之差的位数，使两个浮点数的小数点对齐。

-对齐后的尾数相加，得到一个和。

-对和进行规格化，即将结果的尾数进行处理，使其满足指定的位数限制。

-对规格化后的结果进行舍入运算，得到最终结果。

2.浮点数减法运算：-先将减数的指数调整与被减数的指数相等。

-对齐后的尾数相减，得到一个差。

-对差进行规格化和舍入运算，得到最终结果。

3.浮点数乘法运算：-将两个浮点数的指数相加，得到加法的和，并相应地调整两个浮点数的尾数。

-尾数相乘，得到一个乘积。

-对乘积进行规格化和舍入运算，得到最终结果。

4.浮点数除法运算：-将被除数的指数减去除数的指数，得到差，并相应地调整两个浮点数的尾数。

-尾数相除，得到一个商。

-对商进行规格化和舍入运算，得到最终结果。

在进行浮点数运算时需要注意一些问题：-浮点数的精度问题：由于浮点数的尾数有限位数，所以会存在精度丢失的问题。

这就意味着进行浮点数运算时，可能会出现舍入误差，导致结果有微小的偏差。

-运算顺序：浮点数的运算顺序可能会影响最终结果。

在连续进行多次浮点数运算时，可能会得到不同的结果。

这是因为浮点数的运算不满足交换律和结合律。

因此，在编程中需要谨慎选择运算顺序，以避免结果的不确定性。

-溢出和下溢问题：由于浮点数的范围限制，可能会出现溢出（结果超出浮点数的表示范围）或下溢（结果过小，无法表示）的情况。

针对这些情况，需要进行特殊处理，如返回特定的错误码或进行科学计数法表示。

在实际编程中，可以使用编程语言提供的浮点数运算库或内置函数来进行浮点数运算，以确保运算结果的准确性和可靠性。

浮点数的加减法

3．尾数求和
对阶完毕后就可对尾数求和。不论是加法运算还是减法运算，都按加法进行操作，其方法与定点加减运算完全一样。
4．规格化
当尾数用二进制表示时，浮点规格化的定义是尾数M应满足：
1/2 ≤ |M|<1
显然对于正数而言，有M = 00.1φφ…φ；对于负数，其补码形式为11.0φφ…φ（即-0.0*******，左归）。这样，当进行补码浮点加减运算时，只要对运算结果的符号位和小数点后的第一位进行比较：如果它们不等，即为00.1φφ…φ或11.1φφ…φ，就是规格化的数；如果它们相等，即为00.0φφ…φ或11.0φφ…φ，就不是规格化的数，在这种情况下需要尾数左移以实现规格化的过程，叫做向左规格化。规则是：尾数左移1位，阶码减1。
在浮点加减运算时，尾数求和的结果也可以得到01.φφ…φ或10.φφ…φ，即两符号位不相等，在这定点加减运算中称为溢出，是不允许的。但在浮点运算中，它表明尾数求和结果的绝对值大于1，向左破坏了规格化。此时将尾数运算结果右移以实现规格化表示，称为向右规格化，即尾数右移1位，阶码加1。
5．舍入
在对阶或向右规格化时，尾数要向右移位，这样，被右移的尾数的低位部分会被丢掉，从而造成一定误差，因此要进行舍入处理。
(4) 舍入操作。在执行对阶或右规操作时,会使尾数低位上的一位或多位的数值被移掉,使数值的精度受到影响,可以把移掉的几个高位的值保存起来供舍入使用。舍入的总的原则是要有舍有入,而且尽量使舍和入的机会均等,以防止误差积累。常用的办法有"0"舍"1"入法,即移掉的最高位为1时则在尾数末位加1;为0时则舍去移掉的数值。该方案的最大误差为2-（n+1）。这样做可能又使尾数溢出,此时就要再做一次右规。另一种方法 "置1"法,即右移时,丢掉移出的原低位上的值,并把结果的最低位置成1。该方案同样有使结果尾数变大或变小两种可能。即舍入前尾数最低位已为0,使其变1,对正数而言,其值变大,等于最低位入了个1。若尾数最低位已为1,则再对其置1无实际效用,等于舍掉了丢失的尾数低位值。

第03章 3.5 浮点数的运算方法

12/17 12
移码运算：
[X+Y]移=［X］移+［Y］补 [X-Y]移=［X］移+［-Y］补双符号位： 00 ～负数，无溢出 01 ～正数，无溢出 10 ～上溢 11 ～下溢溢出条件：最高符号位为1
13/17 13
例如：已知 X=2010· 0.11011011, Y=2100· (-0.10101100) ，求X+Y。（同上题，但改为阶用移码）解: (1) 对阶阶差ΔE=［EX］移+［-EY］补 =01010+11100=00110 （－2） X阶码小，MX右移2位，阶码取100。
(4) 舍入（0舍1入）
附加位最高位为1，在结果的最低位+1，得新结果：［M］补=11.00010110, M=-0.11101010。
(5) 判溢出
阶码移码符号位为01，故不溢出，最终结果为： X+Y=2011· (-0.11101010) 。
15/17 15
二、浮点数的乘法运算
X×Y＝(MX×MY)· 2EX+EY
［MX］补=00 .00 110 110 11
下划线上的数是右移出去而保留的附加位。
14/17 14
(2) 尾数相加
［MX］补+［MY］补 =00.0011011011+11.01010100=11.10001010 11
(3) 规格化操作
左规，移1位，结果=11.00010101 10; 阶码-1，E=01100+11111=01011。(+3)
(1) 检测操作数是否为0，并置结果数符( ).
(2) 加阶：两数阶码相加，得积的阶码。 (3) 两数的尾数做定点乘法，得积的尾数。 (4) 否溢出。（阶码运算、尾数规格化时都可能溢出）

浮点数加减法

5.检查阶码是否溢出
阶码溢出，则浮点数一定溢出。若阶码不溢出，结束运算。若阶码溢出 ①下溢，置运算结果为机器零。 ②上溢，置溢出标志。
下溢：阶码最小阶码，即E终补 10 .
上溢：阶码最大阶码，即E终补 01 .
例题： x＝2^(+10) ×0.1101，y=2^(+01) ×0.1011，求x+y，舍入用0舍1入法。
下划线上的数是右移出去而保留的附加位
②尾数相加
[ M ]补 [ M X ]补 [ MY ]补 001101 000101 1 010010 1
③规格化操作
右规，尾数右移一位，结果 001001 01,阶码 1，E 0011
④舍入
丢失的最高位为0，舍去丢失的各位的值。 ⑤判溢出
浮点数的加减法运算
完成浮点数加减法的5个步骤：
1.对阶操作 2.尾数的加减运算 3.规格化操作 4.舍入（0舍1入法） 5.检查阶码是否溢出
设有两浮点数X，Y。
X MX 2
EX
Y MY 2
均为规格化数。
EY
1.对阶
1.比较阶码的大小，求其差E 2.E max( E X , EY ), 保留E 阶码值小的数的尾数右移E位 3.E 0时，使两数的阶码值相等将其阶码值 E
小阶向大阶对齐
尾数右移
原码：符号位不参加移位，尾数数值部分的高位补0 补码：符号位参加右移，并保持原符号位不变
为减小误差，保留右移中丢失的最高位（舍入时会用到）
2.尾数的加减运算
对阶后，尾数进行加/减运算
3.规格化操作
当第二步得到的和/差不是规格化数时，需转变成规格化数。原码： 00/11. 1 × × × × × 补码： 00. 1 × × × × × 11. 0 × × × × × ①若两个符号位不同，则溢出。右规：将尾数右移一位，阶码E+1 ②若两个符号位相同，不溢出。但若最高数值位=符号位，则：左规：将尾数连续左移，直到最高数值位≠符号位。同时，阶码E-移位的位数。

浮点数加减运算课件

如果一个二进制浮点数的尾数的绝对值小于1并且大于等于0.5，（1＞|尾数|≥0.5），那么这个二进制浮点数就是一个规格化的浮点数。

用二进制补码表示1个规格化的浮点数，并且规格化的浮点数的尾数只有一个符号位时：规格化的浮点数的尾数是正数时应该是0 . 1 X X X X X X X X X ……的形式（0表示符号位，X表示0或1中的任意一个数值）规格化的浮点数的尾数是负数时应该是1 . 0 X X X X X X X X X ……的形式（1表示符号位，X表示0或1中的任意一个数值）用二进制补码表示1个规格化的浮点数，并且规格化的浮点数的尾数只有两个符号位时：规格化的浮点数的尾数是正数时应该是00 . 1 X X X X X X X X X ……的形式（00表示符号位，X表示0或1中的任意一个数值）规格化的浮点数的尾数是负数时应该是11 . 0 X X X X X X X X X ……的形式（11表示符号位，X表示0或1中的任意一个数值）两个浮点数加减法的计算结果必须规格化，如果不是规格化的数，则要通过修改阶码并同时左移或者右移尾数，使其变为规格化的数。

[例] x＝2010×0.11011011，y=2100×-0.10101100，浮点数均以补码表示，阶码采用双符号位，尾数采用单符号位。

求x+y 。

答：（步骤1）转换成题目中要求的浮点数格式：浮点数x＝2010×0.11011011的阶码是+010，尾数是+0.11011011浮点数均以补码表示，所以阶码以补码表示，并且阶码采用双符号位，[x]浮的阶码＝00010（00是两个符号位）浮点数均以补码表示，所以尾数以补码表示，并且尾数采用单符号位，[x]浮的尾数＝0.11011011（0是1个符号位）浮点数y=2100×-0.10101100的阶码是+100，尾数是- 0.10101100浮点数均以补码表示，所以阶码以补码表示，并且阶码采用双符号位，[y]浮的阶码＝00100（00是两个符号位）浮点数均以补码表示，所以尾数以补码表示，并且尾数采用单符号位，[y]浮的尾数＝1.01010100（1是1个符号位）（y=2100×-0.10101100中10101100先取反变为01010011，再加1后变为01010100）[x]浮=00010, 0.11011011；[y]浮=00100, 1.01010100；（步骤2）阶数对齐：x的阶码是+2（二进制00010），y的阶码是+4（二进制00100），阶码小的向阶码大的数对齐， x的阶码向y的阶码对齐。

浮点数的运算方法

浮点数的运算方法浮点数是计算机中用于表示实数的一种数据类型，由于实数是无限的，而计算机只能存储有限的信息，所以必然存在精度误差。

浮点数的运算涉及到加法、减法、乘法和除法等基本运算，以及开方、幂函数等高级运算。

1.加法运算：浮点数相加时，先将较小的浮点数调整为与较大的浮点数相同的指数，然后进行尾数的相加，最后对结果进行规格化处理，即进行舍入操作，得到最终的结果。

2.减法运算：浮点数相减的原理与加法相同，只是在相减之前，需要将两个浮点数的指数调整为相等，然后进行尾数的相减操作，最后同样需要对结果进行规格化处理。

3.乘法运算：浮点数相乘时，将两个浮点数的指数相加，然后将尾数相乘得到结果的尾数部分，最后对结果进行规格化处理。

4.除法运算：浮点数除法的原理与乘法类似，先将两个浮点数的指数相减，然后将尾数相除得到结果的尾数部分，最后同样需要进行规格化处理。

5.开方运算：浮点数的开方运算是通过求解多项式的根来实现的，常用的方法有牛顿法、二分法和二次近似法等。

这些方法都是通过迭代的方式，逐步逼近平方根的值，直到达到所需的精度。

6.幂函数运算：浮点数的幂函数运算可以通过连乘或连乘的方式实现。

幂函数运算的精度取决于底数和指数的精度以及所需的结果精度。

在浮点数的运算过程中，需要注意以下几个常见问题：1.精度丢失：浮点数的表示是有限的，不可避免地存在精度误差，特别是在进行连续的浮点数运算时，会导致误差累积，可能导致结果的不准确。

2.舍入误差：浮点数的结果需要进行舍入操作以保持一定的精度。

舍入规则有多种，如四舍五入、向上取整、向下取整等，选择合适的舍入规则可以减小误差。

3.溢出和下溢：浮点数的范围是有限的，当计算结果超出范围时，会发生溢出；当结果接近零但无法表示时，会发生下溢。

这两种情况都需要进行特殊处理。

4. 特殊数值：浮点数中有几个特殊的数值，如无穷大（Infinity）、非数值（NaN）和零（0）。

这些特殊值的运算需要按照特定的规则进行处理，以免引起错误。

浮点数的加减乘除运算步骤

设两个浮点数X=Mx※2Ex Y=My※2Ey实现X±Y要用如下5步完成：①对阶操作：小阶向大阶看齐②进行尾数加减运算③规格化处理：尾数进行运算的结果必须变成规格化的浮点数，对于双符号位的补码尾数来说，就必须是001×××…×× 或110×××…××的形式, 若不符合上述形式要进行左规或右规处理。

④舍入操作：在执行对阶或右规操作时常用“0”舍“1”入法将右移出去的尾数数值进行舍入，以确保精度。

⑤判结果的正确性：即阶码是否溢出若阶码下溢（移码表示是00…0），要置结果为机器0；若阶码上溢（超过了阶码表示的最大值）置溢出标志。

例题：假定X=0 .0110011*211，Y=0.1101101*2-10（此处的数均为二进制）?? 计算X+Y；解：[X]浮：0 1010 1100110[Y]浮：0 0110 1101101符号位阶码尾数第一步：求阶差：│ΔE│=|1010-0110|=0100第二步：对阶：Y的阶码小，Y的尾数右移4位[Y]浮变为0 1010 0000110 1101暂时保存第三步：尾数相加，采用双符号位的补码运算00 1100110+00 000011000 1101100第四步：规格化：满足规格化要求第五步：舍入处理，采用0舍1入法处理故最终运算结果的浮点数格式为：0 1010 1101101，即X+Y=+0. 1101101*210①阶码运算：阶码求和（乘法）或阶码求差（除法）即[Ex+Ey]移= [Ex]移+ [Ey]补[Ex－Ey]移= [Ex]移+ [－Ey]补②浮点数的尾数处理：浮点数中尾数乘除法运算结果要进行舍入处理例题：X=0 .0110011*211，Y=0.1101101*2-10求X※Y解：[X]浮：0 1 010 *******[Y]浮：0 0 110 1101101第一步：阶码相加[Ex+Ey]移=[Ex]移+[Ey]补=1 010+1 110=1 0001 000为移码表示的0第二步：原码尾数相乘的结果为：0 10101101101110第三步：规格化处理：已满足规格化要求，不需左规，尾数不变，阶码不变。

浮点数的加减法运算

计算机组成与结构之浮点数的加减法运算学生组所在学院：燕山大学信息学院学生组所在班级：2014级计算机1 班学生组姓名：陈朝俊张海傅晓欣曲佳彤地址：中国河北省秦皇岛市河北大街438号邮编：066004电话：传真：网址：浮点数加减法运算简介大型计算机和高档微型机中，浮点加减法运算是由硬件完成的。

低档的微型机浮点加减法运算是由软件完成的，但不论用硬件实现还是软件实现，基本原理是一致的。

浮点加减法运算要经过对阶、尾数加减运算、结果规格化、舍入处理、溢出判断五步操作。

其中尾数运算与定点加减法运算相同，而对阶、规格化、舍入和溢出判断，则是浮点加减法运算和定点加减法运算不同的操作之处。

在补码浮点运算中，阶码与尾数可以都用补码表示。

在硬件实现的运算中，阶码和数符常采用双符号位。

浮点数的表示形式浮点数的表示形式(假设以2为底)：N=M·2E其中，M为浮点数的尾数，一般为绝对值小于1的规格化二进制小数，用原码或补码形式表示；E为浮点数的阶码，一般是用移码或补码表示的整数。

阶码的底除了2以外，还有用8或16表示的，这里暂且只以2为底进行讨论。

浮点数加减法运算的步骤设两浮点数X、Y进行加减运算，其中：X=M X·2EX，Y=M Y·2EY 一般由以下五个步骤完成：规格化浮点数加减运算流程一、对阶1.对阶是指将两个进行运算的浮点数的阶码对齐的操作。

对阶的目的是为了使两个浮点数的尾数能够进行加减运算。

因为，当进行MX·2EX 与MY·2EY加减运算时，只有使两浮点数的指数值部分相同，才能将相同的指数值作为公因数提出来，然后进行尾数的加减运算。

2.对阶的具体方法是：首先求出两浮点数阶码的差，即ΔE＝Ex-Ey，将小阶码加上ΔE，使之与大阶码相等，同时将小阶码对应的浮点数的尾数右移ΔE位，以保证该浮点数的值不变。

3.几点注意：（1）对阶的原则是小阶对大阶，因为若大阶对小阶，则尾数的数值部分的高位需移出，而小阶对大阶移出的是尾数的数值部分的低位，这样损失的精度更小。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

[ E X ]补 0010 ,[ EY ]补 0001 ,[- EY ]补 1111 [ M X ]补 001101 ,[ M Y ]补 001011
①对阶：
阶差E [ E X ]补 [- EY ]补 0010 1111 0001 Y的阶码小, M Y 右移1位，保留E E X 0010 [ M Y ]补 000101 1
左规与右规的例子
11.0001 + 00.1001 11.1010 最高数值位=符号位尾数左移一位，阶码-1 00.0101 + 00.1101 01.0010 两个符号位不同尾数右移一位，阶码+1 当尾数溢出时，则右规，即出现01.× × × × × 或10. × × × × ×
4.舍入
5.检查阶码是否溢出
阶码溢出，则浮点数一定溢出。若阶码不溢出，结束运算。若阶码溢出 ①下溢，置运算结果为机器零。 ②上溢，置溢出标志。
下溢：阶码最小阶码，即E终补 10 .
上溢：阶码最大阶码，即E终补 01 .
例题： x＝2^(+10) ×0.1101，y=2^(+01) ×0.1011，求x+y，舍入用0舍1入法。
下划线上的数是右移出去而保留的附加位
②尾数相加
[ M ]补 [ M X ]补 [ MY ]补 001101 000101 1 010010 1
③规格化操作
右规，尾数右移一位，结果 001001 01,阶码 1，E 0011
④舍入
丢失的最高位为0，舍去丢失的各位的值。 ⑤判溢出
在执行右规或对阶时，尾数低位上的数值会移掉，使数值的精度受到影响，常用0舍1入法。 0舍1入法：当丢失的最高位的值为1时，最低数值位+1。当丢失的最高位的值为0时，舍去丢失的各位的值。若尾数的末位加1后又使尾数溢出，则要再进行一次右规。
ቤተ መጻሕፍቲ ባይዱ
若尾数的末位加1后又使尾数溢出，则要再进行一次右规,例： 00.11111100 丢失的最高位的值为1，最低数值位+1 00.1111 + 1 01.0000 尾数溢出，进行一次右规，尾数变为00.1000 ，阶码+1
浮点数的加减法运算
完成浮点数加减法的5个步骤：
1.对阶操作 2.尾数的加减运算 3.规格化操作 4.舍入（0舍1入法） 5.检查阶码是否溢出
设有两浮点数X，Y。
X MX 2
EX
Y MY 2
均为规格化数。
EY
1.对阶
1.比较阶码的大小，求其差E 2.E max( E X , EY ), 保留E 阶码值小的数的尾数右移E位 3.E 0时，使两数的阶码值相等将其阶码值 E
阶码符号位为00，故不溢出，最终结果：
X Y 2 11 0.1001
谢谢！
小阶向大阶对齐
尾数右移
原码：符号位不参加移位，尾数数值部分的高位补0 补码：符号位参加右移，并保持原符号位不变
为减小误差，保留右移中丢失的最高位（舍入时会用到）
2.尾数的加减运算
对阶后，尾数进行加/减运算
3.规格化操作
当第二步得到的和/差不是规格化数时，需转变成规格化数。原码： 00/11. 1 × × × × × 补码： 00. 1 × × × × × 11. 0 × × × × × ①若两个符号位不同，则溢出。右规：将尾数右移一位，阶码E+1 ②若两个符号位相同，不溢出。但若最高数值位=符号位，则：左规：将尾数连续左移，直到最高数值位≠符号位。同时，阶码E-移位的位数。