第03章 3.5 浮点数的运算方法

合集下载

浮点数的运算方法

浮点数的运算方法浮点数是计算机中一种表示实数的数据类型，其特点是可以表示带有小数部分的数字。

在进行浮点数的运算时，需要考虑到浮点数的精度问题、舍入误差以及运算顺序等因素。

浮点数的表示方法为：±m×be，其中m为尾数（即小数部分的数值），b为基数或底数，e为指数（表示位移的量）。

1.浮点数加法运算：-对两个浮点数的指数进行比较，将较小指数的浮点数的尾数左移指数之差的位数，使两个浮点数的小数点对齐。

-对齐后的尾数相加，得到一个和。

-对和进行规格化，即将结果的尾数进行处理，使其满足指定的位数限制。

-对规格化后的结果进行舍入运算，得到最终结果。

2.浮点数减法运算：-先将减数的指数调整与被减数的指数相等。

-对齐后的尾数相减，得到一个差。

-对差进行规格化和舍入运算，得到最终结果。

3.浮点数乘法运算：-将两个浮点数的指数相加，得到加法的和，并相应地调整两个浮点数的尾数。

-尾数相乘，得到一个乘积。

-对乘积进行规格化和舍入运算，得到最终结果。

4.浮点数除法运算：-将被除数的指数减去除数的指数，得到差，并相应地调整两个浮点数的尾数。

-尾数相除，得到一个商。

-对商进行规格化和舍入运算，得到最终结果。

在进行浮点数运算时需要注意一些问题：-浮点数的精度问题：由于浮点数的尾数有限位数，所以会存在精度丢失的问题。

这就意味着进行浮点数运算时，可能会出现舍入误差，导致结果有微小的偏差。

-运算顺序：浮点数的运算顺序可能会影响最终结果。

在连续进行多次浮点数运算时，可能会得到不同的结果。

这是因为浮点数的运算不满足交换律和结合律。

因此，在编程中需要谨慎选择运算顺序，以避免结果的不确定性。

-溢出和下溢问题：由于浮点数的范围限制，可能会出现溢出（结果超出浮点数的表示范围）或下溢（结果过小，无法表示）的情况。

针对这些情况，需要进行特殊处理，如返回特定的错误码或进行科学计数法表示。

在实际编程中，可以使用编程语言提供的浮点数运算库或内置函数来进行浮点数运算，以确保运算结果的准确性和可靠性。

浮点数计算方式

浮点数计算方式浮点数是计算机中用来表示实数的一种数据类型。

它由一个小数部分和一个指数部分组成，可以表示非常大或非常小的数值范围。

浮点数的计算方式是基于浮点数的表示规范和运算规则进行的。

本文将介绍浮点数的计算方式，并探讨其中的一些注意事项。

一、浮点数的表示方式在计算机中，浮点数通常采用IEEE 754标准进行表示。

根据该标准，浮点数由三部分组成：符号位、指数位和尾数位。

其中，符号位用于表示浮点数的正负性，指数位用于表示浮点数的指数部分，尾数位用于表示浮点数的小数部分。

通过这种方式，计算机可以表示非常大或非常小的实数。

二、浮点数的四则运算浮点数的四则运算（加法、减法、乘法和除法）是基于IEEE 754标准进行的。

在进行浮点数的四则运算时，需要注意以下几点：1. 精度丢失：由于浮点数的表示方式是有限的，所以在进行浮点数的运算时，可能会出现精度丢失的情况。

这是因为某些实数无法准确表示为有限位数的浮点数。

因此，在进行浮点数计算时，应注意精度丢失可能会产生的误差。

2. 舍入误差：由于浮点数的表示方式是基于二进制的，而实数是十进制的，所以在进行浮点数计算时，可能会出现舍入误差。

这是因为某些十进制数无法准确表示为二进制数。

因此，在进行浮点数计算时，应注意舍入误差可能会对计算结果产生影响。

3. 无穷大和NaN：浮点数的运算结果可能会出现无穷大（Infinity）或不确定值（NaN）。

无穷大表示计算结果超出了浮点数的表示范围，而NaN表示计算结果无法确定。

在进行浮点数计算时，应注意处理这些特殊情况，以避免出现错误结果。

三、浮点数计算中的问题和解决方法在进行浮点数计算时，可能会遇到一些问题，如计算结果不准确、计算速度较慢等。

为了解决这些问题，可以采取以下方法：1. 增加计算精度：可以增加浮点数的位数，从而提高计算精度。

例如，可以使用双精度浮点数（64位）替代单精度浮点数（32位），以提高计算精度。

2. 使用精确计算：可以使用精确计算方法，如使用有理数进行计算，从而避免浮点数计算中的精度丢失和舍入误差。

第03章 3.5 浮点数的运算方法

12/17 12
移码运算：
[X+Y]移=［X］移+［Y］补 [X-Y]移=［X］移+［-Y］补双符号位： 00 ～负数，无溢出 01 ～正数，无溢出 10 ～上溢 11 ～下溢溢出条件：最高符号位为1
13/17 13
例如：已知 X=2010· 0.11011011, Y=2100· (-0.10101100) ，求X+Y。（同上题，但改为阶用移码）解: (1) 对阶阶差ΔE=［EX］移+［-EY］补 =01010+11100=00110 （－2） X阶码小，MX右移2位，阶码取100。
(4) 舍入（0舍1入）
附加位最高位为1，在结果的最低位+1，得新结果：［M］补=11.00010110, M=-0.11101010。
(5) 判溢出
阶码移码符号位为01，故不溢出，最终结果为： X+Y=2011· (-0.11101010) 。
15/17 15
二、浮点数的乘法运算
X×Y＝(MX×MY)· 2EX+EY
［MX］补=00 .00 110 110 11
下划线上的数是右移出去而保留的附加位。
14/17 14
(2) 尾数相加
［MX］补+［MY］补 =00.0011011011+11.01010100=11.10001010 11
(3) 规格化操作
左规，移1位，结果=11.00010101 10; 阶码-1，E=01100+11111=01011。(+3)
(1) 检测操作数是否为0，并置结果数符( ).
(2) 加阶：两数阶码相加，得积的阶码。 (3) 两数的尾数做定点乘法，得积的尾数。 (4) 否溢出。（阶码运算、尾数规格化时都可能溢出）

浮点数的运算方法

阶码位尾数数码位总位数
1 1 1
8 11 15
23 52 64
32 64 80
浮点数的阶码的位数决定数的表示范围，浮点数的阶码的位数决定数的表示范围，阶码的位数决定数的表示范围尾数的位数决定数的有效精度的位数决定数的有效精度。尾数的位数决定数的有效精度。
浮点数在计算机内的格式
X = MX * 2
负数正数
[X]补 = X 2n+1 + X 0 ≤ X < 2n -2n ≤ X ≤ 0 0
机器数
浮点数格式：关于移码的知识浮点数格式：关于移码的知识移码
8 位的阶码能表示位的阶码能表示-128~+127，当阶码为，当阶码为-128时，其补码表时示为 00000000，该浮点数的绝对值 -128,人们规定此浮点数的，该浮点数的绝对值<2 人们规定此浮点数的值为零，机器零。值为零，若尾数不为 0 就清其为 0，并特称此值为机器零。，并特称此值为机器零位数值位组成的移码, 其定义为；一位符号位和 n 位数值位组成的移码其定义为； [E]移 = 2n + E -2n<=E<2n 负数正数 +127 0 -128 机器数表示范围： 00000000 ~ 11111111 表示范围： 8 位移码表示的机器数为数的真值向右平移了在数轴上向右平移在数轴上向右平移了 128 个位置
（2）尾数相除：MX/MY = 0.1011/(-0.1101) ）尾数相除： = -0.1101 (3) (4) (5) 已是规格化数不必舍入也不溢出已是规格化数, 不必舍入, 最众的商 [MX]移 = 1 0110 1101，，即 2-2 *（-0.1101）（）

浮点数的运算方法

浮点数的运算方法浮点数是计算机中用于表示实数的一种数据类型，由于实数是无限的，而计算机只能存储有限的信息，所以必然存在精度误差。

浮点数的运算涉及到加法、减法、乘法和除法等基本运算，以及开方、幂函数等高级运算。

1.加法运算：浮点数相加时，先将较小的浮点数调整为与较大的浮点数相同的指数，然后进行尾数的相加，最后对结果进行规格化处理，即进行舍入操作，得到最终的结果。

2.减法运算：浮点数相减的原理与加法相同，只是在相减之前，需要将两个浮点数的指数调整为相等，然后进行尾数的相减操作，最后同样需要对结果进行规格化处理。

3.乘法运算：浮点数相乘时，将两个浮点数的指数相加，然后将尾数相乘得到结果的尾数部分，最后对结果进行规格化处理。

4.除法运算：浮点数除法的原理与乘法类似，先将两个浮点数的指数相减，然后将尾数相除得到结果的尾数部分，最后同样需要进行规格化处理。

5.开方运算：浮点数的开方运算是通过求解多项式的根来实现的，常用的方法有牛顿法、二分法和二次近似法等。

这些方法都是通过迭代的方式，逐步逼近平方根的值，直到达到所需的精度。

6.幂函数运算：浮点数的幂函数运算可以通过连乘或连乘的方式实现。

幂函数运算的精度取决于底数和指数的精度以及所需的结果精度。

在浮点数的运算过程中，需要注意以下几个常见问题：1.精度丢失：浮点数的表示是有限的，不可避免地存在精度误差，特别是在进行连续的浮点数运算时，会导致误差累积，可能导致结果的不准确。

2.舍入误差：浮点数的结果需要进行舍入操作以保持一定的精度。

舍入规则有多种，如四舍五入、向上取整、向下取整等，选择合适的舍入规则可以减小误差。

3.溢出和下溢：浮点数的范围是有限的，当计算结果超出范围时，会发生溢出；当结果接近零但无法表示时，会发生下溢。

这两种情况都需要进行特殊处理。

4. 特殊数值：浮点数中有几个特殊的数值，如无穷大（Infinity）、非数值（NaN）和零（0）。

这些特殊值的运算需要按照特定的规则进行处理，以免引起错误。

浮点数的运算步骤

浮点数的运算步骤浮点数的加减运算⼀般由以下五个步骤完成：对阶、尾数运算、规格化、舍⼊处理、溢出判断⼀、对阶所谓对阶是指将两个进⾏运算的浮点数的阶码对齐的操作。

对阶的⽬的是为使两个浮点数的尾数能够进⾏加减运算。

因为，当进⾏M x·2Ex 与M y·2Ey加减运算时，只有使两浮点数的指数值部分相同，才能将相同的指数值作为公因数提出来，然后进⾏尾数的加减运算。

对阶的具体⽅法是：⾸先求出两浮点数阶码的差，即⊿E＝E x-E y，将⼩阶码加上⊿E，使之与⼤阶码相等，同时将⼩阶码对应的浮点数的尾数右移相应位数，以保证该浮点数的值不变。

⼏点注意：（1）对阶的原则是⼩阶对⼤阶，之所以这样做是因为若⼤阶对⼩阶，则尾数的数值部分的⾼位需移出，⽽⼩阶对⼤阶移出的是尾数的数值部分的低位，这样损失的精度更⼩。

（2）若⊿E＝0，说明两浮点数的阶码已经相同，⽆需再做对阶操作了。

（3）采⽤补码表⽰的尾数右移时，符号位保持不变。

（4）由于尾数右移时是将最低位移出，会损失⼀定的精度，为减少误差，可先保留若⼲移出的位，供以后舍⼊处理⽤。

⼆、尾数运算尾数运算就是进⾏完成对阶后的尾数相加减。

这⾥采⽤的就是我们前⾯讲过的纯⼩数的定点数加减运算。

三、结果规格化在机器中，为保证浮点数表⽰的唯⼀性，浮点数在机器中都是以规格化形式存储的。

对于IEEE754标准的浮点数来说，就是尾数必须是1.M 的形式。

由于在进⾏上述两个定点⼩数的尾数相加减运算后，尾数有可能是⾮规格化形式，为此必须进⾏规格化操作。

规格化操作包括左规和右规两种情况。

左规操作：将尾数左移，同时阶码减值，直⾄尾数成为1.M的形式。

例如，浮点数0.0011·25是⾮规格化的形式，需进⾏左规操作，将其尾数左移3位，同时阶码减3，就变成1.1100·22规格化形式了。

右规操作：将尾数右移1位，同时阶码增1，便成为规格化的形式了。

要注意的是，右规操作只需将尾数右移⼀位即可，这种情况出现在尾数的最⾼位（⼩数点前⼀位）运算时出现了进位，使尾数成为10.xxxx或11.xxxx的形式。

浮点数的加减乘除运算步骤

设两个浮点数X=Mx※2Ex Y=My※2Ey实现X±Y要用如下5步完成：①对阶操作：小阶向大阶看齐②进行尾数加减运算③规格化处理：尾数进行运算的结果必须变成规格化的浮点数，对于双符号位的补码尾数来说，就必须是001×××…×× 或110×××…××的形式, 若不符合上述形式要进行左规或右规处理。

④舍入操作：在执行对阶或右规操作时常用“0”舍“1”入法将右移出去的尾数数值进行舍入，以确保精度。

⑤判结果的正确性：即阶码是否溢出若阶码下溢（移码表示是00…0），要置结果为机器0；若阶码上溢（超过了阶码表示的最大值）置溢出标志。

例题：假定X=0 .0110011*211，Y=0.1101101*2-10（此处的数均为二进制）?? 计算X+Y；解：[X]浮：0 1010 1100110[Y]浮：0 0110 1101101符号位阶码尾数第一步：求阶差：│ΔE│=|1010-0110|=0100第二步：对阶：Y的阶码小，Y的尾数右移4位[Y]浮变为0 1010 0000110 1101暂时保存第三步：尾数相加，采用双符号位的补码运算00 1100110+00 000011000 1101100第四步：规格化：满足规格化要求第五步：舍入处理，采用0舍1入法处理故最终运算结果的浮点数格式为：0 1010 1101101，即X+Y=+0. 1101101*210①阶码运算：阶码求和（乘法）或阶码求差（除法）即[Ex+Ey]移= [Ex]移+ [Ey]补[Ex－Ey]移= [Ex]移+ [－Ey]补②浮点数的尾数处理：浮点数中尾数乘除法运算结果要进行舍入处理例题：X=0 .0110011*211，Y=0.1101101*2-10求X※Y解：[X]浮：0 1 010 *******[Y]浮：0 0 110 1101101第一步：阶码相加[Ex+Ey]移=[Ex]移+[Ey]补=1 010+1 110=1 0001 000为移码表示的0第二步：原码尾数相乘的结果为：0 10101101101110第三步：规格化处理：已满足规格化要求，不需左规，尾数不变，阶码不变。

浮点数的运算方法

X = MX * 2
EX
X = Ms Es Em-1 ...E1 E0 M-1 M-2 ...M-n IEEE 标准：阶码用移码，基为2
按国际电子电气工程师协会规定的国际通用标准，浮点数的阶码用整数给出，并且要用移码表示，用作为以 2为底的指数的幂。既然该指数的底一定为 2 ，可以不必在浮点数的格式中明确表示出来，只需给出阶码的~+127，当阶码为-128时，其补码表示为 00000000，该浮点数的绝对值<2-128,人们规定此浮点数的值为零，若尾数不为 0 就清其为 0，并特称此值为机器零。一位符号位和 n 位数值位组成的移码, 其定义为； [E]移 = 2n + E -2n<=E<2n 负数正数 +127 表示范围： 00000000 ~ 11111111 8 位移码表示的机器数为数的真值在数轴上向右平移了 128 个位置
注意：计算结果的阶码符号位在此变了一次反，结果为 +6 的移码
（2）尾数相乘：MX*MY = 0.1011*(-0.1101) = -0.10001111 (3) (4) (5) 已是规格化数, 不必舍入, 也不溢出最众乘积 [MX]移 = 1 1110 10001111，即 26 * （-0.10001111）
浮点数在计算机内的格式
X = MX * 2 浮点数: X = M s Es E m-1 ...E1 E 0 M-1 M-2 ...M-n IEEE 标准：尾数用原码
按国际电子电气工程师协会规定的标准，浮点数的尾数要用原码表示，即符号位 Ms: 0 表示正，1 表示负，且非 0 值尾数数值的最高位 M-1 必为 1, 才能满足浮点数规格化表示的要求；
（2）尾数求和：00 0011011011 + 11 01010100 11 1000101011

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

17/17 17
6/17
6
★ 例如（0舍1入法）设有5位数(其中有一附加位)，用原码或补码表示，舍入后保留4位结果。［X］原=0.11011 ［X］原=0.11100 ［X］补=1.00101 ［X］补=1.00100 舍入后［X］原= 舍入后［X］原= 舍入后［X］补= 舍入后［X］补= 0.1110 0.1110
下划线上的数是右移出去而保留的附加位。
9/17 9
(2) 尾数相加
［MX］补+［MY］补 =00.0011011011+11.01010100=11.10001010 11
(3) 规格化操作
左规，移1位，结果=11.00010101 10; 阶码-1，E=00011。
(4) 舍入（0舍1入）
附加位最ห้องสมุดไป่ตู้位为1，在结果的最低位+1，得新结果：［M］补=11.00010110, M=-0.11101010。
12/17 12
移码运算：
[X+Y]移=［X］移+［Y］补 [X-Y]移=［X］移+［-Y］补双符号位： 00 ～负数，无溢出 01 ～正数，无溢出 10 ～上溢 11 ～下溢溢出条件：最高符号位为1
13/17 13
例如：已知 X=2010· 0.11011011, Y=2100· (-0.10101100) ，求X+Y。（同上题，但改为阶用移码）解: (1) 对阶阶差ΔE=［EX］移+［-EY］补 =01010+11100=00110 （－2） X阶码小，MX右移2位，阶码取100。
(5) 判溢出
阶码符号位为00，故不溢出，最终结果为： X+Y=2011· (-0.11101010) 。
10/17 10
练习：已知 X=+0.001100, Y=+0.000101 ，求X-Y(采用补码)。解: X=2-10· 0.1100, Y=2-11· 0.1010 (1) 对阶阶差ΔE=［EX］补+［-EY］补 =11.10+00.11=00.01
8/17
8
例如：已知 X=2010· 0.11011011, Y=2100· (-0.10101100) ，求X+Y。（尾数、阶码皆用补码表示）解: (1) 对阶阶差ΔE=［EX］补+［-EY］补 =00010+11100=11110 X阶码小，MX右移2位，阶码取100。
［MX］补=00. 00 110 110 11
5
(4)舍入：在执行右规或对阶时，尾数低位上的数值会移掉，使精度受到影响。处理方法有：
★ 截断处理(舍弃)（处理简单，但影响精度）
★ 舍入处理只要尾数最低位为1，或移出去的几位中有1，就把尾数的最低位置1，否则保持原有的0值。最低位恒置1的方法 0舍1入法（常用）（多进行一次加法运算）
● ● ●
(1) 检测操作数是否为0，并置结果数符( ).
(2) 加阶：两数阶码相加，得积的阶码。 (3) 两数的尾数做定点乘法，得积的尾数。 (4) 尾数规格化。
(5) 舍入。 (6) 判断阶码是否溢出。（阶码运算、尾数规格化时都可能溢出）
16/17 16
三、浮点数的除法运算 X÷Y＝(MX÷MY)· 2EX-EY
Y阶码小，MY右移1位，阶码为11.10。
［MY］补=00. 01010（舍去）
11/17 11
(2) 尾数相减［MX］补+［-MY］补 =00.1100+11.1011=00.0111
(3) 规格化操作左规，移1位，结果=00.1110; 阶码-1，E=11.01。 (4) 舍入步骤(1)中已经处理。 (5) 判溢出阶码符号位为11，故不溢出，最终结果为：X-Y=2-11· 0.1110。
●
将阶码小的数的尾数右移ΔE位，阶码加ΔE。原码表示的尾数右移时，符号位不参加移位，尾数数值部分的高位补0。补码表示的尾数右移时，符号位参加右移，并保持原符号位不变。
4/17 4
●
●
(2)尾数相加/减：尾数进行定点加/减运算。 (3)结果规格化：将运算结果转变成规格化数。 ① 若结果的两个符号位不同，表示结果溢出，此时应“向右规格化”（“右规”），将尾数结果右移1位，阶码+1。 ② 若结果的两个符号位相同，表示尾数结果不溢出。但若最高数值位与符号位相同，此时应“向左规格化”（“左规”），将尾数连续左移，每左移15/17 位，阶码-1，直到最高
［MX］补=00 .00 110 110 11
下划线上的数是右移出去而保留的附加位。
14/17 14
(2) 尾数相加
［MX］补+［MY］补 =00.0011011011+11.01010100=11.10001010 11
(3) 规格化操作
左规，移1位，结果=11.00010101 10; 阶码-1，E=01100+11111=01011。(+3)
3.5 浮点数的运算方法
★ 浮点数的表示形式(设以2为底)：
N = M ·2E
其中：
M－尾数（绝对值小于1的规格化小数）
（用原码或补码表示）
E－阶码（整数）（用移码或补码表示）
1/17 1
★ 浮点运算中，阶码和尾数分别进行运算。
●
阶码：定点整数
尾数：定点纯小数
●
★ 浮点运算可归结为定点运算，但需增加：
●
阶码的定点运算
运算结果的规格化
2/17 2
●
一、浮点数的加减法运算
设有两浮点规格化数X、Y，实现X±Y运算，其中：X=MX· 2EX; Y=MY· 2EY。运算过程分为下面5步：
3/17
3
(1)对阶：使两数阶码相等。 ★ 求ΔE＝EX－EY； ★ 若ΔE＝0，不需要对阶； ★ 若ΔE≠0，阶码小的数向阶码大的数对齐。
(4) 舍入（0舍1入）
附加位最高位为1，在结果的最低位+1，得新结果：［M］补=11.00010110, M=-0.11101010。
(5) 判溢出
阶码移码符号位为01，故不溢出，最终结果为： X+Y=2011· (-0.11101010) 。
15/17 15
二、浮点数的乘法运算
X×Y＝(MX×MY)· 2EX+EY
1.0011 1.0010
舍入后产生了误差，但误差值小于末位的权值。
7/17 7
(5)检查阶码是否溢出：
★ 阶码溢出表示浮点数溢出。
★ 在规格化和舍入时都可能发生溢出，若阶码正常，加/减运算正常结束。若阶码下溢(10)，则置运算结果为机器零。若阶码上溢(01)，则置溢出标志，机器停止。
●
● ●
(1) 检测操作数是否为0，并置结果数符( ). (2) 尾数调整：使|被除数尾数|<|除数尾数| (此步骤可以防止上溢) (3) 减阶(注意溢出)：两数阶码相减得商的阶码。 (4) 两数的尾数做定点除法，得商的尾数。 ★ 结果不需要规格化，为什么？ ∵ 操作数在运算前已规格化且做过尾数调整， ∴ 结果必是规格化的，也不会溢出。