浮点数结构详解

合集下载

floating pointer structure -回复

floating pointer structure -回复

floating pointer structure -回复什么是浮点数结构(floating pointer structure)浮点数结构是一种用于表示和存储浮点数的数据结构。

在计算机科学中,浮点数是一种用于表示实数的近似数值。

由于实数的范围非常广泛,并且无限精度无法在计算机中存储,因此浮点数结构被用作在计算机中表示实数的方式。

浮点数结构的设计目的是在给定的存储空间内,提供尽可能大的数值范围和尽可能高的计算精度。

这是通过将浮点数划分为两个部分来实现的:尾数(mantissa)和指数(exponent)。

尾数表示实数的有效数字,而指数表示实数的数量级。

浮点数还有一个符号位,用于表示正数或负数。

浮点数结构的基本原理是使用定点数来存储和处理实数。

定点数是一种没有小数点的整数,通过在所需的位上移动小数点的位置,可以表示实数。

浮点数结构通过动态地调整小数点的位置来表示不同大小的实数,从而在所需的精度和范围内提供准确的计算。

浮点数结构通常由多个位组成,其中一些用于表示符号位、指数和尾数。

根据所用的位数,浮点数结构可以分为单精度浮点数和双精度浮点数。

单精度浮点数通常由32位组成,双精度浮点数通常由64位组成。

浮点数结构还可以根据计算机中的字节顺序(big-endian或little-endian)进行编码。

浮点数结构提供了一种灵活和高效的方法来表示实数,但也存在一些问题。

由于浮点数是近似数值,因此在进行计算时可能会导致舍入误差。

此外,浮点数的运算速度相对较慢,因为计算机需要执行额外的操作来处理不同数量级之间的运算。

为了最大限度地减少舍入误差和提高计算速度,浮点数结构还可以使用一些优化技术。

例如,某些处理器提供了专门用于浮点数运算的硬件单元,可以提供更高的计算性能。

此外,还可以使用更复杂的浮点数算法,如IEEE 754标准,来实现更准确和可靠的浮点数计算。

总结起来,浮点数结构是一种用于表示和存储浮点数的数据结构,通过将数值范围划分为尾数和指数来提供高精度和大范围的计算能力。

概率论与数理统计 浮点数

概率论与数理统计 浮点数

概率论与数理统计浮点数浮点数是现代计算机中用来表示实数的一种方法。

当计算机要处理实数时,浮点数可以提供非常高的精度和灵活性。

浮点数由三部分组成:符号、尾数和指数。

其中符号指示该数是正数还是负数,尾数表示数的大小,指数表示数的有效位数。

浮点数的表达方式受到计算机硬件体系结构的影响,并且受到内存和处理器限制。

浮点数可以分为单精度和双精度两种。

单精度使用32位表示实数,双精度使用64位表示实数。

在计算机中,浮点数常用于数值分析、计算机视觉、科学计算、金融计算等领域。

由于浮点数的表达方式是近似的,而不是精确的,所以在使用它们时必须小心。

浮点运算和整数运算有很大的不同之处,因为浮点数是由二进制表示的,而整数是由十进制表示的。

因此,在进行浮点数计算时,必须小心处理四舍五入误差、舍入误差和浮点数溢出等问题。

在概率论和数理统计中,浮点数可以用于模拟随机变量,生成随机数,计算概率和统计指标。

例如,可以使用浮点数来表示正态分布的概率密度函数和累积分布函数,计算期望值和方差,并进行假设检验和置信区间计算等。

在实际应用中,浮点数的精度和有效位数通常是很重要的考虑因素。

由于计算机存储和处理浮点数的方式是近似的,因此使用太多的有效位数会使计算开销变得非常大,同时也会带来一些不必要的舍入误差。

相反,如果使用太少的有效位数,则可能会产生截断误差,从而导致结果不够准确。

总之,在概率论和数理统计中,浮点数是一种非常常见的表达方式和计算方法。

我们必须深入了解它们的运算规则、精度和有效位数的限制,才能正确地使用它们来进行各种统计分析和计算。

浮点数详解

浮点数详解

浮点数详解
浮点数是一种表示带有小数部分的数值的数据类型。

在计算机中,浮点数由两部分组成:有效数字和指数。

有效数字代表实际的数值,
而指数表示该数值的放大或缩小倍数。

浮点数采用科学记数法来表示,即数字用一定的位数表示,然后
乘以10的幂。

例如,3.14可以表示为3.14x10^0,而0.001可以表示
为1x10^-3。

这种表示方法使得计算机可以处理非常大或非常小的数值,但是也引入了一定程度的精度问题。

由于计算机中的浮点数是有限的,所以无法精确表示所有的实数。

在进行浮点数运算时,可能会出现一些舍入误差。

例如,对于某些无
理数,无法精确表示其所有位数,因此会产生一些近似值。

同时,浮
点数的表示范围也是有限的,超出范围的数值可能会被截断或近似表示。

浮点数的精度也会受到计算机硬件的限制。

通常,浮点数的精度
由计算机的字长决定。

较长的字长可以提供更高的精度,但也需要更
多的存储空间和计算时间。

为了提高浮点数的精度和减小舍入误差,计算机科学家和工程师
们设计了各种浮点数表示方法和算法。

IEEE 754标准是目前广泛使用
的浮点数表示标准,它定义了浮点数的位数、格式和运算规则。

总之,浮点数是一种在计算机中表示带有小数部分的数值的数据
类型。

虽然浮点数可以处理非常大或非常小的数值,但也存在精度和
舍入误差的问题。

计算机科学家和工程师们通过不断的研究和改进,
不断提高浮点数的精度和准确性。

浮点数结构详解范文

浮点数结构详解范文

浮点数结构详解范文浮点数是计算机中用于表示实数的一种数据类型。

在计算机中,由于存储和处理实数存在精度限制,因此采用了浮点数的表示方式来近似表示实数。

浮点数结构是指浮点数的数值和符号位的组织方式以及相应的运算规则。

本文将对浮点数结构进行详细的解析。

浮点数结构通常由三个部分组成:符号位、指数位和尾数位。

这些位组合在一起形成一个二进制浮点数。

其中,符号位用于表示浮点数的正负,一般用0代表正数,1代表负数;指数位用于表示浮点数的数量级,尾数位则用于表示浮点数的精度。

在IEEE754标准中,规定了浮点数的结构和运算规则。

根据该标准,单精度浮点数(32位)的结构为:1位符号位,8位指数位和23位尾数位;双精度浮点数(64位)的结构为:1位符号位,11位指数位和52位尾数位。

指数位用偏移值的方式来表示实际的指数值。

以单精度浮点数为例,指数位的取值范围是-126到127,但实际的指数值应减去一个偏移值127,这样可以表示负指数和零值。

尾数位用于表示实数的小数部分,采用二进制的形式来表示。

浮点数的运算包括加法、减法、乘法和除法等。

在浮点数的加法和减法运算中,需要对数值进行规格化,即将尾数左移或右移,使得指数位对齐。

在乘法和除法运算中,需要进行尾数的相乘和指数的相加或相减运算。

由于浮点数的运算存在舍入误差,因此在进行浮点数计算时,需要考虑舍入规则和溢出情况。

浮点数的精度与尾数位的长度有关,尾数位越长,表示的精度越高。

然而,随着尾数位越来越长,表示范围也会相应减小。

因此,在实际应用中,需要根据具体的需求选择合适的浮点数表示精度。

浮点数在计算机中广泛应用于科学计算、图形处理、金融等领域。

然而,浮点数的精度限制和运算误差可能会导致计算结果的不准确性。

为此,需要采取有效的算法和技术来避免或减小浮点数误差,例如使用高精度计算方法、数值稳定的算法等。

总之,浮点数结构是计算机中用于表示实数的组织方式,包括符号位、指数位和尾数位。

浮点数介绍

浮点数介绍

浮点数编辑本段一、浮点数2、浮点计算是指浮点数参与的运算,这种运算通常伴随着因为无法精确表示而进行的近似或舍入。

一个浮点数a由两个数m和e来表示:a = m × b^e。

在任意一个这样的系统中,我们选择一个基数b(记数系统的基)和精度p(即使用多少位来存储)。

m(即尾数)是形如±d.ddd...ddd 的p位数(每一位是一个介于0到b-1之间的整数,包括0和b-1)。

如果m的第一位是非0整对阶结束后,即可进行尾数的求和运算。

不论加法运算还是减法运算,都按加法进行操作,其方法与定点加减法运算完全一样。

(4) 结果规格化在浮点加减运算时,尾数求和的结果也可以得到01.ф…ф或10.ф…ф,即两符号位不等,这在定点加减法运算中称为溢出,是不允许的。

但在浮点运算中,它表明尾数求和结果的绝对值大于1,向左破坏了规格化。

此时将运算结果右移以实现规格化表示,称为向右规格化。

规则是:尾数右移1位,阶码加1。

当尾数不是1.M时需向左规格化。

(5) 舍入处理在对阶或向右规格化时,尾数要向右移位,这样,被右移的尾数的低位部分会被丢掉,从而造成一定误差,因此要进行舍入处理。

简单的舍入方法有两种:一种是"0舍1入"法,即如果右移时被丢掉数位的最高位为0则舍去,为1则将尾数的末位加"1"。

另一种是"恒置一"法,即只要数位被移掉,就在尾数的末尾恒置"1"。

在IEEE754标准中,舍入处理提供了四种可选方法:就近舍入其实质就是通常所说的"四舍五入"。

例如,尾数超出规定的23位的多余位数字是10010,多余位的值超过规定的最低有效位值的一半,故最低有效位应增1。

若多余的5位是01111,则简单的截尾即可。

对多余的5位10000这种特殊情况:若最低有效位现为0,则截尾;若最低有效位现为1,则向上进一位使其变为 0。

浮点数结构解释以及 PLC 或触摸屏实现双精度浮点数转单精度浮点数或双精度浮点数转整数

浮点数结构解释以及 PLC 或触摸屏实现双精度浮点数转单精度浮点数或双精度浮点数转整数

自动化:浮点数结构解释以及PLC或触摸屏实现双精度浮点数转单精度浮点数或双精度浮点数转整数。

工业控制中有些传感器(如:流量计)为了数据的精度,会采用双精度浮点数进行储存。

但是PLC与HMI有些是32位的,只能读取32位数据,不能读取64位的双精度浮点数。

在网上有大量计算机相关解释,但是大多过于晦涩难懂。

本人现在依据查阅整理资料得到收获,尽量浅显易懂的和大家分享。

注:以下所有程序均为最简单程序,不是最优程序。

一、数据结构介绍单精度(32 位)浮点数的结构:深绿色:符号位(S): 1bit (b31)浅绿色:指数部分(E): 8bit (b30-b23)浅红色:尾数部分(M): 23bit (b22-b0)单精度的指数部分(E)采用的偏置码为127(E-127)双精度(64 位)浮点数的结构:深绿色:符号位(S): 1bit (b63)浅绿色:指数部分(E): 11bit (b62-b52)浅红色:尾数部分(M): 52bit (b51-b0)双精度的指数部分(E)采用的偏置码为1023(E-1023)二、双精度浮点数转换为单精度浮点数优点:程序简短,逻辑简单。

缺点:不能转换整数部分多于【16777215】的双精度浮点数。

因为单精度浮点数的上限就是【16777215】。

且小数点精度会丢失一部分。

(由于单精度浮点数表达方式的限制,整数部分越大,小数位就越少)实现原理:通过上述数据结构观察分析可以得出双精度对比单精度的如下结论:最高位的正负符号位一致。

指数部分仅长度不一致,其余机制一致。

尾数部分仅后面新增加的长度不一致,前23位机制一致。

那么,只需提取相应的bit位并填写到合适的位置,就能实现转换了。

将指数的11位缩减到8位(保留最高位,舍弃移除最高位后的3位)。

将尾数的52位缩减到23位(舍弃移除最后的29位)。

双精度浮点数转单精度浮点数实现过程:将双精度浮点数从高位到低位存放到D0-D3。

转换结果存放在D10-D11。

浮点运算部件

浮点运算部件

浮点运算部件在计算机科学和技术领域中,浮点运算部件(FPU,Floating Point Unit)是一种专门用于执行浮点数运算的硬件单元。

作为计算机体系架构中的重要组成部分,FPU 在现代计算机的性能和功能中扮演着至关重要的角色。

本文将详细探讨浮点运算部件的工作原理、设计考虑、应用场景以及未来发展趋势,旨在为读者提供对这一复杂硬件单元的全面理解。

一、浮点运算部件的工作原理浮点运算部件主要负责处理浮点数,这是一种用于表示实数(包括有理数和无理数)的数学表示法。

浮点数由三部分组成:符号位、尾数和指数。

符号位表示数的正负;尾数表示数的有效数字;指数表示数的规模。

通过组合这三个部分,浮点数可以表示非常大或非常小的数,同时保持一定的精度。

FPU通过一系列复杂的电路和逻辑运算来实现浮点数的加减乘除等基本运算。

这些运算需要遵循特定的数学规则和算法,如IEEE 754标准,以确保结果的准确性和一致性。

在运算过程中,FPU还需要处理各种特殊情况,如溢出、下溢、非数(NaN)等。

二、浮点运算部件的设计考虑设计浮点运算部件时,需要考虑多个关键因素,包括性能、精度、功耗和面积等。

性能方面,FPU需要具备高吞吐量和低延迟,以满足现代计算机对于高性能计算的需求。

精度方面,FPU需要遵循相关的数学标准和规范,以确保运算结果的准确性。

功耗和面积方面,FPU需要在满足性能和精度的前提下,尽可能地降低功耗和占用空间,以适应移动设备和嵌入式系统等资源受限的环境。

为了实现这些设计目标,FPU通常采用了一系列优化技术,如流水线设计、并行计算、硬件加速等。

流水线设计可以将复杂的浮点运算分解为多个简单的阶段,从而提高运算速度。

并行计算可以同时处理多个浮点运算,进一步提高性能。

硬件加速则通过专用的硬件电路来实现某些复杂的浮点运算,以降低延迟和提高能效。

三、浮点运算部件的应用场景浮点运算部件在计算机体系架构中有着广泛的应用场景。

首先,在科学计算、工程设计和仿真等领域,FPU是实现高精度数值计算的关键硬件单元。

浮点数结构

浮点数结构

浮点数结构浮点数是计算机科学中一种常见的数据类型,用于表示实数(即小数)和非常大或非常小的数字。

浮点数的结构是由三个部分组成:符号位、指数位和尾数位。

1. 符号位:用于表示浮点数的正负,通常用一个bit位来表示,0表示正数,1表示负数。

2. 指数位:用于表示浮点数的指数部分,可以使浮点数具有更大的范围。

指数位的长度决定了浮点数的表示范围,常见的有8位、11位和15位等。

3. 尾数位:用于表示浮点数的尾数部分,即小数部分。

尾数位的长度决定了浮点数的精度,常见的有23位、52位和64位等。

浮点数的表示采用科学计数法的形式,即将一个实数表示为一个有符号的数乘以一个基数的幂的形式。

例如,浮点数1.23可以表示为1.23e0,其中e0表示10的0次方。

浮点数的指数部分可以取负数,例如1.23e-3表示0.00123。

浮点数的运算常常涉及到舍入误差。

由于浮点数的表示是有限的,而实数是无限的,因此在进行浮点数运算时会出现舍入误差。

例如,对于浮点数0.1和0.2进行加法运算,得到的结果可能是0.30000000000000004,而不是我们期望的0.3。

这是由于浮点数的尾数位长度有限,无法精确表示0.1和0.2这样的无限小数。

浮点数的精度可以通过尾数位的长度来控制。

尾数位的长度越长,表示浮点数的精度越高。

例如,64位浮点数可以表示双精度浮点数,精度达到15位小数,而32位浮点数只能表示单精度浮点数,精度只有7位小数。

在实际应用中,浮点数被广泛用于科学计算、工程计算和金融计算等领域。

例如,在物理学中,浮点数被用于表示粒子的质量、速度和能量等物理量。

在工程学中,浮点数被用于表示电路的电压、电流和功率等参数。

在金融学中,浮点数被用于表示股票价格、利率和交易金额等数据。

然而,浮点数在表示和计算上存在一些问题。

首先,浮点数的精度有限,无法精确表示一些无理数和无限小数。

其次,浮点数的运算可能产生舍入误差,导致结果不准确。

另外,浮点数的比较操作也存在问题,由于浮点数的表示不唯一,相等的浮点数在计算机中可能被认为是不相等的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

附录DWhat Every Computer ScientistShould Know About Floating-PointArithmetic注 – 本附录是对论文《What Every Computer Scientist Should Know About Floating-Point Arithmetic》(作者:David Goldberg,发表于 1991 年 3 月号的《ComputingSurveys》)进行编辑之后的重印版本。

版权所有 1991,Association for ComputingMachinery, Inc.,经许可重印。

D.1摘要许多人认为浮点运算是一个深奥的主题。

这相当令人吃惊,因为浮点在计算机系统中是普遍存在的。

几乎每种语言都有浮点数据类型;从 PC 到超级计算机都有浮点加速器;多数编译器可随时进行编译浮点算法;而且实际上,每种操作系统都必须对浮点异常(如溢出)作出响应。

本文将为您提供一个教程,涉及的方面包含对计算机系统设计人员产生直接影响的浮点运算信息。

它首先介绍有关浮点表示和舍入误差的背景知识,然后讨论IEEE 浮点标准,最后列举了许多示例来说明计算机生成器如何更好地支持浮点。

类别和主题描述符:(主要)C.0 [计算机系统组织]:概论—指令集设计;D.3.4 [程序设计语言]:处理器—编译器,优化;G.1.0 [数值分析]:概论—计算机运算,错误分析,数值算法(次要)D.2.1 [软件工程]:要求/规范—语言;D.3.4 程序设计语言]:正式定义和理论—语义;D.4.1 操作系统]:进程管理—同步。

一般术语:算法,设计,语言其他关键字/词:非规格化数值,异常,浮点,浮点标准,渐进下溢,保护数位,NaN,溢出,相对误差、舍入误差,舍入模式,ulp,下溢。

D-1D.2简介计算机系统的生成器经常需要有关浮点运算的信息。

但是,有关这方面的详细信息来源非常少。

有关此主题的书目非常少,而且其中的一部《Floating-Point Computation》(作者:Pat Sterbenz)现已绝版。

本文提供的教程包含与系统构建直接相关的浮点运算(以下简称为浮点)信息。

它由三节组成(这三节并不完全相关)。

第一节第 2 页的“舍入误差”讨论对加、减、乘、除基本运算使用不同舍入策略的含义。

它还包含有关衡量舍入误差的两种方法 ulp 和相对误差的背景信息。

第二节讨论 IEEE 浮点标准,该标准正被商业硬件制造商迅速接受。

IEEE 标准中包括基本运算的舍入方法。

对标准的讨论借助了第 2 页的“舍入误差”部分中的内容。

第三节讨论浮点与计算机系统各个设计方面之间的关联。

主题包括指令集设计、优化编译器和异常处理。

作者已尽力避免在不给出正当理由的情况下来声明浮点,这主要是因为证明将产生较为复杂的基本计算。

对于那些不属于文章主旨的说明,已将其归纳到名为“详细信息”的章节中,您可以视实际情况选择跳过此节。

另外,此节还包含了许多定理的证明。

每个证明的结尾处均标记有符号❚。

如果未提供证明,❚将紧跟在定理声明之后。

D.3舍入误差将无穷多位的实数缩略表示为有限位数需要使用近似。

即使存在无穷多位整数,多数程序也可将整数计算的结果以 32 位进行存储。

相反,如果指定一个任意的固定位数,那么多数实数计算将无法以此指定位数精准表示实际数量。

因此,通常必须对浮点计算的结果进行舍入,以便与其有限表示相符。

舍入误差是浮点计算所独有的特性。

第 4 页的“相对误差和 Ulp”章节说明如何衡量舍入误差。

既然多数浮点计算都具有舍入误差,那么如果基本算术运算产生的舍入误差比实际需要大一些,这有没有关系?该问题是贯穿本章节的核心主题。

第 5 页的“保护数位”章节讨论保护数位,它是一种减少两个相近的数相减时所产生的误差的方法。

IBM 认为保护数位非常重要,因此在 1968 年它将保护数位添加到 System/360 架构的双精度格式(其时单精度已具有保护数位),并更新了该领域中所有的现有计算机。

下面两个示例说明了保护数位的效用。

IEEE 标准不仅仅要求使用保护数位。

它提供了用于加、减、乘、除和平方根的算法,并要求实现产生与该算法相同的结果。

因此,将程序从一台计算机移至另一台计算机时,如果这两台计算机均支持 IEEE 标准,那么基本运算的结果逐位相同。

这大大简化了程序的移植过程。

在第 10 页的“精确舍入的运算”中介绍了此精确规范的其他用途。

D-2《数值计算指南》•2005 年 1 月What Every Computer Scientist Should Know About Floating-Point Arithmetic D-3D.3.1浮点格式已经提议了几种不同的实数表示法,但是到目前为止使用最广的是浮点表示法。

1浮点表示法有一个基数 β(始终假定其为偶数)和一个精度 p 。

如果 β = 10、p = 3,则将数 0.1表示为 1.00 × 10-1。

如果 β = 2、p =24,则无法准确表示十进制数 0.1,但是它近似为1.10011001100110011001101 × 2-4。

通常,将浮点数表示为 ± d.dd… d × βe ,其中 d.dd… d 称为有效数字2,它具有 p 个数字。

更精确地说,± d 0 . d 1 d 2 … d p-1 × βe 表示以下数。

(1)术语浮点数用于表示一个实数,该实数可以未经全面讨论的格式准确表示。

与浮点表示法相关联的其他两个参数是最大允许指数和最小允许指数,即 e max 和 e min 。

由于存在 βp 个可能的有效数字,以及 e max – e min + 1 个可能的指数,因此浮点数可以按位编码,其中最后的 +1 用于符号位。

此时,精确编码并不重要。

有两个原因导致实数不能准确表示为浮点数。

最常见的情况可以用十进制数 0.1 说明。

虽然它具有有限的十进制表示,但是在二进制中它具有无限重复的表示。

因此,当 β = 2时,数 0.1 介于两个浮点数之间,而这两个浮点数都不能准确地表示它。

一种较不常见的情况是实数超出范围;也就是说,其绝对值大于 β × 或小于 1.0 × 。

本文的大部分内容讨论第一种原因导致的问题。

然而,超出范围的数将在第 20 页的“无穷”和第 22页的“反向规格化的数”章节中进行讨论。

浮点表示不一定是唯一的。

例如,0.01×101 和 1.00 × 10-1 都表示 0.1。

如果前导数字不是零(在上面的等式 (1) 中,d 0 ≠ 0),那么该表示称为规格化。

浮点数 1.00 × 10-1 是规格化的,而 0.01 × 101 则不是。

当 β= 2、p = 3、e min = -1 且 e max = 2 时,有 16 个规格化浮点数,如图D-1 所示。

粗体散列标记对应于其有效数字是 1.00 的数。

要求浮点表示为规格化,则可以使该表示唯一。

遗憾的是,此限制将无法表示零!表示 0 的一种自然方法是使用 1.0× ,因为 这样做保留了以下事实:非负实数的数值顺序对应于其浮点表示的词汇顺序。

3将指数存储在 k 位字段中时,意味着只有 2k - 1 个值可用作指数,因为必须保留一个值来表示 0。

请注意,浮点数中的 × 是表示法的一部分,这与浮点乘法运算不同。

× 符号的含义通过上下文来看应该是明确的。

例如,表达式 (2.5 × 10-3) × (4.0 × 102) 仅产生单个浮点乘法。

1.其他表示法的示例有浮动斜线和有符号对数 [Matula 和 Kornerup 1985;Swartzlander 和 Alexopoulos 1975]。

2.此术语由 Forsythe 和 Moler [1967] 提出,现已普遍替代了旧术语 mantissa 。

3.这假定采用通常的排列方式,即指数存储在有效数字的左侧。

d 0d 1β1–…d p 1–βp 1–()–+++⎝⎠⎛⎞βe 0d i β<≤(),±log 2e max e min –1+()[]log 2βp ()[]1++βe max βe min βe min 1–D-4《数值计算指南》•2005 年 1 月图D-1 β = 2、p = 3、 e min = -1、e max = 2 时规格化的数D.3.2相对误差和 Ulp因为舍入误差是浮点计算的固有特性,所以需要有一种方法来衡量此误差,这一点很重要。

请考虑使用 β= 10 且 p = 3 的浮点格式(此格式在本节中广泛使用)。

如果浮点计算的结果是 3.12 × 10-2,并且以无限精度计算的结果是 .0314,那么您可以清楚地看到最后一位存在 2 单位的误差。

同样,如果将实数 .0314159 表示为 3.14 × 10-2,那么将在最后一位存在 .159 单位的误差。

通常,如果浮点数 d.d …d × βe 用于表示 z ,那么将在最后一位存在 ⏐d.d …d − (z /βe )⏐βp-1 单位的误差。

4, 5 术语 ulp 将用作“最后一位上的单位数”的简写。

如果某个计算的结果是最接近于正确结果的浮点数,那么它仍然可能存在 .5 ulp 的误差。

衡量浮点数与它所近似的实数之间差值的另一种方法是相对误差,它只是用两数之差除以实数的商。

例如,当 3.14159 近似为 3.14 × 100 时产生的相对误差是.00159/3.14159≈ .0005。

要计算对应于 .5 ulp 的相对误差,请注意当实数用可能最接近的浮点数 d.dd ...dd × βe 近似表示时,误差可达到 0.00...00β¢ × βe ,其中 β’ 是数字 β/2,在浮点数的有效数字中有 p单位,在误差的有效数字中有 p 单位个 0。

此误差是 ((β/2)β-p ) × βe 。

因为形式为 d.dd …dd × βe 的数都具有相同的绝对误差,但具有介于 βe 和 β × βe 之间的值,所以相对误差介于((β/2)β-p ) × βe /βe 和 ((β/2)β-p ) × βe /βe+1 之间。

即,(2)特别是,对应于 .5 ulp 的相对误差可能随因子 β 的不同而有所变化。

此因子称为浮动系数。

将 ε = (β/2)β-p 设置为上面 (2) 中的上限,表明:将一个实数舍入为最接近的浮点数时,相对误差总是以 e (称为机器 ε)为界限。

相关文档
最新文档