浮点转定点计算

合集下载

浮点数的精度与标度-概述说明以及解释

浮点数的精度与标度-概述说明以及解释1.引言1.1 概述概述浮点数是计算机科学中一种常见的数值数据类型，用于表示实数或小数。

它的精度和标度是浮点数操作中两个重要的概念。

精度指的是数值的有效位数，而标度则表示小数点的位置。

本文将探讨浮点数的精度和标度对计算结果的影响。

首先，我们将介绍浮点数的定义和表示方式，以便读者对其有一个基本的认识。

然后，我们将详细讨论浮点数的精度和标度的定义和计算方法，并说明它们是如何相互关联的。

在正文部分，我们将重点讨论浮点数的精度。

精度取决于浮点数的位数和指数范围，它决定了浮点数能够表示的最大有效位数。

我们将探讨浮点数在计算中可能出现的精度丢失问题，并提供一些解决方案和注意事项。

接下来，我们将转向浮点数的标度。

标度表示小数点相对于浮点数的位置，决定了浮点数的大小范围。

我们将讨论标度的影响以及与精度的关系，同时介绍一些常见的浮点数运算问题，并提供一些解决方法。

最后，在结论部分，我们将总结浮点数的精度与标度的关系，并强调它们对浮点数应用的重要性。

我们还将讨论浮点数精度与标度对于科学计算和计算机图形学等领域的影响，以及在实际应用中需要注意的一些问题。

通过深入理解和掌握浮点数的精度与标度，读者将能够更好地理解和应用浮点数，在计算中避免丢失精度或产生错误结果的情况，并优化计算性能。

1.2文章结构1.2 文章结构本文主要围绕浮点数的精度与标度展开讨论。

为了清晰地呈现这个主题，本文将分为三个主要部分：引言、正文和结论。

在引言中，我们将简要介绍浮点数的概念和其在计算机中的表示方式。

我们将对浮点数的定义和表示方式进行阐述，以便读者能够更好地理解浮点数的精度与标度的概念。

接着，在正文部分，我们将详细讨论浮点数的精度。

我们将探讨浮点数的精度受限于计算机内部二进制表示的有限位数，导致浮点数在进行运算时存在舍入误差的问题。

我们还将介绍浮点数的精度与计算机体系结构、编程语言和算法选择等因素之间的关系。

浮点运算转定点运算

浮点运算转定点运算与afreez⼀起学习DSP中浮点转定点运算⼀：浮点与定点概述1.1相关定义说明定点数：通俗的说，⼩数点固定的数。

以⼈民币为例，我们⽇常经常说到的如123.45￥，789.34￥等等，默认的情况下，⼩数点后⾯有两位⼩数，即⾓，分。

如果⼩数点在最⾼有效位的前⾯，则这样的数称为纯⼩数的定点数，如0.12345，0.78934等。

如果⼩数点在最低有效位的后⾯，则这样的数称为纯整数的定点数，如12345，78934等。

浮点数：⼀般说来，⼩数点不固定的数。

⽐较容易的理解⽅式是，考虑以下我们⽇常见到的科学记数法，拿我们上⾯的数字举例，如123.45，可以写成以下⼏种形式：12.345x1011.2345 x1020.12345 x103xi……为了表⽰⼀个数，⼩数点的位置可以变化，即⼩数点不固定。

1.2定点数与浮点数的对⽐为了简单的把问题描述清楚，这⾥都是⼗进制数字举例，详细的分析，⼤家可以在后⾯的⽂章中看到。

(1)表⽰的精度与范围不同例如，我们⽤4个⼗进制数来表达⼀个数字。

对于定点数（这⾥以定点整数为例），我们表⽰区间[0000，9999]中的任何⼀个数字，但是如果我们要想表⽰类似1234.3的数值就⽆能为⼒了，因为此时的表⽰精度为1/100=1；如果采⽤浮点数来表⽰（以归整的科学记数法，即⼩数点前有⼀位有效位，为例），则可以表⽰[0.000，9.999]之间的任何⼀个数字，表⽰的精度为1/103=0.001，精度⽐上⼀种⽅式提⾼了很多，但是表⽰的范围却⼩了很多。

也就是说，⼀般的，定点数表⽰的精度较低，但表⽰的数值范围较⼤；⽽浮点数恰恰相反。

(2)计算机中运算的效率不同⼀般说来，定点数的运算在计算机中实现起来⽐较简单，效率较⾼；⽽浮点数的运算在计算机中实现起来⽐较复杂，效率相对较低。

(3)硬件依赖性⼀般说来，只要有硬件提供运算部件，就会提供定点数运算的⽀持（不知道说的确切否，没有听说过不⽀持定点数运算的硬件），但不⼀定⽀持浮点数运算，如有的很多嵌⼊式开发板就不提供浮点运算的⽀持。

matlab浮点数转定点

matlab浮点数转定点Matlab是一种常用的科学计算软件，它具有强大的数值计算和数据可视化能力。

在Matlab中，浮点数和定点数是常用的数据类型之一。

浮点数表示实数，而定点数表示固定精度的实数。

浮点数转定点是一种常见的数值计算操作，它可以将浮点数转换为定点表示。

定点数具有固定的小数位数，因此可以在计算中减少舍入误差。

下面将介绍如何在Matlab中进行浮点数转定点的操作。

我们需要明确浮点数和定点数的概念。

浮点数是一种用于表示实数的数据类型，它由尾数和指数组成。

尾数表示实数的小数部分，指数表示实数的指数部分。

浮点数的表示方式可以是规格化的或非规格化的。

规格化浮点数的尾数通常是一个小于1的实数，而非规格化浮点数的尾数可以是一个大于或等于1的实数。

定点数是一种固定精度的实数表示方式，它由整数部分和小数部分组成。

定点数的小数部分有固定的位数，因此可以在计算中减少舍入误差。

定点数的表示方式可以是有符号的或无符号的。

有符号定点数的整数部分可以表示正数或负数，而无符号定点数的整数部分只能表示正数。

在Matlab中，我们可以使用round、floor、ceil等函数将浮点数转换为定点数。

这些函数可以根据指定的精度将浮点数四舍五入、向下取整或向上取整。

例如，round函数可以将浮点数四舍五入到指定的小数位数，而floor函数可以将浮点数向下取整到指定的小数位数。

除了使用内置函数，我们还可以使用自定义函数将浮点数转换为定点数。

自定义函数可以根据需求进行定制，具有更高的灵活性和扩展性。

例如，我们可以编写一个函数，将浮点数乘以一个倍数，然后将结果四舍五入到指定的小数位数。

在进行浮点数转定点的操作时，我们需要考虑精度损失的问题。

由于浮点数和定点数的表示方式不同，进行转换时可能会损失一部分精度。

因此，我们需要根据实际需求选择合适的精度，以平衡精度和性能的需求。

浮点数转定点是一种常见的数值计算操作，在Matlab中可以使用内置函数或自定义函数实现。

DSP编程技巧之22详解浮点运算的定点编程

DSP编程技巧之22详解浮点运算的定点编程我们使用的处理器一般情况下，要么直接支持硬件的浮点运算，比如某些带有FPU的器件，要么就只支持定点运算，此时对浮点数的处理需要通过编译器来完成。

在支持硬件浮点处理的器件上，对浮点运算的编程最快捷的方法就是直接使用浮点类型，比如单精度的float来完成。

但是在很多情况下，限于成本、物料等因素，可供我们使用的只有一个定点处理器时，直接使用float类型进行浮点类型的运算会使得编译器产生大量的代码来完成一段看起来十分简单的浮点数学运算，造成的后果是程序的执行时间显著加长，且其占用的资源量也会成倍地增加，这就涉及到了如何在定点处理器上对浮点运算进行高效处理的问题。

本文引用地址：/article/263475.htm 既然是定点处理器，那么其对定点数，或者说字面意义上的“整数”进行处理的效率就会比它处理浮点类型的运算要高的多。

所以在定点处理器上，我们使用定点的整数来代表一个浮点数，并规定整数位数和小数位数，从而方便地对定点数和浮点数进行转换。

以一个32位的定点数为例，假设转换因子为Q，即32位中小数的位数为Q，整数位数则为31-Q(有符号数的情况)，则定点数与浮点数的换算关系为：定点数=浮点数×2^Q例如，浮点数-2.0转换到Q为30的定点数时，结果为：定点数=-2×2^30=-2147483648 32位有符号数的表示范围是：-2147483648到2147483647。

如果我们把有符号定点数的最大值2147483647转换为Q为30对应的浮点数，则结果为：浮点数2147483647/2^30=1.999999999 从上面的两个计算例子中也可以看出，在Q30格式的情况下，最大的浮点数只能表示到1.999999999，如果我们想把浮点数2.0转换为Q30的定点数，则产生了溢出，即造成了1e-9的截断误差。

在此我们列出Q0到Q30对应的范围和分辨率如下表所示：如果你嫌自己计算麻烦的话，可以借助Matlab的命令来求取它们的转换，例如，在Matlab的命令窗口中输入：q = quantizer('fixed', 'ceil', 'saturate', [32 30]);FixedNum=bin2dec(num2bin(q,1.999999999)); 回车之后就可以看到1.999999999转成Q30之后的定点数了。

matlab浮点数定点化

matlab浮点数定点化Matlab浮点数定点化一、引言在数值计算和科学计算中，浮点数是一种常用的数据类型。

然而，由于浮点数的表示精度有限，其在计算机中的存储和处理过程中可能会引入误差。

为了解决这个问题，我们可以使用定点化来提高计算的准确性。

本文将介绍在Matlab中如何进行浮点数的定点化处理。

二、浮点数的表示和问题浮点数是一种以科学计数法表示的实数，其由两部分组成：尾数和指数。

在计算机中，浮点数的表示采用二进制形式，由于二进制无法精确表示所有实数，因此存在舍入误差。

这种误差可能在计算过程中累积，导致结果的不准确性。

三、定点化概述定点化是一种将浮点数表示为定点数的方法。

定点数是一种没有小数点的整数，可以通过将浮点数乘以某个倍数来转化为定点数。

定点化的目的是通过增加小数位数来提高计算的准确性。

在Matlab中，我们可以使用round、floor、ceil等函数来进行定点化处理。

四、定点化的步骤1. 确定定点化的倍数：根据浮点数的范围和精度要求，选择合适的倍数进行定点化。

一般来说，倍数越大，精度越高，但存储和计算的成本也越高。

2. 将浮点数乘以倍数：使用Matlab中的乘法运算符，将浮点数乘以选择的倍数，得到定点数。

3. 进行计算：使用定点数进行计算，得到结果。

4. 还原定点数：如果需要将结果还原为浮点数，可以使用除法运算符将定点数除以选择的倍数，得到浮点数。

五、定点化的示例假设我们需要计算圆的面积，半径为 2.5。

由于浮点数的精度有限，计算结果可能存在误差。

下面是一个使用定点化处理的示例：1. 确定定点化的倍数：为了提高计算的准确性，选择倍数为1000。

2. 将浮点数乘以倍数：使用Matlab中的乘法运算符，将半径 2.5乘以1000，得到定点数2500。

3. 进行计算：使用定点数2500计算圆的面积，得到结果为19.63。

4. 还原定点数：如果需要将结果还原为浮点数，可以使用除法运算符将结果19.63除以1000，得到浮点数0.01963。

定点数与浮点数转

定点数与浮点数转小数点的表示为了节省内存，计算机中数值型数据的小数点的位置是隐含的，且小数点的位置既可以是固定的，也可以是变化的。

定点数与浮点数如果小数点的位置事先已有约定，不再改变，此类数称为"定点数"。

相比之下，如果小数点的位置可变，则称为"浮点数"。

⑴定点数。

常用的定点数有两种表示形式：如果小数点位置约定在最低数值位的后面，则该数只能是定点整数；如果小数点位置约定在最高数值位的前面，则该数只能是定点小数。

例如，假定用两个字节存放一个定点数，则以定点方式表示的十进制整数195为：这里，(-0.6876)10=(-0.10110000000001101…)2，转换为无限循环小数，存储时多余的位被截断。

如果知道一个定点数的小数点位置约定和占用存储空间大小，那么很容易确定其表示数的范围。

⑵浮点数。

浮点数表示法来源于数学中的指数表示形式，如193可以表示为0.193x103或1.93x102等。

一般地，数的指数形式可记作：N=M xRC其中，M称为"尾数"，C称为"阶码"。

在存储时，一个浮点数所占用的存储空间被划分为两部分，分别存放尾数和阶码。

尾数部分通常使用定点小数方式，阶码则采用定点整数方式。

尾数的长度影响该数的精度，而阶码则决定该数的表示范围。

同样大小的空间中，可以存放远比定点数取值范围大得多的浮点数，但浮点数的运算规则比定点数更复杂。

1.什么是浮点数在计算机系统的发展过程中，曾经提出过多种方法表达实数。

典型的比如相对于浮点数的定点数(Fixed Point Number)。

在这种表达方式中，小数点固定的位于实数所有数字中间的某个位置。

货币的表达就可以使用这种方式，比如99.00或者00.99可以用于表达具有四位精度(Precision)，小数点后有两位的货币值。

由于小数点位置固定，所以可以直接用四位数值来表达相应的数值。

浮点转定点算法

在定点的DSP或处理器中，实现一个浮点数的运算时一个非常复杂的事情，尤其是非四则运算的函数运算，例如三角函数运算，sin，cos，tan，又比如指数运算，exp，非整数的幂运算等等。

用机器来实现这样复杂的运算，会花费很多的计算指令周期。

在某些程度下，用定点整数去代替浮点运算，会很大程度的节省运算时间，是应用程序达到实时运算的效果。

一ＤＳＰ定点算数运算1数的定标在定点DSP芯片中,采用定点数进行数值运算,其操作数一般采用整型数来表示。

一个整型数的最大表示范围取决于DSP芯片所给定的字长,一般为16位或24位。

显然,字长越长,所能表示的数的范围越大,精度也越高。

如无特别说明,本书均以16位字长为例。

DSP芯片的数以2的补码形式表示。

每个16位数用一个符号位来表示数的正负,0表示数值为正, l则表示数值为负。

其余15位表示数值的大小。

因此,二进制数0010000000000011b=8195二进制数1111111111111100b=-4对DSP芯片而言,参与数值运算的数就是16位的整型数。

但在许多情况下,数学运算过程中的数不一定都是整数。

那么,DSP芯片是如何处理小数的呢？应该说,DSP芯片本身无能为力。

那么是不是说DSP芯片就不能处理各种小数呢？当然不是。

这其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。

这就是数的定标。

通过设定小数点在16位数中的不同位置,就可以表示不同大小和不同精度的小数了。

数的定标有Q表示法和S表示法两种。

表1.1列出了一个16位数的16种Q表示、S表示及它们所能表示的十进制数值范围。

从表1.1可以看出,同样一个16位数,若小数点设定的位置不同,它所表示的数也就不同。

例如,16进制数2000H=8192,用Q0表示16进制数2000H=0.25,用Q15表示但对于DSP芯片来说,处理方法是完全相同的。

从表1.1还可以看出,不同的Q所表示的数不仅范围不同,而且精度也不相同。

浮点,simulink 定标指导,定点

Simulink代码生成系列（定点数）82010-04-11 21:21:41| 分类：项目4_高性能DSP | 标签： |举报 |字号大中小订阅李会先（整理MATLAB）关于定点数定点数和它们的数据类型以字长、二进制小数点、有符号还是无符号为特征，SIMULINK定点软件支持整数和定点数，它们的主要区别是小数点。

一般的二进制定点数表示为：定点数的标度对于同等字长度，定点数的动态范围远小于浮点数，为了避免溢出和最小化量化误差，定点数需要标度，因此用如下方法来表示一个定点数。

∙V是任意精度的实数∙是实数的近似∙Q是一个存储值，用来编码V∙S=F是斜率∙B是偏差(基准)斜率被分成两个部分：∙确定二进制小数点，E是2的幂指数∙F是斜率调整因子，规范化时1≤F﹤2只有缩放标度的二进制小数∙F=1∙S=F=∙B=0一个被量化的实数的标度用斜率S定义，这被严格的限制为2的幂，负的2的幂指数被称为分数长度，分数长度是二进制小数点右边的比特数。

对于仅有缩放的二进制小数，定点数据类型表示为：∙signed types —fixdt(1, WordLength, FractionLength)∙unsigned types —fixdt(0, WordLength, FractionLength)整数是定点数类型的特殊情况，整数的用斜率为1直接标度，偏差为0，或者相当于分数长度为0，整数表达为：∙signed integer —fixdt(1, WordLength, 0)∙unsigned integer —fixdt(0, WordLength, 0)斜率和偏差(基准)标度当用斜率和偏差标度，被量化的实数的斜率S和偏差B可以使任何值，斜率必须是正数，用S和B定点数被表达为：∙fixdt(Signed, WordLength, Slope, Bias)范围和精度数的范围给出了表达的限制，精度给出了表达连续两数之间的距离，定点数的范围和精度取决于字的长度和标度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一ＤＳＰ定点算数运算1 数的定标在定点DSP芯片中,采用定点数进行数值运算,其操作数一般采用整型数来表示。

一个整型数的最大表示范围取决于DSP芯片所给定的字长,一般为16位或24位。

显然,字长越长,所能表示的数的范围越大,精度也越高。

如无特别说明,本书均以16位字长为例。

DSP芯片的数以2的补码形式表示。

每个16位数用一个符号位来表示数的正负,0表示数值为正,l则表示数值为负。

其余15位表示数值的大小。

因此,二进制数0010000000000011b=8195二进制数1111111111111100b= -4对DSP芯片而言,参与数值运算的数就是16位的整型数。

但在许多情况下,数学运算过程中的数不一定都是整数。

那么,DSP芯片是如何处理小数的呢？应该说,DSP芯片本身无能为力。

那么是不是说DSP芯片就不能处理各种小数呢？当然不是。

这其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。

这就是数的定标。

通过设定小数点在16位数中的不同位置,就可以表示不同大小和不同精度的小数了。

数的定标有Q表示法和S表示法两种。

表1.1列出了一个16位数的16种Q表示、S表示及它们所能表示的十进制数值范围。

从表1.1可以看出,同样一个16位数,若小数点设定的位置不同,它所表示的数也就不同。

例如,16进制数2000H=8192,用Q0表示16进制数2000H=0.25,用Q15表示但对于DSP芯片来说,处理方法是完全相同的。

从表1.1还可以看出,不同的Q所表示的数不仅范围不同,而且精度也不相同。

Q越大,数值范围越小,但精度越高;相反,Q越小,数值范围越大,但精度就越低。

例如,Q0 的数值范围是一32768到+32767,其精度为1,而Q15的数值范围为-1到0.9999695,精度为1/32768=0.00003051。

因此,对定点数而言,数值范围与精度是一对矛盾,一个变量要想能够表示比较大的数值范围,必须以牺牲精度为代价;而想精度提高,则数的表示范围就相应地减小。

在实际的定点算法中,为了达到最佳的性能,必须充分考虑到这一点。

浮点数与定点数的转换关系可表示为：浮点数(x)转换为定点数(xq)：xq=(int)x* 2Q定点数(xq)转换为浮点数(x)：x=(float)xq*2-Q例如,浮点数x=0.5,定标Q=15,则定点数xq=[0.5*32768]=16384,式中[]表示下取整。

反之,一个用Q=15表示的定点数16384,其浮点数为16384/2e15=16384/32768=0.5。

浮点数转换为定点数时,为了降低截尾误差,在取整前可以先加上0.5。

表1.1 Q表示、S表示及数值范围Q表示 S表示十进制数表示范围Q15 S0.15 -1≤x≤0.9999695Q14 S1.14 -2≤x≤1.9999390Q13 S2.13 -4≤x≤3.9998779Q12 S3.12 -8≤x≤7.9997559Q11 S4.11 -16≤x≤15.9995117Q10 S5.10 -32≤x≤31.9990234Q9 S6.9 -64≤x≤63.9980469Q8 S7.8 -128≤x≤127.9960938Q7 S8.7 -256≤x≤255.9921875Q6 S9.6 -512≤x≤511.9804375Q5 S10.5 -1024≤x≤1023.96875Q4 S11.4 -2048≤x≤2047.9375Q3 S12.3 -4096≤x≤4095.875Q2 S13.2 -8192≤x≤8191.75Q1 S14.1 -16384≤x≤16383.5Q0 S15.0 -32768≤x≤327672 高级语言：从浮点到定点我们在编写DSP模拟算法时,为了方便,一般都是采用高级语言(如C语言)来编写模拟程序。

程序中所用的变量一般既有整型数,又有浮点数。

如例1.1程序中的变量i是整型数,而pi是浮点数,hamwindow则是浮点数组。

例1.1 256点汉明窗计算int i;+float pi=3.14l59;float hamwindow[256];for(i=0;i<256;i++) hamwindow[i]=0.54-0.46*cos(2.0*pi*i/255);如果我们要将上述程序用某种足点DSP芯片来实现,则需将上述程序改写为DSP芯片的汇编语言程序。

为了DSP程序调试的方便及模拟定点DSP实现时的算法性能,在编写DSP汇编程序之前一般需将高级语言浮点算法改写为高级语言定点算法。

下面我们讨论基本算术运算的定点实现方法。

2.1 加法/减法运算的C语言定点摸拟设浮点加法运算的表达式为：float x,y,z;z=x+y;将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标temp=x+temp;z=temp>>(Qx-Qz),若Qx>=Qzz=temp<<(Qz-Qx),若Qx<=Qz例1.4结果超过16位的定点加法设x=l5000,y=20000,则浮点运算值为z=x+y=35000,显然z>32767,因此Qx=1,Qy=0,Qz=0,则定点加法为：x=30000;y=20000;temp=20000<<1=40000;temp=temp+x=40000+30000=70000;z=70000L>>1=35000;因为z的Q值为0,所以定点值z=35000就是浮点值,这里z是一个长整型数。

当加法或加法的结果超过16位表示范围时,如果程序员事先能够了解到这种情况,并且需要保持运算精度时,则必须保持32位结果。

如果程序中是按照16位数进行运算的,则超过16位实际上就是出现了溢出。

如果不采取适当的措施,则数据溢出会导致运算精度的严重恶化。

一般的定点DSP芯片都没有溢出保护功能,当溢出保护功能有效时,一旦出现溢出,则累加器ACC的结果为最大的饱和值(上溢为7FFFH,下溢为8001H),从而达到防止溢出引起精度严重恶化的目的。

2.2乘法运算的C语言定点模拟设浮点乘法运算的表达式为：float x,y,z;z=xy;假设经过统计后x的定标值为Qx,y的定标值为Qy,乘积z的定标值为Qz,则z=xyzq*2-Qx=xq*yq*2-(Qx+Qy)zq=(xqyq)2Qz-(Qx+Qy)所以定点表示的乘法为：int x,y,z;long temp;temp=(long)x;z=(temp*y)>>(Qx+Qy-Qz);例1.5定点乘法。

设x=18.4,y=36.8,则浮点运算值为=18.4*36.8=677.12;根据上节,得Qx=10,Qy=9,Qz=5,所以x=18841;y=18841;temp=18841L;z=(18841L*18841)>>(10+9-5)=354983281L>>14=21666;因为z的定标值为5,故定点z=21666,即为浮点的z=21666/32=677.08。

2.3除法运算的C语言定点摸拟设浮点除法运算的表达式为：float x,y,z;z=x/y;假设经过统计后被除数x的定标值为Qx,除数y的定标值为Qy,商z的定标值为Qz,则z=x/yzq*2-Qz=(xq*2-Qx)/(yq*2-Qy)zq=(xq*2(Qz-Qx+Qy))/yq所以定点表示的除法为：int x,y,z;long temp;temp=(long)x;z=(temp<<(Qz-Qx+Qy))/y;例1.6定点除法。

设x=18.4,y=36.8,浮点运算值为z=x/y=18.4/36.8=0.5;根据上节,得Qx=10,Qy=9,Qz=15;所以有z=18841,y=18841;temp=(long)18841;z=(18841L<<(15-10+9)/18841=3O8690944L/18841=16384;因为商z的定标值为15,所以定点z=16384,即为浮点z=16384/215=0.5。

2.4程序变量的Q值确定在前面几节介绍的例子中,由于x,y,z的值都是已知的,因此从浮点变为定点时Q值很好确定。

在实际的DSP应用中,程序中参与运算的都是变量,那么如何确定浮点程序中变量的Q 值呢？从前面的分析可以知道,确定变量的Q值实际上就是确定变量的动态范围,动态范围确定了,则Q值也就确定了。

设变量的绝对值的最大值为 max ,注意 max 必须小于或等于32767。

取一个整数n,使满足2n-1< max <2n则有2-Q=2-15*2n=2-(15-n)Q=15-n例如,某变量的值在-1至+1之间,即 max <1,因此n=0,Q=15-n=15。

既然确定了变量的 max 就可以确定其Q值,那么变量的 max 又是如何确定的呢？一般来说,确定变量的 max 有两种方法。

一种是理论分析法,另一种是统计分析法。

1. 理论分析法有些变量的动态范围通过理论分析是可以确定的。

例如：(1)三角函数。

y=sin(x)或y=cos(x),由三角函数知识可知, y <=1。

(2)汉明窗。

y(n)=0.54一0.46cos[nπn/(N-1)],0<=n<=N-1。

因为-1<=cos[2πn/(N-1)]<=1,所以0.08<=y(n)<=1.0。

(3)FIR卷积。

y(n)=∑h(k)x(n-k),设∑ h(k) =1.0,且x(n)是模拟信号12位量化值,即有 x(n) <=211,则 y(n) <=211。

(4)理论已经证明,在自相关线性预测编码(LPC)的程序设计中,反射系数ki满足下列不等式： ki <1.0,i=1,2,...,p,p为LPC的阶数。

2. 统计分析法对于理论上无法确定范围的变量,一般采用统计分析的方法来确定其动态范围。

所谓统计分析,就是用足够多的输入信号样值来确定程序中变量的动态范围,这里输入信号一方面要有一定的数量,另一方面必须尽可能地涉及各种情况。

例如,在语音信号分析中,统计分析时就必须来集足够多的语音信号样值,并且在所采集的语音样值中,应尽可能地包含各种情况。

如音量的大小,声音的种类(男声、女声等)。

只有这样,统计出来的结果才能具有典型性。

当然,统计分析毕竟不可能涉及所有可能发生的情况,因此,对统计得出的结果在程序设计时可采取一些保护措施,如适当牺牲一些精度,Q值取比统计值稍大些,使用DSP芯片提供的溢出保护功能等。

2.5浮点至定点变换的C程序举例本节我们通过一个例子来说明C程序从浮点变换至定点的方法。