浮点转定点方法总结

合集下载

DSP中浮点转定点运算--举例及编程中的心得

DSP中浮点转定点运算--举例及编程中的⼼得5．举例及编程中的⼼得5．1举例 “第3章 DSP芯⽚的定点运算.doc”这篇⽂章中给了⼀个很简单有能说明问题的例⼦，不想动⼤脑了，直接引⽤过来如下。

这是⼀个对语⾳信号(0.3kHz~3.4kHz)进⾏低通滤波的C语⾔程序，低通滤波的截⽌频率为800Hz，滤波器采⽤19点的有限冲击响应FIR滤波。

语⾳信号的采样频率为8kHz，每个语⾳样值按16位整型数存放在insp.dat⽂件中。

例3.7 语⾳信号800Hz 19点FIR低通滤波C语⾔浮点程序复制代码代码如下:#include <stdio.h>const int length = 180 /*语⾳帧长为180点＝22.5ms@8kHz采样*/void filter(int xin[ ],int xout[ ],int n,float h[ ]); /*滤波⼦程序说明*//*19点滤波器系数*/static float h[19]={0.01218354,-0.009012882,-0.02881839,-0.04743239,-0.04584568,-0.008692503,0.06446265,0.1544655,0.2289794,0.257883,0.2289794,0.1544655,0.06446265,-0.008692503,-0.04584568,-0.04743239,-0.02881839,-0.009012882,0.01218354};static int x1[length+20];/*低通滤波浮点⼦程序*/void filter(int xin[ ],int xout[ ],int n,float h[ ]){int i,j;float sum;for(i=0;i<length;i++) x1[n+i-1]=xin[i];for (i=0;i<length;i++){sum=0.0;for(j=0;j<n;j++) sum+=h[j]*x1[i-j+n-1];xout[i]=(int)sum;}for(i=0;i<(n-1);i++) x1[n-i-2]=xin[length-1-i];}/*主程序*/void main( ){FILE *fp1,*fp2;int frame,indata[length],outdata[length];fp1=fopen(insp.dat,"rb"); /*输⼊语⾳⽂件*/fp2=fopen(outsp.dat,"wb"); /*滤波后语⾳⽂件*/frame=0;while(feof(fp1)==0){frame++;printf("frame=%d/n",frame);for(i=0;i<length;i++) indata[i]=getw(fp1); /*取⼀帧语⾳数据*/filter(indata,outdata,19,h); /*调⽤低通滤波⼦程序*/for(i=0;i<length;i++) putw(outdata[i],fp2); /*将滤波后的样值写⼊⽂件*/}fcloseall( ); /*关闭⽂件*/return(0);}例3.8 语⾳信号800Hz 19点FIR低通滤波C语⾔定点程序复制代码代码如下:#include <stdio.h>const int length=180;void filter(int xin[ ],int xout[ ],int n,int h[ ]);static int h[19]={399,-296,-945,-1555,-1503,-285,2112,5061,7503,8450,7503,5061,2112,-285,-1503,-1555,-945,-296,399}; /*Q15*/static int x1[length+20];/*低通滤波定点⼦程序*/void filter(int xin[ ],int xout[ ],int n,int h[ ]){int i,j;long sum;for(i=0;i<length;i++) x1[n+i-1]=xin[i];for (i=0;i<length;i++){sum=0;for(j=0;j<n;j++) sum+=(long)h[j]*x1[i-j+n-1];xout[i]=sum>>15;}for(i=0;i<(n-1);i++) x1[n-i-2]=xin[length-i-1];}主程序与浮点的完全⼀样。

浮点定点化失真-概述说明以及解释

浮点定点化失真-概述说明以及解释1.引言【1.1 概述】浮点定点化失真是指在将浮点数转换为定点数过程中所引发的信息损失。

浮点数与定点数是两种不同的数值表示方式，它们在表示范围、精度和存储空间等方面存在差异。

在某些应用领域中，为了满足系统性能要求或者减少计算复杂度，需要将浮点数转换为定点数进行处理。

然而，在这个转换过程中，由于浮点数与定点数的差异性，会导致一定的精度丢失和计算误差，从而产生浮点定点化失真。

浮点定点化失真在计算机科学和工程领域中具有重要的实际意义。

在许多关键的计算任务中，如图像处理、音频编码、数据压缩等，对数值精度和计算速度要求较高。

而为了满足这些要求，通常需要使用定点数进行计算。

因此，了解和解决浮点定点化失真问题，对于提高计算效率和保证计算结果的准确性具有重要意义。

本文通过对浮点定点化失真的研究和分析，旨在进一步探讨其差异、原因和影响，并提出一些对策和展望未来的发展方向。

在接下来的章节中，将详细介绍浮点数表示与定点数表示的差异，探讨浮点定点化失真的原因和影响，并总结其重要性，提出应对措施，并展望未来的发展前景。

文章结构部分的内容如下：1.2 文章结构本文章主要分为以下几个部分：第一部分是引言部分，包括概述、文章结构和目的。

在概述中，我们将简要介绍浮点定点化失真这个主题的背景和重要性。

在文章结构部分，我们将介绍整篇文章的组织结构和各个章节的内容。

在目的部分，我们将明确本文的目标和意义。

第二部分是正文部分，包括浮点数表示与定点数表示的差异、浮点定点化失真的原因以及浮点定点化失真的影响。

在浮点数表示与定点数表示的差异中，我们将详细介绍二者的概念、特点以及在实际应用中的差异。

在浮点定点化失真的原因部分，我们将分析造成浮点定点化失真的主要因素，如数值范围的限制和舍入误差等。

在浮点定点化失真的影响部分，我们将探讨这种失真对计算结果和系统性能的影响，以及可能引发的问题和挑战。

第三部分是结论部分，包括总结浮点定点化失真的重要性、对浮点定点化失真的应对措施和展望浮点定点化失真的未来发展。

浮点运算转定点运算

浮点运算转定点运算与afreez⼀起学习DSP中浮点转定点运算⼀：浮点与定点概述1.1相关定义说明定点数：通俗的说，⼩数点固定的数。

以⼈民币为例，我们⽇常经常说到的如123.45￥，789.34￥等等，默认的情况下，⼩数点后⾯有两位⼩数，即⾓，分。

如果⼩数点在最⾼有效位的前⾯，则这样的数称为纯⼩数的定点数，如0.12345，0.78934等。

如果⼩数点在最低有效位的后⾯，则这样的数称为纯整数的定点数，如12345，78934等。

浮点数：⼀般说来，⼩数点不固定的数。

⽐较容易的理解⽅式是，考虑以下我们⽇常见到的科学记数法，拿我们上⾯的数字举例，如123.45，可以写成以下⼏种形式：12.345x1011.2345 x1020.12345 x103xi……为了表⽰⼀个数，⼩数点的位置可以变化，即⼩数点不固定。

1.2定点数与浮点数的对⽐为了简单的把问题描述清楚，这⾥都是⼗进制数字举例，详细的分析，⼤家可以在后⾯的⽂章中看到。

(1)表⽰的精度与范围不同例如，我们⽤4个⼗进制数来表达⼀个数字。

对于定点数（这⾥以定点整数为例），我们表⽰区间[0000，9999]中的任何⼀个数字，但是如果我们要想表⽰类似1234.3的数值就⽆能为⼒了，因为此时的表⽰精度为1/100=1；如果采⽤浮点数来表⽰（以归整的科学记数法，即⼩数点前有⼀位有效位，为例），则可以表⽰[0.000，9.999]之间的任何⼀个数字，表⽰的精度为1/103=0.001，精度⽐上⼀种⽅式提⾼了很多，但是表⽰的范围却⼩了很多。

也就是说，⼀般的，定点数表⽰的精度较低，但表⽰的数值范围较⼤；⽽浮点数恰恰相反。

(2)计算机中运算的效率不同⼀般说来，定点数的运算在计算机中实现起来⽐较简单，效率较⾼；⽽浮点数的运算在计算机中实现起来⽐较复杂，效率相对较低。

(3)硬件依赖性⼀般说来，只要有硬件提供运算部件，就会提供定点数运算的⽀持（不知道说的确切否，没有听说过不⽀持定点数运算的硬件），但不⼀定⽀持浮点数运算，如有的很多嵌⼊式开发板就不提供浮点运算的⽀持。

模型代码生成时浮点到定点的转换转

模型代码生成时浮点到定点的转换转浮点转换为定点是嵌入式软件开发中的一个重要步骤，这项工作非常繁琐，需要大量人力并且容易产生错误。

用浮点数学设计的算法表示理想的算法行为，经常必须转换为定点数学，才能用于更加经济的、只支持整数的大规模生产的硬件。

转换后，位精确的定点仿真使您在将该设计嵌入到硬件之前就能够研究定点数据类型的行为。

本文使用具有容错能力的燃料系统模型作为示例，描述了将浮点模型定点化并生成产品级代码的工具和工作流程。

涵盖的主题包括：*准备模型和数据*分析、改进以及优化定点定标*生成优化代码此处描述的方法采用Simulink Fixed Point中的两种工具：Fixed-Point Advisor和Fixed-Point Tool。

准备模型和数据进行转换容错燃料系统模型包含三个主要组件：ECU控制器、发动机气动力学设备以及几个传感器。

在本文中，我们着重讲述ECU控制器。

Fixed-Point Advisor是一个交互式工具，旨在加速模型准备过程图1：通过Fixed-Point Advisor准备模型。

使用Fixed-Point Advisor，我们可完成下列步骤(在下面会详细讨论)：*替换不支持的模块。

*设置信号记录并创建初始参考数据。

*指定目标硬件特性。

*准备数据类型和定标。

*执行初始数据类型和定标。

*检查模型对于产品级代码部署的适宜性。

替换不支持的模块Fixed Point Advisor会检查模型里是否有不支持定点数据类型的模块。

连续的模块将被离散的模块替换。

Simulink模块支持的数据类型列表表明大多数模块支持定点数据类型。

与成百个嵌入式MATLAB函数(包括嵌入式算法设计中通常使用的函数)一样，Stateflow完全支持定点数据类型。

设置信号记录并创建初始参考数据在仿真过程中，会记录诸如输入和输出信号等感兴趣的信号，以用于与浮点模型的等值比较以及代码生成。

我们可以记录所有信号，或者从模型子系统层级中选择信号，包括未命名的信号。

DSP编程技巧之22详解浮点运算的定点编程

DSP编程技巧之22详解浮点运算的定点编程我们使用的处理器一般情况下，要么直接支持硬件的浮点运算，比如某些带有FPU的器件，要么就只支持定点运算，此时对浮点数的处理需要通过编译器来完成。

在支持硬件浮点处理的器件上，对浮点运算的编程最快捷的方法就是直接使用浮点类型，比如单精度的float来完成。

但是在很多情况下，限于成本、物料等因素，可供我们使用的只有一个定点处理器时，直接使用float类型进行浮点类型的运算会使得编译器产生大量的代码来完成一段看起来十分简单的浮点数学运算，造成的后果是程序的执行时间显著加长，且其占用的资源量也会成倍地增加，这就涉及到了如何在定点处理器上对浮点运算进行高效处理的问题。

本文引用地址：/article/263475.htm 既然是定点处理器，那么其对定点数，或者说字面意义上的“整数”进行处理的效率就会比它处理浮点类型的运算要高的多。

所以在定点处理器上，我们使用定点的整数来代表一个浮点数，并规定整数位数和小数位数，从而方便地对定点数和浮点数进行转换。

以一个32位的定点数为例，假设转换因子为Q，即32位中小数的位数为Q，整数位数则为31-Q(有符号数的情况)，则定点数与浮点数的换算关系为：定点数=浮点数×2^Q例如，浮点数-2.0转换到Q为30的定点数时，结果为：定点数=-2×2^30=-2147483648 32位有符号数的表示范围是：-2147483648到2147483647。

如果我们把有符号定点数的最大值2147483647转换为Q为30对应的浮点数，则结果为：浮点数2147483647/2^30=1.999999999 从上面的两个计算例子中也可以看出，在Q30格式的情况下，最大的浮点数只能表示到1.999999999，如果我们想把浮点数2.0转换为Q30的定点数，则产生了溢出，即造成了1e-9的截断误差。

在此我们列出Q0到Q30对应的范围和分辨率如下表所示：如果你嫌自己计算麻烦的话，可以借助Matlab的命令来求取它们的转换，例如，在Matlab的命令窗口中输入：q = quantizer('fixed', 'ceil', 'saturate', [32 30]);FixedNum=bin2dec(num2bin(q,1.999999999)); 回车之后就可以看到1.999999999转成Q30之后的定点数了。

第3讲定点运算及浮点运算

定点数转换为浮点数
x float xq 2Q

浮点数 x=0.5，定标 Q＝15，则定点数＝0.5*32768=16384
Q表示 Q15
S表示 S0.15
十进制数表示范围 -1≤X≤0.9999695
Q14
. . . . . . Q1 Q0
S1.14
. . . . . . S14.1 S15.0

定点加法
被加数加数
0 0 X X X X X X X X X X X X X X
0 0 X X X X X X X X X X X X X X
无溢出被加数加数
0 1 X X X X X X X X X X X X X X
0 1 X X X X X X X X X X X X X X
有溢出
定点加法
Q表示法16进制数2000H
Q0表示为8192
0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
符号位
Q15表示为0.25
小数点的位置
0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
小数点的位置
浮点数与定点数的转换关系

浮点数转换为定点数
xq int x 2Q
提高查表法的精度扩大自变量范围

混合法

提高查表法的精度
扩大查表法的范围
设：表的范围为0.5 ～ 1 ，X为大于0.5的数则：X m 2e 式中， 0.5 m 1 ，e为整数 log 2 ( X ) log 2 (m 2e ) log 2 (m ) log 2 (2e ) log 2 (m ) e 例如： log 2 (10000) log 2 (0.61035 214 ) log 2 (0.61035) 14 13.2877

matlab浮点数定点化

matlab浮点数定点化Matlab浮点数定点化一、引言在数值计算和科学计算中，浮点数是一种常用的数据类型。

然而，由于浮点数的表示精度有限，其在计算机中的存储和处理过程中可能会引入误差。

为了解决这个问题，我们可以使用定点化来提高计算的准确性。

本文将介绍在Matlab中如何进行浮点数的定点化处理。

二、浮点数的表示和问题浮点数是一种以科学计数法表示的实数，其由两部分组成：尾数和指数。

在计算机中，浮点数的表示采用二进制形式，由于二进制无法精确表示所有实数，因此存在舍入误差。

这种误差可能在计算过程中累积，导致结果的不准确性。

三、定点化概述定点化是一种将浮点数表示为定点数的方法。

定点数是一种没有小数点的整数，可以通过将浮点数乘以某个倍数来转化为定点数。

定点化的目的是通过增加小数位数来提高计算的准确性。

在Matlab中，我们可以使用round、floor、ceil等函数来进行定点化处理。

四、定点化的步骤1. 确定定点化的倍数：根据浮点数的范围和精度要求，选择合适的倍数进行定点化。

一般来说，倍数越大，精度越高，但存储和计算的成本也越高。

2. 将浮点数乘以倍数：使用Matlab中的乘法运算符，将浮点数乘以选择的倍数，得到定点数。

3. 进行计算：使用定点数进行计算，得到结果。

4. 还原定点数：如果需要将结果还原为浮点数，可以使用除法运算符将定点数除以选择的倍数，得到浮点数。

五、定点化的示例假设我们需要计算圆的面积，半径为 2.5。

由于浮点数的精度有限，计算结果可能存在误差。

下面是一个使用定点化处理的示例：1. 确定定点化的倍数：为了提高计算的准确性，选择倍数为1000。

2. 将浮点数乘以倍数：使用Matlab中的乘法运算符，将半径 2.5乘以1000，得到定点数2500。

3. 进行计算：使用定点数2500计算圆的面积，得到结果为19.63。

4. 还原定点数：如果需要将结果还原为浮点数，可以使用除法运算符将结果19.63除以1000，得到浮点数0.01963。

算法移植浮点转定点运算二

算法移植浮点转定点运算二TraceBack：小数点的表示为了节省内存，计算机中数值型数据的小数点的位置是隐含的，且小数点的位置既可以是固定的，也可以是变化的。

定点数与浮点数如果小数点的位置事先已有约定，不再改变，此类数称为"定点数"。

相比之下，如果小数点的位置可变，则称为"浮点数"。

⑴定点数。

常用的定点数有两种表示形式：如果小数点位置约定在最低数值位的后面，则该数只能是定点整数；如果小数点位置约定在最高数值位的前面，则该数只能是定点小数。

例如，假定用两个字节存放一个定点数，则以定点方式表示的十进制整数195为：这里，(-0.6876)10=(-0.10110000000001101…)2，转换为无限循环小数，存储时多余的位被截断。

如果知道一个定点数的小数点位置约定和占用存储空间大小，那么很容易确定其表示数的范围。

⑵浮点数。

浮点数表示法来源于数学中的指数表示形式，如193可以表示为0.193x103或1.93x102等。

一般地，数的指数形式可记作：N=M xRC其中，M称为"尾数"，C称为"阶码"。

在存储时，一个浮点数所占用的存储空间被划分为两部分，分别存放尾数和阶码。

尾数部分通常使用定点小数方式，阶码则采用定点整数方式。

尾数的长度影响该数的精度，而阶码则决定该数的表示范围。

同样大小的空间中，可以存放远比定点数取值范围大得多的浮点数，但浮点数的运算规则比定点数更复杂。

1.什么是浮点数在计算机系统的发展过程中，曾经提出过多种方法表达实数。

典型的比如相对于浮点数的定点数(Fixed Point Number)。

【所谓的定点数，就是指小数点的位置是固定的】在这种表达方式中，小数点固定的位于实数所有数字中间的某个位置。

货币的表达就可以使用这种方式，比如99.00或者00.99可以用于表达具有四位精度(Precision)，小数点后有两位的货币值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浮点转定点方法总结—孔德琦目录定点运算方法................................................ 错误!未定义书签。

数的定标 ............................................... 错误!未定义书签。

C语言：从浮点到定点 ................................. 错误!未定义书签。

加法.................................................... 错误!未定义书签。

乘法..................................................... 错误!未定义书签。

除法..................................................... 错误!未定义书签。

三角函数运算............................................ 错误!未定义书签。

开方运算................................................ 错误!未定义书签。

附录...................................................... 错误!未定义书签。

附录1：定点函数库...................................... 错误!未定义书签。

附录2：正弦和余弦表..................................... 错误!未定义书签。

定点运算方法数的定标对某些处理器而言，参与数值运算的数就是16位的整型数。

但在许多情况下，数学运算过程中的数不一定都是整数。

那么，如何处理小数的呢？应该说，处理器本身无能为力。

那么是不是就不能处理各种小数呢？当然不是。

这其中的关键就是由程序员来确定一个数的小数点处于16位中的哪一位。

这就是数的定标。

通过设定小数点在16位数中的不同位置，就可以表示不同大小和不同精度的小数了。

数的定标用Q表示法。

表列出了一个16位数的16种Q表示能表示的十进制数值范围和近似的精度。

表 Q表示、S表示及数值范围从表可以看出，同样一个16位数，若小数点设定的位置不同，它所表示的数也就不同。

例如：16进制数2000H＝8192，用Q0表示16进制数2000H＝，用Q15表示从表还可以看出，不同的Q所表示的数不仅范围不同，而且精度也不相同。

Q越大，数值范围越小，但精度越高；相反，Q越小，数值范围越大，但精度就越低。

例如，Q0的数值范围是-32768到+32767，其精度为1，而Q15的数值范围为-1到，精度为 1/32768 = 。

因此，对定点数而言，数值范围与精度是一对矛盾，一个变量要想能够表示比较大的数值范围，必须以牺牲精度为代价；而想提高精度，则数的表示范围就相应地减小。

在实际的定点算法中，为了达到最佳的性能，必须充分考虑到这一点。

浮点数与定点数的转换关系可表示为：浮点数(x)转换为定点数(x q )：Qq x 2x (int)*=定点数(q x )转换为浮点数(x)：Qq x -*=2)float (x例如，浮点数 x=，定标 Q ＝15，则定点数q x ＝⎣⎦16384327685.0=⨯，式中⎣⎦表示下取整。

反之，一个用 Q ＝15 表示的定点数16384，其浮点数为16384×2-15＝16384/32768=。

1.2 c 语言：从浮点到定点下面所描述的几种基本运算是浮点到定点转换中经常遇到的，从中可以体会到一些基本的技巧和方法。

加法设浮点加法运算的表达式为：float x,y,z; z=x+y;将浮点加法/减法转化为定点加法/减法时最重要的一点就是必须保证两个操作数的定标值一样。

若两者不一样，则在做加法/减法运算前先进行小数点的调整。

为保证运算精度，需使Q 值小的数调整为与另一个数的Q 值一样大。

此外，在做加法/减法运算时，必须注意结果可能会超过16位表示，即数的动态范围。

如果加法/减法的结果超出16位的表示范围，则必须保留32位结果，以保证运算的精度。

1．结果不超过16位表示范围设x 的Q 值为Qx ，y 的Q 值为Qy ，且Qx>Qy ，加法/减法结果z 的定标值为Qz ，则z ＝x+yyx z Q q Q q Q q y x z ---⋅+⋅=⋅222=x y x xQ Q Q q Q q y x ---⋅⋅+⋅222)(=x y x Q Q Q q q y x --⋅⋅+2]2[)()()(2]2[x z y x Q Q Q Q q q q y x z --⋅⋅+=一般情况，我们取x,y 和z 的定标值相同，即Qx = Qy = Qz = Qa 。

所以定点加法可以描述为：short x, y, z ; 定点减法:short x, y, z ; 2．结果超过16位表示范围设x 的Q 值为Qx ，y 的Q 值为Qy ，且Qx>Qy ，加法结果z 的定标值为Qz,则定点加法为：int x ，y ； long temp ，z ； temp ＝y<<(Qx-Qy)； temp ＝x ＋temp;z ＝temp>>(Qx-Qz)，若Qx ≥Qz z ＝temp<<(Qz-Qx)，若Qx ≤Qz一般情况，我们取x,y 和z 的定标值相同，即Qx = Qy = Qz = Qa 。

所以定点加法可以描述为： int x, y, z ;定点减法:int x, y, z ; 3. 结果超过32位表示范围这种情况下位数超出了标准c 语言的数的表示范围，只能用数组来保存变量。

定点加法可以描述为：#define NN_DIGIT unsigned int NN_DIGIT x [digits], y [digits], z [digits] ;zQ q z -⋅2)(2y x Q Q q q y x +-⋅⋅q z )(2)(y x z Q Q Q q q y x +-结果超过32位表示范围这种情况下位数超出了标准c 语言的数的表示范围，只能用数组来保存变量。

定点乘法可表示为：#define NN_DIGIT unsigned intNN_DIGIT x [digits]; NN_DIGIT y [digits]; NN_DIGIT z [2* digits]; NN_Mult (z, x, y, digits);应注意的是以上32位乘法都是无符号数操作，如果需要做有符号数乘法，则需要根据乘数的符号来判断。

例1设x = ，y = ，则浮点运算值为z =× = ; 设 Qx = 10，Qy = 9，Qz = 5，所以 int x = 18841；32位除法设浮点除法运算的表达式为：float x,y,z; z = x/y;假设经过统计后被除数x 的定标值为Qx ，除数y 的定标值为Qy ，商z 的定标值为Qz ，则z = x/yzQ q z -⋅2= yx Q q Q q y x --⋅⋅22qQ Q Q q q y x z y x z )(2+-⋅=所以定点表示的除法为：int x,y,z;z = L_shl(x, (Qz-Qx+Qy) )/y; 32位以上的除法这种情况下位数超出了标准c 语言的数的表示范围，只能用数组来保存变量。

#define NN_DIGIT unsigned intNN_DIGIT x [2*digits]; tab_cos[t]tab_cos[t+1]position2 + *x + <abs(x)<5拟合可以调用matlab 的命令ployfit 来做，例如： x=[start::stop]; y=atan(x);pa=polyfit(x,y,2);上式中的运算都是简单的乘法运算，较为简单。

开方运算浮点开方运算描述为： float x, y; y = sqrt(x);定点求开方有多种方法，各种方法在收敛速度上不尽相同，下面介绍几种常用的迭代算法。

1．Newton-Raphson-Babylonian 算法：给定整数N, 求sqrt(N)。

首先确定初值x[0], 然后利用一个简单的迭代公式： x[n+1] = (x[n] +N/x[n])/2迭代次数的选择：迭代次数与初值x[0]的选取很有关系，x[0]越接近sqrt(N), 收敛越快。

但总的来说，该方法收敛较快。

缺点是收敛时间不确定。

2．确定收敛速度的算法：该方法描述如下：int sqrt(int x){ int test, step;if (x < 0) return(-1); if (x == 0) return(0);step = 1<<15;test = 0;while (step != 0){register int h;h = (test + step) * (test + step);if (h <= x) {test += step;}if (h == x) break;step >>= 1;}return(test);}以上例子是32位开放运算，32位以上的开方运算可参考附录1 void fixsqrt(UINT4* a, UINT4* b,int digits)，方法同上。

求开方还可以运用线性拟合的方法，由于曲线变化较快，必须根据自变量的范围分段拟合才能达到理想的精度。

附录附录1：定点函数库/*___________________________________________________________________________| | | Function Name : L_add | | | | Purpose : | | | | 32 bits addition of the two 32 bits variables (L_var1+L_var2) with | | overflow control and saturation; the result is set at +47 when || overflow occurs or at -48 when underflow occurs. || | | Complexity weight : 2 | | | | Inputs : | | | | L_var1 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var3 <= 0x7fff ffff. | | | | L_var2 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var3 <= 0x7fff ffff. || | | Outputs : | | | | none | | | | Return Value : | | | | L_var_out | | 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var_out <= 0x7fff ffff. | |___________________________________________________________________________| */Word32 L_add(Word32 L_var1, Word32 L_var2)/*___________________________________________________________________________ | | | Function Name : L_sub | | | | Purpose : | | | | 32 bits subtraction of the two 32 bits variables (L_var1-L_var2) with | | overflow control and saturation; the result is set at +7 when || overflow occurs or at -8 when underflow occurs. || | | Complexity weight : 2 | | | | Inputs : | | | | L_var1 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var3 <= 0x7fff ffff. | | | | L_var2 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var3 <= 0x7fff ffff. | | | | Outputs : | | | | none | | | | Return Value : | | | | L_var_out | | 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var_out <= 0x7fff ffff. ||___________________________________________________________________________| */Word32 L_sub(Word32 L_var1, Word32 L_var2)/*___________________________________________________________________________ | | | Function Name : add | | | | Purpose : | | | | Performs the addition (var1+var2) with overflow control and saturation;| | the 16 bit result is set at +32767 when overflow occurs or at -32768 | | when underflow occurs. | | | | Complexity weight : 1 | | | | Inputs : | | | | var1 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | var2 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | Outputs : | | | | none | | | | Return Value : | | | | var_out | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var_out <= 0x0000 7fff. | |___________________________________________________________________________| */Word16 add(Word16 var1,Word16 var2)/*___________________________________________________________________________| | | Function Name : sature | | | | Purpose : | | | | Limit the 32 bit input to the range of a 16 bit word. | | | | Inputs : | | | | L_var1 | | 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var1 <= 0x7fff ffff. | | | | Outputs : | | | | none | | | | Return Value : | | | | var_out | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var_out <= 0x0000 7fff. | |___________________________________________________________________________| */Word16 sature(Word32 L_var1)/*___________________________________________________________________________ | | | Function Name : sub | | | | Purpose : | | | | Performs the subtraction (var1+var2) with overflow control and satu- | | ration; the 16 bit result is set at +32767 when overflow occurs or at | | -32768 when underflow occurs. | | | | Complexity weight : 1 | | | | Inputs : | | | | var1 | | 16 bit short signed integer (Word16) whose value falls in the || range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | var2 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | Outputs : | | | | none | | | | Return Value : | | | | var_out | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var_out <= 0x0000 7fff. | |___________________________________________________________________________| */Word16 sub(Word16 var1,Word16 var2)/*___________________________________________________________________________ | | | Function Name : L_mult | | | | Purpose : | | | | L_mult is the 32 bit result of the multiplication of var1 times var2 | | with one shift left .: || L_mult(var1,var2) = shl((var1 times var2),1) and | | L_mult(-32768,-32768) = 47. || | | Complexity weight : 1 | | | | Inputs : | | | | var1 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | var2 | | 16 bit short signed integer (Word16) whose value falls in the | | range : 0xffff 8000 <= var1 <= 0x0000 7fff. | | | | Outputs : || | | none | | | | Return Value : | | | | L_var_out | | 32 bit long signed integer (Word32) whose value falls in the | | range : 0x8000 0000 <= L_var_out <= 0x7fff ffff. | |___________________________________________________________________________| */Word32 L_mult(Word16 var1,Word16 var2)/* Computes the square root of a fixpoint number a = square(b).*//* length :a[digits], b[2*digits] */void fixsqrt(UINT4* a, UINT4* b, int digits){Returns carry.Lengths: a[digits], b[digits], c[digits].*/NN_DIGIT NN_Add (a, b, c, digits)NN_DIGIT *a, *b, *c;unsigned int digits;/* Computes a = b - c. Returns borrow.Lengths: a[digits], b[digits], c[digits].*/NN_DIGIT NN_Sub (a, b, c, digits)NN_DIGIT *a, *b, *c;unsigned int digits;/* Computes a = b * c.Lengths: a[2*digits], b[digits], c[digits].Assumes digits < MAX_NN_DIGITS.*/void NN_Mult (a, b, c, digits)NN_DIGIT *a, *b, *c;unsigned int digits;/* Returns sign of a - b. */int NN_Cmp (a, b, digits)NN_DIGIT *a, *b;unsigned int digits;/* Computes a = b * 2^c ., shifts left c bits), returning carry.Requires c < NN_DIGIT_BITS. */NN_DIGIT NN_LShift (a, b, c, digits)NN_DIGIT *a, *b;unsigned int c, digits;/* Computes a = b div 2^c ., shifts right c bits), returning carry.Requires: c < NN_DIGIT_BITS. */NN_DIGIT NN_RShift (a, b, c, digits)NN_DIGIT *a, *b;unsigned int c, digits;/* Returns the significant length of a in digits. */unsigned int NN_Digits (a, digits)NN_DIGIT *a;unsigned int digits;/* Assigns a = 0. */void NN_AssignZero (a, digits)NN_DIGIT *a;unsigned int digits;/* Assigns a = b. */void NN_Assign (a, b, digits)NN_DIGIT *a, *b;unsigned int digits;/* Computes a * b, result stored in high and low. */static void dmult( a, b, high, low)NN_DIGIT a, b;NN_DIGIT *high;NN_DIGIT *low;/* Computes a = c div d and b = c mod d..Lengths: a[cDigits], b[dDigits], c[cDigits], d[dDigits].Assumes d > 0, cDigits < 2 * MAX_NN_DIGITS,dDigits < MAX_NN_DIGITS.*/void NN_Divmod (a, b, c, cDigits, d, dDigits)NN_DIGIT *a, *b, *c, *d;unsigned int cDigits, dDigits;/* Computes a = c div d.Lengths: a[cDigits], b[dDigits], c[cDigits], d[dDigits].Assumes d > 0, cDigits < 2 * MAX_NN_DIGITS,dDigits < MAX_NN_DIGITS.*/void NN_Div(a, c, cDigits, d, dDigits)NN_DIGIT *a, *c, *d;unsigned int cDigits, dDigits;{Lengths: a[cDigits], b[bDigits], c[cDigits].Assumes c > 0, bDigits < 2 * MAX_NN_DIGITS, cDigits < MAX_NN_DIGITS. */void NN_Mod (a, b, bDigits, c, cDigits)NN_DIGIT *a, *b, *c;unsigned int bDigits, cDigits;{NN_DIGIT t[2 * MAX_NN_DIGITS];NN_Divmod (t, a, b, bDigits, c, cDigits);}/* Returns the significant length of a in bits, where a is a digit. */static unsigned int NN_DigitBits (a)NN_DIGIT a;{unsigned int i;for (i = 0; i < NN_DIGIT_BITS; i++, a >>= 1)if (a == 0)break;return (i);}附录2：正弦和余弦表/*-----------------------------------------------------*| Table for calculating sin(x) , fixed Q15.| Author: luj| Date: -----------------------------------------------------*/ Word16 tab_sin[360] = { /*<sin(2*pi*i/360)*2^15>*/};/*-----------------------------------------------------*| Table for calculating cos(x) , fixed Q15.| Author: luj| Date: -----------------------------------------------------*/ Word16 tab_cos[360] = { /*<cos(2*pi*i/360)*2^15>*/};。