有关浮点数在内存中的存储

合集下载

c++语言中单精度浮点型和双精度浮点型

c++语言中单精度浮点型和双精度浮点型
在C++语言中，单精度浮点型和双精度浮点型是用于表示实数的数据类型。

单精度浮点型，也称为float类型，在内存中占用4个字节（32位）。

它的取值范围约为-3.4E38到3.4E38，并且可以保留大约6到7位有
效数字。

浮点数在内存中以科学记数法的形式存储，即一个数的科学
记数法形式为m x 10^n，其中m称为尾数，n称为阶码。

单精度浮点
型能够表示小数点后多达6到7位的位置。

双精度浮点型，也称为double类型，在内存中占用8个字节（64位）。

它的取值范围约为-1.7E308到1.7E308，并且可以保留大约15到16
位有效数字。

双精度浮点型相比于单精度浮点型，能够表示更大范围
和更高精度的实数值。

双精度浮点型在内存中的存储方式与单精度浮
点型相似。

在C++中，可以使用float关键字定义单精度浮点型变量，如：float num = 3.14f；使用double关键字定义双精度浮点型变量，如：
double num = 3.14159；在进行浮点数运算时，C++会根据操作数的类
型自动选择合适的函数进行计算。

需要注意的是，由于浮点数的存储方式与实数的存储方式存在一定的
差别，因此在进行浮点数比较时应该注意精度误差的问题，可以使用
特定的比较方法来避免精度误差带来的问题。

浮点数在内存中的存储方式

浮点数在内存中的存储方式
浮点数是存储浮点计算结果的一种常见数据类型，可以用来表示介于有理数和无理数
之间的数值。

在内存中，浮点数通常以“浮点编码”形式进行存储，其表示方法有IEEE-754标准，按照该标准，浮点数可以用32位或64位表示。

IEEE-754标准，32位浮点编码的存储格式如下：首先用一位来表示有效数字的符号，即正数时为0，负数时为1，后面接8位无符号表示指数域，再接23位有符号表示尾数域。

一般来说，在当前系统中，IEEE-754标准可以分为单精度浮点数（32位）和双精度
浮点数（64位）。

单精度浮点数的存储格式如上所述：第一位为符号位，接下来的八位位指数域，然后是尾数域。

指数域是由八位“2的次幂”组合而成的，尾数域是有效数字的
连续序列。

而双精度格式（64位）的存储形式同样遵循IEEE754标准，区别在于：双精度格式符号位和指数域都是一位，而且指数域长度为11位；尾数域长度则增加到52位。

其存储格
式如下：第一位为符号位，接着是11位指数域，最后跟着52位尾数域。

指数域仍不变，根据尾数域存储了更多的有效数字，因此可以储存较大的数，这就是
双精度格式的优势。

另外，因为双精度格式能够存储更多的位数，可以更为精确地存储我
们的数据，因此，在数值计算中，双精度浮点数常常被使用。

浮点数在内存中的存储方式

浮点数在内存中的存储方式任何数据在内存中都是以二进制的形式存储的，例如一个short型数据1156，其二进制表示形式为00000100 10000100。

则在Intel CPU架构的系统中，存放方式为10000100(低地址单元) 00000100(高地址单元)，因为Intel CPU的架构是小端模式。

但是对于浮点数在内存是如何存储的?目前所有的C/C++编译器都是采用IEEE所制定的标准浮点格式，即二进制科学表示法。

在二进制科学表示法中，S=M*2^N 主要由三部分构成：符号位+阶码(N)+尾数(M)。

对于float型数据，其二进制有32位，其中符号位1位，阶码8位，尾数23位；对于double型数据，其二进制为64位，符号位1位，阶码11位，尾数52位。

31 30-23 22-0float 符号位阶码尾数63 62-52 51-0double 符号位阶码尾数符号位：0表示正，1表示负阶码：这里阶码采用移码表示，对于float型数据其规定偏置量为127,阶码有正有负，对于8位二进制，则其表示范围为-128-127，double型规定为1023，其表示范围为-1024-1023。

比如对于float型数据，若阶码的真实值为2，则加上127后为129，其阶码表示形式为10000010尾数:有效数字位，即部分二进制位(小数点后面的二进制位)，因为规定M的整数部分恒为1，所以这个1就不进行存储了。

下面举例说明：float型数据125.5转换为标准浮点格式125二进制表示形式为1111101，小数部分表示为二进制为1，则125.5二进制表示为1111101.1，由于规定尾数的整数部分恒为1，则表示为1.1111011*2^6，阶码为6，加上127为133，则表示为10000101，而对于尾数将整数部分1去掉，为1111011，在其后面补0使其位数达到23位，则为11110110000000000000000则其二进制表示形式为0 10000101 11110110000000000000000，则在内存中存放方式为：00000000 低地址000000001111101101000010 高地址而反过来若要根据二进制形式求算浮点数如0 10000101 11110110000000000000000由于符号为为0，则为正数。

整数和浮点数在内存中的存储方式

整数和浮点数在内存中的存储方式内存储器的最小单位称为“位（bite）”，存放0或1，是一个二进制位。

一个“字节（byte）”由八位组成，并给每个字节分配一个地址。

若干个字节组成一个“字（word）”,用来存放一条机器指令或一个数据。

一、整数C语言中，一个int整数通常有两个字节存放，最高位存放整数的符号，正整数置0负整数置1。

1、正整数：两个字节存放的最大正整数是：0111111111111111，即十进制32767。

2、负整数：①负整数在内存中以补码形式存放，即按位取反得到反码，反码加1得到补码。

②将补码形式存放的二进制数转换成十进制的负整数的步骤☆按位取反☆转化成十进制数，并添加负号☆对所求数值减13、无符号型：此类型没有符号位，16位全部为有效位，即两个字节存放的最大正整数是：1111111111111111，即十进制65535。

二、浮点数浮点数保存的字节格式如下：地址+0 +1 +2 +3内容SEEE EEEE EMMM MMMM MMMMMMMMMMMMMMMM这里S 代表符号位，1是负，0是正E 偏移127的幂，二进制阶码=(EEEEEEEE)-127。

M 24位的尾数保存在23位中，只存储23位，最高位固定为1。

此方法用最较少的位数实现了较高的有效位数，提高了精度。

零是一个特定值，幂是0 尾数也是0。

浮点数-12.5作为一个十六进制数0xC1480000保存在存储区中，这个值如下：地址+0 +1 +2 +3内容0xC1 0x48 0x00 0x00浮点数和十六进制等效保存值之间的转换相当简单。

下面的例子说明上面的值-12.5如何转换。

浮点保存值不是一个直接的格式，要转换为一个浮点数，位必须按上面的浮点数保存格式表所列的那样分开，例如：地址+0 +1 +2 +3格式SEEE EEEE EMMM MMMM MMMMMMMMMMMMMMMM二进制11000001 01001000 00000000 00000000十六进制C1 48 00 00从这个例子可以得到下面的信息：符号位是1 表示一个负数幂是二进制10000010或十进制130，130减去127是3，就是实际的幂。

浮点数在内存中的存储方式

浮点数在内存中的存储⽅式1、在使⽤switch（value）时，value的类型可以是浮点吗？2、判断浮点数是否相等时，可以⽤float f1,f2; if(fi==f2){do something;}吗？都不可以。

这涉及浮点数在内存中的存储⽅式。

⼀、float型在内存中占4字节，double占8字节。

单精度float在内存中的存储格式如下图（1位符号位S，8位指数位E，23位有效数字M）：双精度double在内存中的存储格式如下图（1位符号位S，11位指数位E，52位有效数字M）：本⽂主要说单精度浮点型float，double类似。

(-1)^S * M * 2^E(-1)^S表⽰正负，S=1时为负，S=0时为正；M表⽰有效数字，1<=M<2；2^(E-127)表⽰指数位。

如⼗进制8.125，将其转化成⼆进制形式：对于整数部分8：8/2 商：4 余：04/2 商：2 余：02/2 商：1 余：01/2 商：0 余：1余数逆序，所以8的⼆进制为：1000对于⼩数部分0.125，：0.125*2 整数：0 ⼩数：0.250.25*2 整数：0 ⼩数：0.50.5*2 整数：1 ⼩数：0整数部分正序，所以0.125的⼆进制为：001所以8.125的⼆进制形式为：1000.001，即1.000001 * 2^3。

因是正数，所以，S=0；因M表⽰有效数字，1<=M<2，所以M=1.xxxxxxx，其中⼩数点前的1是固定的，可省略，则M只需要表⽰⼩数点后的数即可，故可⽤23位有效数字表⽰M部分，则8.125的M部分为 000 0010 0000 0000 0000 0000；⽽E部分8位是unsigned char，范围为0~255，但科学计数法的指数部分有正有负，故整体偏移127，⽤0~255来表⽰-127~128，所以8.125的指数E部分，实际写的是E：3+127=130=1000 0010，综上：8.125在内存中的存放bit为 0 1000 0010 000 0010 0000 0000 0000 0000 0000 ，即0x41020000程序验证⼀下：float f=8.125f;unsigned char *p = (unsigned char *)&f;printf("%x %x %x %x\n",p[0], p[1], p[2], p[3]);结果：0 0 2 41⼩端存储模式，低字节在前，⾼字节在后。

浮点数在计算机内存中的表示（IEEE754规定1位是符号位，8位是指数，剩下的23位为有效数字）

浮点数在计算机内存中的表⽰（IEEE754规定1位是符号位，8位是指数，剩下的23位为有效数字）1.前⼏天，我在读⼀本C语⾔教材，有⼀道例题： #include <stdio.h> void main(void){ int num=9; /* num是整型变量，设为9 */ float* pFloat=&num; /* pFloat表⽰num的内存地址，但是设为浮点数 */ printf("num的值为：%d\n",num); /* 显⽰num的整型值 */ printf("*pFloat的值为：%f\n",*pFloat); /* 显⽰num的浮点值 */ *pFloat=9.0; /* 将num的值改为浮点数 */ printf("num的值为：%d\n",num); /* 显⽰num的整型值 */ printf("*pFloat的值为：%f\n",*pFloat); /* 显⽰num的浮点值 */ }运⾏结果如下： num的值为：9 *pFloat的值为：0.000000 num的值为：1091567616 *pFloat的值为：9.000000我很惊讶，num和*pFloat在内存中明明是同⼀个数，为什么浮点数和整数的解读结果会差别这么⼤？要理解这个结果，⼀定要搞懂浮点数在计算机内部的表⽰⽅法。

我读了⼀些资料，下⾯就是我的笔记。

2.在讨论浮点数之前，先看⼀下整数在计算机内部是怎样表⽰的。

int num=9;上⾯这条命令，声明了⼀个整数变量，类型为int，值为9（⼆进制写法为1001）。

普通的32位计算机，⽤4个字节表⽰int变量，所以9就被保存为00000000 00000000 00000000 00001001，写成16进制就是0x00000009。

那么，我们的问题就简化成：为什么0x00000009还原成浮点数，就成了0.000000？3.根据国际标准IEEE 754，任意⼀个⼆进制浮点数V可以表⽰成下⾯的形式：（1）(-1)^s表⽰符号位，当s=0，V为正数；当s=1，V为负数。

float型的表示范围

float型的表示范围float型数据是一种用于表示浮点数的数据类型，在计算机编程中广泛应用。

float型的表示范围指的是该数据类型能够表示的数值范围。

float型数据在内存中占据4个字节的空间，用于存储单精度浮点数。

其表示范围大约为1.4E-45到3.4E38，可以表示的精度为6到7位小数。

浮点数是用科学计数法表示的，由一个有效数字和一个指数组成。

有效数字的每一位都可以是0到9之间的整数，指数可以是负数、0或正数。

浮点数的表示范围从非常小的数到非常大的数都可以涵盖，例如表示天文学中的天体质量、地球上的温度、物体的速度等。

在程序中，我们可以使用float型数据来进行各种数值计算和表示。

例如，在科学计算中，我们可以使用float型数据来表示粒子的速度、温度的变化等。

在金融领域，我们可以使用float型数据来表示股票的价格、货币的汇率等。

在游戏开发中，我们可以使用float型数据来表示游戏中的角色的位置、速度等。

然而，需要注意的是，float型数据由于精度有限，可能会出现舍入误差。

在进行浮点数的比较时，应该尽量避免直接比较两个浮点数是否相等，而应该使用误差范围进行比较。

另外，由于浮点数的表示范围有限，当超出范围时，可能会出现溢出或下溢的情况，导致结果不准确。

为了更好地使用float型数据，我们可以使用一些技巧和注意事项。

首先，我们应该尽量避免进行过多的浮点数运算，尤其是在循环中。

其次，我们可以使用一些库函数来处理浮点数，例如四舍五入、取整等操作。

此外，我们还可以使用double型数据来提高精度，但需要注意的是，double型数据在内存中占据8个字节的空间，可能会占用更多的内存。

float型数据是一种用于表示浮点数的数据类型，其表示范围有限，但可以满足大多数实际应用的需求。

在使用float型数据时，我们应该注意精度问题，并避免超出表示范围的情况。

另外，我们还可以使用一些技巧和注意事项来更好地处理浮点数。

C语言中float,double类型,在内存中的结构（存储方式）.

C语⾔中float,double类型,在内存中的结构（存储⽅式）.从存储结构和算法上来讲，double和float是⼀样的，不⼀样的地⽅仅仅是float是32位的，double是64位的，所以double能存储更⾼的精度。

任何数据在内存中都是以⼆进制（0或1）顺序存储的，每⼀个1或0被称为1位，⽽在x86CPU上⼀个字节是8位。

⽐如⼀个16位（2 字节）的short int型变量的值是1000，那么它的⼆进制表达就是：00000011 11101000。

由于Intel CPU的架构原因，它是按字节倒序存储的，那么就因该是这样：11101000 00000011，这就是定点数1000在内存中的结构。

⽬前C/C++编译器标准都遵照IEEE制定的浮点数表⽰法来进⾏float,double运算。

这种结构是⼀种科学计数法，⽤符号、指数和尾数来表⽰，底数定为2——即把⼀个浮点数表⽰为尾数乘以2的指数次⽅再添上符号。

下⾯是具体的规格：符号位阶码尾数长度float 1 8 23 32double 1 11 52 64临时数 1 15 64 80由于通常C编译器默认浮点数是double型的，下⾯以double为例：共计64位，折合8字节。

由最⾼到最低位分别是第63、62、61、……、0位：最⾼位63位是符号位，1表⽰该数为负，0正； 62-52位，⼀共11位是指数位； 51-0位，⼀共52位是尾数位。

按照IEEE浮点数表⽰法，下⾯将把double型浮点数38414.4转换为⼗六进制代码。

把整数部和⼩数部分开处理:整数部直接化⼗六进制：960E。

⼩数的处理: 0.4=0.5*0+0.25*1+0.125*1+0.0625*0+…… 实际上这永远算不完！这就是著名的浮点数精度问题。

所以直到加上前⾯的整数部分算够53位就⾏了（隐藏位技术：最⾼位的1 不写⼊内存）。

如果你够耐⼼，⼿⼯算到53位那么因该是：38414.4(10)=1001011000001110.0110101010101010101010101010101010101(2)科学记数法为：1.001……乘以2的15次⽅。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

有关浮点数在内存中的存储最近想看一下C中float和double型数据在内存中是如何表示的，找到了如下一些东东，与大家分享一下c语言中FLOAT 是如何表示的？尾数，阶码是如何在32位上安排的，即哪几位是尾数，哪几位是阶码，那一位是符号位。

听说与CPU有关，是真的吗？在C++里，实数（float）是用四个字节即三十二位二进制位来存储的。

其中有1位符号位，8位指数位和23位有效数字位。

实际上有效数字位是24位，因为第一位有效数字总是“1”，不必存储。

有效数字位是一个二进制纯小数。

8位指数位中第一位是符号位，这符号位和一般的符号位不同，它用“1”代表正，用”0“代表负。

整个实数的符号位用“1”代表负，“0”代表正。

在这存储实数的四个字节中，将最高地址字节的最高位编号为31，最低地址字节的最低位编号为0，则实数各个部分在这32个二进制位中的分布是这样的：31位是实数符号位，30位是指数符号位，29---23是指数位，22---0位是有效数字位。

注意第一位有效数字是不出现在内存中的，它总是“1”。

将一个实数转化为C++实数存储格式的步骤为：（1）先将这个实数的绝对值化为二进制格式，注意实数的整数部分和小数部分化为二进制的方法是不同的。

（2）将这个二进制格式实数的小数点左移或右移n位，直到小数点移动到第一个有效数字的右边。

（3）从小数点右边第一位开始数出二十三位数字放入第22到第0位。

（4）如果实数是正的，则在第31位放入“0”，否则放入“1”。

（5）如果n 是左移得到的，说明指数是正的，第30位放入“1”。

如果n是右移得到的或n=0，则第30位放入“0”。

（6）如果n是左移得到的，则将n减去一然后化为二进制，并在左边加“0”补足七位，放入第29到第23位。

如果n是右移得到的或n=0，则将n化为二进制后在左边加“0”补足七位，再各位求反，再放入第29到第23位。

将一个计算机里存储的实数格式转化为通常的十进制的格式的方法如下：（1）将第22位到第0位的二进制数写出来，在最左边补一位“1”，得到二十四位有效数字。

将小数点点在最左边那个“1”的右边。

（2）取出第29到第23位所表示的值n。

当30位是“0”时将n各位求反。

当30位是“1”时将n增1。

（3）将小数点左移n位（当30位是“0”时）或右移n位（当30位是“1”时），得到一个二进制表示的实数。

（4）将这个二进制实数化为十进制，并根据第31位是“0”还是“1”加上正号或负号即可。

特别地，实数0用C++的float格式表示是00000000000000000000000000000000。

如果还不太明白，这里举几个例子。

一。

将23.56化为C++的float格式。

（1）将23.56化为二进制后大约是“10111.1000111101011100001”。

（2）将小数点左移四位，得到“1.01111000111101011100001”。

（3）这已经有了二十四位有效数字，将最左边一位“1”去掉，得到“0111 1000111101011100001”。

将它放入第22到第0位。

（4）因为23.56是正数，因此在第31位放入“0”。

（5）由于我们把小数点左移，因此在第30位放入“1”。

（6）因为我们是把小数点左移4位，因此将4减去1得3，化为二进制，并补足七位得到0000011，放入第29到第23位。

完毕。

如果把最左边定为第31位，最右边定为第0位，那么在C++里，float格式的23.56是这样表示的：01000001101111000111101011100001。

相应地-23.56就是这样表示的：11000001101111000111101011100001。

二。

将实数0.2356化为C++的float格式。

（1）将0.2356化为二进制后大约是0.00111100010100000100100000。

（2）将小数点右移三位得到1.11100010100000100100000。

（3）从小数点右边数出二十三位有效数字，即11100010100000100100000放入第22到第0位。

（4）由于0.2356是正的，所以在第31位放入“0”。

（5）由于我们把小数点右移了，所以在第30位放入“0”。

（6）因为小数点被右移了3位，所以将3化为二进制，在左边补“0”补足七位，得到0000011，各位取反，得到1111100，放入第29到第23位。

完毕。

因此0.2356用C++的float格式表示是：00111110011100010100000100100000。

其中最左边一位是第31位，最右边一位是第0位。

三。

将实数1.0化为C++的float格式。

（1）将1.0化为二进制后是1.00000000000000000000000。

（2）这时不用移动小数点了，这就是我们在转化方法里说的n=0的情况。

（3）将小数点右边的二十三位有效数字00000000000000000000000放入第22到第0位。

（4）因为1.0是正的，所以在第31位里放入“0”。

（5）因为n=0，所以在第30位里放入“0”。

（6）因为n=0，所以将0补足七位得到0000000，各位求反得到1111111，放入第29到第23位。

完毕。

所以实数1.0用C++的float格式表示是：0011111110000000000000000 0000000。

其中最左边一位是第31位，最右边一位是第0位。

这是IEEE短实数格式，适合X86cpu。

C语言float类型浮点数的存储方法2009-04-17 12:59#include <stdio.h>int main(int argc, char *argv[]){float p = 5.1f;int f = (int)(p*100);printf("%d", f);getch();return 0;}我想要输出 510，可是机器nnd居然输出509(竟然敢扣我工钱)。

到底是what's wrong。

我上看下看，左看又看，看了又看，就是发现不了错误。

于是我试着把5.1改成5.5,一切正常啊。

捣鼓了N个小时后猜想,莫非是浮点数的表示问题，于是花了很久找到浮点数的机器表示方法,照着规定克隆操作了一下。

（据说练过乾坤大挪移的人什么招式都可以克隆）。

IEEE规定的浮点数的机器表示：32位机器的 float 是4字节的，共32位。

第1位是符号位,接着8位指数位，接着23位基数位。

以5.1为例。

5 = 101 (2进制)0.1 = 0.0 0011 0011 0011 0011 0011 0011 .....(无限循环)所以 5.1 = 101.0 0011 0011 0011 0011 0011 0011 0011 0011 ...5.1= 1.010 0011 0011 0011 0011 0011 0011 0011 0011 0011... * 2^2因为第一位总是为1,如果是0,就移动小数点直到是非0的，所以第一位的1丢弃。

得到 010 0011 0011 0011 0011 0011 0011 0011 0011....取23位得到 0100 0110 0110 0110 0110 011接着看指数部分指数是2, 根据规定,指数统一+127再转换为无符号8位2进制数,2+127=129 (1000 0001)存储的时候指数部分存储在基数之前，这样就有31位了，因为5.1是正的，所以符号为是0，存储在指数部分之前这样就得到 0100 0000 1010 0011 0011 0011 0011 0011我们来看一下机器上是否真的如此#include <stdio.h>#include <stdlib.h>int main(int argc, char *argv[]){float a=5.1;int *i=&a;printf("%x", *i);system("PAUSE"); /* 将PAUSE送到system command line去执行 */return 0;}40a333330100 0000 1010 0011 0011 0011 0011 0011果真是一样的。

这个例子就说明了为什么浮点数有时存在这样的问题。

这个数化为10进制整数的时候，由于不可能达到5.1(5.099..)所以×100后截取了前面的值 509。

无奈吧,这个时候想要精确的浮点数的话,只有自己写高精度算法了。

----------------------------------------------------------------------------------- 乘数、被乘数都要先转化为二进制，二进制的乘法远比十进制简单，比如乘数是1011，只需将将被乘数分别左移3位、1位，移动后补入0，并将这三个数（被乘数左移3位的、被乘数左移1位的及未移位的被乘数）在累加器中相加，所得总和就是积，根据需要积可再转化为十进制。

除法与乘法类似，只不过将左移改为右移，加改成减。

实际上减也是通过取补码后再加，因此计算机芯片上的累加器是最繁忙的部分-------------------------------------------------------------------------------------IEEE 754 用科学记数法以底数为 2 的小数来表示浮点数。

IEEE 浮点数用 1 位表示数字的符号，用 8 位来表示指数，用 23 位来表示尾数，即小数部分。

作为有符号整数的指数可以有正负之分。

小数部分用二进制（底数 2）小数来表示，这意味着最高位对应着值 ?(2 -1)，第二位对应着 ?(2 -2)，依此类推。

对于双精度浮点数，用 11 位表示指数，52 位表示尾数。