浮点数在内存中的存储方式

合集下载

float和double类型的内存分布和比较方法

[C/C++] float和double类型的内存分布和比较方法C/C++的浮点数据类型有float和double两种。

类型float大小为4字节，即32位，内存中的存储方式如下：指数和尾数均从浮点数的二进制科学计数形式中获取。

如，十进制浮点数2.5的二进制形式为10.1，转换为科学计数法形式为(1.01)*(10^1)，由此可知指数为1，尾数（即科学计数法的小数部分）为01。

根据浮点数的存储标准（IEEE制定），float类型指数的起始数为127（二进制0111 1111），double类型指数的起始数为1023(二进制011 1111 1111)，在此基础上加指数，得到的就是内存中指数的表示形式。

尾数则直接填入，如果空间多余则以0补齐，如果空间不够则0舍1浮点数2.5可以用二进制小数准确表示（2.5=1*(2^1)+0*(2^0)+1*(2^-1)），但很多小数不可以由于对无限循环尾数的截取遵循0舍1入，尾数的第21~24位为0011，第53~56位为0011，而float尾数容量为23位，double尾数容量为52位，所以，float形式的最后三位因进位而成010，double形式则没有进位发生。

类型float和double通过==,>,<等比较不会引起编译错误，但是非常可能得到错误的结果。

这是因为它们的内存分布不同，不可以直接比较。

正确的方法是转换为同一类型后比较两者差值，如果结果小于规定的小值，则视为相等。

如，一个比较double的实现：/index.php?title=How_to_compare_double_or_float_in_Cpp另外，本文参考了如下webs：/2008/01/memory-map-of-floatdouble.html/hzb1983/archive/2007/09/24/1798555.aspxP.S.1)IEEE浮点数标准：4字节浮点数：1位符号位，8位阶数（基数为127的移码），23位尾数；8字节浮点数：1位符号位，11位阶数（基数为1023的移码），52位尾数2 )在VC中：float数值范围约在-10e38~10e38，并提供7位有效数字位，绝对值小于10e38地数被处理成零值double数值范围约在-10e308~10e308，并提供15~16位有效数字，绝对值小于10e308地数被处理成零值。

c++语言中单精度浮点型和双精度浮点型

c++语言中单精度浮点型和双精度浮点型
在C++语言中，单精度浮点型和双精度浮点型是用于表示实数的数据类型。

单精度浮点型，也称为float类型，在内存中占用4个字节（32位）。

它的取值范围约为-3.4E38到3.4E38，并且可以保留大约6到7位有
效数字。

浮点数在内存中以科学记数法的形式存储，即一个数的科学
记数法形式为m x 10^n，其中m称为尾数，n称为阶码。

单精度浮点
型能够表示小数点后多达6到7位的位置。

双精度浮点型，也称为double类型，在内存中占用8个字节（64位）。

它的取值范围约为-1.7E308到1.7E308，并且可以保留大约15到16
位有效数字。

双精度浮点型相比于单精度浮点型，能够表示更大范围
和更高精度的实数值。

双精度浮点型在内存中的存储方式与单精度浮
点型相似。

在C++中，可以使用float关键字定义单精度浮点型变量，如：float num = 3.14f；使用double关键字定义双精度浮点型变量，如：
double num = 3.14159；在进行浮点数运算时，C++会根据操作数的类
型自动选择合适的函数进行计算。

需要注意的是，由于浮点数的存储方式与实数的存储方式存在一定的
差别，因此在进行浮点数比较时应该注意精度误差的问题，可以使用
特定的比较方法来避免精度误差带来的问题。

浮点数在内存中的存储方式

浮点数在内存中的存储方式
浮点数是存储浮点计算结果的一种常见数据类型，可以用来表示介于有理数和无理数
之间的数值。

在内存中，浮点数通常以“浮点编码”形式进行存储，其表示方法有IEEE-754标准，按照该标准，浮点数可以用32位或64位表示。

IEEE-754标准，32位浮点编码的存储格式如下：首先用一位来表示有效数字的符号，即正数时为0，负数时为1，后面接8位无符号表示指数域，再接23位有符号表示尾数域。

一般来说，在当前系统中，IEEE-754标准可以分为单精度浮点数（32位）和双精度
浮点数（64位）。

单精度浮点数的存储格式如上所述：第一位为符号位，接下来的八位位指数域，然后是尾数域。

指数域是由八位“2的次幂”组合而成的，尾数域是有效数字的
连续序列。

而双精度格式（64位）的存储形式同样遵循IEEE754标准，区别在于：双精度格式符号位和指数域都是一位，而且指数域长度为11位；尾数域长度则增加到52位。

其存储格
式如下：第一位为符号位，接着是11位指数域，最后跟着52位尾数域。

指数域仍不变，根据尾数域存储了更多的有效数字，因此可以储存较大的数，这就是
双精度格式的优势。

另外，因为双精度格式能够存储更多的位数，可以更为精确地存储我
们的数据，因此，在数值计算中，双精度浮点数常常被使用。

浮点数在内存中的存储方式

浮点数在内存中的存储方式任何数据在内存中都是以二进制的形式存储的，例如一个short型数据1156，其二进制表示形式为00000100 10000100。

则在Intel CPU架构的系统中，存放方式为10000100(低地址单元) 00000100(高地址单元)，因为Intel CPU的架构是小端模式。

但是对于浮点数在内存是如何存储的?目前所有的C/C++编译器都是采用IEEE所制定的标准浮点格式，即二进制科学表示法。

在二进制科学表示法中，S=M*2^N 主要由三部分构成：符号位+阶码(N)+尾数(M)。

对于float型数据，其二进制有32位，其中符号位1位，阶码8位，尾数23位；对于double型数据，其二进制为64位，符号位1位，阶码11位，尾数52位。

31 30-23 22-0float 符号位阶码尾数63 62-52 51-0double 符号位阶码尾数符号位：0表示正，1表示负阶码：这里阶码采用移码表示，对于float型数据其规定偏置量为127,阶码有正有负，对于8位二进制，则其表示范围为-128-127，double型规定为1023，其表示范围为-1024-1023。

比如对于float型数据，若阶码的真实值为2，则加上127后为129，其阶码表示形式为10000010尾数:有效数字位，即部分二进制位(小数点后面的二进制位)，因为规定M的整数部分恒为1，所以这个1就不进行存储了。

下面举例说明：float型数据125.5转换为标准浮点格式125二进制表示形式为1111101，小数部分表示为二进制为1，则125.5二进制表示为1111101.1，由于规定尾数的整数部分恒为1，则表示为1.1111011*2^6，阶码为6，加上127为133，则表示为10000101，而对于尾数将整数部分1去掉，为1111011，在其后面补0使其位数达到23位，则为11110110000000000000000则其二进制表示形式为0 10000101 11110110000000000000000，则在内存中存放方式为：00000000 低地址000000001111101101000010 高地址而反过来若要根据二进制形式求算浮点数如0 10000101 11110110000000000000000由于符号为为0，则为正数。

浮点数在内存中的存储方式

浮点数在内存中的存储⽅式1、在使⽤switch（value）时，value的类型可以是浮点吗？2、判断浮点数是否相等时，可以⽤float f1,f2; if(fi==f2){do something;}吗？都不可以。

这涉及浮点数在内存中的存储⽅式。

⼀、float型在内存中占4字节，double占8字节。

单精度float在内存中的存储格式如下图（1位符号位S，8位指数位E，23位有效数字M）：双精度double在内存中的存储格式如下图（1位符号位S，11位指数位E，52位有效数字M）：本⽂主要说单精度浮点型float，double类似。

(-1)^S * M * 2^E(-1)^S表⽰正负，S=1时为负，S=0时为正；M表⽰有效数字，1<=M<2；2^(E-127)表⽰指数位。

如⼗进制8.125，将其转化成⼆进制形式：对于整数部分8：8/2 商：4 余：04/2 商：2 余：02/2 商：1 余：01/2 商：0 余：1余数逆序，所以8的⼆进制为：1000对于⼩数部分0.125，：0.125*2 整数：0 ⼩数：0.250.25*2 整数：0 ⼩数：0.50.5*2 整数：1 ⼩数：0整数部分正序，所以0.125的⼆进制为：001所以8.125的⼆进制形式为：1000.001，即1.000001 * 2^3。

因是正数，所以，S=0；因M表⽰有效数字，1<=M<2，所以M=1.xxxxxxx，其中⼩数点前的1是固定的，可省略，则M只需要表⽰⼩数点后的数即可，故可⽤23位有效数字表⽰M部分，则8.125的M部分为 000 0010 0000 0000 0000 0000；⽽E部分8位是unsigned char，范围为0~255，但科学计数法的指数部分有正有负，故整体偏移127，⽤0~255来表⽰-127~128，所以8.125的指数E部分，实际写的是E：3+127=130=1000 0010，综上：8.125在内存中的存放bit为 0 1000 0010 000 0010 0000 0000 0000 0000 0000 ，即0x41020000程序验证⼀下：float f=8.125f;unsigned char *p = (unsigned char *)&f;printf("%x %x %x %x\n",p[0], p[1], p[2], p[3]);结果：0 0 2 41⼩端存储模式，低字节在前，⾼字节在后。

计算机内浮点数的储存格式

计算机内浮点数的储存格式通常采用IEEE 754标准，这是一种广泛使用的浮点数表示方法。

在IEEE 754标准中，浮点数由三个部分组成：符号位、指数位和尾数位。

1. 符号位：符号位用于表示浮点数的正负。

对于每个浮点数，符号位为0表示正数，符号位为1表示负数。

2. 指数位：指数位用于表示浮点数的幂。

在IEEE 754标准中，指数位采用偏移二进制指数表示法，即先将指数值进行偏移，然后转换为二进制形式。

偏移量取决于浮点数的类型（单精度或双精度）。

3. 尾数位：尾数位用于表示浮点数的有效数字。

在IEEE 754标准中，尾数位采用二进制小数表示法，即先将浮点数乘以一个常数，然后舍入到最接近的二进制小数。

尾数的位数取决于浮点数的类型（单精度或双精度）。

在单精度浮点数中，符号位占1位，指数位占8位，尾数位占23位。

在双精度浮点数中，符号位占1位，指数位占11位，尾数位占52位。

除了IEEE 754标准之外，还有一些其他的浮点数表示方法，例如Microsoft的COM类型（使用二进制补码表示法）和Java的double 类型（使用二进制补码表示法）。

但是，IEEE 754标准是最广泛使用的浮点数表示方法之一。

Java浮点数

Java浮点数存储格式JAVA中浮点数有两个基础类型:float和double。

float占据4个字节,double 占据8个字节。

下面将以float类型为例，介绍浮点数的存储方式。

double类型和float类型的存储方式雷同。

1.浮点数的存储方式浮点数的存储格式比较特殊，下图是4字节的float变量的存储示意图：根据IEEE754浮点数表示标准，一个float变量在存储中由三部分组成，分别是：符号位：1位(31)，表示float的正负，0为正，1为负幂指数：8位(23-30)，表示2进制权的幂次有效位：23位(0-22)，表示有效数字2.浮点数的取值范围在float的存储中，有4个特殊的存储值，分别是：0x7f800000:正无穷大，Float.intBitsToFloat()打印显示为infinity0xff800000:负无穷大，打印显示为-infinity0x00000000:正零，打印显示为0.00x80000000:负零，打印显示为-0.0注意，在Java中,infinity!=-infinity,但是0.0==-0.0以上4个特殊存储值将float的存储分为4个段[0x00000001,0x7f7fffff]：正float数，共2^31-2^23-1个[0x7f800001,0x7fffffff]：非数字，打印显示NaN，共2^23-1[0x80000001,0xff7fffff]：负float数，共2^31-2^23-1个[0xff800001,0xffffffff]：非数字，打印显示NaN，共2^23-13.浮点数的格式转换令bits表示一个整数，其存储空间为4字节，下面我们求出这4个字节表示的float类型数字为多少。

int s = ((bits>>31) == 0)?1:-1; //取出1bit符号位int e = ((bits>>23) & 0xff); //取出8bit的幂指数//取出23位有效位int m = (e==0)?((bits & 0x7fffff) << 1):((bits & 0x7fffff) | 0x800000);则该存储空间表示的浮点数为 s*m*2^(e-150)分析：[0x00000001,0x007fffff]：相应实数范围为[(2^-149),(2^-126)-(2^-149)]，即大约为[1.4E-45,1.2E-38]，离散间隔固定为(2^-149)即约为1.4E-45，实数个数为2^23个。

C语言中float,double类型,在内存中的结构（存储方式）.

C语⾔中float,double类型,在内存中的结构（存储⽅式）.从存储结构和算法上来讲，double和float是⼀样的，不⼀样的地⽅仅仅是float是32位的，double是64位的，所以double能存储更⾼的精度。

任何数据在内存中都是以⼆进制（0或1）顺序存储的，每⼀个1或0被称为1位，⽽在x86CPU上⼀个字节是8位。

⽐如⼀个16位（2 字节）的short int型变量的值是1000，那么它的⼆进制表达就是：00000011 11101000。

由于Intel CPU的架构原因，它是按字节倒序存储的，那么就因该是这样：11101000 00000011，这就是定点数1000在内存中的结构。

⽬前C/C++编译器标准都遵照IEEE制定的浮点数表⽰法来进⾏float,double运算。

这种结构是⼀种科学计数法，⽤符号、指数和尾数来表⽰，底数定为2——即把⼀个浮点数表⽰为尾数乘以2的指数次⽅再添上符号。

下⾯是具体的规格：符号位阶码尾数长度float 1 8 23 32double 1 11 52 64临时数 1 15 64 80由于通常C编译器默认浮点数是double型的，下⾯以double为例：共计64位，折合8字节。

由最⾼到最低位分别是第63、62、61、……、0位：最⾼位63位是符号位，1表⽰该数为负，0正； 62-52位，⼀共11位是指数位； 51-0位，⼀共52位是尾数位。

按照IEEE浮点数表⽰法，下⾯将把double型浮点数38414.4转换为⼗六进制代码。

把整数部和⼩数部分开处理:整数部直接化⼗六进制：960E。

⼩数的处理: 0.4=0.5*0+0.25*1+0.125*1+0.0625*0+…… 实际上这永远算不完！这就是著名的浮点数精度问题。

所以直到加上前⾯的整数部分算够53位就⾏了（隐藏位技术：最⾼位的1 不写⼊内存）。

如果你够耐⼼，⼿⼯算到53位那么因该是：38414.4(10)=1001011000001110.0110101010101010101010101010101010101(2)科学记数法为：1.001……乘以2的15次⽅。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浮点数转化为幂指数
浮点数保存的字节格式如下：
地址+0 +1 +2 +3
内容SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM
这里
S 代表符号位，1是负，0是正
E 偏移127的幂，二进制阶码=(EEEEEEEE)-127。

M 24位的尾数保存在23位中，只存储23位，最高位固定为1。

此方法用最较少的位数实现了
较高的有效位数，提高了精度。

零是一个特定值，幂是0 尾数也是0。

浮点数-12.5作为一个十六进制数0xC1480000保存在存储区中，这个值如下：
地址+0 +1 +2 +3
内容0xC1 0x48 0x00 0x00
浮点数和十六进制等效保存值之间的转换相当简单。

下面的例子说明上面的值-12.5如何转换。

浮点保存值不是一个直接的格式，要转换为一个浮点数，位必须按上面的浮点数保存格式表所列的那样分开，例如：
地址+0 +1 +2 +3
格式SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM
二进制11000001 01001000 00000000 00000000
十六进制C1 48 00 00
从这个例子可以得到下面的信息：
符号位是1 表示一个负数
幂是二进制10000010或十进制130，130减去127是3，就是实际的幂。

尾数是后面的二进制数10010000000000000000000
在尾数的左边有一个省略的小数点和1,这个1在浮点数的保存中经常省略,加上一个1和小数
点到尾数的开头,得到尾数值如下:
1.10010000000000000000000
接着,根据指数调整尾数.一个负的指数向左移动小数点.一个正的指数向右移动小数点.因为指数是3,尾数调整如下:
1100.10000000000000000000
结果是一个二进制浮点数，小数点左边的二进制数代表所处位置的2的幂，例如：1100表示
(1*2^3)+(1*2^2)+(0*2^1)+(0*2^0)=12。

小数点的右边也代表所处位置的2的幂，只是幂是负的。

例如：.100...表示(1*2^(-1))+ (0*2^(-2))+(0*2^(-2))...=0.5。

这些值的和是12.5。

因为设置的符号位表示这数是负的，因此十六进制值0xC1480000表示-
12.5。

下面给个例子
#include <stdio.h>
union FloatData
{
float f;
unsigned char h[4];
};
void main(void)
{
FloatData t;
float temp = 0;
printf("请输入一个数，输入100表示结束：");
scanf("%f",&temp);
t.f = temp;
printf("%f在内存中的存放为：%2x %2x %2x %2x/n",t.f,t.h[0],t.h[1],t.h[2],t.h[3]);
}
关于多字节数据类型在内存中的存储问题
int ,short 分别是4、2字节。

他们在内存中的存储方式下面举个例子说明。

int data = 0xf4f3f2f1;
其中低位存放在编址小的内存单元，高位存放在编址高的内存单元
如下：
地址：0x8000 0x8001 0x8002 0x8003
数据： f1 f2 f3 f4
根据IEEE在1985年制定的标准来处理浮点数
单精度浮点数用4字节，包括1位符号位s(整数为0，负数为1)，8位指数位e，23位有效位f
浮点型使用的是科学计数法，比如十进制的12345可以表示为1.2345 * 10^4(表示10的4次幂)
用二进制表示为 1.1000000111001 * 2^13
所以计算机中用浮点数表示12345这个十进制应该是这样的，s位为0，因为是正数，指数位为
13+127=140(127为单精度浮点数偏移值，为了表示只有小数部分的数)，有效位为1000000111001
计算的时候用(-1)^s * 1.f * 2^(e-127) ，结果就是1* 1.1000000111001 * 2^(140-127=13) ，和我们刚才表示的一样
还比如，十进制小数0.125转换为二进制小数0.001可以表示为1* 1.0 * 2^(124-127=-3) double，双精度浮点数有1位符号位、11位指数位和52位有效数
谢谢，和我找的资料差不多：）
知道公式
n=(-1)^s*m*2^e
e=|E|-bias
bias = 2^(k-1)-1(k为E的位数）
m=|1.M|
知道12345在内存中的10进制表示以后
0x4640e400 = 0(100 0110 0)<100 0000 1110 0100 0000>
括号中的数字为|E| ＝140 所以e＝140－127＝13
尖括号中的数字为m=|1.M|＝｜1.100000011100100｜＝1.506958008
ok,
代入公式n = (-1)^0*1.506958008*2^13=12345
完工！！
非规范就看你自己了：。