- 浏览: 498267 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
jkxydp:
算法运行的结果根本就不对。
BM算法. -
soarwindzhang:
感谢博主的分享,我今天看了您的UFSET非递归的路径压缩时感觉 ...
并查集 -
zhangning290:
楼主好像只考虑了坏字符规则,。没有考虑好后缀
BM算法. -
lsm0622:
文字描述有错误 误导新学者
求有向图的强连通分量(scc):Tarjan算法 -
knightchen:
博主,你太强了!这篇文章对我学习C++多线程很有帮助!谢谢
并发学习之一_windows下ZThread在CodeBlocks上的安装与配置
[转载]http://blog.csdn.net/masefee/archive/2010/01/30/5272554.aspx
这里历史和发展就不说了,直接从IEEE浮点标准说起。
在 IEEE 标准中,浮点数是将特定长度的连续字节的所有二进制位分割为特定宽度的符号域,指数域和尾数域三个域,其中保存的值分别用于表示给定二进制浮点数中的符号,指数和尾数。这样,通过尾数和可以调节的指数(所以称为"浮点")就可以表达给定的数值了。
具体的格式:
注:浮点数在32位机子上有两种精度,float占32位,double占64位。
我们应该不要特殊看到浮点数的内存存储形式,它跟整数没有什么区别,只是在这4字节或者8字节里有3个区域,整数有符号只有符号位及后面的数值。
那么,我们先来看32位浮点数 的换算:
1. 从浮点数到16进制数
float var = 5.2f;
就这个浮点数,我们一步一步将它转换为16进制数。
首先,整数部分5,二进制表示为:0101。
其次,小数部分0.2,转换为二进制的计算方法,那么就是依次乘以2,取整数部分作为二进制数,取小数部分继续乘以2,一直算到小数结果为0为止。那么对0.2进行计算:
0.2的二进制就计算出来了,结果就为:0.00110011... ...
这里的省略号是你没有办法计算完。二进制序列无限循环,没有到达结果为0的那一天。那么此时我们该怎么办?
这里就得取到一定的二进制位数后停止计算,然后舍入。我们知道,float是32位,后面尾数的长度只能最大23位。因此,计算结束的时候,整数部分加上小数部分的二进制一共23位二进制。
因此5.2 的二进制表示就为:
一共23位。
此时,使用科学计数法表示,结果为:
由于我们规定,使用二进制科学计数法后,小数点左边必须为1,这样这个1就不用存储了,我们在从16进制数换算到浮点数的时候加上这个1就是了,省略到这个1的目的是为了后面的小数部分能够多表示一位,精度就更高一些了哟。
那么省略到小数点前面的1后的结果为:
这里后面蓝色的0就是补上的,这里不是随便补的一个0,而是0.2的二进制在这一位上本来就应该为0,如果该为1,我们就得补上一个1.
但是,在对阶或向右规格化时,尾数要向右移位,这样被右移的尾数的低位部分会被丢掉,从而造成一定的误差,因此要进行舍入处理。 常用的舍入方法有两种:一种是“0舍1入”法,即如果右移时被丢掉数位的最高位为0则舍去,为1则将尾数的末位加“1”,另一种是“恒置1”,即只要数位被移掉,就在尾数的末位恒置“1”。
举个例子:
123.456的二进制到23位时:111 1011.0111 0100 1011 1100 01...
后面还有依次为01...等低位,由于最高位的1会被隐藏,向后扩展一位如果不做舍入操作则结果为:
1.11 1011 0111 0100 1011 1100 0 * 2^6
但是经过舍入操作后,由于被舍掉的位的最高位是1,或者“恒置1”法,最后面的0都应该是1。因此最终就应该是:
1.11 1011 0111 0100 1011 1100 1 * 2^6
在这里需要说明,不管是恒置1,还是0舍1入法,其根本都是为了减小误差。
5.2的尾数在这里就计算好了,就是: 01001100110011001100110
再来看阶数,这里我们知道是2^2次方,那么指数就是2。同样IEEE标准又规定了,因为中间的阶码在float中是占8位,而这个阶码又是有符号的(意思就是说,可以有2^-2次方的形式)。注意这里偏置量的概念:
float 类型的偏置量 Bias = 2^(k-1) -1 = 2^(8-1) -1 = 127 ,但还要补上刚才因为左移作为小数部分的 2 位(也就是科学技术法的指数),因此阶码为 127 + 2=129 ,就是 IEEE 浮点数表示标准:
这里的阶码就是129,二进制就是:10000001
因此,拼接起来后:
还原:
这里因为之前我们都知道有个固定的1给省略了,因此这里要给加上去。加上去之后:
1 010 0110 0110 0110 0110 011 0
这里是24位,我们先不管,小数点添进去:
1 . 010 0110 0110 0110 0110 011 0 * 2^2
然后将科学计数法变换成普通的二进制小数:
1 01 . 0 0110 0110 0110 0110 011 0
到这里,就真正可以把整数部分换成十进制了:
1 01 . 0 0110 0110 0110 0110 011 0
5. xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
我们知道了,整数部分是5,后面的小数部分再进行逆运算:
0 . 0 0110 0110 0110 0110 011 0 =
0 + 0*2^-1 + 0*2^-2 + 1*2^-3 + 1*2^-4 + 0*2^-5 + 0*2^-6 + 1*2^-7 + ... ... + 0*2^-21 这样一个式子,我们算出结果来,放在浮点数里:
5.1999998。
因此我们可以看到精度已经有损失了。
64位浮点数 的换算:
这里就不再具体说明怎么换算的了,只需要提到2个地方:
一是,中间的阶码在double中占有11位,因此阶码就不是+127了,而是加上1023,因为11位能表示的最大无符号数是2047,因此有符号范围[-1024, 1023]。
二是,尾数是52位,因此精度更高,能表示的数也就越大。我们在换算5.2的时候,后面的小数二进制+前面的5的二进制再省略一位后的总位数要填满52位。
给出一段验证代码:
这里历史和发展就不说了,直接从IEEE浮点标准说起。
在 IEEE 标准中,浮点数是将特定长度的连续字节的所有二进制位分割为特定宽度的符号域,指数域和尾数域三个域,其中保存的值分别用于表示给定二进制浮点数中的符号,指数和尾数。这样,通过尾数和可以调节的指数(所以称为"浮点")就可以表达给定的数值了。
具体的格式:
符号位 阶码 尾数 长度 |
float 1 8 23 32 |
double 1 11 52 64 |
注:浮点数在32位机子上有两种精度,float占32位,double占64位。
我们应该不要特殊看到浮点数的内存存储形式,它跟整数没有什么区别,只是在这4字节或者8字节里有3个区域,整数有符号只有符号位及后面的数值。
那么,我们先来看32位浮点数 的换算:
1. 从浮点数到16进制数
float var = 5.2f;
就这个浮点数,我们一步一步将它转换为16进制数。
首先,整数部分5,二进制表示为:0101。
其次,小数部分0.2,转换为二进制的计算方法,那么就是依次乘以2,取整数部分作为二进制数,取小数部分继续乘以2,一直算到小数结果为0为止。那么对0.2进行计算:
0.2*2 = 0.4 * 2 = 0.8 * 2 = 1.6(0.6) * 2 = 1.2(0.2)*2 = 0.4 * 2 = 0.8 * 2 = 1.6(0.6) * 2 = 1.2 ... ... |
00110011... ... |
0.2的二进制就计算出来了,结果就为:0.00110011... ...
这里的省略号是你没有办法计算完。二进制序列无限循环,没有到达结果为0的那一天。那么此时我们该怎么办?
这里就得取到一定的二进制位数后停止计算,然后舍入。我们知道,float是32位,后面尾数的长度只能最大23位。因此,计算结束的时候,整数部分加上小数部分的二进制一共23位二进制。
因此5.2 的二进制表示就为:
101.00110011001100110011 |
一共23位。
此时,使用科学计数法表示,结果为:
1.0100110011001100110011 * 2^2 |
由于我们规定,使用二进制科学计数法后,小数点左边必须为1,这样这个1就不用存储了,我们在从16进制数换算到浮点数的时候加上这个1就是了,省略到这个1的目的是为了后面的小数部分能够多表示一位,精度就更高一些了哟。
那么省略到小数点前面的1后的结果为:
.01001100110011001100110 * 2^2 |
这里后面蓝色的0就是补上的,这里不是随便补的一个0,而是0.2的二进制在这一位上本来就应该为0,如果该为1,我们就得补上一个1.
但是,在对阶或向右规格化时,尾数要向右移位,这样被右移的尾数的低位部分会被丢掉,从而造成一定的误差,因此要进行舍入处理。 常用的舍入方法有两种:一种是“0舍1入”法,即如果右移时被丢掉数位的最高位为0则舍去,为1则将尾数的末位加“1”,另一种是“恒置1”,即只要数位被移掉,就在尾数的末位恒置“1”。
举个例子:
123.456的二进制到23位时:111 1011.0111 0100 1011 1100 01...
后面还有依次为01...等低位,由于最高位的1会被隐藏,向后扩展一位如果不做舍入操作则结果为:
1.11 1011 0111 0100 1011 1100 0 * 2^6
但是经过舍入操作后,由于被舍掉的位的最高位是1,或者“恒置1”法,最后面的0都应该是1。因此最终就应该是:
1.11 1011 0111 0100 1011 1100 1 * 2^6
在这里需要说明,不管是恒置1,还是0舍1入法,其根本都是为了减小误差。
5.2的尾数在这里就计算好了,就是: 01001100110011001100110
再来看阶数,这里我们知道是2^2次方,那么指数就是2。同样IEEE标准又规定了,因为中间的阶码在float中是占8位,而这个阶码又是有符号的(意思就是说,可以有2^-2次方的形式)。注意这里偏置量的概念:
float 类型的偏置量 Bias = 2^(k-1) -1 = 2^(8-1) -1 = 127 ,但还要补上刚才因为左移作为小数部分的 2 位(也就是科学技术法的指数),因此阶码为 127 + 2=129 ,就是 IEEE 浮点数表示标准:
V = (-1)^s × M × 2^(e - Bias) |
s:符号位 M:尾数 e:阶码 |
这里的阶码就是129,二进制就是:10000001
因此,拼接起来后:
还原:
这里因为之前我们都知道有个固定的1给省略了,因此这里要给加上去。加上去之后:
1 010 0110 0110 0110 0110 011 0
这里是24位,我们先不管,小数点添进去:
1 . 010 0110 0110 0110 0110 011 0 * 2^2
然后将科学计数法变换成普通的二进制小数:
1 01 . 0 0110 0110 0110 0110 011 0
到这里,就真正可以把整数部分换成十进制了:
1 01 . 0 0110 0110 0110 0110 011 0
5. xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
我们知道了,整数部分是5,后面的小数部分再进行逆运算:
0 . 0 0110 0110 0110 0110 011 0 =
0 + 0*2^-1 + 0*2^-2 + 1*2^-3 + 1*2^-4 + 0*2^-5 + 0*2^-6 + 1*2^-7 + ... ... + 0*2^-21 这样一个式子,我们算出结果来,放在浮点数里:
5.1999998。
因此我们可以看到精度已经有损失了。
64位浮点数 的换算:
这里就不再具体说明怎么换算的了,只需要提到2个地方:
一是,中间的阶码在double中占有11位,因此阶码就不是+127了,而是加上1023,因为11位能表示的最大无符号数是2047,因此有符号范围[-1024, 1023]。
二是,尾数是52位,因此精度更高,能表示的数也就越大。我们在换算5.2的时候,后面的小数二进制+前面的5的二进制再省略一位后的总位数要填满52位。
给出一段验证代码:
#include <stdio.h> #include <string.h> int main() { union { float f; int i; }u; u.f = 5.2f; printf("%.7f\n", u.f); //5.1999998一旦放入,精度已经发生了变化 printf("%x\n", u.i); union { float f; int i; }v; v.i = 0x40A66666; printf("%.7f\n", v.f); printf("%x\n", v.i); return 0; }
发表评论
-
C语言中的不定参数
2010-12-15 12:28 130221,最近刚刚知道C语言还有不定参数这么个东东。 2,解决方法 ... -
存在虚基类时,类对象的大小
2010-12-09 19:38 11631, 实例代码: #include <iostrea ... -
关于父类的构造的顺序
2010-12-09 19:33 6131,没有虚基类的情况: #include <iost ... -
关于empty class的大小
2010-12-09 19:32 10651,首先简要说明下为什么empty class的大小不是0? ... -
JVM实现机制及内部基本概念
2010-12-09 19:27 811兴趣所致,搜了一些关于JVM的简单介绍,算是扫盲吧。 1.J ... -
指向对象成员变量的指针。
2010-12-09 19:18 10941,工作定了后,把《Inside the C++ object ... -
面向对象的一些常见问题总结。
2010-12-09 19:08 8711,构造函数中调用虚函数的问题。 注:一般编译器都会在执行完b ... -
关于C++的名字查找规则
2010-12-09 19:05 13181,总结一句话:由内向外,找到合适的即刻停止。 实例代码: ... -
继承下的名字查找规则,最近作用域
2010-11-06 20:04 8411, #include <iostream> ... -
虚基类和多重继承总结
2010-11-06 19:54 8181,虚基类,其构造函数总是在最后一个层次最先并且真正被执行。 ... -
为什么构造函数,不能是virtual?
2010-09-25 15:24 16271,C++语言是静态语言,而把构造函数写成虚函数意味这可以动态 ... -
大小端对应字节, 注意和一个字节内位序的区分
2010-09-09 10:11 13691,一个例子: #include <stdio.h& ... -
实现:不能被继承的类
2010-08-31 17:35 8091,首先想到的是在C++ 中 ... -
提升为N的倍数(N为2的指数次)
2010-07-18 10:16 7231,可以这么做: int num=15; num = (num ... -
C++ 中:new的用法
2010-07-17 16:26 1859先放这儿,有时间了,在 ... -
句柄的使用实例
2010-06-02 11:24 11181,这个实例采用了使用计数策略. 2,实例代码: #in ... -
关于类的一些语法:
2010-06-02 09:26 671所谓"书越读越薄",这话说得真是有道理. ... -
sizeof(string对象)的大小
2010-06-01 11:32 14971,无语了,string对象的大小固定就是4啊. 2,实例代码 ... -
C语言中不同增值语句的区别
2010-05-12 12:50 6251, mango[i++]+=y; 被当作 mango[i]= ... -
尽量不要在一个表达式中有多个副作用
2010-05-02 10:48 9891,一般来说,编c/c++程序有一个纪律:一个语句中不要有两个 ...
相关推荐
编写程序利用DFA的原理实现高级语言中浮点数的识别算法
深入介绍浮点数的存储形式,讲解误差形成的缘由!新的层面,新的认知!!
在软件和单片机程序通讯过程中浮点数的位数不同导致的数据问题通常很令人头疼,今天有空整理了一段代码,其中十进制到2进制/16进制转化部分借鉴前辈的内容,32位到16位的内容是自己写的部分,有什么问题大家多多指教...
在嵌入式开发中,很多情况会要分析协议,协议中有时候会出现二进制传输的浮点数,可以用分析工具查看浮点数对应的十六进制数,但要换算成十进制还是挺麻烦的,可以在网上找到浮点数和十六进制转换的工具,但功能应用...
剖析Intel IA32架构下C语言及CPU浮点数机制
C语言中浮点数精度问题分析.pdf
计算机算法设计与分析实验:浮点数的分数表达,可运行源代码,c++
为了方便调试电力通信规约,自己写的一个小工具,主要是计算浮点数使用,计算4字节的浮点数.附加了16进制转化10进制的功能.
用c模拟浮点数硬件除法 有四舍五入及特殊情况分析
自己写的一篇分析文章,系统地讲述了计算机浮点计算的误差来源并提供一些避免方法。
根据IEEE754浮点数与十进制数互相转换原理编写,可以实现数据转换验证。
该转换器能完成浮点数和16进制数的转换,对于数据处理和数据分析很有帮助
IEEE_754关于浮点数的规定★.ppt
对于计算机中常见的浮点数存储格式进行分析,编程提取float和double中的阶码好尾码。
对于java初级学者 来讲,二进制作为了解内容,尤其浮点数二进制的转换,精力充沛的同学可以研究一下,内容仅供参考
7算术运算包括字符串到浮点数、浮点数到字符串的转换,加、减、乘、除四则运算等。要有说明文档,包括算法证明、程序框图、使用方法、特殊处理(溢出、数位扩展)、实例分析等等。字符串转换可能稍难。typedef ...
通过2-Adic多分辨率分析,构造正交小波基;证明所构造正交小波用于浮点数编码消噪的正确性;提出用正交小波在浮点数编码遗传算法中进行消噪变异操作,以消除浮点数编码在遗传环境中所产生的噪音对算法性能的影响;...
着重分析了遗传操作中浮点数编码噪声的性质,研究利用小波阈值化系数对浮点数编码消噪的机理,通过变异运算消噪。结果表明,将小波理论用于浮点数编码遗传算法的变异消噪是可靠的、方法是可行的。
着重分析了有界域的紧小波框架的性质,用有界域的紧小波框架在算法中进行消噪变异操作,提出了基于有界域紧小波框架的遗传算法,并进行了实验。研究和实验结果表明,将有界域的紧小波框架用于浮点数编码消噪变异,...