526互联

3.14 + 1e10 = 0 ? ——浮点数的本质

发布时间 2023-08-27 21:16:06作者: CuriosityWang

3.14 + 1e10 = 0 ? ——浮点数的本质

我们先看这样一个例子：

#include <iostream>

int main(int argc, char **argv)
{   
    
    float a = 3.14;
    float b = 1e10;

    std::cout <<  a << "   " <<  b << std::endl;
    std::cout <<  (a+b)-b << std::endl;
    std::cout <<  a+(b-b) << std::endl;

	return 0;
}

这个程序的输出是：

我们可以看到 (a+b)-b 得到了0，这个结果是有些匪夷所思的。为了解答这个问题，我们需要理解浮点数在计算机中的表示方法。

浮点数的表示——IEEE754

IEEE浮点标准使用\(V = (-1)^s \times M \times 2^E\)来表示一个数，其中\(s\)是一个符号位，取0或者1，用来确定实数的符号，\(M\)是尾数，\(E\)是阶码，通常用移码表示。

对于单精度浮点数，符号位为1位，阶码为8位，尾数为23位。对于双精度浮点数，符号位为1位，阶码为11位，尾数为52位。

举个例子，对于一个实数0.675，其二进制表示为0.101，我们可以看做\(（-1）^0 \times 1.01 \times 2^{-1}\)，因此阶码\(E\)的移码表示是10000000，对于尾数，暗含一个1，因此对于尾数的表示是01000000000000000000000，空余位补0，综上可以得到0.625的单精度浮点数表示：

这里帮大家回顾一下浮点数的表示，更多细节可以查阅相关资料。

现在我们就可以回答上面的问题了:

\[1e10 = 10000000000 = 1001010100000010111110010000000000_2 = 1.001010100000010111110010000000000_2 \times 2^{33} \]

此时1e10二进制表示的尾数部分是高于23位的，因此会执行舍入操作，因此尾数\(M\)=00101010000001011111001。

综上，1e10的单精度浮点数表示是： 0 101000 00101010000001011111001。

而对于3.14则有：\(3.14 \approx 11.0010001111010111000010100011110_2 =1.10010001111010111000010100011110_2 \times 2^1\)

为了实现3.14+1e20，我们需要调整3.14的阶码，使得二者的阶码相同

因此此时有：

\[3.14 \approx \\ 0.00000000000000000000000000000000110010001111010111000010100011110_2 \times 2^{33} \]

在所以，\(3.14+1e20 = 1.00101010000001011111001（截断）000000000110010001111010111000010100011110_2 \times 2^{33}\)

但是此时由于单精度浮点数尾数只有23位，因此会进行舍入操作，这里是截断23位之后的二进制数字，最终3.14+1e10与1e10的二进制代码相同，

所以(3.14 + 1e10) -1e10 = 0

扩展

回到最开始的代码，如果将a，b修改为double类型，得到的结果是不是会有变化呢？

答案是会的，因此double的尾数是52位，因此尾数并不会发生舍入，所以此时的结果是正确的。

我们可以发现，当浮点数a >> b时，由于需要调整b的阶码与a对齐，所以a的尾数表示左侧可能会出现大量的0，导致b的有效位被截断而丢失。

点数本质3.14 1e10