※ 引述《cch123 (cch123)》之銘言:
: 看了幾本書和網路資料,說法都不同,
: 請問有標準答案嗎?謝謝
: https://i.imgur.com/DJWYiNl.jpg
: https://i.imgur.com/F9SzirG.jpg
: https://i.imgur.com/NhOQrUG.jpg
以下我先講 IEEE754 規定
現在的 C/C++ 用的 float/double 大多都跟這個規定走但也不是絕對
====
首先, 所謂的浮點數
骨子裡其實就是二進位、有限有效位數、指數也有限定範圍的科學記號
單精確度有 23+1 位有效位數, 指數限定為 2 的 -126 到 +127 次方
倍精確度有 52+1 位有效位數, 指數限定為 2 的 -1022 到 +1023 次方
加上浮點數有正負, 所以兩端的極限值會是絕對值最大的值
單精確度就是 1.111111...111 * 2^127
轉換成十進位的話, 小數點後面有 23 個 1
所以乘號前面的值是 1 + 2^(-1) + 2^(-2) + ... + 2^(-23) = 2 - 2^(-23)
乘上指數之後就是 2^128 - 2^104 = 340282346638528859811704183484516925440
這就是 3.402823*10^38 的由來; 這個值在 C/C++ 裡可用 FLT_MAX 叫出來
倍精確度類似, 兩端的極限值是
(2 - 2^(-52)) * 2^1023 = 2^1024 - 2^971
= 179769313486231570....184124858368
這就是 1.79769313486232*10^308 這個數, C/C++ 裡叫 DBL_MAX
同樣地, 絕對值最小的非 0 數可以類似地算出來
單精確度是 1.0000...000 * 2^-126
= 1.17549435082228750796873653722224567781866555
67720875215087517062784172594547271728515625 * 10^(-38) (FLT_MIN)
倍精確度是 1.0000...000 * 2^-1022
≒ 2.22507385850720138309023271733240406421921598... * 10^(-308) (DBL_MIN)
這兩個數字有列在第二張圖裡, 這就是它們的來源
====
不過這種表示法造成了一個問題:
當接近這個最小絕對值的數進行運算時
其產生的結果可能因為指數太小放不下直接變成 0
也就是在上面那個最小絕對值以下就直接切成 0 了 (這個叫做 underflow, 下溢)
為了補足這部份的運算精確, 所以定義了 subnormal number
在科學記號的表示法當中, 為了遷就指數的範圍而不使前面數字正規化
以單精確度為例, 強制使指數停在 2^(-126) 次方而不讓前面正規化為 1.xxxx
所以就能出現 0.0000000....0001 * 2^(-126) 這個最小值
轉成十進位就是 2^(-23) * 2^(-126) = 2^(-149)
≒ 1.4012984643248170709237295832899... * 10^-45 (FLT_TRUE_MIN [C11/C++11])
同理倍精確度就是 0.00000....0001 * 2^(-1022)
= 2^(-52) * 2^(-1022) = 2^(-1074)
≒ 4.9406564584124654417656879286822... * 10^-324 (DBL_TRUE_MIN [C11/C++11])
這就是第三張圖裡的範圍來源
====
前兩張圖裡還有列出一個更「大」的 long double
但這個型別實際上是什麼也要看編譯器怎麼定, 標準只說它是 "extened precision"
第一張圖裡它跟 double 根本就一樣大
第二張圖裡它是一個佔 80-bit 的型態, 這個並不在 IEEE754 的規範裡
所以它們的範圍也就是各自說了算
實際上在你用的編譯器裡的範圍是多少可以叫用類似的常數出來
分別是 LDBL_MAX, LDBL_MIN, LDBL_TRUE_MIN 對應上面的三種極限值
那個 80-bit 的型態使用的是 63+1 位有效位數, 指數是 2 的 -16382 到 +16383 次方
你可以用類似的方法去推算極限值是不是符合上面第二張圖的數值
====
這篇因為純講範圍, 所以沒有提到實際上這個範圍是怎麼定的
這跟浮點數的位元實際是怎麼組織的有關
但這些都和原 PO 的問題範圍離的稍微遠一點所以全部略過