IEEE 754

W informatyce , IEEE 754 jest standardem zmiennoprzecinkowych arytmetycznych opracowany przez Institute of Electrical and Electronics Engineers . Obecnie jest to najpowszechniej stosowany standard obliczania liczb zmiennoprzecinkowych z procesorami CPU i FPU . Norma definiuje formaty reprezentacji liczb zmiennoprzecinkowych ( znak , mantysa , wykładnik , liczby zdenormalizowane ) oraz wartości specjalne ( nieskończone i NaN ), wraz z zestawem operacji zmiennoprzecinkowych. Opisuje również pięć trybów zaokrąglania i pięć wyjątków (w tym warunki, w których występuje wyjątek i co się dzieje w takim przypadku).

Historia

Oryginalna wersja IEEE 754, pochodząca z 1985 roku, definiowała cztery formaty reprezentacji liczb zmiennoprzecinkowych o podstawie 2:

pojedyncza precyzja (32 bity: 1 bit znaku, 8 bitów wykładnika (od –126 do 127), 24 bity mantysy, w tym 1 bit niejawny);
rozszerzona pojedyncza precyzja (≥ 43 bity, przestarzałe, w praktyce realizowane przez podwójną precyzję);
podwójna precyzja (64 bity: 1 bit znaku, 11 bitów wykładnika (−1022 do 1023), 53 bity mantysy, w tym 1 bit ukryty);
rozszerzona podwójna precyzja (≥ 79 bitów, często zaimplementowana z 80 bitami: 1 bit znaku, 15 bitów wykładnika (-16382 do 16383), 64 bity mantysy, brak niejawnego 1 bitu).

Na przykład w języku C kompilator gcc dla 32-bitowych architektur zgodnych z Intelem używa pojedynczej precyzji formatu dla zmiennych typu float , podwójnej precyzji dla zmiennych typu double i podwójnej precyzji lub rozszerzonej podwójnej precyzji (zgodnie z systemem operacyjnym) dla długich podwójnych zmiennych . Jeśli jednak rozszerzenie SSE2 nie jest używane, wszystkie obliczenia są zaokrąglane z tą samą precyzją, w zależności od dynamicznego ustawienia precyzji procesora (zazwyczaj podwójna precyzja lub rozszerzona podwójna precyzja, w zależności od systemu operacyjnego, opcji kompilacji i zmian wprowadzonych przez programy).

Pełny tytuł standardu brzmiał: IEEE Standard for Binary Floating-Point Arithmetic (ANSI / IEEE Std 754-1985 ). Jest również znany pod nazwą IEC 60559: 1989, Binarna arytmetyka zmiennoprzecinkowa dla systemów mikroprocesorowych , co również czyni go standardem (amerykańskim), ponieważ został zatwierdzony jako odniesienie normatywne w kilku międzynarodowych normach ISO. Jednak standard ten został rozszerzony przez poważną zmianę w 2008 r. Na inne podstawowe formaty (binarne na 128 bitach i dziesiętne na 64 i 128 bitach), a także formaty wymiany (dodanie formatów, które są albo mniej dokładne lub bardziej precyzyjne) i rozszerzone formaty ( uogólnienie standardu z 1985 r., z większą swobodą w zakresie precyzji i kodowania niż w przypadku formatów wymiany); ta wersja zawiera również dodatkowe tryby zaokrąglania i bardziej rygorystyczne wymagania zgodności dotyczące oczekiwanej dokładności podstawowych operacji i obliczeń funkcji transcendentalnych. Ten standard również został zmieniony w 2019 roku.

Format liczby zmiennoprzecinkowej

Konwencje użyte w artykule

W słowo o długości W, bity są indeksowane od 0 do W - 1 włącznie. Bit 0 jest umieszczony po prawej stronie i reprezentuje najmniej znaczący bit (to znaczy bit jednostek, który spowoduje najmniejszą zmianę, jeśli zostanie zmieniony).

Ogólny format

Liczba zmiennoprzecinkowa składa się z trzech elementów: mantysy , wykładnika i znaku. Najbardziej znaczącym bitem jest bit znaku : jeśli ten bit ma wartość 1, liczba jest ujemna, a jeśli wynosi 0, liczba jest dodatnia. Następne e bity reprezentują obciążony wykładnik (z wyjątkiem wartości specjalnej), a następne m bitów ( m najmniej znaczących bitów) reprezentują mantysę.

Znak	Wykładnik odchylenia	Mantysa
(1 bit)	( E bitów)	( m bitów)

Stronniczość wystawcy

Wykładnik może być dodatni lub ujemny. Jednak zwykłe przedstawienie liczb ze znakiem ( uzupełnienie do 2 ) utrudniłoby nieco porównanie liczb zmiennoprzecinkowych. Aby rozwiązać ten problem, wykładnik jest „pochylony”, aby zapisać go jako liczbę bez znaku.

To odchylenie wynosi 2 e −1 - 1 ( e oznacza liczbę bitów w wykładniku); jest więc wartością stałą po ustaleniu liczby bitów e .

Interpretacja liczby (innej niż nieskończoność) jest zatem następująca: wartość = znak × mantysa × 2 ( wykładnik - odchylenie ) z

znak = ± 1
odchylenie = 2 e −1 −1

Wyjątki

Najbardziej znaczący kawałek mantysy jest określony przez wartość wykładnika obciążonego. Jeśli odchylony wykładnik jest różny od 0 i od , najbardziej znaczący bit mantysy ma wartość 1, a liczba jest określana jako „znormalizowana”. Jeśli odchylony wykładnik wynosi zero, najbardziej znaczący bit mantysy wynosi zero, a liczba jest zdenormalizowana . $2 ^ {e} - 1$

Istnieją trzy szczególne przypadki:

jeśli odchylony wykładnik i mantysa są równe zero, liczba wynosi ± 0 (w zależności od bitu znaku)
jeśli odchylony wykładnik jest równy , a mantysa wynosi zero, liczba jest ± nieskończona (w zależności od bitu znaku) $2 ^ {e} - 1$
jeśli odchylony wykładnik jest równy , ale mantysa nie jest równa zero, liczba to NaN (nie liczba: nie liczba) . $2 ^ {e} - 1$

Możemy to podsumować następująco:

Rodzaj	Wykładnik odchylenia	Mantysa
Zera	0	0
Liczby zdenormalizowane	0	różny od 0
Znormalizowane liczby	$1$ w $2 ^ e-2$	każdy
Nieskończony	$2 ^ e-1$	0
NaNs	$2 ^ e-1$	różny od 0

Format pojedynczej precyzji (32-bitowy)

Liczba zmiennoprzecinkowa o pojedynczej precyzji jest przechowywana w 32-bitowym słowie : 1 bit znaku, 8 bitów dla wykładnika i 23 dla mantysy.

Wykładnik jest więc w tym przypadku obciążony . Dlatego wykładnik znormalizowanej liczby wynosi od -126 do +127. Wykładnik -127 (który jest przesunięty w kierunku wartości 0) jest zarezerwowany dla liczb zerowych i zdenormalizowanych, podczas gdy wykładnik 128 (przesunięty w kierunku 255) jest zarezerwowany do kodowania nieskończoności i NaN (patrz poprzednia tabela). $2 ^ {8-1} - 1 = 127$

Znormalizowana liczba zmiennoprzecinkowa ma wartość v określoną według następującego wzoru:

v = s × 2 e × m .

s = ± 1 reprezentuje znak (w zależności od bitu znaku);
e jest wykładnikiem przed jego odchyleniem równym 127;
m = 1+ mantysa reprezentuje część znaczącą (binarnie), stąd 1 ≤ m <2 ( mantysa jest dziesiętną częścią znaczącej części, między 0 a 1)

Na przykład dla 0b 0 01111100 01000000000000000000000: znak jest dodatni, wykładnik to 124 - 127 = −3, a część znacząca to 0b 1,01, czyli 1,25 dziesiętnie (1 × 2 0 + 0 × 2 −1 + 1 × 2 - 2 ); reprezentowana liczba to zatem +1,25 × 2 −3 lub +0,15625.

Nieznormalizowaną numery zgodnie z tą samą zasadą, oprócz tego, że e = -126 i m = 0+ mantysa (uwaga: dla obliczeń, zadbamy wziąć e = -126 i -127 nie, w celu zapewnienia ciągłości tego reprezentacja ze znormalizowaną reprezentacją, ponieważ m = 0+ mantysa i już nie m = 1+ mantysa ).

Uwagi:

Są dwa zera: +0 i −0 (zero dodatnie i zero ujemne), w zależności od wartości bitu znaku;
Istnieją dwie nieskończoności: + ∞ i −∞, w zależności od wartości bitu znaku;
Zera i zdenormalizowane liczby mają tendencyjny wykładnik równy -127 + 127 = 0; wszystkie bity pola „wykładnika” mają więc 0;
NaN i nieskończoności mają tendencyjny wykładnik 128 + 127 = 255; wszystkie bity pola „wykładnika” mają zatem wartość 1;
NaN mogą mieć znak i znaczącą część, ale nie mają one sensu jako rzeczywista wartość (z wyjątkiem sygnalizacji, która może aktywować wyjątek i korekcję błędów);
Niezerowa zdenormalizowana liczba najbliższa zeru to ± 2 −149 ≈ ± 1,401 298 5 x 10 −45 ;
Niezerowa znormalizowana liczba najbliższa zeru to ± 2 −126 ≈ ± 1,175 494 351 × 10 −38 ;
Znormalizowana liczba o największej wartości bezwzględnej to ± (2−2 −23 ) × 2127 ≈ ± 3,402 823 5 × 10 38 .

Oto tabela podsumowująca poprzednią część, z przykładami 32-bitowych liczb o pojedynczej precyzji.

Rodzaj	Wystawca	Mantysa	Przybliżona wartość	Odchylenie / poprz
Zero	0000 0000	000 0000 0000 0000 0000 0000	0.0
Najmniejsza zdenormalizowana liczba	0000 0000	000 0000 0000 0000 0000 0001	1,4 x 10 −45	1,4 x 10 −45
Następna zdenormalizowana liczba	0000 0000	000 0000 0000 0000 0000 0010	2,8 x 10 −45	1,4 x 10 −45
Następna zdenormalizowana liczba	0000 0000	000 0000 0000 0000 0000 0011	4,2 x 10-45	1,4 x 10 −45
Inna liczba zdenormalizowana	0000 0000	100 0000 0000 0000 0000 0000	5,9 x 10 −39
Największa zdenormalizowana liczba	0000 0000	111 1111 1111 1111 1111 1111	1,175 494 21 × 10 −38
Najmniejsza znormalizowana liczba	0000 0001	000 0000 0000 0000 0000 0000	1,175 494 35 × 10 −38	1,4 x 10 −45
Następny znormalizowany numer	0000 0001	000 0000 0000 0000 0000 0001	1,175 494 49 × 10 −38	1,4 x 10 −45
Prawie podwójnie	0000 0001	111 1111 1111 1111 1111 1111	2.350 988 56 × 10 −38	1,4 x 10 −45
Następny znormalizowany numer	0000 0010	000 0000 0000 0000 0000 0000	2.350 988 70 × 10 −38	1,4 x 10 −45
Następny znormalizowany numer	0000 0010	000 0000 0000 0000 0000 0001	2.350 988 98 × 10 −38	2,8 x 10 −45
Prawie 1	0111 1110,	111 1111 1111 1111 1111 1111	0,999 999 94	0,6 × 10 −7
1	0111 1111	000 0000 0000 0000 0000 0000	1,000,000 00
Następny numer 1	0111 1111	000 0000 0000 0000 0000 0001	1000000 12	1,2 x 10 −7
Prawie największa liczba	1111 1110,	111 1111 1111 1111 1111 1110	3.402 823 26 × 10 38
Największa znormalizowana liczba	1111 1110,	111 1111 1111 1111 1111 1111	3.402 823 46 × 10 38	2 × 10 31
Nieskończony	1111 1111,	000 0000 0000 0000 0000 0000	Nieskończony
Pierwsza (zdenormalizowana) wartość ostrzeżenia NaN	1111 1111,	000 0000 0000 0000 0000 0001	nie
Znormalizowany NaN (alarm)	1111 1111,	010 0000 0000 0000 0000 0000	nie
Ostatnia (zdenormalizowana) wartość ostrzeżenia NaN	1111 1111,	011 1111 1111 1111 1111 1111	nie
Pierwsza (zdenormalizowana) wartość cichego NaN	1111 1111,	100 0000 0000 0000 0000 0000	nie
Ostatnia (zdenormalizowana) wartość cichego NaN	1111 1111,	111 1111 1111 1111 1111 1111	nie

Uwagi:

Wartość pola mantysy NaN pokazana powyżej jest przykładem NaN, ale nie jest jedyną możliwą wartością do zakodowania wartości NaN. Wartości tego pola kodującego NaN są wszystkimi możliwymi wartościami, z wyjątkiem zera (które koduje nieskończoność);
Zwróć także uwagę na różnicę, na większości maszyn, między polem mantysy zaczynającym się od bitu 1, używanym dla cichych NaN, a polem mantysy zaczynającym się od bitu 0, wskazującym NaN z ostrzeżeniem. Jednak na niektórych maszynach, takich jak te oparte na PA-RISC , dokonano przeciwnego (mniej praktycznego) wyboru.

Złożony przykład

Zakodujmy liczbę dziesiętną −118,625 przy użyciu mechanizmu IEEE 754.

Najpierw potrzebujemy znaku, wykładnika i części ułamkowej. Jest to liczba ujemna, więc znak to „1”.
Następnie zapisujemy liczbę (bez znaku) binarnie . Otrzymujemy 1110110,101 (z kolejnymi mnożeniami przez dwa dla części dziesiętnej).
Następnie przesuwamy przecinek w lewo, tak aby zostawić tylko 1 po jego lewej stronie: 1110110.101 (bin) = 1,110110101 (bin) × 2 6 . Jest to znormalizowana liczba zmiennoprzecinkowa: mantysa to część po prawej stronie przecinka, wypełniona 0 po prawej stronie, aby uzyskać 23 bity. Daje to 110 1101 0100 0000 0000 0000 (pomijamy 1 przed kropką dziesiętną, która jest niejawna).
Wykładnik jest równy 6 i musimy go przekonwertować na binarny i wziąć pod uwagę odchylenie. Dla 32-bitowego formatu IEEE 754 odchylenie wynosi 2 8-1 -1 = 127. A więc 6 + 127 = 133 (dec) = 1000 0101 (bin).

Mamy zatem −118,625 (dec) = 1100 0010 1110 1101 0100 0000 0000 0000 (bin) = C2ED4000 (hexa).

Format podwójnej precyzji (64-bitowy)

Format podwójnej precyzji jest taki sam, jak pojedynczej precyzji, z tą różnicą, że pola są większe. Rzeczywiście, ma 52 bity mantysy zamiast tylko 23 i 11 bitów wykładnika zamiast tylko 8.

Mantysa jest bardzo szeroka, a wykładnik niezbyt szeroki. Dzieje się tak, ponieważ według twórców standardu precyzja jest ważniejsza niż amplituda.

NaN i nieskończoności są reprezentowane przez ustawienie wszystkich bitów wykładnika na 1 (2047), ale rozróżniane przez ustawienie wszystkich 52 bitów mantysy na 0 dla nieskończoności i co najmniej jeden z tych 52 bitów na 1 dla Nie .

W przypadku liczb znormalizowanych odchylenie wykładnika wynosi +1023. W przypadku liczb zdenormalizowanych wykładnik wynosi −1022 (minimalny wykładnik dla liczby znormalizowanej). Nie jest to −1023, ponieważ znormalizowane liczby mają 1 przed przecinkiem, a zdenormalizowane nie. Tak jak poprzednio, zero i nieskończoność są podpisane.

Uwagi:

Najmniejsza liczba dodatnia inna niż zero i największa liczba ujemna inna niż zero (reprezentowana przez zdenormalizowaną wartość ze wszystkimi bitami w polu Wykładnik równymi 0 i wartością binarną 1 w polu Ułamek) są: ± 2 −1074 ≈ ± 4,940 656 458412 465 4 × 10 −324
Najmniejsza znormalizowana liczba dodatnia inna niż zero i największa znormalizowana liczba ujemna inna niż zero (reprezentowana przez wartość binarną 1 w polu Exp i 0 w polu Ułamek) to: ± 2 −1022 ≈ ± 2,225 073 858 507 201 4 × 10 −308
Największa skończona liczba dodatnia i najmniejsza skończona liczba ujemna (reprezentowana przez wartość 2046 w polu Exp i wszystkie 1 bity w polu Ułamek) to: ± (2 1024 - 2971 ) ≈ ± 1,797 693 134 862 315 7 × 10 308

Porównaj liczby zmiennoprzecinkowe

Generalnie najlepiej jest porównywać liczby zmiennoprzecinkowe przy użyciu instrukcji obliczeń zmiennoprzecinkowych. Jednak ta reprezentacja umożliwia porównywanie pewnych podzbiorów bajt po bajcie, jeśli mają one tę samą kolejność bajtów i ten sam znak, a NaN są wykluczone.

Na przykład dla dwóch dodatnich liczb zmiennoprzecinkowych a i b porównanie między a i b (>, <lub ==) daje takie same wyniki, jak porównanie dwóch liczb ze znakiem (lub bez znaku) o takich samych bitach jak a i b. Innymi słowy, dwie dodatnie liczby zmiennoprzecinkowe (które nie są NaN) można porównać z porównaniem binarnym ze znakiem (lub bez znaku). Ze względu na problem z kolejnością bajtów tego porównania nie można używać w kodzie przenośnym.

Zaokrąglij liczby zmiennoprzecinkowe

Standard IEEE określa 5 trybów zaokrąglania:

W kierunku minus nieskończoności;
Ku większej nieskończoności;
W kierunku zera;
Z bliska (2 warianty):
- w połowie drogi do najbliższej wartości mającej nawet najmniej znaczącą cyfrę (domyślny tryb zaokrąglania dla formatów binarnych);
- w połowie drogi w kierunku najdalszego od zera (w górę w wartości bezwzględnej);

Wersje standardowe

W czerwiec 2008, poważna zmiana standardów IEEE 754 i IEEE 854 została zatwierdzona przez IEEE. Zobacz: IEEE 754-2008 (en) .

Ta wersja wprowadza nowe formaty o podstawie 2 i 10 oraz określa reprezentację formatów o podstawie 10 (oprócz formatu podstawowego 2).

Normalizuje również całkowitą relację porządku dla każdego znormalizowanego liczbowego typu danych, uzupełniając zwykłe relacje porządku, które są tylko częściowe; w rzeczywistości relacja normalnego rzędu jest całkowita tylko pod warunkiem usunięcia ze zbioru wartości ujemnej wartości zerowej (zwykle porównywana jako równa dodatniej wartości zerowej) i wszystkich wartości NaN (które nie są ani równe, ani wyższe, ani nie są gorsze od innych, nawet samych siebie).

Z drugiej strony, ta rewizja pozostawia elastyczność reprezentacji i możliwe rozróżnienie wartości NaN (pozycja i wartość bitów ostrzegawczych w polu mantysy nie są znormalizowane, a użycie innych bitów pole mantysy lub znak wartości NaN do zakodowania błędu pozostaje zależny od architektury lub aplikacji).

Nowa wersja została zatwierdzona w lipiec 2019.

Bibliografia

IEEE, standard IEEE-754
David Goldberg, Co każdy informatyk powinien wiedzieć o arytmetyce zmiennoprzecinkowej , ACM Computing Surveys, vol. 23, n o 1,Marzec 1991.

Uwagi i odniesienia

(in) „ The Open Group Base Specifications Issue 6 ” .
( cal ) IEEE Standard for Floating-Point Arithmetic (ANSI / IEEE Std 754-2008) , ( ISBN 978-0-7381-5753-5 ) .
(w) „ Re: (long) sNaNs not What They Could Be ... ” 15 października 2010.
(en) Weryfikacja ANSI / IEEE Std 754-1985; Projekt 754R zatwierdzony jako standard IEEE na stronie www.validlab.com
(en) Weryfikacja ANSI / IEEE Std 754-1985; Projekt 754R zatwierdzony jako standard IEEE na stronie 754r.ucbtest.org

Linki zewnętrzne

Deterministyczna wieloplatformowa arytmetyka zmiennoprzecinkowa : wiele informacji na temat różnych implementacji IEEE 754 na różnych platformach
(pl) Konwerter binarny : Interaktywny konwerter binarny o pojedynczej i podwójnej precyzji zgodnie ze standardem IEEE 754
Lista artykułów na stronie Standard Revision Group .

Powiązane artykuły

Intel 8087 , pierwsze koprocesory matematyczne Intel 1980 i pierwsza implementacja (wtedy ściśle standard tylko dla typu pojedynczej precyzji).
Liczba zmiennoprzecinkowa , najczęściej używana reprezentacja liczb w komputerze.
NaN , „Not a Number”, po francusku „not a number”; w szczególności wynik nieprawidłowej operacji arytmetycznej.
IEEE 754-1985 (en) , standard reprezentacji liczb zmiennoprzecinkowych w formacie binarnym.
IEEE 754-2008 (en) , główna zmiana normy IEEE 754-1985 i grupy roboczej IEEE 754r.
Zero zalogowało się ( zalogowano ) .
Notacja naukowa