UTF-8

UTF-8 (skrót od Universal Character Set Transformation Format - 8 bits ) to komputerowe kodowanie znaków przeznaczone do kodowania zestawu znaków z „uniwersalnego repertuaru znaków kodowanych”, pierwotnie opracowanego przez ISO w standardzie międzynarodowym ISO/IEC 10646 , teraz w pełni kompatybilny ze standardem Unicode , pozostając jednocześnie kompatybilnym ze standardem ASCII ograniczonym do podstawowego języka angielskiego, ale szeroko stosowanym od dziesięcioleci.

UTF-8 jest używany przez 82,2% witryn w grudzień 2014, 87,6% w 2016, 90,5% w 2017, 93,1% w luty 2019 i prawie 95,2% w październik 2020. Ze swej natury UTF-8 jest coraz częściej używany w Internecie oraz w systemach, które muszą wymieniać informacje. Jest to również najczęściej używane kodowanie w systemach GNU , Linux i kompatybilnych do zarządzania tekstami i ich tłumaczeniami tak prosto, jak to możliwe we wszystkich systemach pisma i we wszystkich alfabetach na świecie.

Powiązania z międzynarodowym standardem ISO/IEC 10646 oraz standardami Unicode i internetowymi

UTF-8 to „format transformacji” wywodzący się z pracy dla standardu ISO/IEC 10646 , tj. UTF-8 definiuje kodowanie dla dowolnego skalarnego punktu kodowego ( znak abstrakcyjny lub „nieznakowy”) z uniwersalnego zestawu znaków ( UCS ) informator. Katalog ten jest teraz wspólny dla standardu ISO/IEC 10646 (od jego wersji 1) oraz dla standardu Unicode (od wersji 1.1).

UTF-8 jest oficjalnie zdefiniowany w standardzie ISO/IEC 10646 od momentu jego przyjęcia w poprawce opublikowanej w 1996 roku. Został również opisany w standardzie Unicode i jest częścią tego standardu od wersji 3.0 opublikowanej w 2000 roku. W 1996 roku został opublikowany RFC 2044 („ UTF-8, format transformacji ISO 10646 ”) w celu zapewnienia przystępnej specyfikacji UTF-8 i rozpoczęcia jego standaryzacji w ramach Internet Engineering Task Force (IETF). Ten dokument RFC został zaktualizowany w 1998 ( RFC 2279) i wreszcie w 2003 ( RFC 3629), przy czym ta ostatnia wersja uczyniła UTF-8 jednym ze standardów Internetu (STD 63).

Opis techniczny

Z technicznego punktu widzenia obejmuje to kodowanie znaków Unicode w postaci sekwencji od jednego do czterech punktów kodowych, każdy po jednym bajcie . Standard Unicode definiuje między innymi zbiór (lub katalog) znaków. Każdy znak w tym zestawie jest identyfikowany przez cały indeks zwany również „ punktem kodowym ”. Na przykład znak „€” ( euro ) jest 8365- tym znakiem katalogu Unicode, jego indeksem lub punktem kodowym jest zatem 8364 (0x20AC) (zaczynamy liczyć od 0).

Katalog Unicode może zawierać ponad milion znaków, co jest zbyt duże, aby można je było zakodować jako pojedynczy bajt (ograniczony do wartości od 0 do 255). Standard Unicode definiuje zatem znormalizowane metody kodowania i przechowywania tego indeksu w postaci ciągu bajtów: UTF-8 jest jednym z nich, wraz z UTF-16 , UTF-32 i ich różnymi wariantami.

Główną cechą UTF-8 jest to, że jest wstecznie kompatybilny ze standardem ASCII, to znaczy, że każdy znak ASCII jest zakodowany w UTF-8 w postaci jednego bajtu, identycznego z kodem ASCII. Na przykład „A” (wielka litera A) ma kod ASCII 65 (0x41) i jest zakodowany w UTF-8 przez bajt 65. Każdy znak, którego punkt kodowy jest większy niż 127 (0x7F) (znak inny niż ASCII) jest kodem od 2 do 4 bajty . Znak „€” (euro) jest zakodowany na przykład na 3 bajtach : 226, 130 i 172 (0xE2, 0x82 i 0xAC).

Opis

Numer (wartość skalarna) każdego punktu kodowego w Universal Character Set (UCS) jest podana przez normę ISO / IEC 10646, która przypisuje punkt kodowy do każdego ważnego znaku i umożliwia ich kodowanie poprzez przypisanie wartości skalarnej identycznej z punktem kodowym ; ten standard jest zawarty w standardzie Unicode (który używa tego samego katalogu od wersji 1.1).

Wszystkie " punkty kodowe " od U + 0000 do U + D7FF i od U + E000 do U + 10FFFF są reprezentowane w UTF-8 - nawet te przypisane do "nieznakowych" ( nieznakowych ) i wszystkie jeszcze nieprzypisane - i tylko te. Jedyne punkty kodowe ważne w przestrzeni UCS i które nie powinny być reprezentowane w UTF-8, to te przypisane do " pół- punktów kodowych " ( zamienniki w języku angielskim), ponieważ nie są one w pewien sposób reprezentowalne. bijective w kodowaniu UTF-16 i same w sobie nie są znakami: w przeciwieństwie do innych punktów kodowych, pół-kody nie mają zdefiniowanej " wartości skalarnej ".

Kod kropkowy o wartości skalarnej od 0 do 127 (punkty kodowe U + 0000 U + 007F, przypisane do znaków zbioru zakodowanych na 7 bitach w ASCII) są zakodowane na jednym bajcie, z którego bit najbardziej znaczący to zero.

Inne punkty kodowe (przypisane lub nie do znaków) mające wartość skalarną większą niż 127 (z wyjątkiem tych, którym przypisano „półkody”, które same nie są znakami) są kodowane na kilku bajtach, z których każdy ma swoje własne. najbardziej znaczący bit: najbardziej znaczące bity pierwszego bajtu zakodowanej sekwencji tworzą sekwencję o długości jedynek równą całkowitej liczbie bajtów (co najmniej 2) użytych dla całej sekwencji, po których następuje 0 i wymagane kolejne bajty ich dwa najbardziej znaczące bity ustawione na 10.

Definicja liczby bajtów użytych w kodowaniu (zauważ, że ta tabela zasad zawiera nieprawidłowe sekwencje)

Zakodowane znaki	Reprezentacja binarna UTF-8	Pierwszy prawidłowy bajt (szesnastkowo)	Znaczenie
U + 0000 do U + 007F	0 xxxxxxx	00 do 7F	1 bajt, kodowanie 7 bitów
U + 0080 do U + 07FF	11 0 xxxxx 10 xxxxxx	C2 do DF	2 bajty, kodowanie 11 bitów
U + 0800 do U + FFFF	111 0 X X X X 10 xxxxxx 10 xxxxxx	E0 do EF	3 bajty, kodowanie 16 bitów
U + 10000 do U + 10FFFF	1111 0 xxx 10 xxxxxx 10 xxxxxx 10 xxxxxx	F0 do F4	4 bajty, kodowanie 21 bitów

Ta zasada może zostać rozszerzona do ośmiu bajtów dla pojedynczego punktu kodowego (w celu reprezentowania punktów kodowych o długości do 42 bitów), ale obecna standardowa wersja UTF-8 ustala limit na cztery.

Kodowanie zabrania reprezentacji punktów kodowych zarezerwowanych dla półkodów (które nie mają zdefiniowanej wartości skalarnej, aby zachować zgodność z UTF-16, który również nie pozwala na ich reprezentację). Jednak zezwala na reprezentację punktów kodowych przypisanych do nieznaków (mimo że ich obecność jest zabroniona w tekście zgodnym).

Przykłady

Przykłady kodowania UTF-8

Rodzaj	Postać	Punkt kodowy (szesnastkowy)	Wartość skalarna		Kodowanie UTF-8
Rodzaj	Postać	Punkt kodowy (szesnastkowy)	dziesiętny	dwójkowy	dwójkowy	szesnastkowy
Kontrola	[NIE]	U + 0000	0	0	0 0000000	00
Kontrola	[NAS]	U + 001F	31	1111	0 0011111	1F
Tekst	[SP]	U + 0020	32	100000	0 0100000	20
	W	U + 0041	65	100 0001	0 100 0001	41
	~	U + 007E	126	111 1110	0 1111110	7E
Kontrola	[Z TEGO]	U + 007F	127	111 1111	0 1111111	7F
	[PODKŁADKA]	U + 0080	128	000 1000 0000	110 000 10 10 000 000	C2 80
	[APC]	U + 009F	159	000 1001 1111	110 000 10 10 011 111	C2 9F
Tekst	[NBSP]	U + 00A0	160	000 1010 0000	110 000 10 10 100 000	C2 A0
	mi	U + 00E9	233	000 1110 1001	110 000 11 10 101 001	C3 A9
	߿	U + 07FF	2047	111 1111 1111	110 111 11 10 111 111	DF BF
	ࠀ	U + 0800	2048	1000 0000 0000	1110 0000 10 1000 00 10 000000	E0 A0 80
	€	U + 20AC	8 364	100000 10101100	1110 0010 10 0000 10 10 101100	E2 82 AC
	퟿	U + D7FF	55 295	1101 0111 1111 1111	1110 1101 10 0111 11 10 111111	ED 9F BF
Połowa kodetu		U + D800	(nic)		(kodowanie zabronione)
Połowa kodetu		U + DFFF	(nic)		(kodowanie zabronione)
Użytek prywatny	[]	U + E000	57 344	1110 0000 0000 0000	1110 1110 10 0000 00 10 0000000	EE 80 80
Użytek prywatny	[]	U + F8FF	63 743	1111 1000 1111 1111	1110 1111 10 1000 11 10 111111	EF A3 BF
Tekst		U + F900	63 744	1111 1001 0000 0000	1110 1111 10 1001 00 10 000 000	EF A4 80
Tekst	﷏	U + FDCF	64 975	1111 1101 1100 1111	1110 1111 10 1101 11 10 001111	EF B7 8F
Nieznaki		U + FDD0	64 976	1111 1101 1101 0000	1110 1111 10 1101 11 10 010000	EF B7 90
Nieznaki		U + FDEF	65 007	1111 1101 1110 1111	1110 1111 10 1101 11 10 101111	EF B7 AF
Tekst	صلے	U + FDF0	65,008	1111 1101 1111 0000	1110 1111 10 1101 11 10 110000	EF B7 B0
Tekst		U + FFFD	65 533	1111 1111 1111 1101	1110 1111 10 1111 11 10 111101	EF BF BD
Nieznaki		U + FFFE	65 534	1111 1111 1111 1110	1110 1111 10 1111 11 10 111110	EF BF BE
Nieznaki		U + FFFF	65 535	1111 1111 1111 1111	1110 1111 10 1111 11 10 111111	EF BF BF

Tekst	?	U + 10 000	65 536	1 0000 0000 0000 0000	11 110 000 10 01 0000 10 0000 00 10 000000	F0 90 80 80
	?	U + 1D11E	119 070	1 1101 0001 0001 1110	11 110 000 10 01 1101 10 0001 00 10 011 110	F0 9D 84 9E
	?	U + 1FFFD	131,069	1 1111 1111 1111 1101	11110 000 10 01 1111 10 1111 11 10 111 101	F0 9F BF BD
Nieznaki		U + 1FFFE	131 070	1 1111 1111 1111 1110	11110 000 10 01 1111 10 1111 11 10 111 110	F0 9F BF BE
Nieznaki		U + 1FFFF	131 071	1 1111 1111 1111 1111	11 110 000 10 01 1111 10 1111 11 10 111111	F0 9F BF BF

Tekst	?	U + 20 000	131 072	10 0000 0000 0000 0000	11 110 000 10 10 0000 10 0000 00 10 000000	F0 A0 80 80
Tekst	?	U + 2FFFD	196 605	10 1111 1111 1111 1101	11110 000 10 10 1111 10 1111 11 10 111 101	F0 AF BF BD
Nieznaki		U + 2FFFE	196 606	10 1111 1111 1111 1110	11110 000 10 10 1111 10 1111 11 10 111 110	F0 AF BF BE
Nieznaki		U + 2FFFF	196.607	10 1111 1111 1111 1111	11 110 000 10 10 1111 10 1111 11 10 111111	F0 AF BF BF

... inne plany zastrzeżone ...

Promocje	?	U + E0000	917 504	1110 0000 0000 0000 0000	11110 011 10 10 0000 10 0000 00 10 000000	F3 A0 80 80
Promocje	?	U + EFFFD	983,037	1110 1111 1111 1111 1101	11110 011 10 10 1111 10 1111 11 10 111101	F3 AF BF BD
Nieznaki		U + EFFE	983,038	1110 1111 1111 1111 1110	11110 011 10 10 1111 10 1111 11 10 111110	F3 AF BF BE
Nieznaki		U + EFF	983,039	1110 1111 1111 1111 1111	11110 011 10 10 1111 10 1111 11 10 111111	F3 AF BF BF

Użytek prywatny	[?]	U + F0000	983,040	1111 0000 0000 0000 0000	11110 011 10 11 0000 10 0000 00 10 000000	F3 B0 80 80
Użytek prywatny	[ ]	U + FFFFD	1 048 573	1111 1111 1111 1111 1101	11110 011 10 11 1111 10 1111 11 10 111101	F3
Nieznaki		U + FFFFE	1 048 574	1111 1111 1111 1111 1110	11110 011 10 11 1111 10 1111 11 10 111110	F3 BF BF BE
Nieznaki		U + FFFFF	1 048 575	1111 1111 1111 1111 1111	11110 011 10 11 1111 10 1111 11 10 111111	F3 KP K K KP

Użytek prywatny	[?]	U + 100 000	1 048 576	1 0000 0000 0000 0000 0000	11110 100 10 00 0000 10 0000 00 10 000000	F4 80 80 80
Użytek prywatny	[?]	U + 10FFFD	1,114,109	1 0000 1111 1111 1111 1101	11110 100 10 00 1111 10 1111 11 10 111101	F4 8F BF BD
Nieznaki		U + 10FFFE	1,114,110	1 0000 1111 1111 1111 1110	11110 100 10 00 1111 10 1111 11 10 111110	F4 8F BF BE
Nieznaki		U + 10FFFF	1,114,111	1 0000 1111 1111 1111 1111	11110 100 10 00 1111 10 1111 11 10 111111	F4 8F BF BF

Charakterystyka

W dowolnym ciągu znaków zakodowanym w UTF-8 zauważamy, że:

każdy bajt najbardziej znaczącego bitu zerowego oznacza pojedynczy "punkt kodowy" przypisany do znaku w katalogu US-ASCII i zakodowany w tym pojedynczym bajcie, z wartością skalarną identyczną z wartością punktu kodowego użytego w kodowaniu US -ASCII;
każdy bajt najbardziej znaczących bitów liczby 11 jest pierwszym bajtem unikalnej sekwencji reprezentującej „punkt kodowy” (przypisany do znaku lub nieznakowego) i zakodowany na kilku bajtach;
każdy bajt najbardziej znaczących bitów z 10 jest jednym z następujących bajtów pojedynczej sekwencji reprezentującej „punkt kodowy” (przypisany do znaku lub nieznakowego) i zakodowany na kilku bajtach;
jakieś bajty mogą przyjmować wartość szesnastkową między C0 i C1 oraz pomiędzy F5 i FF (najwyższy punkt ważnego kodu i przypisany do przedstawialnym znak U + 10FFFD, jest to prywatne korzystanie charakter przyznane w 17 th ważny plan).

Największym punktem ważnego do przypisania kodu do ważnego znaku nie prywatny jest U + EFFFD w 15 -tego planu (nie jest jeszcze przypisany, ale może stać się w przyszłości), ale UTF-8 może być stosowany również w standardowy sposób, do reprezentowania dowolnego prawidłowego znaku do użytku prywatnego (w jednym z trzech zakresów U + E000 do U + F8FF, U + F0000 do U + FFFFD i U + 100000 do U + 10FFFD) .

To, czy akceptowane są znaki niebędące znakami lub znaki używane do użytku prywatnego, należy pozostawić aplikacjom lub protokołom transportu tekstu. Jednak znaki niebędące znakami nie są zwykle akceptowane w tekstach ściśle zgodnych ze standardem Unicode lub normą ISO/IEC 10646 .

Niektóre aplikacje nakładają dodatkowe ograniczenia na punkty kodowe, które mogą być używane (na przykład standardy HTML i XML zabraniają w każdym dokumencie zgodnym z tymi specyfikacjami obecności większości znaków kontrolnych między U + 0000 i U + 001F oraz między U + 0080 i U + 009F, poza kontrolką zakładki U + 0009 są uważane za puste znaki, a także zabraniają znaków niebędących znakami ).

Każdy punkt kodowy jest zawsze reprezentowany przez dokładnie tę samą sekwencję binarną, niezależnie od jej względnej pozycji w tekście, a sekwencje te są automatycznie synchronizowane na niepodzielnej pozycji znaczących punktów kodowych (tutaj bajty: zawsze możemy wiedzieć, czy bajt zaczyna się, czy nie efektywna sekwencja binarna); to kodowanie umożliwia zatem szybkie algorytmy wyszukiwania tekstu, takie jak algorytm Boyera-Moore'a .

Nie zawsze tak jest w przypadku kodowań kontekstowych (które generalnie wykorzystują kompresję danych , np. SCSU zdefiniowaną w opcjonalnej nocie technicznej standardu UTS nr 6 uzupełniającej standard Unicode) i które mogą wymagać przeczytania tekstu w całości od początku. na więcej niż jednej zmiennej stanu (lub zawierające dodatkowe kody redundancji); w najlepszym przypadku niektóre z tych kodowań mogą wymagać użycia złożonych algorytmów resynchronizacji, często opartych na heurystyce, które mogą zawieść lub prowadzić do fałszywych interpretacji, jeśli tekst nie zostanie odczytany od początku (np. BOCU -1).

Zasada i niepowtarzalność kodowania

W powyższej tabeli widzimy, że znak „€” znajduje się w punkcie kodowym U + 20AC, w postaci dziesiętnej 8364 lub binarnej: 100 000 10101100.

Ta ostatnia liczba ma znaczące cyfry binarne, więc do zakodowania znaku „€” potrzeba co najmniej 14 bitów . Przedstawiony powyżej standard w rzeczywistości wymaga trzech bajtów do przedstawienia tych znaków. ${\ displaystyle \ lceil \ log _ {2} 8364 \ rceil = 14}$

Mając dostępne cztery bajty, możliwe byłoby umieszczenie zgodnie z tym standardem do 21 bitów , a więc w szczególności przedstawienie znaku „€” przez 00000 00 100000 10101100, dodając do niego 7 wiodących zer . Jednak standard narzuca, że program dekodujący UTF-8 nie może akceptować niepotrzebnie długich ciągów bajtów, jak w tym przykładzie, ze względów bezpieczeństwa (należy unikać zbyt tolerancyjnych testów podciągów). Zatem „€” będzie kodowane: 11100010 10000010 10101100, ale nie wolno używać kodu 11110000 10000010 10000010 10101100, wyprowadzonego z reprezentacji „€” na 21 bitach , chociaż jednoznaczne.

Taka forma dłuższa niż potrzeba nazywa się w języku angielskim overlong . Takie formularze (początkowo autoryzowane w starych specyfikacjach, zanim zostały kolejno ujednolicone przez początkowe RFC publikowane przez X/Open Consortium , następnie równolegle przez standard ISO 10646 i standard Unicode) są zabronione i muszą być traktowane jako nieważne.

Rodzaje bajtów, prawidłowe sekwencje i dekodowanie

Kodowanie jest predykcyjne i zawsze umożliwia znalezienie pozycji pierwszego bajtu ciągu reprezentującego punkt kodowy, z wartości dowolnego bajtu oraz z odczytu ograniczonej liczby sąsiednich bajtów, w dwóch kierunkach odczytu (to zawsze będzie samym bajtem lub pierwszym kwalifikującym się w jednym z 1 do 3 sąsiednich bajtów ).

Każdy bajt kontynuacji w prawidłowej sekwencji UTF-8 może przyjmować tylko wartości szesnastkowe od 80 do BF;
- może istnieć tylko po rozpoczęciu bajtu sekwencji (reprezentującego punkt kodowy), który będzie ostatnim zakodowanym w jednym z poprzednich 1 do 3 bajtów i który również nie jest bajtem kontynuacji;
- następny punkt kodowy, jeśli taki istnieje, może rozpocząć się najwyżej w ciągu następnych 1 do 3 bajtów .
Pierwszy bajt poprawnej sekwencji UTF-8 może przyjmować tylko wartości szesnastkowe od 00 do 7F lub od C2 do F4:
- za pierwszym bajtem szesnastkowym 00 do 7F sekwencji nie następuje żaden bajt kontynuacji;
- pierwszy bajt szesnastkowy C2 do DF sekwencji zawsze poprzedza pojedynczy bajt kontynuacji (każdy o wartości szesnastkowej od 80 do BF);
- pierwszy bajt szesnastkowy E0 do EF sekwencji jest zawsze poprzedzony dwoma bajtami kontynuacji (każdy o wartości szesnastkowej od 80 do BF);
  - jednak, jeśli pierwszy bajt sekwencji przyjmuje wartość szesnastkową E0, pierwszy bajt kontynuacji jest ograniczony do wartości szesnastkowej między A0 i BF;
  - jednakże, jeżeli pierwszy bajt sekwencji przyjmuje wartość szesnastkową ED, pierwszy bajt kontynuacji jest ograniczony do wartości szesnastkowej pomiędzy 80 a 9F;
- pierwszy bajt szesnastkowy F0 do F4 sekwencji jest zawsze poprzedzony trzema bajtami kontynuacji (każdy o wartości szesnastkowej od 80 do BF);
  - jednakże, jeśli pierwszy bajt sekwencji przyjmuje wartość szesnastkową F0, pierwszy bajt kontynuacji jest ograniczony do wartości szesnastkowej między 90 a BF;
  - jeśli jednak pierwszy bajt sekwencji przyjmuje wartość szesnastkową F4, pierwszy bajt kontynuacji jest ograniczony do wartości szesnastkowej między 80 a 8F.

Zabronione sekwencje

Punkty kodowe są zawsze reprezentowane przez najkrótszą możliwą sekwencję bajtów:
- dlatego żadna sekwencja bajtów nie zawiera początkowych bajtów wartości szesnastkowej C0 lub C1 w prawidłowym tekście zakodowanym w UTF-8;
- podobnie żadna sekwencja rozpoczynająca się od początkowego bajtu E0 nie może mieć pierwszego bajtu kontynuacji o wartości szesnastkowej 80 do 9F.
Punkty kodowe od U + D800 do U + DFFF są zabronione (ich wartość skalarna jest zarezerwowana dla reprezentacji UTF-16 dodatkowych punktów kodowych z parami punktów półkodowych ):
- dlatego pierwszy bajt kontynuacji sekwencji, która zaczyna się od bajtu szesnastkowego ED, nie może przyjąć żadnej z wartości szesnastkowych od A0 do BF;
- z drugiej strony te sekwencje zabronione w UTF-8 są autoryzowane w transformacji CESU-8 (niezalecane, co w żadnym wypadku nie powinno być mylone z UTF-8, ponieważ CESU-8 używa tych sekwencji do kodowania znaków dodatkowego płaszczyzny w 2 sekwencjach po 3 bajty każda, zamiast pojedynczej sekwencji 4 bajtów w UTF-8).
Jak również wszelkie kodowanie, które może dać punkt kodowy o wartości większej niż U + 10FFFF, jest zabronione:
- dlatego pierwszy bajt kontynuacji sekwencji, która zaczyna się od szesnastkowego bajtu F4 nie może przyjmować żadnej z wartości szesnastkowych od 90 do BF;
- i żadna sekwencja bajtów nie zawiera początkowych bajtów wartości szesnastkowej od F5 do FF.

Mówi się, że takie sekwencje są źle uformowane . (Patrz odniesienie powyżej, zwłaszcza druga tabela w klauzuli zgodności D36 normy lub artykuł Unicode ).

Z drugiej strony dozwolone są zastrzeżone punkty kodowe (jeszcze nie przydzielone do znaków) (nawet jeśli interpretacja znaków może pozostać niejednoznaczna): od aplikacji zależy, czy te znaki są dopuszczalne, czy nie, wiedząc, że te same aplikacje będą prawdopodobnie nadal używane, mimo że pozycje te zostały przypisane w standardach Unicode i ISO 10646 do nowych, w pełni poprawnych znaków.

Podobnie, inne punkty kodowe przypisane na stałe do innych „ nieznakowych ” są zabronione w tekstach zgodnych z ISO/IEC 10646 lub standardem Unicode : na przykład U + x FFFE do U + x FFFF (gdzie x oznacza szesnastkowy numer planu z 0 do 10). Pozostają jednak możliwe do zakodowania i dekodowania jako takie w UTF-8 ( nieznaki są dostępne dla aplikacji, które mogą z nich korzystać w ramach wewnętrznych interfejsów API, na przykład jako kody pośrednie niezbędne do realizacji niektórych procesów. ).

Ograniczenie przestrzeni reprezentacji tylko do punktów kodowych mniejszych lub równych U + 10FFFF (z wyłączeniem punktów kodowych przypisanych do punktów kodowych połówkowych ) nie zawsze było stosowane:

Nie zawsze tak było w normie ISO/IEC 10646, która pierwotnie przewidywała możliwość kodowania bardzo dużej liczby możliwych płaszczyzn (UCS-4 pozwalała na kodowanie do 31 bitów ), dzięki czemu Unicode Consortium (od momentu połączenia wspólnego repertuaru w wersji 1.1) nadal wykorzystywał jedynie podstawowy plan wielojęzyczny i nie rozważał jeszcze objęcia tylu scenariuszy, co obecnie;
Wprowadzenie przez Unicode kodowania UTF-16 w standardowym załączniku (gdy przyznano, że szybko potrzeba więcej niż 65536 znaków) wymagało wcześniejszego przydzielenia przez ISO/IEC 10646 bloku punktów kodowych dla „półkodów”, które były początkowo uważane przez ISO / IEC 10646 za znaki specjalne (ustępstwo uczynione dla Unicode, gdy UCS-4 został stworzony jako przestrzeń kodowania liniowego, w której wszystkie punkty kodowe miały wartość skalarną), podczas gdy Unicode nadal używał tylko podprzestrzeni UCS-2, a nie pełna przestrzeń UCS-4;
- Aby uniknąć problemów z interoperacyjnością z innymi (nie Unicode) aplikacjami opartymi na UCS-2, pierwsza wersja UTF-8 została opublikowana przez ISO w 1998 roku, wspominając, że te elementy półkodu nie mają zatem zdefiniowanej wartości skalarnej i że nie punkty kodowe przypisane do „punktów półkodowych” w dwóch kolejnych przydzielonych blokach miały być zakodowane w UTF-8;
Ale według ostatecznego porozumienia między komitet techniczny Unicode Consortium i że za standard ISO / IEC 10646, każde użycie więcej niż 17 planów zostało zakazane, aby zapewnić całkowitą współpracę z UTF-16 kodowania. Zdefiniowane przez Unicode, kodowanie już szeroko stosowane w systemach operacyjnych (na przykład Microsoft Windows ) lub podsystemach (na przykład OpenType ), a nawet w wielu językach programowania, które zależą od niego ze względu na ich interoperacyjność (niektóre z nich pochodzą z krajowych lub międzynarodowych standardy, takie jak języki C i C++, które miały trudności z obsługą uniwersalnego repertuaru);
- Rzeczywiście, po dwudziestu latach starań o zdefiniowanie UCS dla wszystkich skryptów na świecie, ustanowiono bardziej rygorystyczne zasady, aby ograniczyć kodowanie znaków zgodnie z modelem zapewniającym wsteczną kompatybilność, ale także najlepsze praktyki kodowania. Praktycznie wszystkie współczesne skrypty na świecie zostały zakodowane, a dostępne są wiarygodne szacunki rzędu wielkości dotyczące liczby znaków potrzebnych do obsługi innych skryptów, a także wymagania dotyczące kodowania dla nowych znaków;
- Bardzo silny początkowy wzrost alokacji w UCS (lub znaków do zakodowania) znacznie zwolnił i pod koniec 2011 r. wykorzystano tylko 6 z 17 planów (ale tylko dwa miały znaczący wskaźnik wypełnienia: plan wielojęzyczny podstawowy) , praktycznie pełny, oraz dodatkowy poziom ideograficzny; to na uzupełniającym poziomie wielojęzycznym koncentruje się większość pozostałych starych skryptów, które nie zostały jeszcze zakodowane, lub nowych zestawów symboli i znaków zapisu technicznego);
- Tempo wzrostu alokacji w UCS dla normy ISO/IEC 10646 nie pozwala na rozważenie jej nasycenia przed terminem, który daleko wykracza poza cykl życia norm międzynarodowych (a tym bardziej norm przemysłowych, takich jak Unicode). W tej zbyt odległej perspektywie jest całkiem możliwe, że UTF-16 stał się przestarzały przez bardzo długi czas lub że pojawił się nowy standard kodyfikacji i został masowo wdrożony (i że narzędzia automatycznej konwersji również zostaną ustandaryzowane i wdrożone ). Nic nie uzasadnia jeszcze utrzymania ewentualnego rozszerzenia, które nie jest konieczne ze względu na pilną potrzebę interoperacyjności obecnych norm i standardów lub przewidywanych przyszłych norm;
- Tylko jeden lub dwa inne plany są brane pod uwagę w odniesieniu do pism sinograficznych, starożytnych pism klinowych lub hieroglificznych i ewentualnie inny plan dotyczący kolekcji symboli i piktogramów niezbędnych do interoperacyjności niektórych nowoczesnych aplikacji (na przykład emotikonów wiadomości i usług interaktywnych). lub symbole niezbędne dla międzynarodowych oznakowań lub norm bezpieczeństwa);
- Dodatkowe „grupy” użytku prywatnego na końcu UCS-4, a także dodatkowe „plany” użytku prywatnego w UCS-4 na końcu grupy 0, które były brane pod uwagę przez ISO od początku prac normalizacyjnych zrezygnowano z zachowania, wśród 17 pierwszych ujęć z pierwszej grupy, tylko dwóch ostatnich ujęć do użytku prywatnego (oprócz bloku użytku prywatnego U+E000 do U+F8FF już przydzielonego w podstawowym planie wielojęzycznym), co wystarcza do wszystkich zastosowań;
- Było to przedmiotem rewizji RFC z 2003 r. opublikowanej przez komitet techniczny ISO definiującego kodowanie UTF-8 dla ISO/IEC 10646, a jednocześnie aktualizacji standardowego aneksu standardu Unicode (standardowego aneksu, który od tego czasu został włączony do samego standardu);
- Od tych aktualizacji z 2003 r. kodowanie UCS-4 zdefiniowane przez normę ISO/IEC 10646 stało się w praktyce równoważne z UTF-32 (zdefiniowanym w standardzie Unicode, który dodaje dodatkowe właściwości, ale bez różnic w kodowaniu). Ostatni dokument RFC opublikowany przez ISO i zatwierdzony przez IETF w 2003 r. zawiera teraz również normatywne odniesienie do definicji UTF-8 opublikowanej wspólnie ze standardem Unicode (lub w nim).

Korzyści

Uniwersalność

To kodowanie umożliwia reprezentację tysięcy znaków uniwersalnego katalogu, wspólnego dla standardu ISO/IEC 10646 i standardu Unicode (przynajmniej od jego wersji 1.1.1).

Zgodność z US-ASCII

Tekst w US-ASCII jest kodowany identycznie w UTF-8 (gdy BOM nie jest używany).

Interoperacyjność

Ponieważ znak jest podzielony na ciąg bajtów (nie słowa wielobajtowe), nie ma problemu endianness ( endianness English).

Ten problem pojawia się na przykład w przypadku kodowań UTF-16 i UTF-32 , jeśli nie są one używane ze znacznikiem porządkowania (zwanym BOM od Byte Order Mark ) zakodowanym na początku pliku przy użyciu znaku U + FEFF , co było wcześniej zamierzone do innego użytku (ZWNBSP dla nierozdzielającej spacji o zerowej szerokości , funkcja aglutynacji słów do wyświetlenia bez oddzielania spacji lub dzielenia wyrazów, którą znak WJ wypełnia dzisiaj dla word-joiner ). W przeciwieństwie do tego, kodowania pochodne UTF-16BE, UTF-16LE, UTF-32BE i UTF-32LE są zaprojektowane z precyzyjnym planowaniem, które nie wymaga użycia żadnego BOM;
Z różnych powodów zgodności (w szczególności poprzez procesy transkodowania) przyjęto jednak, że BOM (U + FEFF), nie koniecznie konieczny, nadal może być zakodowany na początku pliku UTF-8 (ich interpretacja pozostaje taka znak ZWNBSP, nawet jeśli wiele protokołów wybrało ignorowanie i dyskretne filtrowanie tego znaku, ponieważ jest on używany tylko do tego celu, a jego stara funkcja, gdy pozostaje konieczna do interpretacji samego tekstu, jest teraz przenoszona do innego ekspresowego zakodowanego postać).

Wydajność

W przypadku większości łacińskich języków skryptowych, cyfrowych plików danych lub kodów źródłowych programów lub wielu tekstowych protokołów komunikacyjnych (takich jak FTP , HTTP lub MIME ), które używają znaków w dużym stopniu (lub czasami tylko częściowo) US-ASCII, UTF-8 wymaga mniej bajtów niż UTF-16 lub UTF-32 .

Możliwość ponownego wykorzystania

Wiele technik programowania komputerowego , które są poprawne z jednolitymi znakami jednobajtowymi, zachowuje ważność w UTF-8, w tym:

sposób na zlokalizowanie końca ciągu znaków C , ponieważ każdy 00000000 bajt binarny znaleziony w ciągu znaków zakodowanym w UTF-8 jest zawsze znakiem null (jednakże wtedy nie jest możliwe przedstawienie samego znaku NUL jako elementu ciągu znaków , chyba że informacja o rzeczywistej długości zakodowanego tekstu jest przechowywana lub transportowana poza nią, w takim przypadku ten bajt będzie interpretowany jako taki w ciągu zakodowanych w UTF-8);
sposób na znalezienie podciągu jest taki sam.

Niezawodność

Jest to kodowanie samosynchronizujące (czytając pojedynczy bajt wiemy, czy jest to pierwszy znak, czy nie).

Z dowolnego miejsca w zakodowanym tekście można cofnąć się do pierwszego bajtu sekwencji, odczytując bardzo małą ilość poprzednich bajtów, tj. maksymalnie 3 bajty , lub łatwo znaleźć początek następnej sekwencji, ponownie, pomijając maksymalnie 3 bajty );
sekwencja opisująca jeden znak nigdy nie pojawia się w dłuższej sekwencji opisującej inny znak (jak ma to miejsce w przypadku Shift-JIS );
nie ma kodu „ucieczki”, który zmienia interpretację (jako znaki) reszty sekwencji bajtów.

Niedogodności

Zmienny rozmiar

Punkty kodowe są reprezentowane w UTF-8 przez sekwencje bajtów o różnych rozmiarach (jak również w UTF-16), co komplikuje niektóre operacje na ciągach punktów kodowych: obliczanie liczby punktów kodowych; pozycjonowanie w określonej odległości (wyrażonej liczbą punktów kodowych) w pliku tekstowym i ogólnie każda operacja wymagająca dostępu do punktu kodowego pozycji N w łańcuchu.

Zmienna wielkość znaków ciągu uniemożliwia stosowanie wydajnych algorytmów w zakresie porównywania ciągów, takich jak algorytm Knutha-Morrisa-Pratta i przez to silnie obciąża masowe przetwarzanie danych, jak w przypadku eksploatacyjnych baz danych. Problem ten jest jednak bardziej związany z aspektami standaryzacji niż z kodowaniem.

Wydajność

W przypadku języków używających wielu znaków spoza US-ASCII UTF-8 zajmuje znacznie więcej miejsca. Na przykład popularne ideogramy używane w tekstach w językach azjatyckich, takich jak chiński lub japoński ( na przykład kanji ), używają 3 bajtów w UTF-8 w przeciwieństwie do 2 bajtów w UTF-16.

Ogólnie rzecz biorąc, pisma, które używają wielu punktów kodowych o wartości równej lub większej niż U + 0800, zajmują więcej pamięci niż gdyby były zakodowane w UTF-16 (UTF-32 będzie bardziej wydajny tylko w przypadku tekstów, które głównie używają pism. stare lub rzadkie kodowane poza podstawowym planem wielojęzycznym, to znaczy od U + 10000, ale może również okazać się przydatne lokalnie w niektórych procesach w celu uproszczenia algorytmów, ponieważ znaki tam zawsze mają stały rozmiar, konwertując wejście lub wyjście dane z lub do UTF-8 lub UTF-16 są trywialne).

Nieprawidłowe sekwencje

Dzięki swojemu systemowi kodowania możliwe było przedstawienie kodu na różne sposoby w UTF-8, co mogło stanowić problem z bezpieczeństwem: źle napisany program może zaakceptować pewną liczbę reprezentacji UTF-8, zwykle nieważnych zgodnie z RFC 3629 oraz w specyfikacjach (obecnie równoważnych sobie) opublikowanych przez ISO 10646 i Unicode; ale tak nie było zgodnie z oryginalną specyfikacją, co pozwoliło na ich przekonwertowanie jako pojedynczy znak.

W ten sposób oprogramowanie wykrywające określone ciągi znaków ( na przykład w celu zapobiegania wstrzykiwaniu SQL ) może nie spełnić swojego zadania (nie ma to już miejsca, jeśli zostanie zweryfikowana zgodność kodowania ze ścisłą i ustandaryzowaną definicją UTF-8). wszystko).

Weźmy przykład z prawdziwego przypadku wirusa atakującego serwery HTTP w sieci Web w 2001 r. ( (en) Crypto-Gram: 15 lipca 2000 r. Luka w zabezpieczeniach Microsoft IIS i PWS rozszerzonego Unicode w zakresie przechodzenia katalogów Luka w zabezpieczeniach w Microsoft IIS 4.0 / 5.0 w przypadku przechodzenia katalogów w sieci Web ) . Wykrywaną sekwencją może być „/../” reprezentowana w ASCII ( a fortiori w UTF-8) przez bajty „ 2F 2E 2E 2F ” w notacji szesnastkowej . Jednak zniekształconym sposobem zakodowania tego ciągu w UTF-8 byłoby „ 2F C0 AE 2E 2F ”, nazywane również overlong form . Jeśli oprogramowanie nie jest starannie napisane, aby odrzucić ten łańcuch, na przykład poprzez umieszczenie go w formie kanonicznej , otwiera się potencjalne naruszenie bezpieczeństwa. Atak ten nazywa się przechodzeniem do katalogu .

Oprogramowanie akceptujące tekst zakodowany w UTF-8 zostało zabezpieczone przed systematycznym odrzucaniem tych długich form, ponieważ nie są one zgodne ze standardem: albo cały tekst jest odrzucany; ale czasami nieprawidłowe sekwencje są zastępowane znakiem podstawienia (zwykle U + FFFD, jeśli aplikacja akceptuje i przetwarza ten znak normalnie; czasami znak zapytania lub znak kontroli podstawienia SUB U + 001A z ASCII, co może stwarzać inne problemy z kompatybilnością); rzadziej te zabronione sekwencje są po cichu eliminowane (co jest bardzo mało zalecane).

Znak zerowy

UTF-8 może reprezentować znak kontrolny null (U + 0000) tylko jednym bajtem null, co stwarza problemy ze zgodnością z przetwarzaniem łańcuchów, które nie kodują oddzielnie ich efektywnej długości, ponieważ ten bajt null nie reprezentuje wtedy żadnego znaku, ale koniec ciągu (bardzo częsty przypadek w języku C lub C++ oraz w API systemów operacyjnych). Jeśli znak null musi być przechowywany w tekście w takich systemach, przed zakodowaniem w UTF-8 tak przekształconego tekstu konieczne będzie odwołanie się do systemu ucieczki, specyficznego dla tego języka lub systemu. W praktyce żaden poprawny tekst nie powinien zawierać tego znaku. Innym rozwiązaniem jest użycie jednej z sekwencji zabronionych w standardowym kodowaniu UTF-8 w celu zakodowania znaku przez tę sekwencję; ale tak zakodowany tekst nie będzie zgodny ze standardowym kodowaniem UTF-8, nawet jeśli zmodyfikowane w ten sposób kodowanie pozostaje zgodnym uniwersalnym formatem transformacji (który jednak nie powinien być oznaczony jako „UTF-8”). Zobacz sekcję poniżej dotyczącą niestandardowych wariantów opartych na UTF-8.

Reprezentacja w DBMS

Używanie UTF8, podobnie jak każdego kodowania zmiennej pitch, w bazie danych stwarza wiele problemów z wydajnością.

Operacje porównania (=,>, <, BETWEEN, LIKE ...), sortowanie (ORDER BY), grupowanie (GROUP BY), takie jak operacje deduplikacji (DISTINCT) oparte na semantyce informacji, są niemożliwe do bezpośredniego zarządzania w UTF8 .

Rzeczywiście, w przypadku ciągów znaków zawierających tę samą liczbę liter (na przykład CHAR (8)), liczba bajtów może być różna (w szczególności ze względu na znaki diakrytyczne: akcenty, ligatury...), użyte algorytmy muszą dla w większości należy przeprowadzić wyrównanie, zanim będzie w stanie działać, co pociąga za sobą znaczne dodatkowe koszty przetwarzania.

Na przykład SZBD MySQL / MariaDB wybrał reprezentację znaków ciągów prezentowanych jako UTF8, systematycznie używając 3 bajtów na znak. Konsekwencje są następujące: potrojenie objętości danych i podzielenie przez trzy potencjalnej długości kluczy indeksowych w porównaniu z kodowaniem ASCII oraz wydłużenie czasów wykonywania porównań, sortowań, grupowań lub deduplikacji. Łańcuch jest ostatecznie zwracany w postaci UTF8 po oczyszczeniu zbędnych bajtów.

Inne DBMS, takie jak Microsoft SQL Server, zdecydowały się skompresować obsługę UTF8, wstawiając dodatkowe znaki w 2-bajtowym kodowaniu, opartym na UNICODE, wykorzystującym puste miejsca pozostawione przez specyfikację. Dodatkowy wysiłek związany z tłumaczeniem na UTF8 polega tylko na przekodowaniu znaków zakodowanych na 2 bajtach i rozwinięciu tych zakodowanych na 3.

Historia

UTF-8 została wynaleziona przez Kennetha Thompsona podczas kolacji z Rob Pike wokółwrzesień 1992. Nazywany wtedy FSS-UTF , został natychmiast użyty w systemie operacyjnym Plan 9 , nad którym pracowali. Jednym z ograniczeń, które należało rozwiązać, było zakodowanie znaków null i '/' jak w ASCII i że żaden bajt kodujący inny znak nie ma tego samego kodu. W ten sposób systemy operacyjne UNIX mogą kontynuować wyszukiwanie tych dwóch znaków w ciągu bez adaptacji oprogramowania.

FSS-UTF był przedmiotem wstępnego standardu X / Open 1993, który został zaproponowany ISO. Ten ostatni przyjął go jako część normy ISO/IEC 10646 pod nazwą najpierw UTF-2, a następnie UTF-8.

Ewolucja zastosowań

Od 2010 do 2018

Wykres przedstawiający użycie UTF-8 (jasnoniebieski) wykraczającego poza inne główne kodowania znaków tekstowych w Internecie. Do 2010 r. rozpowszechnienie UTF-8 wynosiło około 50%, ale w 2016 r. było to więcej niż 90%.

Statystyki odzwierciedlające technologie stosowane na stronach internetowych określone na podstawie technik rozpoznawania różnych wzorców, w tym elementów HTML, określonych tagów HTML (takich jak tag „generator meta”, kod JavaScript, kod CSS, struktura adresów URL witryny, linki poza witryną, nagłówki HTTP, na przykład pliki cookie, odpowiedzi HTTP na określone żądania, takie jak kompresja.

Statystyki oparte na próbce 10 milionów najlepszych stron internetowych według Alexy. Suma nie osiąga 100%, ponieważ niektóre serwery wykorzystują więcej niż jedną technologię.

Źródło w3techs

Kolejne ograniczenia

Oryginalne kodowanie FSS-UTF miało zastąpić wielobajtowe kodowanie UTF-1 pierwotnie zaproponowane przez ISO 10646. To początkowo permisywne kodowanie pozwalało na kilka reprezentacji binarnych tego samego znaku (jest to zabronione w standardowej wersji w RFC opublikowanej przez X / Otwarte Konsorcjum i zatwierdzone przez Kennetha Thompsona).

Ponadto może to (w wstępnej wersji nie zatrzymana) kodują wszystkie postacie, których kod punktu wartość składa się z 32 bitów , definiując ósmy typ bajtów (w sekwencjach zawierających do 6 bajtów ), na zamiast 7 typów z bajtów ostatecznie zachowanych do zakodowania (w sekwencjach zawierających również do 6 bajtów ) tylko kod wskazuje do 31 bitów w pierwotnej wersji UTF-8 (opublikowanej przez Konsorcjum X/Open pod nazwą FSS-UTF, następnie zaproponowanej przez komitet techniczny ISO 10646 jako propozycja „UTF-2”, a następnie nadal konkurująca z propozycją „UTF-1”, dopóki propozycja UTF-2 nie zostanie zachowana i przyjmie nazwę UTF-8 już zachowaną i używaną w X / Open i Plan 9).

Kodowanie UTF-8 dodatkowo ograniczona, gdy Unicode i ISO 10646 zgodził się przeznaczyć znaki tylko w pierwszych 17 płaszczyzn, w celu zapewnienia zgodności z UTF-16 nieokreślony (bez konieczności modyfikowania go) przez ograniczenie sekwencji dopóki „do 4 bajtów, tylko i używanie tylko pierwszych 5 z 7 typów bajtów (co wymagało zdefiniowania jako nieważnych nowych wartości bajtów i pewnych sekwencji bajtów, jednak ważnych indywidualnie).

Utrzymany

IETF wymaga teraz UTF-8 jest obsługiwane domyślnie (a nie po prostu jako przedłużenie obsługiwane) przez wszystkich nowych protokołów komunikacyjnych z Internetem (opublikowanej w dokumencie RFC numerowane), który tekst wymiana (najstarsze protokoły, jednak nie zostały zmodyfikowane uczynić tę obsługę obowiązkową, ale tylko rozszerzoną, jeśli to możliwe, aby wspierać ją opcjonalnie, jeśli powoduje to niezgodności lub wprowadza nowe zagrożenia bezpieczeństwa: tak jest w przypadku protokołów internetowych powszechnie używanych jako DNS , HTTP , FTP , Telnet i HTML w swoich początkowych wersjach jeszcze nie standaryzowane przez W3C i ISO).

Stało się niezbędne, zwłaszcza w głównym oprogramowaniu do komunikacji internetowej i dzisiejszych systemach operacyjnych:

Przeglądarki internetowe : Wsparcie dla UTF-8 zaczęło być szeroko rozpowszechnione od 1998 roku .
- Starsze przeglądarki internetowe, które nie obsługują UTF-8, nadal wyświetlają poprawnie pierwsze 127 znaków ASCII;
- Netscape Navigator obsługuje UTF-8 od wersji 4 ( czerwiec 1997 );
- Microsoft Internet Explorer obsługuje UTF-8 od wersji 4 ( październik 1997 ) dla Microsoft Windows i Mac OS ( styczeń 1998 );
- Przeglądarki oparte na silniku renderującym Gecko (1998) obsługują UTF-8: Mozilla , Mozilla Firefox , SeaMonkey , itp.
- Opera obsługuje UTF-8 od wersji 6 ( listopad 2001 );
- Konqueror obsługuje UTF-8;
- Safari na komputerach Macintosh i Windows obsługuje UTF-8;
- OmniWeb na komputerach Macintosh obsługuje UTF-8;
- Chrome Google obsługuje UTF-8.

Pliki i nazwy plików: coraz częściej spotykane w systemach plików GNU/Linux i Unix, ale niezbyt dobrze obsługiwane w starszych wersjach systemu Windows (przed Windows 2000 i Windows XP, które mogą teraz obsługiwać je bez trudności, ponieważ obsługa UTF-8 jest teraz w pełni zintegrowany z systemem, w uzupełnieniu do UTF-16 obecnego od wczesnych wersji Windows NT i API systemu Win32). Zauważ, że historyczny system plików MS-DOS i Windows FAT został rozszerzony od Windows NT 4 i Windows XP o obsługę UTF-16 (dla lepszej kompatybilności z NTFS), a nie UTF-8 (ale ta transformacja jest równoważna i niewidoczna dla aplikacji) z pewnymi ograniczeniami dotyczącymi znaków dozwolonych lub uznawanych za równoważne (takie wyjątki lub ograniczenia istnieją również we wszystkich systemach plików GNU / Linux, Unix, Mac OS X i innych systemach, w tym w plikach systemowych rozpowszechnianych przez Internet, takich jak HTTP / WebDAV).

Klient poczty e-mail : wszystkie używane obecnie programy do obsługi poczty e-mail obsługują kodowanie UTF-8.
- Poczta Apple ;
- Thunderbird ;
- Poczta systemu Windows ;
- Microsoft Outlook ;
- nuty lotosu ;
- Novell GroupWise ;
- itp.

Rozszerzenia niestandardowe

Jednak warianty UTF-8 (oparte na możliwościach kodowania początkowej nieograniczonej wersji) były nadal używane (zwłaszcza w implementacji serializacji ciągów Java), aby umożliwić kodowanie jako wielobajtowe uniknięcie pewnych zarezerwowanych znaków ASCII normalnie zakodowanych w pojedynczym bajt (na przykład znak null).

Dodatkowo niektóre systemy używają ciągów nieograniczonych: na przykład Java (i inne języki, w tym biblioteki manipulacji ciągami w C, PHP, Perl itp.) reprezentują znaki z jednostkami kodowania na 16 bitach (co umożliwia przechowywanie ciągów za pomocą UTF kodowanie -16, ale bez ograniczeń ważności nałożonych przez UTF-16 dotyczących zabronionych wartości i parowania w kolejności „pół-kodów” lub surogatów ); w tym przypadku jednostki kodujące są traktowane jako wartości binarne i konieczne jest ich indywidualne serializowanie (niezależnie od ich możliwej interpretacji jako znaki lub jako półpunkty kodu). W tym przypadku każda 16-bitowa jednostka kodująca, która reprezentuje „znak” (nieograniczony) jest serializowana w postaci sekwencji zawierających do 3 bajtów każda i niektórych bajtów zabronionych przez implementację (na przykład znaki null lub pasek ułamka ' /' w systemie plików lub inne jednobajtowe znaki w innych protokołach) są zakodowane jako dwubajtowe sekwencje specjalne, z których żadna nie jest zerowa, po prostu używając zasady kodowania pierwszej specyfikacji FSS-UTF (przed tą zachowaną przez X / Open Consortium w swoim początkowym RFC, gdzie te ucieczki były wyraźnie zabronione i tak pozostały).

Przed przyjęciem propozycji UTF-2 zachowanej dla UTF-8, istniał również wariant UTF-1, w którym wielokrotne kodowanie nie było możliwe, ale wymagało trudniejszego kodowania / dekodowania, aby uwzględnić pozycję każdego bajtu. szereg „magicznych” wartości.

Te warianty nie powinny być nazywane „UTF-8”.

Jeden z tych niestandardowych wariantów był jednak przedmiotem późniejszej standaryzacji (jako alternatywa dla UTF-16 i przy użyciu par „półkodów”, każdy zakodowany na 3 bajtach, czyli razem 6 bajtów zamiast 4). z UTF-8): patrz CESU-8 .

Przykład wariantu używanego w Javie

Na przykład API integracji maszyn wirtualnych Java (dla JNI, Java Native Interface lub do serializacji prekompilowanych klas), które umożliwiają wymianę nieograniczonych łańcuchów Java w postaci sekwencji bajtów (w celu manipulowania nimi, używania lub tworzenia za pomocą kodu natywnego lub do przechowywania jako plik natywny zakodowany w ciągach bajtów), mają przyrostek „UTFChars” lub „UTF”, ale to kodowanie specyficzne dla Javy nie jest UTF-8 (dokumentacja firmy Sun odnosi się do niego jako zmodyfikowanego UTF , ale niektóre starsze dokumenty JNI nadal niepoprawnie odnoszą się do tego kodowania jako UTF-8 , co spowodowało pewne anomalie behawioralne niektórych natywnych bibliotek JNI, szczególnie w przypadku systemowych interfejsów API.starsze platformy natywne, które nie obsługują natywnie kodowania znaków powyżej 8 bitów ), ponieważ:

znak null, obecny jako taki w łańcuchu Java, jest zakodowany jako dwa niezerowe bajty (a nie pojedynczy bajt null używany do wskazania końca sekwencji);
punkty pół kod (j zastępcze , wyznaczonych pomiędzy U + D000 U + D7FF) mogą być kodowane swobodnie, w dowolnej kolejności, co można wskazuje kod zwykle zabronione postać kodowania (na przykład U + FFFF i U + fffe) : nie jest wymagany test ważności;
dłuższe sekwencje bajtów (ponad 4 bajty reprezentujące znaki spoza podstawowej płaszczyzny wielojęzycznej) znormalizowane i poprawne w UTF-8 nie są rozpoznawane przez maszynę wirtualną w jej zmodyfikowanych interfejsach API opartych na UTF (co powoduje wyjątki podczas konwersji żądanej przez kod natywny ciąg 8-bitowy do ciągu Java zarządzanego przez maszynę wirtualną): konieczne jest wówczas ponowne zakodowanie znaków poza płaszczyzną bazową (i zakodowanych na 4 bajtach w UTF-8) w postaci dwóch ciągów po trzy bajty w zmodyfikowanym UTF , po jednym dla każdego surogatu (jak w kodowaniu CESU-8 ) i zgodność Javy z ciągami Unicode musi być sprawdzana i zarządzana wyjątkami;
Ciągi Java (klasy systemowej String) i typ liczbowy char są również używane do przechowywania (w zwartej, niemodyfikowalnej i udostępnianej formie) wszelkich danych binarnych (nie tylko tekstowych) i mogą być również manipulowane w innych kodowaniach niż UTF-16 (jedynym ograniczeniem jest to, że poszczególne jednostki kodowania nie mogą przekraczać 16 bitów i muszą mieć wartość dodatnią, przy czym najbardziej znaczący bit nie jest oceniany jako bit znaku).

W konsekwencji :

aplikacje napisane w czystej Javie (bez kodu natywnego), które wymagają implementacji ograniczeń kodowania w celu zachowania zgodności z Unicode dla tekstu, muszą tego wyraźnie zażądać i użyć jednego z dostarczonych filtrów kodowania (dla UTF-8, jak również dla UTF-16), lub konstruować i używać klas opartych na klasie String i typie liczbowym char;
poprawny tekst UTF-8 (i manipulowany w kodzie natywnym w ciągach bez znaków null) wymaga wstępnego przetwarzania przed przesłaniem go do JVM za pośrednictwem JNI; w szczególności każda sekwencja kodowana na 4 bajtach (dla znaku spoza płaszczyzny podstawowej) musi być transkodowana na dwie sekwencje po 3 bajty ;
ciągi znaków uzyskane z JVM za pośrednictwem interfejsów UTF JNI wymagają wstępnego przetworzenia sprawdzania poprawności lub filtrowania w kodzie natywnym, zanim będą mogły zostać użyte jako poprawny tekst UTF-8 (konieczne jest wykrycie wystąpień znaku null zakodowanego w dwóch bajtach, a jeśli to znak jest akceptowalny przez kod natywny, transkodować go na pojedynczy bajt; kod natywny musi zweryfikować poprawność parowania surogatów , każdy zakodowany na 3 bajtach , i przefiltrować je, jeśli te sekwencje nie zostaną odrzucone jako nieważne, a następnie transkodować dowolne poprawna para surogatów tylko w jedną sekwencję 4-bajtową , a nie dwie sekwencje 3-bajtowe ).

Procesy te mogą być nieefektywne w przypadku łączenia dużych ilości tekstu, ponieważ wymagają przydzielenia dodatkowych buforów pamięci, aby następnie połączyć się w kodzie natywnym z interfejsami systemowymi lub sieciowymi, które akceptują tylko standardowe UTF-8.

Jednak JNI zapewnia również wydajniejszy binarny interfejs API pozwalający na bezpośrednie korzystanie z UTF-16, który jest w stanie łączyć się bezpośrednio z protokołami sieciowymi i interfejsami systemowymi (np. Windows API), które obsługują UTF-16, bez konieczności przydziału dodatkowej pamięci do transkodowania (tylko zgodność może być konieczne sprawdzenie, głównie w celu sprawdzenia zakodowanego tekstu pod kątem poprawnego sparowania półkodu lub surogatu , którym Java (podobnie jak inne języki programowania) pozwala manipulować bez ograniczeń ważności we własnych ciągach znaków nie przeznaczonych do przechowywania tylko tekstów zgodny z LUW). Ten binarny interfejs API jest obsługiwany na wszystkich systemach, na których przeniesiono Javę, nawet tych, których system operacyjny nie oferuje tekstowego interfejsu API Unicode (obsługę można wykonać w natywnej aplikacji hosta lub przy użyciu standardowych bibliotek dostarczonych z JVM lub innych niezależnych natywnych biblioteki.

Uwagi i referencje

https://www.unicode.org/L2/Historical/wg20-n193-fss-utf.pdf .
„Wykorzystanie kodowania znaków na stronach internetowych” , na W3Techs (konsultacja na18 grudnia 2014).
„Zastosowanie kodowania znaków dla stron internetowych” , na W3Techs (dostęp 13 września 2016).
(w) „ Statystyki użycia kodowania znaków dla stron internetowych, grudzień 2017 ” na w3techs.com (dostęp 28 grudnia 2017 )
„ Ankieta użycia kodowania znaków w podziale według rankingu ” na stronie w3techs.com (dostęp 15 lutego 2019 r . ) .
(w) Request for Comments n ° 2044 .
(w) Request for Comments n ° 2279 .
(i) Request for Comments n o, 3629 .
Jednak na tej stronie opisującej historię kodowania UTF-8 sprzed 1996 r. jest napisane: „ Znaki zakodowane w UTF-8 mogą teoretycznie mieć długość do sześciu bajtów ”, odnosząc się tym samym do zestawu możliwych wartości (ponad dwa miliardy, zakodowane na maksymalnie 31 bitach) w początkowej (obecnie przestarzałej) edycji ISO / IEC 10646, cf. sekcja Kolejne ograniczenia .
(w) UTF-8 i Unicode FAQ : „Ze względów bezpieczeństwa program, który dekoduje znaki w UTF-8, nie może akceptować sekwencji UTF-8, które są dłuższe niż jest to konieczne do zakodowania tych znaków. Groziłoby to nadużyciem testu podciągów, który patrzyłby tylko na najkrótsze kodowania. ” .
Historia tworzenia UTF-8 — Rob Pike .
Format bezpiecznej transformacji UCS systemu plików (FSS-UTF) .
(w), Mark Davis , " Unicode bliski 50% sieci " , oficjalny blog Google , Google ,28 stycznia 2010(dostęp 5 grudnia 2010 ) .
(w) Erik van der Poel , „ utf-8 Growth On The Web (odpowiedź) ” na blogu W3C, W3C,8 maja 2008(dostęp 6 sierpnia 2015 r . ) .
w3techs.com/faq.
https://w3techs.com/technologies/history_overview/character_encoding/ms/y .
http://java.sun.com/docs/books/jni/html/types.html#58973 .

Zobacz również

Powiązane artykuły

UTF-16 , UTF-32 , CESU-8
Unicode , ISO/IEC 10646
ISO / IEC 646
ISO/IEC 8859 , ISO/IEC 8859-1
Rozbiór gramatyczny zdania

Specjalne bloki znaków Unicode zawierające znaki niebędące znakami

Tabela znaków Unicode - półstrefa o wysokim stopniu pośrednim
Tabela znaków Unicode - dolna połowa strefy pośredniej
Tabela znaków Unicode - formularze Prezentacja arabska ( część 2 e )
Tablica znaków Unicode - dla obszaru: znaki specjalne , dodatkowa płaszczyzna wielojęzyczna , dodatkowa płaszczyzna ideograficzna , płaszczyzna 3 , level 4 , level 5 , level 6 , plane 7 , plane 8 , plane 9 , map 10 , map 11 , map 12 , plan 13 , specjalistyczny plan uzupełniający , dodatkowa strefa A do użytku prywatnego , dodatkowa strefa B do użytku prywatnego for

Linki zewnętrzne

(pl) Formularz konwersji UTF-8, UTF-16, UTF-32
(pl) Conformité - Tłumaczenie standardu Unicode na język francuski [PDF]
(pl) The Unicode Consortium , The Unicode Standard, wersja 6.0.0 , Mountain View (Kalifornia, Stany Zjednoczone),luty 2011( ISBN 978-1-936213-01-6 , prezentacja online , czytaj online ) , rozdz. 3 („Zgodność”) , s. 88–100.
(en) RFC 3629 - UTF-8, format transformacji ISO 10646 , listopad 2003 (standard, w pełni kompatybilny z Unicode):
- (en) RFC 2279 - UTF-8, format transformacji ISO 10646 ,styczeń 1998 (stara wersja, przestarzała);
- (en) RFC 2044 - UTF-8, format transformacji Unicode i ISO 10646 ,Październik 1996 (wersja początkowa zatwierdzona przez IETF, przestarzała);
- (en) Oryginalny artykuł na temat UTF-8 , Rob Pike i Ken Thompson (informacyjny, przestarzały) [PDF] .
(en) RFC 2277 – polityka IETF dotycząca zestawów znaków i języków ,styczeń 1998.
(fr) Historia powstania UTF-8 , Rob Pike .
(pl) (en) Manifest UTF-8 Wszędzie ,14 września 2012 r.( przeczytaj online )