Windows-1252

Windows-1252
Przykładowa ilustracja artykułu Windows-1252
Rodzina Microsoft Windows
Języki Niemiecki , angielski , baskijski , kataloński , duński , hiszpański , fiński , francuski , włoski , holenderski , norweski , portugalski i szwedzki oraz inne języki europejskie
Liczba znaków ~ 223
Stan projektu Standaryzowane przez Microsoft
Platformy Windows
Organizacja /
sponsoring
Microsoft
Numer rejestracyjny 1252
Sekwencje ewakuacyjne Niewspierany
Jednostka kodująca (punkt kodowy) 8 bitów

Windows-1252 lub CP1252 (skrót od „  kod strony - 1252”, co oznacza kod strony - 1252) to znak , historycznie używany domyślnie w systemie operacyjnym Microsoft Windows w języku angielskim oraz w głównych językach Europy Zachodu , w tym francuskim .

Kontekst

We wczesnych latach 90- tych , wraz z wydaniem systemu Windows 3.x, na Zachodzie rozwija się kodowanie Windows-1252 . Zakodowane znaki są przez pomyłkę nazywane „  ANSI  ” zamiast „Zachodnie” ( (nie) „Zachodnie”). Błąd został poprawiony, ale używanie jest kontynuowane przez jego następców (w szczególności Windows 95, 98, NT, 2000, XP, Vista, 2003, 7). W tym czasie zestaw znaków Windows-1252 zastąpił zestawy znaków DOS, czyli stronę kodową 437 w krajach anglojęzycznych i stronę kodową 850 w większości krajów świata. „ Europa Zachodnia . Całe oprogramowanie opracowane dla systemu Windows działa wtedy z tym zestawem znaków.

Jednak pod wpływem kwestii interoperacyjności, wielojęzycznych regionów francuskojęzycznych ( Unia Europejska , Maghreb ), a także globalizacji handlu i rozwoju Internetu w szczególności, i chociaż kodowanie Windows-1252 jest nadal używane, kodowanie to jest podlega konkurencji i opracowaniu standardu Unicode .

Obecnie nowoczesne aplikacje nie używają już tego typu kodowania, z wyjątkiem sytuacji, gdy konieczne jest:

Aspekty techniczne

Windows-1252 jest rozszerzeniem ISO / IEC 8859-1  : różni się od kodowania  ISO-8859-1 użyciem drukowalnych znaków zamiast znaków kontrolnych w kodach od 128 do 159. W przypadku użytkowników Windows firma Microsoft nazywa to ogólnie ANSI , ale w zależności od miejsca sprzedaży systemu operacyjnego zestaw znaków może mieć inną nazwę, na przykład CP1252 w Stanach Zjednoczonych lub, w Stanach Zjednoczonych w krajach Europy Zachodniej , nazwa zatwierdzona przez IANA , Windows-1252.

Tablica znaków

Poniższa tabela przedstawia Windows-1252. Numery 81, 8D, 8F, 90 i 9D nie są używane i są oznaczone kolorem jasnozielonym. Zmiany w stosunku do ISO-8859-1 są oznaczone żółtym kolorem.

Windows-1252 (CP1252)
x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF
0x NIE SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR WIĘC GDYBY
1x DLE DC1 DC2 DC3 DC4 NAK SYN ORAZ B MOGĄ EM POD WYJŚCIE FS GS RS Nas
2x SP ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ W b VS re mi fa sol H. ja jot K. L M NIE O
5x P. Q R S T U V W. X Y Z [ \ ] ^ _
6x `` w b vs re mi fa sol godz ja jot k l m nie o
7x p q r s t u v w x y z { | } ~ Z
8x ƒ ... ˆ Š Œ Ž
9x ' ' - - ˜ š œ ž Ÿ
Topór NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª " ¬ ® ¯
Bx ° ± ² ³ ´ µ · ¸ ¹ º " ¼ ½ ¾ ¿
Cx W W W W W W Æ VS MI mi MI MI JA JA JA JA
Dx RE NIE Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
Dawny w w w w w w æ vs mi mi mi mi ja ja ja ja
Fx re nie ò ó O õ ö ÷ ø gdzie ú û ü ý þ ÿ

Interoperacyjność

Windows-1252 jest rozpoznawany i używany przez platformy Windows i nie jest rozpoznawany w innych systemach operacyjnych: DOS używa tylko stron kodowych IBM, a Linux / Unix natywnie używa stron kodowych.Kody ISO (na przykład ISO-8859-15 ) lub UTF-8 .

W szczególności z tych powodów preferowany jest standard Unicode (a bardziej ogólnie ISO / IEC 10646 ).

Interoperacyjność w HTML

Zgodnie ze standardami W3C HTML, UTF-8 jest odpowiednim kodowaniem dla większości dokumentów HTML . Jednak użycie Windows-1252 było tak rozpowszechnione, że kilka przeglądarek obsługuje numeryczne odwołania do znaków dla kodów od 128 do 159, podczas gdy pasują one tylko do znaków dla Windows-1252, ale pasują do kontrolek C1. W Unicode, jeśli są zakodowane w UTF-8 a nie w odniesieniu liczbowym.

Tak więc symbol „€” to numer znaku Unicode 8364 - 20AC (16) -, więc & # 8364; - & # x20AC; - jest standardowym odniesieniem liczbowym dla symbolu „€”; ale ponieważ „€” to numer znaku Windows-1252 128 - 80 (16) -, niektóre przeglądarki obsługują również & # 128; - & # x80; - jako numeryczne odniesienie do tego znaku, chociaż jest to nielegalne w HTML, gdzie powinno wskazywać kontrolkę C1 (nawiasem mówiąc, większość kontrolek C1 jest nielegalna również w HTML, poza kontrolkami separacji linii, dla których jest to dozwolone w HTML reprezentują je w postaci odniesienia numerycznego, zarówno dziesiętnego, jak i szesnastkowego, co następnie wyjaśnia nielegalność odniesień numerycznych liczb od 128 do 159 w celu wskazania znaku kodu Windows-1252; jednak różne przeglądarki są od tego wyjątkami regułę dla kodów, które nie są skojarzone z kilkoma autoryzowanymi kontrolkami C1, a następnie wyświetlają je zgodnie z kodem Windows-1252, a nie zgodnie ze standardowym punktem kodowym Unicode).

Zobacz też

Powiązane artykuły

Linki zewnętrzne

Uwagi i odniesienia

  1. Słowniczek stosowanych terminów , Globalization Development Center, Microsoft Developer Network (MSDN), strona A
  2. https://docs.microsoft.com/en-us/windows/desktop/intl/code-pages
  3. „  Character encodings  ” na www.w3.org (dostęp 10 listopada 2015 )
  4. Prawidłowe kodowanie niedozwolonych znaków Windows w HTML i XHTML