Format danych

W informatyce , A format danych jest sposób, w którym rodzaj danych jest reprezentowany (zakodowanymi) , w postaci szeregu bitów . Dla wygody interpretujemy tę sekwencję bitów jako liczbę binarną i mówimy w skrócie, że dane są reprezentowane jako liczba. Na przykład znak C jest ogólnie zakodowany jako sekwencja, w której aktywowane są 3 bity, która jest zapisywana jako 0100 0011 lub 67 w postaci dziesiętnej .

Format danych jest zatem (ewentualnie ustandaryzowaną ) konwencją używaną do reprezentowania danych - informacji reprezentujących tekst, stronę, obraz , dźwięk , plik wykonywalny itp. Jest to szablon, w którym dane są umieszczane w określonych miejscach, aby narzędzie czytające ten format znalazło dane tam, gdzie spodziewało się je znaleźć. Gdy dane te są przechowywane w pliku , określa się je jako format pliku . Taka konwencja umożliwia wymianę danych pomiędzy różnymi programami komputerowymi lub oprogramowaniem , albo przez bezpośrednie połączenie, albo za pomocą pliku. Ta możliwość wymiany danych pomiędzy różnymi programami nazywana jest interoperacyjnością .

Typologia

Rozróżniamy format otwarty , którego specyfikacja jest publicznie dostępna, od formatu zamkniętego (lub nieprzejrzystego) , którego specyfikacja jest tajna. Zamknięty format zazwyczaj odpowiada pojedynczemu oprogramowaniu zdolnemu do jego pełnego wykorzystania.

Rozróżnia się również format ustandaryzowany, podlegający standaryzacji przez instytucję publiczną lub międzynarodową ( ISO , W3C ) oraz dowolny format, który może stać się standardem ze względu na swoją popularność. Taki format bywa później standaryzowany jako OpenDocument .

Mówi się, że format jest zastrzeżony, jeśli został opracowany przez firmę, głównie do celów komercyjnych. Zastrzeżony format można otworzyć ( na przykład format PDF do Adobe ), jeśli zostanie opublikowany, lub zamknięty (na przykład format Doc firmy Microsoft ). Ale nawet gdy specyfikacje są upubliczniane, firmy tworzące zastrzeżone formaty próbują utrzymać kontrolę albo regularnie proponując nowe, bardziej rozbudowane wersje (kontrola poprzez utrzymywanie postępu technologicznego), albo używając środków prawnych, takich jak patenty. Ten rodzaj antykonkurencyjnych praktyk za pomocą narzędzi prawnych jest dozwolony w Stanach Zjednoczonych. Jest to kontrowersyjne w Europie (patrz Patentowalność oprogramowania ).

Formaty liczb

Wszystkie liczby

Naturalne liczby całkowite na ogół tylko reprezentowane binarnie (na podstawie 2), z klasyczną zasadą konwersji. W przeciwieństwie do naturalnych liczb całkowitych, komputerowe liczby całkowite są skończone. Dlatego możliwe jest reprezentowanie w ten sposób tylko liczb należących do przedziału określonego przez liczbę dostępnych bitów. Kiedy chcemy reprezentować względną liczbę całkowitą , rezerwujemy bit do oznaczenia znaku (zwykle bit najbardziej na lewo); jest to następnie określane jako „liczba całkowita ze znakiem” (signed integer). W większości przypadków liczby ujemne będą kodowane przy użyciu zasady uzupełniania do dwóch .

Na przykład za pomocą bajtu możemy reprezentować:

liczby naturalne od 0 (00000000 binarnie) do 255 (11111111 binarnie);
względne liczby całkowite od -128 (10000000 binarnie) do -1 (11111111 binarnie) i od 0 (00000000) do 127 (01111111); liczby całkowite od -128 do +127 są zatem kodowane jednym bajtem.

Zauważ, że aby porównać dwie względne liczby całkowite zakodowane w ten sposób, wystarczy wykonać wyłączne OR z (10 000 000 w formacie binarnym) na każdej przed testem.

Inne typy są również używane do reprezentowania liczb całkowitych, jest to kodowanie BCD w formie rozszerzonej (jedna cyfra na jeden bajt) lub zwartej (jedna cyfra na 4 bity). Chociaż te formaty są mniej wydajne do obliczeń niż system binarny opisany powyżej, ponieważ wymagają dodatkowych instrukcji do ponownego sformatowania wyniku przeprowadzonych operacji arytmetycznych, nadal są używane w wielu systemach ( komputer centralny , DBMS itp.) i zarządzane. procesory, ponieważ nie są ograniczone liczbą bitów używanych przez procesor do arytmetyki binarnej (8 bitów, 16 bitów, 32 bity, 64 bity itd.) i zachowują precyzję jednostki w przeciwieństwie do liczb zmiennoprzecinkowych .

Liczby ułamkowe

Ułamek jest zapisywany z licznikiem i mianownikiem, czyli dwiema liczbami całkowitymi. Można to jednak wykorzystać tylko w rachunku formalnym.

Liczby przecinek

Do obliczeń wolimy używać komputerowych liczb całkowitych o podstawie dwa lub dziesięć, w których występuje przecinek, w pozycji zmiennej (decy-mikro-nano-pico) lub stałej (franc-centymy).

W przypadku liczb mieszanych konwencja numeracji jest taka, że przy podstawie n , „0, a ” oznacza a × 1 / n (= a × n −1 ), „0.0 a ” oznacza a × 1 / n 2 ( = a × n − 2 )… Na przykład przy podstawie 10 ( n = 10), „0,005” oznacza 5 × 10-3 .

Tak więc liczba 0,001 w systemie binarnym ( n = 2) oznacza 1 × 2 -3 = 0,125.

Tak więc w informatyce pierwsze rozwiązanie polega na przypisaniu określonej liczby bitów z prawej strony ujemnym potęgom liczby 2.

Innym rozwiązaniem jest użycie kodowania BCD jak w przypadku liczb całkowitych, biorąc pod uwagę położenie kropki dziesiętnej na stałej pozycji, na przykład w przypadku kodowania 10-cyfrowego pierwsze osiem cyfr zawiera część całkowitą, a dwie ostatnie część dziesiętną. To pozycjonowanie jest całkowicie dowolne i musi być zarządzane przez programistę w przypadku wyświetlania lub obliczeń, szczególnie w przypadku mnożenia lub gdy dwie liczby nie są zdefiniowane z taką samą liczbą cyfr po przecinku. Jest to typ danych, który jest powszechnie używany w DBMS dla typu DECIMAL.

Formaty tekstowe

Teksty składają się ze znaków w liczbach skończonych ( litery , znaki diakrytyczne , znaki interpunkcyjne …), przynajmniej w alfabetach europejskich. Gdyby przypisanie liczby do każdego znaku we wszystkich kontekstach regionalnych było proste, ta konwersja {znak → liczba} zostałaby zdefiniowana umownie w postaci tabeli lub strony kodowej . W praktyce, ze względu na interoperacyjność, stosuje się bardziej wyrafinowane systemy kodowania . Najczęściej używane są regionalne strony kodowe ASCII dla języka angielskiego, jego warianty i rozszerzenia z innych krajów oraz Unicode .

Teksty obejmują również układ (wyrównanie akapitów) i formatowanie (rodzaj czcionki , rozmiar itp.). Ogólnie przyjęte rozwiązanie polega na zdefiniowaniu słów poleceń, instrukcji, oddzielonych od tekstu specjalnym znakiem. Tak więc w HTML instrukcje są nazywane "tagami" i są ujęte w nawiasy ostre <…> ; w LaTeX , instrukcje są wprowadzane przez odwrócony słupek ułamka \. W rezultacie niektóre znaki są zarezerwowane dla instrukcji i nie mogą już być częścią tekstu; istnieją wtedy „kody ucieczki” lub specjalne instrukcje do ich reprezentowania.

Do 2006 roku oprogramowanie Microsoft Word zachowywało inny sposób przechowywania formatowania: dane (tekst i obrazy) są umieszczane w dokumencie jako surowe (bez formatowania), a formatowanie jest definiowane w części dokumentu zwanej „ podziałem sekcji” . Podział sekcji poza zaznaczeniem zmiany układu (podział kolumny, koniec strony) to niewidoczny obszar zawierający wskaźniki przypisujące formatowanie do części sekcji. To rozwiązanie do przechowywania surowych danych było historycznie stosowane w czasie, gdy istniało niewiele innych rozwiązań (początek lat 80-tych). Było to podejście powszechnie przyjęte w wielu aplikacjach i związane m.in. z niskimi standardami przechowywania. Doświadczenie pokazuje jednak, że takie podejście jest bardzo uciążliwe i stanowi źródło problemów (uszkodzenie dokumentów) w przypadku dokumentów liczących około 100 stron i więcej. Jeśli Microsoft próbował zachować swój model i stopniowo ewoluować, aby uniknąć zabierania wszystkiego z powrotem do bazy, osiągnął swoje granice. W wydaniu z 2007 roku firma Microsoft przyjęła nowy, zastrzeżony format, Open XML.

Formaty obrazu

Podstawą reprezentacji obrazów jest geometria analityczna .

Format karty punktowej

Możliwe jest pocięcie obrazu na elementarne punkty lub „ piksele ” i przypisanie koloru do tego piksela. Kolor jest reprezentowany przez liczbę, przy czym korespondencja kolorów → liczba odbywa się za pomocą „palety”.

Nie ma sensu podawać współrzędnych punktów: jeśli szerokość obrazu jest podana w liczbie n punktów, to pierwsze n punktów reprezentuje pierwszą linię, punkty n +1 do 2 n reprezentują drugą linię ... Wystarczy wtedy ustalić umownie kolejność skanowania, w tym przypadku zachodnią kolejność czytania (od lewej do prawej i od góry do dołu).

Daje to obraz w formacie mapy punktów, często nazywany obrazem bitmapowym . Jest to zatem kanwa punktów, z których każdy ma przypisaną kolorową wartość. Duże różnice między istniejącymi formatami to głębia kolorów (1 bit: czarny lub biały, 8 bitów: 256 kolorów, 24 bity: 16 milionów kolorów…) oraz rodzaj kompresji (bez kompresji lub surowa , z kompresją według wzorów, z niszczącą kompresją ...)

Rozważmy na przykład czarno-białą mapę (1 dla koloru kształtu, 0 lub · dla koloru tła) definiującą obraz o szerokości pięciu punktów przez następującą sekwencję liczb:

1000101010001000101010001

Ta mapa musi zostać podzielona na grupy po 5 bitów:

1· ▓░ █· ⟵ Symboles de notation pour l'explication un tramé plein ⟵ Notation du 1 point tramé point ⟵ Notation du 0 · 1···1 ▓░░░▓ █···█ ·1·1· ░▓░▓░ ·█·█· ··1·· ░░▓░░ ··█·· ·1·1· ░▓░▓░ ·█·█· 1···1 ▓░░░▓ █···█

co daje nam rysunek „X” w „kolorze kształtu” na tle „koloru tła”. Jednak tutaj żaden bit nie wskazuje koloru, więc kolor renderowania zależy od zastosowanej technologii i jej konfiguracji.

Format danych musi zatem zawierać, oprócz listy punktów, szerokość obrazu i opis palety; robi się to zwykle na początku pliku (mówimy o pliku „nagłówek”).

Niektóre znane formaty obrazów rastrowych: Portable Network Graphics , JPG , BitMaP , Portable pixmap .

Format wektorowy

Obraz w formacie wektorowym to obraz opisany przez zestawy współrzędnych matematycznych, a nie przez kanwę punktów. Na przykład :

aby opisać linię wystarczy znać jej współrzędne odlotu i przylotu;
w przypadku prostokąta (o bokach wyrównanych do osi bieżącego układu współrzędnych) wystarczą również dwa punkty (dwa przeciwległe narożniki);
dla okręgu potrzebny jest tylko jeden punkt i promień.

Ponadto niezbędne są informacje o ścieżce: atrybuty graficzne to grubość, styl (ciągły lub kropkowany), kolor linii, jej przezroczystość itp.

Obraz wektorowy jest zatem zbiorem współrzędnych, atrybutów i poleceń, za których interpretację odpowiada program wyświetlający (na ekranie lub na papierze).

W przypadku obrazów, które można łatwo zredukować do kształtów geometrycznych (typografia, kartografia itp.), format wektorowy jest niezwykle ekonomiczny.

Osobliwością formatów wektorowych jest to, że ich ostateczne renderowanie zależy tylko od rozdzielczości urządzenia wyjściowego. Ten typ obrazu można również powiększać bez przeszkadzających efektów; nie ma efektu „rasteryzacji” (linie ukośne lub zakrzywione nie są widoczne jako schody).

Niektóre znane formaty wektorowe: VML , SVG , Adobe PDF (Acrobat), Adobe Illustrator , encapsuled PostScript EPS , Quark QXD , Silverlight i Macromedia Flash (formaty animacji wektorowej), AutoCAD DXF .

Reprezentacja kolorów

Formaty wideo

Formaty scen 3D

Reprezentacja wirtualnych obiektów tworzonych przez oprogramowanie do modelowania 3D wymaga określonego formatu danych , ponieważ poprzednie formaty są nieodpowiednie. Rzeczywiście, aby przedstawić obiekt 3D, potrzebujesz przynajmniej opisu:

topologia obiektu: jego kształt, wielkość i złożoność;
atrybuty reprezentacji: kolory, tekstury (charakter i położenie), fotometryczna jakość powierzchni, przezroczystość;
jego dynamicznych atrybutów, jeśli jest animowany: zdolność do kolizji z innymi obiektami, połączeniami i wiązaniami itp.

Reprezentowanie sceny wymaga również określenia zastosowanego oświetlenia, względnego położenia obiektów, ewentualnych efektów środowiskowych, ale przede wszystkim jego hierarchicznej struktury (powiązań między elementami).

Pierwszymi de facto standardowymi formatami były formaty przystosowane do CAD: obiekt jest definiowany za pomocą faset lub powierzchni analitycznych. Wystarczy określić jego początek, a następnie charakterystyczne współrzędne elementów w przestrzeni trójwymiarowej. Na przykład w formacie DXF programu Autocad obiekt jest serią nazwanych elementów składających się z listy punktów X, Y, Z. W wyniku indeksowania powstają trójkątne fasetki lub linie, które są oparte na tych punktach.

Jeśli ten format był wystarczający do rysowania technicznego, to zupełnie nie nadawał się do wirtualnej rzeczywistości. W latach 90. firma Silicon Graphics (producent stacji roboczej do grafiki 3D) opublikowała format Inventor , który zawierał większość niezbędnych elementów. Format ten przekształcił się w format VRML , który został ustandaryzowany.

Ponadto ukazał się również format 3D Studio ASCII , ale eksplozja rynku 3D dała początek wielu zastrzeżonym formatom. Dla użytkownika problemem często była konwersja modelu z jednego formatu na inny bez utraty zbyt dużej ilości informacji. Niektóre firmy wyspecjalizowały się nawet w tego typu konwersji.

Obecnie w świecie zawodowym nie ma jednego formatu, a raczej mniej lub bardziej używane formaty w zależności od rodzaju aplikacji. Na przykład :

Format Blendera do tworzenia multimediów;
Format Pro / Engineer dla przemysłowego CAD;
Format OpenFlight do symulacji lotu i/lub jazdy.

Jednak większość modelarzy 3D jest w stanie mniej więcej czytać (Importować) i tworzyć (Eksportować) kilka formatów: jest to ważne kryterium wyboru. Wśród najpopularniejszych formatów możemy wymienić:

MIESZANKA z Blendera ;
3DS ;
DXF programu AutoCAD ;
znormalizowane IGES ;
X Bezpośrednie 3D ;
OBJ z Wavefront;
LWO z LightWave 3D ;
VRML z jego wersjami (1, 2 i X3D );
.COB z TrueSpace (PL) .

Obecny trend polega na faworyzowaniu opisowego formatu typu XML . Format danych 3D jest wtedy nazywany językiem opisowym, takim jak X3D (ewolucja VRML z formatowaniem XML).

Darmowy format COLLADA umożliwia również wymianę danych między różnymi programami. W szczególności istnieje importer/eksporter Blendera .

Formaty dźwiękowe

Formaty dźwiękowe są podzielone na trzy części:

formaty surowe: dźwięk nie jest skompresowany, wartości wynikające z konwersji wartości analogowych na cyfrowe ( próbkowanie ) są rejestrowane w kolejności chronologicznej i kanałowej;
formaty skompresowane: dźwięk jest kompresowany z lub bez strat zgodnie z algorytmem dostosowanym do percepcji dźwięków ludzkiego ucha i/lub kompresją konwencjonalną;
formaty strumieniowe ( streaming ): pozwala na częściowe słuchanie bez całego pliku.

(Patrz rozdział Formaty klasyczne )

Kompresja danych

Kompresja danych to technika przekształcania danych tak, aby zajmowały mniej miejsca. Ponieważ dane muszą zostać zdekompresowane przed przetworzeniem, odbywa się to kosztem szybkości i wiąże się z większym ryzykiem utraty danych .

Podstawową ideą jest to, że na ogół elementy w plikach są powtarzane. Dlatego korzystne jest reprezentowanie elementów, które powtarzają się często mniejszymi liczbami (czyli biorąc mniej bitów).

Możemy wyróżnić dwa rodzaje kompresji:

uciskanie bez a priori na danych : są to algorytmy, które działają tylko na liczbach, niezależnie od informacji przenoszonych przez te numery; są zatem ogólne, a nie specyficzne dla danych ; możemy wyróżnić :
- przechowywane algorytmy tabeli: algorytm wykonuje pierwszą analizę w celu zidentyfikowania powtarzających się elementów i buduje tabelę korespondencji ze skróconym kodem dla każdego powtarzającego się elementu; wielkość zajmowana przez stół do przechowywania sprawia, że proces ten jest bardziej odpowiedni dla dużych plików,
- algorytmy tabeli w locie: tabela korespondencji jest tworzona systematycznie, bez uprzedniej analizy pliku; można go odbudować w locie ze skompresowanego pliku; jest to na przykład przypadek algorytmu Lempel-Ziv-Welch ( LZW );
kompresje specyficzne dla danych : jeśli znamy dane , możemy zoptymalizować algorytm; na przykład jeśli wiemy, że mamy do czynienia z tekstem, możemy oprzeć się na częstotliwości używania słów w języku; istnieją dwie podkategorie:
- kompresje bez utraty informacji,
- kompresje z utratą danych: pierwszym pomysłem jest wykonanie „podpróbkowania”, to znaczy po prostu obniżenie jakości danych
  poprzez badanie zmysłów i sposobu, w jaki mózg interpretuje informacje, możemy zdegradować pewne cechy danych niewrażliwych, a zatem bez nadmiernej zmiany ogólnej jakości danych ; tak więc, jeśli ucho ludzkie nie jest bardzo wrażliwe na pewne zakresy częstotliwości, możliwe jest degradowanie (lub nawet wyeliminowanie) pewnych części widma, a nie innych ( MP3 );
  Algorytmy kompresji obrazu ( JPEG ) i filmu ( MPEG ) wykorzystują utratę jakości.

Klasyczne formaty

Formaty plików

Kategoria	Formaty
Kino	PNG , MNG , TIFF , JPEG , GIF , TGA , OpenEXR , BMP , FITS
Rysunek wektorowy	VML , SVG , Silverlight , SWF , AI , EPS , DXF
3d	XCF , BLEND , SKP, (SKB) , DXF , 3DS Max , C4D , VRML , X3D , IFC , DWG
Jego	OGG , FLAC , MP3 , WAV , WMA , AAC
Wideo	MPEG , OGM ( DVD , DivX , XviD ), AVI , Theora , FLV
Strona	PDF , PostScript , HTML , XHTML , XML , PHP
Dokument do przetwarzania tekstu	ODT , TXT , DOC , RTF
Plik wykonywalny	BIN , ELF , EXE , SDC , BAT
Archiwa (zwykle pliki skompresowane)	7Z , TAR , GZIP , ZIP , LZW , ARJ , RAR , SDC
Archiwa komiksów (formaty identyczne z formatami archiwów, na których są oparte: różni się tylko rozszerzenie pliku)	CB7 (.cb7), CBA oparte na 7z (.cba), CBR oparte na ACE (.cbr), CBT oparte na RAR (.cbt), CBZ oparte na TAR (.cbz), CBR oparte na ZIP

Formaty danych i prywatność

Gdy plik jest przesyłany do innych osób, niektóre formaty plików mogą stanowić zagrożenie informatyczne dla prywatności twórcy pliku . W rzeczywistości niektóre z nich zawierają w swoim formacie danych informacje osobiste, takie jak nazwa komputera i nazwa użytkownika.

Dzieje się tak najczęściej podczas korzystania z oprogramowania biurowego . W przypadku tych programów jest to nie tylko nazwisko osoby, która utworzyła plik, ale także osoby, która go później zmodyfikowała.

Rzadziej pliki HTML czasami zawierają również dane osobowe, w szczególności gdy są eksportowane z oprogramowania biurowego (np. Microsoft Word). Łatwo to jednak zweryfikować, przeglądając kod HTML.

Przykłady formatu danych zawierających „ukryte informacje”

Pliki PDF

Firma Microsoft oferuje informacje umożliwiające usunięcie danych osobowych ukrytych w plikach:

Excel 2007, PowerPoint 2007, Word 2007;
Excel 2010 i 2013;
Word 2010 i 2013;
Office XP (znany jako 2002) i Office 2003 (czyli Word, Excel i PowerPoint), dla których firma Microsoft wydała w 2004 roku o nazwie RhdTool oprogramowania ( „ R suń H Idden D ata narzędzia ”).

Uwagi i referencje

Viviane Boulétreau i Benoît Habert , " Les formats " , na http://www.parcoursnumeriques-pum.ca ,15 marca 2014 r.(dostęp 21 października 2020 r. )
Viviane Boulétreau i Benoît Habert, „Formaty” , w: Michaël E. Sinatra i Marcello Vitali-Rosati, Praktyki publikowania cyfrowego , PUM,2014, 219 s. ( ISBN 978-2-7606-3202-8 )
(w) Donna Baker, „ Co jeszcze jest w twoim dokumencie? ” , AcrobatUsers.com, 20 lipca 2011 r.
http://office.microsoft.com/en-us/help/remove-hidden-data-and-personal-information-from-office-documents-HA010037593.aspx .
http://office.microsoft.com/en-us/starter-help/remove-hidden-data-and-personal-information-by-inspecting-workbooks-HA010354331.aspx .
(fr) http://office.microsoft.com/fr-fr/word-help/supprimer-des-donnees-masquees-et-des-informations-personnelles-en-inspectant-des-documents-HA010354329.aspx
(en) http://office.microsoft.com/en-us/word-help/remove-hidden-data-and-personal-information-by-inspecting-documents-HA010354329.aspx .
„ Zapobiegaj wyciekom informacji i śledzeniu korporacyjnemu ” na stronie vieprivee.com (dostęp 12 sierpnia 2020 r . ) .
http://www.microsoft.com/en-us/download/details.aspx?id=8446 .

Załączniki

Powiązane artykuły

Linki zewnętrzne

Wotsit.org — plik i zasób danych programisty
Dotwhat.net - Informacje o rozszerzeniu pliku i formacie
Baza danych magicznych sygnatur — informacje o standardowym formacie pliku i rejestrze FFID
FileTypes.fr — rozszerzenia plików i typy plików
Format wars Wyjaśnienie formatów plików dla stron internetowych i druku
Sygnatury plików (aka magiczne liczby) znalezione w plikach, aby wskazać ich typ pliku
Rejestr techniczny PRONOM
Informacje o formacie pliku Biblioteki Kongresu
Wprowadzenie do jednolitych identyfikatorów typu
Game File Format Central — obszerna i rozszerzająca się lista szczegółowych opisów formatów plików związanych z grami
Projekt BIEW Binary VIEW