Te adresy internetowe są jednym z trzech wynalazków w podstawy World Wide Web , a według jego wynalazców, najbardziej fundamentalne. Opinia publiczna zna je w postaci etykiet składających się z około dziesięciu znaków, często zaczynających się od „www” i identyfikujących stronę internetową ; np www.example.com. Technicznie poprawny adres powinien faktycznie zaczynać się od nazwy protokołu ; w tym przykładzie daje http://www.example.com. Adresy internetowe są podstawą hiperłączy internetowych.
W języku technicznym nie mówimy o adresie internetowym, ale o URI (dla Uniform Resource Identifier lub jednolitym identyfikatorze zasobu ), URL (dla Uniform Resource Locator lub uniform Resource Locator , typ URI) lub rzadziej URN ( Jednolita nazwa zasobu lub jednolita nazwa zasobu , inny typ identyfikatora URI). Istnieją trzy standardy w Internecie określające składnię i semantykę adresów internetowych, w tym RFC 1738, RFC 2396 i RFC 3986. Ponadto U „mundurek”, które pierwotnie oznaczało uniwersalny ( RFC 1630), podkreśla niemal powszechne zajęcie możliwości tych adresów: fora Usenet , skrzynki pocztowe , pliki na serwerze FTP itp. ; lub praktycznie wszystko, co jest dostępne w Internecie, a nawet poza nim, takie jak dokumenty referencyjne, książki itp.
Adresów internetowych nie należy mylić z adresami e-mail ani adresami IP . Nazwa adres internetowy może odnosić się do adresu internetowego, ale w rzeczywistości jest całkowicie niejednoznaczna.
Trzy wynalazki będące podstawą sieci WWW to:
Chociaż protokół (HTTP) i format danych (HTML) zostały opracowane specjalnie dla sieci, sieć została zaprojektowana tak, aby narzucić minimum ograniczeń technicznych. W szczególności można używać formatów i protokołów innych niż HTTP i HTML. Jednak aby zasób był częścią sieci, musi być możliwy do wyrażenia jako adres internetowy. W tym sensie adresy są najbardziej podstawowym wynalazkiem.
Na przykład dokument HTML zapisany w nazwanym pliku komputerowympage.html znajdującym się w katalogu wywoływanego/home/tim/ komputera . W zależności od środków używanych do uzyskania do niego dostępu, zasób ten może być znany pod różnymi adresami: www.example.com
file:///home/tim/page.html Dostęp do zasobu można uzyskać jako plik lokalny page.htmlw katalogu /home/tim/. Ten adres działa tylko na komputerze, na którym zarejestrowany jest zasób. http://www.example.com/tim/page.html Zasób jest dostępny na serwerze HTTP www.example.com pod ścieżką /tim/page.html . Serwer HTTP jest skonfigurowany tak, aby dopasować ścieżkę /tim/do katalogu /home/tim/. ftp://tim:[email protected]/tim/page.html Dostęp do zasobu można uzyskać za pomocą protokołu przesyłania plików (FTP ), z kontem timi hasłem sEcReTna serwerze www.example.com. Serwer FTP jest skonfigurowany tak, aby nadać kontu timkatalog /home/tim/.Aby uzyskać dostęp do tego zasobu, można użyć kilku innych protokołów, pod warunkiem, że został zainstalowany odpowiedni serwer: Gopher , HTTPS itp. Inne zasoby mogą koncepcyjnie bardzo różnić się od pliku, na przykład:
mailto:[email protected] Zasób jest docelowy adres e-mail na adres e-mail [email protected] . news:alt.hypertext Zasobem jest forum dyskusyjne Usenetu alt.hypertext .Podczas przeglądania Internetu przeglądarka internetowa wyświetla na pasku adresu adres sprawdzanego zasobu. Jeśli chcesz zapoznać się z dokumentem, którego adres internetowy znasz, możesz wpisać go bezpośrednio w tym pasku.
We wczesnych latach WWW , przeglądarek internetowych akceptowane tylko technicznie poprawne adresy do identyfikacji zasobów. Jednak wraz z rozwojem sieci WWW protokół komunikacyjny HTTP stał się niezbędny do przesyłania większości konsultowanych zasobów. Tak więc adres URL strony internetowej prawie zawsze zaczyna się od http://. Przeglądarki internetowe rozwinęły się zatem tak, aby umożliwić pomijanie tych znaków podczas wpisywania w pasku adresu; http://jest automatycznie dodawany, jeśli to konieczne. Niektóre przeglądarki posuwają się nawet do tego, że uzupełniają adres jako adres exemplenadający się do wykorzystania, automatycznie dodając brakujące znaki „http”, następnie „:” i „//” bez pomijania „www” i dodając na końcu odpowiednie rozszerzenie krajowe lub handlowe. http://www.example.com/, ale ryzyko błędnego ukończenia nie jest wtedy znikome. Zwłaszcza, że ta sama nazwa może dawać dostęp do dwóch zupełnie różnych witryn w zależności od tego, czy znajdują się one w „.com” (rozszerzenie handlowe ważne na całym świecie lub w „.fr”; .es; .it; itd. Itd., A zatem rozszerzenie krajowe gwarantuje jedynie wyjątkowość w danym kraju.
Adresy internetowe są często podawane w reklamach lub wskazywane na produktach. Następnie wyszukiwane są łatwe do zapamiętania adresy. Adresy te mają być wprowadzone w pasku adresu przeglądarki, więc http://protokół można pominąć. Adres internetowy sprowadza się wtedy do prostej nazwy domeny , takiej jak www.example.com. Nazwa ta wydała się na tyle ważna w komunikacji niektórych firm , że w czasie bańki internetowej przejęły one adres swojej strony internetowej ( Amazon.com itp.).
Z drugiej strony utworzono wyspecjalizowaną działalność gospodarczą polegającą na zakupie nazw domen opartych na popularnych słowach, które mogą być często wyszukiwane przez internautów. Domena sex.comjest więc bardzo droga. Bardziej mętne z prawnego punktu widzenia typosquatting polega na kupowaniu bez autoryzacji domen, których nazwy są związane ze znanymi markami należącymi do podmiotów trzecich. Samo cybersquatting polega na kupnie nazwy domeny z nazwą należącą do osoby trzeciej, aby ją drogo sprzedać. W wielu krajach jest to nielegalne.
Oszustwo zwane phishingiem polega na wysłaniu ofierze adresu internetowego, który wygląda jak legalna witryna internetowa, na przykład adres ich banku, podczas gdy w rzeczywistości jest to adres witryny zaprojektowanej do wyłudzania poufnych informacji, takich jak kody dostępu do kont bankowych.
Podstawowa składnia dla adresów internetowych jest w następujący sposób:
Oryginalna składnia adresów internetowych jest nadal najczęściej używana. Od czasu do czasu definiowany jest nowy protokół.
Pierwotnie adresy zawierały tylko znaki ASCII . Aby móc reprezentować znaki spoza ASCII, nie ma ucieczki system, który koduje w ASCII szesnastkowy wartość każdego bajta o charakterze: gdzie jest liczbą szesnastkową. Jednak ten system ucieczki nie wskazuje, jakie jest podstawowe kodowanie znaków ( ISO / IEC 8859-1 , UTF-8 itp.). %HHHH
Utworzono rozszerzenie URI, aby rozszerzyć adresy internetowe poza ASCII: Internationalized Resource Identifiers (IRI).
Wiele protokołów (HTTP, FTP) ma postać tak zwanego adresu hierarchicznego.
http: // tim: [email protected]: 8888 / path / acces? req = data # tutaj | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
http | : // | tim | : | sekret | @ | www.example.com | : | 8888 | / ścieżka / dostęp | ? | req = data | # | tutaj |
protokół | : // | nazwisko | : | hasło | @ | gospodarz | : | Port | ścieżka dostępu | ? | żądanie | # | fragment |
Nazwa, hasło i numer portu są rzadko używane. Jednak ataki phishingowe mogą wykorzystywać tę składnię do zamaskowania nielegalnej nazwy domeny jako legalnej:
http://ma.banque.fr:[email protected]/chemin/acces | |||||||
---|---|---|---|---|---|---|---|
http | : // | ma.banque.fr | : | 8888 | @ | illegitime.net | / ścieżka / dostęp |
protokół | : // | nazwisko | : | hasło | @ | gospodarz | ścieżka dostępu |
W przypadku hierarchicznych adresów internetowych możliwe jest określenie adresu względem innego adresu. Relacja jest ustanawiana na poziomie ścieżki. Zatem jeśli mamy:
URI | http: // tim @ sEcReT: www.example.com: 8888 / path / acces? req = data # here |
---|---|
odniesienie względne | bla |
URI odwołuje się względnie | http: // tim @ sEcReT: www.example.com: 8888 / path / toto |
W kręgach technicznych adresy internetowe były znane pod różnymi nazwami: adres WWW, Universal Document Identifier , Universal Resource Identifier ( RFC 1630) i ostatecznie podzielone na Uniform Resource Locators (URLs, RFC 1738, RFC 1808) i Uniform Resource Names. ( URN, RFC 1737), całość to Uniform Resource Identifier (URI, RFC 2396, RFC 3986). Skrót URL jest używany w standardzie HTML 3.2 i stał się najbardziej znanym i używanym przez techników. Sytuacja stała się na tyle zagmatwana, że RFC 3305 został napisany w celu wyjaśnienia terminologii.
Organizacje narodowe oferowały różne francyzacje . Komputery i Internet Słownictwo opublikowane w Dzienniku Urzędowym z dnia16 marca 1999przez Komisję Generalną terminologia i neology z Francji zaproponował „siatkowego adres” i „uniwersalny adres”. Te dwie nazwy zostały odrzucone przez Office québécois de la langue française z powodu ich braku precyzji i nie weszły do obecnego użytku. Office québécois de la langue française oferuje „adres URL”, „URL”, „adres internetowy” i „adres W3”. Zauważył, że „adres internetowy” jest zwykle używany w przypadku witryn z zasobami , podczas gdy skrót adresu URL podkreśla uniwersalność tych adresów, które mogą identyfikować fora Usenet , witryny, FTP itp. Opinia publiczna często myli również adres internetowy, adres e - mail i adres IP . Aby uniknąć wszystkich tych niejednoznaczności, specjaliści sieciowi często używają skrótu „URL”, chociaż w rzeczywistości odwołują się do identyfikatorów URI.
Pierwotna nazwa nadana adresom internetowym przez wynalazcę sieci to Universal Document Identifier (UDI). Latem 1992 roku zaproponował Internet Engineering Task Force (IETF) standaryzacji tych IDU, ale nazwa „uniwersalna” została odrzucona, ponieważ została uznana za zbyt „arogancką” jak na projekt, który był wówczas młody, taki jak Internet. Wynikowym kompromisem jest nazwa Uniform Resource Identifier (URI).
Podczas standaryzacji identyfikatorów URI było jasne, że w praktyce adresy internetowe nie identyfikowały dokumentów, ale lokalizacje dokumentów. Innymi słowy, jeśli dokument zostanie przeniesiony, zmieni się jego adres. W praktyce, gdy zasób jest przenoszony, wszystkie prowadzące do niego hiperłącza są przerywane, co powoduje błąd HTTP 404 na serwerze HTTP .
W obliczu takiego stanu rzeczy zdecydowano, że adresy internetowe będą nazywać się Uniform Resource Locator (URL). Pomysł polegał na ujednoliceniu dwóch rodzajów identyfikatorów URI: adresy URL byłyby identyfikatorami URI wskazującymi „jak” (za pomocą której ścieżki w sieci) uzyskać dostęp do zasobu; Jednolite nazwy zasobów (URN) byłyby identyfikatorami URI, które wiecznie identyfikują te same dokumenty, gdziekolwiek się znajdują.
Tim Berners-Lee upierał się jednak, że przynajmniej w teorii adresy internetowe powinny być zaprojektowane jako uniwersalne. Odkrył również, że IETF marnuje czas na dyskusje, także wCzerwiec 1994publikuje RFC 1630, Universal Resource Identifiers in WWW . Ta pierwsza prośba o komentarze na temat adresów internetowych należy do kategorii informacyjnej. Po prostu opisuje praktykę tamtych czasów i zawiera pewne błędy.