Archiwum internetowe

Archiwum internetowe
Serwery witryny lustrzanej Bibliotheca Alexandrina
Serwery witryny lustrzanej przechowywane w Bibliotheca Alexandrina
kreacja 1996
Założyciele Zobacz tablicę
Forma prawna Organizacja non-profit
Hasło reklamowe Powszechny dostęp do całej wiedzy
Siedziba firmy 300 Funston Avenue, Richmond District , San Francisco , Kalifornia, USA
 
Kierunek Julien Masanes
Czynność Archiwizacja i przechowywanie stron internetowych
Produkty Archiwum okładek ( d )
Wzmacniacz Cyfrowa Biblioteka Publiczna Ameryki
Efektywny 200
Stronie internetowej archiwum.org
Obrót handlowy 14 000 000 dolarów amerykańskich (2015)

Internet Archive (lub IA ) to organizacja non-profit zajmująca się archiwizacją stron internetowych, która działa również jako biblioteka cyfrowa . Te elektroniczne archiwa składają się z migawek (kopii stron zrobionych w różnym czasie) stron internetowych, oprogramowania, filmów, książek i nagrań dźwiękowych.

Aby zapewnić stabilność i bezpieczeństwo zarchiwizowanych danych , w Bibliotheca Alexandrina w Egipcie utrzymywana jest działająca witryna lustrzana . AI bezpłatnie udostępnia swoje zbiory badaczom, historykom i naukowcom. Znajduje się w dzielnicy Richmond , na południe od Presidio w San Francisco , jest członkiem Amerykańskiego Stowarzyszenia Bibliotek i jest oficjalnie uznawana za bibliotekę przez stan Kalifornia .

Web crawler wykorzystane przez IA jest Heritrix , wolne oprogramowanie . Darmowe oprogramowanie do skanowania książek to Scribe.

Historia

Internet Archive zostało założone w 1996 roku przez Brewstera Kahle . Ze względu na swoje cele - zachowanie ludzkiej wiedzy i dostępność zbiorów dla wszystkich - założyciele IA porównują ten projekt do starszego projektu Biblioteki Aleksandryjskiej .

Internetowe usługi archiwalne

Maszyna powrotna

Wayback Maszyna jest częścią migawkę w sieci opracowanym przez Internet Archive . Wayback Machine został stworzony przez Brewstera Kahle, aby przechowywać i indeksować wszystko w sieci. Wayback Machine został zaktualizowany o treści od Alexy . Ta usługa umożliwia użytkownikom przeglądanie zarchiwizowanych wersji stron internetowych w czasie: jest to „indeks trójwymiarowy”.

Migawki są dostępne od sześciu do dwunastu miesięcy po zarejestrowaniu. Częstotliwość migawek jest różna, nie wszystkie aktualizacje witryny są rejestrowane i można zaobserwować kilkutygodniowe odstępy.

W 2006 roku Wayback Machine zawierał prawie dwa petabajty danych. Wolumen rośnie w tempie 20  terabajtów miesięcznie, co stanowi wzrost o dwie trzecie w porównaniu z dwunastoma terabajtami miesięcznie, które były tempem wzrostu w 2003 roku. Wzrost ten jest większy niż ilość tekstu zawartego w najważniejszych bibliotekach świat świat, w tym Biblioteka Kongresu . W 2009 roku Wayback Machine zawierał prawie trzy petabajty danych, a jego przyrost wyniósł 100 terabajtów miesięcznie. Dane archiwizowane są w systemach firmy Capricorne Technologies, regałach Petabox.

Nazwa „  Wayback Machine  ” odnosi się do odcinków The Rocky and Bullwinkle Show , w których Pan Peabody, profesorski pies i jego asystent Sherman (ludzki zwierzak), używają wehikułu czasu o nazwie „WABAC Machine” do opisywania słynnych wydarzeń historycznych.

W 2015 roku Rosja omyłkowo zablokowałaby całą witrynę Wayback Machine .

Archiwum-It

Użytkownicy chcący zarchiwizować swoje dane na stałe i natychmiast, mogą korzystać w ramach abonamentu z usługi Archive-It  (pl) IA. Zebrane dane są okresowo indeksowane przez Wayback Machine . Wgrudzień 2007, w ramach tej usługi utworzono ponad 230 milionów adresów URL dla 466 zbiorów publicznych, w tym agencji rządowych, uniwersytetów i instytucji kulturalnych.

Przykład organizacji lub instytucji uczestniczących w Archive-It:

Kolekcje

Oprócz archiwów internetowych usługi archiwum internetowego utrzymują duże kolekcje multimediów cyfrowych, które są albo w domenie publicznej, albo mają licencję na redystrybucję, np . licencje Creative Commons . Media są zorganizowane w kolekcje według rodzaju (ruchome obrazy, dźwięk, tekst itp.) oraz w podzbiory według różnych kryteriów. Każda główna kolekcja zawiera podzbiór Społeczność , w którym można archiwizować wkłady ogółu społeczeństwa.

Jego kolekcje obejmują (od 14 listopada 2007 r.):

Obrazy wideo

Oprócz filmów fabularnych, kolekcja wideo Internet Archive zawiera wiadomości, klasykę komiksów , propagandę pro i antywojenną oraz bardziej efemeryczne materiały z archiwów Prelingera, takie jak reklamy, filmy edukacyjne i przemysłowe oraz kolekcje filmów amatorskich.

Przykłady kolekcji:

  • Brickfilms ( bezpośredni link ): grupuje filmy animowane nakręcone przy użyciu klocków Lego , z których niektóre są okładkami filmów fabularnych.
  • Wybory 2004  : to publiczna, bezstronna przestrzeń przeznaczona do udostępniania materiałów wideo związanych z wyborami prezydenckimi w USA w 2004 r . .
  • Independent News: zawiera podzbiory, takie jak konkurs Internet Archive World At War z 2001 roku . Wśród najczęściej pobieranych znajdują się filmy wideo nakręcone przez naocznych świadków trzęsienia ziemi na Oceanie Indyjskim w 2004 r . Archiwum telewizyjne z 11 września zawiera filmy wideo ze wszystkich głównych sieci telewizyjnych na świecie dotyczące ataków z 11 września 2001 r . .

Przykład filmu francuskiego:

Odgłosy

Kolekcja audio składa się z muzyki, audiobooków, wiadomości, starych audycji radiowych i szerokiej gamy innych plików audio. Live Music Archive sub-kolekcja zawiera 40.000 nagrań koncertów niezależnych artystów, jak również bardziej uznanych artystów i zespołów muzycznych z mniej rygorystycznych przepisów dotyczących nagrywania koncertów, takich jak Grateful Dead .

Teksty

Zbiór ten obejmuje teksty z Projektu Gutenberg , teksty z różnych bibliotek na całym świecie oraz zbiór dokumentów i notatek ARPANET . Z ponad 7 milionami książek, Internet Archive jest drugą co do wielkości biblioteką książek cyfrowych o otwartym dostępie na świecie po Google Books. Wszystkie dokumenty zdigitalizowane i umieszczone w Internecie przez internautów lub instytucje są przetworzone i zamienione na pliki EPUB dla e-czytników lub MOBI dla Kindle i cieszą się stałą archiwizacją na wielu serwerach na całym świecie (Kalifornia, Egipt, Chiny, Holandia). ).

Biblioteka Sainte-Geneviève jest pierwszą francuską biblioteką, która uczestniczy w projekcie odmarzec 2010. We Francji École des Ponts ParisTech (odSierpień 2012), Państwowy Instytut Badań Rolniczych (od styczeń 2015), Sciences Po Paris (od czerwiec 2015), Międzyuczelnianej Bibliotece Zdrowia (od styczeń 2018), Uczelniana Biblioteka Języków i Cywilizacji (od września 2019 r.) oraz Biblioteki École normale supérieure (od grudnia 2020 r.).

Darmowa biblioteka

Internet Archive jest członkiem Open Content Alliance  (w) i prowadzi Otwartą Bibliotekę, w której ponad 200 000 zdigitalizowanych książek w domenie publicznej jest dostępnych online i można je wydrukować. Służy temu system skanowania książek Scribe .

Podczas pandemii koronawirusa Internet Archive udostępnia Amerykanom książki chronione prawami autorskimi, aby mogli studiować podczas odosobnienia. Kilku wydawców nie zgadza się z tym, a Archiwum Internetowe wycofuje dostęp do książek, których dotyczy sprawa16 czerwca 2020 r.. Mimo wszystko wydawcy pozywają witrynę, a proces zaplanowano na 2021 r.

Kontrowersje

Witryna scjentologiczna

Pod koniec 2002 roku Internet Archive usunęło różne strony krytyczne dla scjentologii zidentyfikowane przez Wayback Machine. Komunikat o błędzie informuje, że był to wynik „prośby właściciela witryny”. Później wyjaśniono, że prawnicy Kościoła Scjentologicznego zażądali usunięcia bez żadnego prawnego powodu, a właściciele tych stron nie życzyli sobie usunięcia ich stron.

Archiwa internetowe jako dowód

Postępowanie cywilne w Stanach Zjednoczonych Telewizja Polska

W październik 2004w sprawie „  Telewizja Polska SA vs Echostar Satellite  ” prawnik próbuje wykorzystać archiwa Wayback Machine jako źródło dopuszczalnego dowodu, prawdopodobnie po raz pierwszy.

Telewizja Polska jest dostawcą TVP Polonia i EchoStar obsługującym Dish Network . Przed rozprawą firma EchoStar poinformowała, że ​​zamierza wykorzystać migawki z Wayback Machine jako dowód na przeszłe treści ze strony Telewizji Polskiej. Telewizja Polska złożyła wniosek in limine  (in) o usunięcie usprawiedliwionych strzałów z pogłosek i nieuwierzytelnionego źródła, ale sędzia Arlander Keys odrzucił roszczenia Telewizji Polskiej i odmówił wyłączenia dowodów na rozprawie. Jednak w czasie procesu sędzia Sądu Okręgowego Ronald Guzman w pierwszej instancji obalił ustalenia sędziego Keysa i stwierdził, że ani Archiwum Internetowe, ani podstrony (tj. strona Telewizji Polskiej) nie są dopuszczalne jako dowód. Sędzia Guzman orzekł, że wydrukowanie strony internetowej nie jest dowodem uwierzytelnienia informacji.

Adwokaci opieki zdrowotnej, Inc.

W 2003 roku Healthcare Advocates, Inc. został oskarżony w sprawie o naruszenie znaku towarowego. Prokuratura próbowała wykorzystać archiwalne materiały internetowe dostępne za pośrednictwem Internet Archive. Po przegranej sprawie firma próbowała pozwać Internet Archive za naruszenie ustawy DMCA i ustawy o oszustwach i nadużyciach komputerowych . Argumentowali, że skoro zainstalowali plik robots.txt na swojej stronie internetowej, bot AI powinien tego uniknąć. Pierwsza skarga została złożona w dniu26 czerwca 2003i dodali plik robots.txt, 8 lipca 2003 r., strony, które należy wycofać z mocą wsteczną. Proces został rozstrzygnięty pozasądowo.

Plik robots.txt jest używany w ramach Robots Exclusion Standard , dobrowolnego standardu stosowanego przez IA, który zabrania robotom indeksowania niektórych stron oznaczonych przez twórcę jako poza granicami. W rezultacie sztuczna inteligencja usunęła wiele stron internetowych, które są teraz niedostępne za pośrednictwem Wayback Machine. Czasami dzieje się tak z powodu nowego właściciela, który umieścił plik robots.txt uniemożliwiający indeksowanie witryny. Administratorzy twierdzą, że pracują nad systemem, który umożliwi dostęp do poprzednich archiwów, wykluczając elementy utworzone po dodaniu pliku.

W 2006 roku IA zastosowała regułę Robots.txt z mocą wsteczną. Jeśli witryna blokuje IA, tak jak Healthcare Advocates, wszystkie strony wcześniej zarchiwizowane z tej domeny również zostaną usunięte. W przypadku zablokowanych witryn archiwizowany jest tylko plik robots.txt. Praktyka ta wydaje się szkodzić naukowcom korzystającym z informacji dostępnych w przeszłości.

Jednak IA stwierdza również, że „czasami właściciel witryny kontaktuje się z nami bezpośrednio i prosi nas o zaprzestanie indeksowania lub archiwizowania witryny. Spełniamy te prośby. Wyjaśniono również, że „Internet Archive nie jest zainteresowany w zachowaniu lub zapewnienie dostępu do stron internetowych lub innych materiałów internetowego posiadanego przez ludzi, którzy nie chcą ich materiał do archiwum .

Prawo patentowe

Stany Zjednoczone Urząd Patentowy i, z zastrzeżeniem dodatkowych wymagań spełnione (np zapewniając oficjalne oświadczenie od archiwisty), przy czym Europejski Urząd Patentowy będzie akceptować pochodzący z Internet Archive jako dowód publikacji na stronie internetowej. Daty te służą do określenia, czy strona internetowa jest dostępna przed, na przykład, datą złożenia wniosku patentowego.

Prawo autorskie

Wdzięczna śmierć

W listopad 2005, bezpłatne pobieranie koncertów Grateful Dead zostało usunięte z serwisu. John Perry Barlow zidentyfikował Boba Weira , Mickeya Harta i Billa Kreutzmanna jako inicjatorów tej zmiany. 30 listopada, post na forum Brewstera Kahle podsumował coś, co wydaje się być kompromisem osiągniętym między członkami zespołu. Koncerty na żywo można pobierać lub odsłuchiwać, a nagrania będą dostępne tylko do odsłuchu. Od tego czasu dodano koncerty.

Suzanne Shell

12 grudnia 2005aktywistka Suzanne Shell  (w) zażądała sumy 100 000  dolarów na archiwizację jej strony „profane-justice.org” w latach 1999-2004.20 stycznia 2006Internet Archive złożyło pozew deklaratywny w dystrykcie Północnej Kalifornii, prosząc sąd o stwierdzenie, że IA nie naruszyło praw autorskich Shella.

Shell odpowiedział i złożył kolejną skargę przeciwko IA za zarchiwizowanie swojej strony, zarzucając naruszenie warunków korzystania z usługi. 13 lutego 2007, sędzia okręgowy w Kolorado oddalił wszystkie roszczenia z wyjątkiem naruszenia umowy.

25 kwietnia 2007, IA i Shell wspólnie ogłosiły rozwiązanie sporu. IA powiedział: „Archiwum internetowe nie jest zainteresowane umieszczaniem informacji w Wayback Machine osób, które nie chcą oglądać swoich zarchiwizowanych treści internetowych. Zdajemy sobie sprawę, że firma M me Shell posiada ważne prawa autorskie i ma zastosowanie w swojej witrynie, i przykro nam, że rejestracja jej witryny w Wayback Machine doprowadziła do wszczęcia niniejszego sporu. Cieszymy się, że mamy już za sobą tę sprawę. " Shell powiedział: " Szanuję cel i historyczną wartość archiwum internetowego. Nigdy nie zamierzałem ingerować w ten cel ani powodować żadnych szkód. "

Sytuacja praw autorskich w Europie

W Europie Wayback Machine może czasami naruszać prawa autorskie. Tylko twórca może decydować, gdzie jego treść zostanie opublikowana lub powielona, ​​strony powinny zostać usunięte z archiwum na prośbę twórcy.

Zawodnicy

W Europie konkurentem jest Europejskie Archiwum Internetowe .

Uwagi i referencje

  1. "  https://projects.propublica.org/nonprofits/organizations/943242767  "
  2. Archiwum internetowe w Nowej Bibliotece w Aleksandrii .
  3. (w) Internetowe archiwum oficjalnych bibliotek , 2 maja 2007 r.
  4. (pl) Oprogramowanie Scribe
  5. Judy Tong, „ Strona Odpowiedzialna ”  – Brewster Kahle; Biblioteka internetowa w sieci  ” , The New York Times ,8 września 2002 r.
  6. (w) Biblioteka wielka jak świat — Heather Green, BusinessWeek , 28 lutego 2002 r.
  7. „  The Wayback Machine, ofiara nadmiernego blokowania Rosji  ” , ZDNet (dostęp 30 czerwca 2015 )
  8. (w) Zachowanie Web jedną grupę naraz - Stefanie Olsen, CNET , 1 st maj 2006
  9. Pamięć sieci znajduje się na Archive.org, która zawiera około 65 milionów witrynLe Monde , 14 listopada 2007
  10. Mathieu Andro, Emmanuelle Asselin, Marc Maisonneuve (2012), Biblioteki cyfrowe: oprogramowanie i platformy , Paryż, ADBS.
  11. https://archive.org/details/bibliothequesaintegenevieve
  12. https://archive.org/details/ecole-des-ponts
  13. https://archive.org/details/inra
  14. https://archive.org/details/sciencespo
  15. https://archive.org/details/bibliothequeinteruniversitairedesante
  16. https://archive.org/details/bulac?tab=about
  17. https://archive.org/details/bibliotheques-ecole-normale-superieure-images?tab=about
  18. (w) Internet Archive Claims Progress Against Google Library Initiative — Antone Gonsalves, InformationWeek , 20 grudnia 2006
  19. (w) Otwarta biblioteka debiutuje online - Kronika szkolnictwa wyższego , Wired Campus , 9 lipca 2007
  20. (w) Stefanie Olsen, open source Rywal dla projektu książki Google - CNET , 26 października 2005
  21. (en) Maria Bustillos, „  Wydawcy pozują Internet do sądu  ” ,10 września 2020 r..
  22. (w) Archiwum sieciowe ucisza krytyka scjentologii - Lisa M. Bowman, CNET 24 września 2002 r.
  23. (w) Wyłączenia z Wayback Machine — 23 września 2002 r.
  24. (w), Sherman, ustawione Wayback Maszyna do Scjentologię [{} archiveurl Archive] w webcite22 lipca 2018 r. - Ernest Miller, 24 września
  25. (w) Migawki strony internetowej archiwum internetowego uznane za dopuszczalny dowód — Lauren Gelman, pakiet 2 (3) 17 listopada 2004 r.
  26. (w) Proving Web History: How to use the Internet Archive - Beryl A. Howell, Journal of Internet Law 3-9 , luty 2006 [PDF]
  27. (w) Witryna Jessica Dye pozwana za kontrowersyjną podróż w przeszłość Internetu , EContent , 28 (11): 8-9, 2005
  28. (w) Archiwum internetowe rozstrzyga garnitur nad maszyną Wayback – Eric Bangeman, Ars Technica , 31 sierpnia 2006
  29. (w) Gniew deadheads stalle w sieci represji - Jeff Leeds i Jesse Fox Mayshark, International Herald Tribune , 1 st grudzień 2005
  30. (w) Good News i rok Przeprosiny: GD na Internet Archive - Brewster Kahle i Matt Vernon, Live Music Archive Forum, 1 st grudzień 2005
  31. (w) Archiwum Internetowe v. Shell - Lewis T. Babcock, pozew cywilny nr 06cv01726LTBCBS, 13 lutego 2007 [PDF]
  32. (w) Kobieta z Kolorado pozywa roboty indeksujące do umów — Thomas Claburn, InformationWeek , 16 marca 2007 r.
  33. (w) "  Internet Archive v. Suzanne Shell  ” ( ArchiwumWikiwixArchive.isGoogle • Co robić? ) – Martin Samson, via Phillips Nizer LLP
  34. (w) Internet Archive i Suzanne Shell Settle , 25 kwietnia 2007 r.
  35. (de) The Wayback Machine und Google Cache - eine Verletzung deutschen Urheberrechts? , Martin Bahr, 14 stycznia 2002, Internet-Zeitschrift für Rechtsinformatik und Informationsrecht: JurPC
  36. https://www.nextinpact.com/lebrief/46192/european-internet-archive-se-lance

Zobacz również

Bibliografia

  • (en) S. Aya, WYArms, L. Walle, B. Kot, R. Mitchell i P. Dmitriev, „Biblioteka naukowa oparta na historycznych zbiorach Internet Archive”, magazyn D-Lib , s. 12 (2) , 4, 2006
  • (i) S Hackett B. Parmanto i X Zeng „Dostępność stron internetowych w czasie” w ACM SIGACCESS Dostępność i obliczeniowe n o  77-78 ACM, 2004, s.  32-39
  • (en) E. Jaffe, E. i S. Kirkpatrick, „Architektura archiwum internetowego”, In Proceedings of SYSTOR 2009: The Israeli Experimental Systems Conference , ACM, 2009, s.  11
  • (en) B. Kahle, Archiwum internetowe , 2012
  • (en) C. McKay, Ephemeral to enduring: Internet Archive i jego rola w zachowaniu mediów cyfrowych , Information Technology and Libraries, 23 (1), 3, 2004
  • (en) T. Schwarz, M. Baker, S. Bassi, B. Baumgart, W. Flagg, C. van Ingen, ... i M. Shah, „Dochodzenie w sprawie awarii dysku w archiwum internetowym”, In Work-in -Sesja Progress , Konferencja NASA/IEEE nt. systemów i technologii pamięci masowych (MSST2006), 2006

Linki zewnętrzne