Archiwum internetowe | |
Serwery witryny lustrzanej przechowywane w Bibliotheca Alexandrina | |
kreacja | 1996 |
---|---|
Założyciele | Zobacz tablicę |
Forma prawna | Organizacja non-profit |
Hasło reklamowe | Powszechny dostęp do całej wiedzy |
Siedziba firmy | 300 Funston Avenue, Richmond District , San Francisco , Kalifornia, USA |
Kierunek | Julien Masanes |
Czynność | Archiwizacja i przechowywanie stron internetowych |
Produkty | Archiwum okładek ( d ) |
Wzmacniacz | Cyfrowa Biblioteka Publiczna Ameryki |
Efektywny | 200 |
Stronie internetowej | archiwum.org |
Obrót handlowy | 14 000 000 dolarów amerykańskich (2015) |
Internet Archive (lub IA ) to organizacja non-profit zajmująca się archiwizacją stron internetowych, która działa również jako biblioteka cyfrowa . Te elektroniczne archiwa składają się z migawek (kopii stron zrobionych w różnym czasie) stron internetowych, oprogramowania, filmów, książek i nagrań dźwiękowych.
Aby zapewnić stabilność i bezpieczeństwo zarchiwizowanych danych , w Bibliotheca Alexandrina w Egipcie utrzymywana jest działająca witryna lustrzana . AI bezpłatnie udostępnia swoje zbiory badaczom, historykom i naukowcom. Znajduje się w dzielnicy Richmond , na południe od Presidio w San Francisco , jest członkiem Amerykańskiego Stowarzyszenia Bibliotek i jest oficjalnie uznawana za bibliotekę przez stan Kalifornia .
Web crawler wykorzystane przez IA jest Heritrix , wolne oprogramowanie . Darmowe oprogramowanie do skanowania książek to Scribe.
Internet Archive zostało założone w 1996 roku przez Brewstera Kahle . Ze względu na swoje cele - zachowanie ludzkiej wiedzy i dostępność zbiorów dla wszystkich - założyciele IA porównują ten projekt do starszego projektu Biblioteki Aleksandryjskiej .
Wayback Maszyna jest częścią migawkę w sieci opracowanym przez Internet Archive . Wayback Machine został stworzony przez Brewstera Kahle, aby przechowywać i indeksować wszystko w sieci. Wayback Machine został zaktualizowany o treści od Alexy . Ta usługa umożliwia użytkownikom przeglądanie zarchiwizowanych wersji stron internetowych w czasie: jest to „indeks trójwymiarowy”.
Migawki są dostępne od sześciu do dwunastu miesięcy po zarejestrowaniu. Częstotliwość migawek jest różna, nie wszystkie aktualizacje witryny są rejestrowane i można zaobserwować kilkutygodniowe odstępy.
W 2006 roku Wayback Machine zawierał prawie dwa petabajty danych. Wolumen rośnie w tempie 20 terabajtów miesięcznie, co stanowi wzrost o dwie trzecie w porównaniu z dwunastoma terabajtami miesięcznie, które były tempem wzrostu w 2003 roku. Wzrost ten jest większy niż ilość tekstu zawartego w najważniejszych bibliotekach świat świat, w tym Biblioteka Kongresu . W 2009 roku Wayback Machine zawierał prawie trzy petabajty danych, a jego przyrost wyniósł 100 terabajtów miesięcznie. Dane archiwizowane są w systemach firmy Capricorne Technologies, regałach Petabox.
Nazwa „ Wayback Machine ” odnosi się do odcinków The Rocky and Bullwinkle Show , w których Pan Peabody, profesorski pies i jego asystent Sherman (ludzki zwierzak), używają wehikułu czasu o nazwie „WABAC Machine” do opisywania słynnych wydarzeń historycznych.
W 2015 roku Rosja omyłkowo zablokowałaby całą witrynę Wayback Machine .
Użytkownicy chcący zarchiwizować swoje dane na stałe i natychmiast, mogą korzystać w ramach abonamentu z usługi Archive-It (pl) IA. Zebrane dane są okresowo indeksowane przez Wayback Machine . Wgrudzień 2007, w ramach tej usługi utworzono ponad 230 milionów adresów URL dla 466 zbiorów publicznych, w tym agencji rządowych, uniwersytetów i instytucji kulturalnych.
Przykład organizacji lub instytucji uczestniczących w Archive-It:
Oprócz archiwów internetowych usługi archiwum internetowego utrzymują duże kolekcje multimediów cyfrowych, które są albo w domenie publicznej, albo mają licencję na redystrybucję, np . licencje Creative Commons . Media są zorganizowane w kolekcje według rodzaju (ruchome obrazy, dźwięk, tekst itp.) oraz w podzbiory według różnych kryteriów. Każda główna kolekcja zawiera podzbiór Społeczność , w którym można archiwizować wkłady ogółu społeczeństwa.
Jego kolekcje obejmują (od 14 listopada 2007 r.):
Oprócz filmów fabularnych, kolekcja wideo Internet Archive zawiera wiadomości, klasykę komiksów , propagandę pro i antywojenną oraz bardziej efemeryczne materiały z archiwów Prelingera, takie jak reklamy, filmy edukacyjne i przemysłowe oraz kolekcje filmów amatorskich.
Przykłady kolekcji:
Przykład filmu francuskiego:
Kolekcja audio składa się z muzyki, audiobooków, wiadomości, starych audycji radiowych i szerokiej gamy innych plików audio. Live Music Archive sub-kolekcja zawiera 40.000 nagrań koncertów niezależnych artystów, jak również bardziej uznanych artystów i zespołów muzycznych z mniej rygorystycznych przepisów dotyczących nagrywania koncertów, takich jak Grateful Dead .
TekstyZbiór ten obejmuje teksty z Projektu Gutenberg , teksty z różnych bibliotek na całym świecie oraz zbiór dokumentów i notatek ARPANET . Z ponad 7 milionami książek, Internet Archive jest drugą co do wielkości biblioteką książek cyfrowych o otwartym dostępie na świecie po Google Books. Wszystkie dokumenty zdigitalizowane i umieszczone w Internecie przez internautów lub instytucje są przetworzone i zamienione na pliki EPUB dla e-czytników lub MOBI dla Kindle i cieszą się stałą archiwizacją na wielu serwerach na całym świecie (Kalifornia, Egipt, Chiny, Holandia). ).
Biblioteka Sainte-Geneviève jest pierwszą francuską biblioteką, która uczestniczy w projekcie odmarzec 2010. We Francji École des Ponts ParisTech (odSierpień 2012), Państwowy Instytut Badań Rolniczych (od styczeń 2015), Sciences Po Paris (od czerwiec 2015), Międzyuczelnianej Bibliotece Zdrowia (od styczeń 2018), Uczelniana Biblioteka Języków i Cywilizacji (od września 2019 r.) oraz Biblioteki École normale supérieure (od grudnia 2020 r.).
Internet Archive jest członkiem Open Content Alliance (w) i prowadzi Otwartą Bibliotekę, w której ponad 200 000 zdigitalizowanych książek w domenie publicznej jest dostępnych online i można je wydrukować. Służy temu system skanowania książek Scribe .
Podczas pandemii koronawirusa Internet Archive udostępnia Amerykanom książki chronione prawami autorskimi, aby mogli studiować podczas odosobnienia. Kilku wydawców nie zgadza się z tym, a Archiwum Internetowe wycofuje dostęp do książek, których dotyczy sprawa16 czerwca 2020 r.. Mimo wszystko wydawcy pozywają witrynę, a proces zaplanowano na 2021 r.
Pod koniec 2002 roku Internet Archive usunęło różne strony krytyczne dla scjentologii zidentyfikowane przez Wayback Machine. Komunikat o błędzie informuje, że był to wynik „prośby właściciela witryny”. Później wyjaśniono, że prawnicy Kościoła Scjentologicznego zażądali usunięcia bez żadnego prawnego powodu, a właściciele tych stron nie życzyli sobie usunięcia ich stron.
W październik 2004w sprawie „ Telewizja Polska SA vs Echostar Satellite ” prawnik próbuje wykorzystać archiwa Wayback Machine jako źródło dopuszczalnego dowodu, prawdopodobnie po raz pierwszy.
Telewizja Polska jest dostawcą TVP Polonia i EchoStar obsługującym Dish Network . Przed rozprawą firma EchoStar poinformowała, że zamierza wykorzystać migawki z Wayback Machine jako dowód na przeszłe treści ze strony Telewizji Polskiej. Telewizja Polska złożyła wniosek in limine (in) o usunięcie usprawiedliwionych strzałów z pogłosek i nieuwierzytelnionego źródła, ale sędzia Arlander Keys odrzucił roszczenia Telewizji Polskiej i odmówił wyłączenia dowodów na rozprawie. Jednak w czasie procesu sędzia Sądu Okręgowego Ronald Guzman w pierwszej instancji obalił ustalenia sędziego Keysa i stwierdził, że ani Archiwum Internetowe, ani podstrony (tj. strona Telewizji Polskiej) nie są dopuszczalne jako dowód. Sędzia Guzman orzekł, że wydrukowanie strony internetowej nie jest dowodem uwierzytelnienia informacji.
Adwokaci opieki zdrowotnej, Inc.W 2003 roku Healthcare Advocates, Inc. został oskarżony w sprawie o naruszenie znaku towarowego. Prokuratura próbowała wykorzystać archiwalne materiały internetowe dostępne za pośrednictwem Internet Archive. Po przegranej sprawie firma próbowała pozwać Internet Archive za naruszenie ustawy DMCA i ustawy o oszustwach i nadużyciach komputerowych . Argumentowali, że skoro zainstalowali plik robots.txt na swojej stronie internetowej, bot AI powinien tego uniknąć. Pierwsza skarga została złożona w dniu26 czerwca 2003i dodali plik robots.txt, 8 lipca 2003 r., strony, które należy wycofać z mocą wsteczną. Proces został rozstrzygnięty pozasądowo.
Plik robots.txt jest używany w ramach Robots Exclusion Standard , dobrowolnego standardu stosowanego przez IA, który zabrania robotom indeksowania niektórych stron oznaczonych przez twórcę jako poza granicami. W rezultacie sztuczna inteligencja usunęła wiele stron internetowych, które są teraz niedostępne za pośrednictwem Wayback Machine. Czasami dzieje się tak z powodu nowego właściciela, który umieścił plik robots.txt uniemożliwiający indeksowanie witryny. Administratorzy twierdzą, że pracują nad systemem, który umożliwi dostęp do poprzednich archiwów, wykluczając elementy utworzone po dodaniu pliku.
W 2006 roku IA zastosowała regułę Robots.txt z mocą wsteczną. Jeśli witryna blokuje IA, tak jak Healthcare Advocates, wszystkie strony wcześniej zarchiwizowane z tej domeny również zostaną usunięte. W przypadku zablokowanych witryn archiwizowany jest tylko plik robots.txt. Praktyka ta wydaje się szkodzić naukowcom korzystającym z informacji dostępnych w przeszłości.
Jednak IA stwierdza również, że „czasami właściciel witryny kontaktuje się z nami bezpośrednio i prosi nas o zaprzestanie indeksowania lub archiwizowania witryny. Spełniamy te prośby. Wyjaśniono również, że „Internet Archive nie jest zainteresowany w zachowaniu lub zapewnienie dostępu do stron internetowych lub innych materiałów internetowego posiadanego przez ludzi, którzy nie chcą ich materiał do archiwum . ”
Prawo patentoweStany Zjednoczone Urząd Patentowy i, z zastrzeżeniem dodatkowych wymagań spełnione (np zapewniając oficjalne oświadczenie od archiwisty), przy czym Europejski Urząd Patentowy będzie akceptować pochodzący z Internet Archive jako dowód publikacji na stronie internetowej. Daty te służą do określenia, czy strona internetowa jest dostępna przed, na przykład, datą złożenia wniosku patentowego.
W listopad 2005, bezpłatne pobieranie koncertów Grateful Dead zostało usunięte z serwisu. John Perry Barlow zidentyfikował Boba Weira , Mickeya Harta i Billa Kreutzmanna jako inicjatorów tej zmiany. 30 listopada, post na forum Brewstera Kahle podsumował coś, co wydaje się być kompromisem osiągniętym między członkami zespołu. Koncerty na żywo można pobierać lub odsłuchiwać, a nagrania będą dostępne tylko do odsłuchu. Od tego czasu dodano koncerty.
Suzanne Shell12 grudnia 2005aktywistka Suzanne Shell (w) zażądała sumy 100 000 dolarów na archiwizację jej strony „profane-justice.org” w latach 1999-2004.20 stycznia 2006Internet Archive złożyło pozew deklaratywny w dystrykcie Północnej Kalifornii, prosząc sąd o stwierdzenie, że IA nie naruszyło praw autorskich Shella.
Shell odpowiedział i złożył kolejną skargę przeciwko IA za zarchiwizowanie swojej strony, zarzucając naruszenie warunków korzystania z usługi. 13 lutego 2007, sędzia okręgowy w Kolorado oddalił wszystkie roszczenia z wyjątkiem naruszenia umowy.
25 kwietnia 2007, IA i Shell wspólnie ogłosiły rozwiązanie sporu. IA powiedział: „Archiwum internetowe nie jest zainteresowane umieszczaniem informacji w Wayback Machine osób, które nie chcą oglądać swoich zarchiwizowanych treści internetowych. Zdajemy sobie sprawę, że firma M me Shell posiada ważne prawa autorskie i ma zastosowanie w swojej witrynie, i przykro nam, że rejestracja jej witryny w Wayback Machine doprowadziła do wszczęcia niniejszego sporu. Cieszymy się, że mamy już za sobą tę sprawę. " Shell powiedział: " Szanuję cel i historyczną wartość archiwum internetowego. Nigdy nie zamierzałem ingerować w ten cel ani powodować żadnych szkód. "
Sytuacja praw autorskich w EuropieW Europie Wayback Machine może czasami naruszać prawa autorskie. Tylko twórca może decydować, gdzie jego treść zostanie opublikowana lub powielona, strony powinny zostać usunięte z archiwum na prośbę twórcy.
W Europie konkurentem jest Europejskie Archiwum Internetowe .