Kolekcja Pangloss jest biblioteka cyfrowa opracowana przez LACITO laboratorium z CNRS w Paryżu . Jego celem jest zebranie nagrań dźwiękowych w różnych językach świata - w większości zagrożonych wyginięciem - i udostępnienie ich szerokiemu audytorium.
Kolekcja oferuje bezpłatny dostęp online do różnego rodzaju dokumentów (opowieści i legendy, życiorysy, świadectwa rzemieślników, przeglądy leksykalne lub fonologiczne itp. ) W językach ze wszystkich kontynentów. Zawiera również słowniki.
W lutym 2018 roku kolekcja Pangloss zawierała 3559 nagrań w 170 językach.
Kolekcja Pangloss zapewnia dostęp do oryginalnych nagrań. Część z nich posiada transkrypcje (w zależności od przypadku fonetyczne, fonologiczne i / lub ortograficzne) oraz tłumaczenia. Każdy dokument jest zapisywany w swoim kontekście kulturowym i przepisywany we współpracy z native speakerami , zgodnie z metodami badania i opisu języków z tradycją ustną.
Oprócz nagrań dźwiękowych w Pangloss Collection od 2002 r. Znajdują się również słowniki. W 2017 r. Kolekcja słowników Pangloss Collection przyjęła nazwę „Lexica”.
Zarchiwizowane dane mają strukturę otwartego formatu i można je pobrać (niektóre na licencji Creative Commons ). Oprogramowanie wykorzystywane do przygotowania i dystrybucji zasobów ma otwarty dostęp (kod open source ). „Kolekcja Pangloss bardzo wcześnie opierała się na technologiach - takich jak ekosystem XML - które są obecnie w centrum cyfrowej humanistyki”.
Kolekcja Pangloss jest członkiem OLAC sieci archiwów językowych i sieci DELAMAN archiwów zagrożonych języków.
Kolekcja Pangloss jest zdefiniowana jako jedna z kolekcji CoCoON (dla „COrpus Oraux Numériques”), platforma techniczna, która wspiera producentów materiałów ustnych w tworzeniu, strukturyzowaniu i archiwizowaniu ich korpusów. Dane są archiwizowane w archiwum Bardzo Dużej Infrastruktury Badawczej Huma-Num .
W 2001 r. „Program archiwizacji LACITO” obejmował około 100 dokumentów w około 20 językach. W 2011 roku kolekcja Pangloss składała się z około 1000 nagrań w 67 językach , w tym 350 transkrybowanych i opatrzonych adnotacjami dokumentów. W 2014 roku miał 1400 rekordów, z których około 400 zostało przepisanych i opatrzonych adnotacjami. Od października 2016 r. Miała 132 języki. W lutym 2018 roku kolekcja Pangloss osiągnęła 3559 rekordów w 170 językach, na koniec 2020 roku ponad 3600.
W 2021 roku oprogramowanie do automatycznego przetwarzania języków powinno ułatwić zadanie transkrypcji i archiwizacji, teraz powinna wystarczyć godzina zamiast stu wcześniej.