Tezaurus dokumentalny

Pojęcie lub preferowany termin pojazd Obszary pojazd - transport [MT 3330] Równoważne terminy środki transportu Termin (-y) ogólny (-e) [TG] (Nie) Określenie (terminy) [TS] statek pojazd powietrzny amfibia pojazd wojskowy pojazd kosmiczny pojazd lądowy Powiązane terminy [TA] biznes: transport [MT 6005] technologia motoryzacyjna [MT 3510] transport [MT 3330]
Środowisko semantyczne terminu „pojazd” zaczerpnięte z tezaurusa Motbis opublikowanego przez Ministerstwo Edukacji Narodowej

Tezaurus , deskryptor tezaurus lub dokumentalny tezaurus , jest zorganizowana lista kontrolowanych i standaryzowanych warunkach (deskryptorów i askryptorów) reprezentowanie koncepcje domeny wiedzy.

Jest to język kontrolowany służący do indeksowania dokumentów i wyszukiwania zasobów dokumentacyjnych w wyspecjalizowanych aplikacjach komputerowych. Dlatego też tezaurusy są jedną z wielu kategorii języków dokumentalnych . Terminy (w przykładzie obok: pojazd , statek itp.) Są powiązane ze sobą związkami synonimii (termin równoważny), hierarchii (termin ogólny i termin szczegółowy) i skojarzenia (termin powiązany); każdy termin należy do kategorii lub domeny.

Wprowadzenie

Tezaurus jest narzędziem językowym, który pozwala powiązać języka naturalnego użytkowników do zawartej w zasobach. Ta technika pokonuje ograniczenia języka naturalnego, który jest bardzo bogaty, ale także często niejednoznaczny. W ten sposób tezaurus unika ryzyka wywoływanego przez synonimie , homonimie i polisemie występujące w języku naturalnym. W przeciwieństwie do słownika, z którym jest często porównywany, tezaurus podaje jedynie incydentalnie definicje , a relacje między terminami i ich wybór mają pierwszeństwo przed opisem znaczeń.

Na przykład tezaurus łączenie uprawy do uprawy , pszenicy w ziarnie i Francji w Europie , pozwoli na pytanie o zbiorach z pszenicy w Francji znalezienia zasobów indeksowanych z uprawy zbóż Europy .

Tezaurusy dokumentalne są rodzajem tezaurusów, które kierują się zasadami konstrukcyjnymi ustanowionymi od lat 70. XX wieku w międzynarodowej normie ISO, której ostatnie wydanie zostało opublikowane w 2011 r. Wraz z rozwojem standardów i specjalistycznych aplikacji komputerowych, podobnie jak w sąsiedniej dziedzinie ontologii , Konwergencja zagadnień (zasoby, hierarchia, ponowne wykorzystanie itp.) zbliżyła tezaurusy dokumentalne do ontologii .

Etymologia, pisownia i historia

Tezaurus oznacza po łacinie „zbiór, katalog”. To urodziła słownik tezaurus linguae latinae od Robert Estienne i rodzaju konstrukcji, która jest wywoływana tezaurus , choć odrębne dokumenty i leksykograficzny tezaurus tezaurus.

Tezaurusy dokumentalne zyskują na znaczeniu dzięki komputeryzacji od lat 90. Jest to uprzywilejowany system wyszukiwania, w szczególności ze względu na wykorzystanie operatorów boolowskich, który umożliwia następnie tworzenie równań wyszukiwania logicznego.

Trzy pisowni tezaurus , tezaurus i skarbiec są akceptowane przez słowniki: pierwszy to xenism który bezpośrednio przyjmuje formę łacińską, drugi jest częściowe francization i wydaje się najbardziej częste w literaturze, ostatnia forma jest francuski. Czasami używa się łacińskiego tezaurusa w liczbie mnogiej , ale uchodzi za przestarzałą formę lub anglicyzm ( angielski używa łacińskiej liczby mnogiej). Konsekwencja wymaga, abyśmy napisali tezaurus, tezaurus lub tezaurus, tezaurus lub skarb, skarby .

Współczesny tezaurus

To nowe narzędzie w dokumentacji i naukach informacyjnych (w języku angielskim Information Retrieval ) przeznaczone do ręcznego lub automatycznego indeksowania , a następnie do lokalizowania dokumentów pojawiło się po drugiej wojnie światowej . Słowo tezaurus użyto w literaturze ze względu na Thesaurus of Peter Mark Rodget ( Roget w Thesaurus angielskich słów i zdań - 1852) był Angielski Słownik synonimów i terminów pokrewnych, organizowane systematycznie, o leksykograficzny tezaurus . Po wojnie, czyli od 1947 r., Rozwój nauki i techniki w dokumentacji wymagał nowych narzędzi badawczych, a między 1947 a 1957 r. Zapoczątkował wielki międzynarodowy nurt badań teoretycznych w zakresie badań informacyjnych i klasyfikacji dokumentów.

Peter Luhn oraz Bernier i Crane w Stanach Zjednoczonych twierdzą, że są autorami tezaurusa dokumentalnego zawierającego słowa kluczowe, terminy lub koncepcje. To słowo, które stało się modne we wszystkim, co dotyczy kontroli słownictwa (język kontrolowany), zostało po raz pierwszy użyte publicznie w dokumentacji przez Hélène - Louise Brownson (sekretarz Vannevara Busha ), po dziesięciu latach badań teoretycznych na konferencji. De Dorking in te terminy: „ zastosowanie zmechanizowanego tezaurusa opartego na sieciach powiązanych znaczeń ” .

Narzędzie indeksujące i narzędzie wyszukiwania

Tezaurus jest szczególnym rodzajem języka dokumentalnej. Składa się z uporządkowanego zestawu pojęć reprezentowanych przez terminy, które mogą być używane do indeksowania dokumentów w bibliograficznej bazie danych lub w katalogu centrum dokumentacji do celów badań dokumentacyjnych. Użycie tezaurusa pozwala przezwyciężyć niedoskonałości języka naturalnego na potrzeby indeksowania. Język naturalny - lub nasz codzienny język - zawiera wiele obaw związanych z polisemią i synonimią. Tezaurus jest kombinatorycznym narzędziem indeksującym ze słownictwem kontrolowanym, co oznacza, że terminy, które go tworzą, są wybierane i nie mogą być modyfikowane (z wyjątkiem aktualizacji). Jest postkoordynowany, ponieważ deskryptory definiujące pojęcia mogą być łączone lub kojarzone a posteriori podczas wyszukiwania informacji. Indeksowanie w języku dokumentalnym dzięki tezaurusowi zapewnia jednorodność trybu indeksowania, który nie jest już zależny od kultury indeksatora. Tezaurus jest używany przy wejściu i wyjściu z łańcucha dokumentalnego, to znaczy na etapie indeksowania i na etapie przesłuchiwania przez użytkownika. Możliwość wyszukiwania za pomocą tezaurusa jest ważna, ponieważ ten ostatni używa języka kombinatorycznego, który kojarzy i krzyżuje wyszukiwane słowa, aby zoptymalizować jakość wyników.

Na tezaurus składają się trzy rodzaje terminów:

Te deskryptory stosowane do indeksu dokument jest zbiorem słów dopuszczonych do indeksowania.
Nie deskryptory, które zgodnie z konwencją nie mogą być używane do indeksowania dokumentu i które odnoszą się do deskryptora, który ma być użyty. Są używane do badań.
Narzędzia słów: są to deskryptory, których nie można używać samodzielnie (przykład: metoda). Są skoordynowane z co najmniej jednym innym deskryptorem.

Dla użytkownika katalogu elektronicznego lub bibliograficznej bazy danych tezaurus może być narzędziem badawczym. Poza tym istnieją różne rodzaje badań. Możemy przejść do wyszukiwania hierarchicznego polegającego na przeglądaniu tezaurusa, postępując zgodnie z jego strukturą drzewa: przechodzimy od najbardziej ogólnego do najbardziej szczegółowego. Istnieje również wyszukiwanie według terminów. Zaczynamy od terminów, aby przejrzeć resztę tezaurusa

Relacje między pojęciami i terminami

Tezaurus ma podwójną organizację : między pojęciami (tj. Relacja semantyczna) i między terminami reprezentującymi te pojęcia (tj. Relacja równoważności).

Relacje między pojęciami, relacje semantyczne

Relacje między pojęciami są kilku typów:

Relacje hierarchiczne stricto sensu , podstawa hierarchii tezaurusów. Reprezentują je akronimy TG (termin ogólny - w języku angielskim, BT: termin szerszy) i TS (termin specyficzny - w języku angielskim, NT: termin węższy). Przykłady:
- cat TG koci (pojęcie „kot” jest ogólne dla pojęcia „kot”, bardziej ogólnie)
- koci kot TS (pojęcie „kot” ma na określenie „kota”, bardziej precyzyjne)
- Feline TG carnivorous (pojęcie „kot” jest generalnie używane w bardziej ogólnym pojęciu „drapieżnik”).

Pojęcie, które jest rodzajowe dla innego, może zatem samo być specyficzne dla trzeciego (należy wykluczyć pętle). Zwykle pojęcie jest powiązane z ogólnym i tylko jednym (z wyjątkiem przypadku głównego pojęcia) oraz z 0 do n szczegółami. Jest jednak możliwe, jeśli wprowadzi się polierarchię, aby mieć w danym tezaurusie kilka rodzajów generycznych dla tego samego pojęcia. Aby uzyskać większą precyzję, relacje hierarchiczne można wpisać:

- - Stosunki gatunki z rodzaju (na przykład kot jest kot )
- relacje całość - część (np. gaźnik jest częścią silnika )
- relacje między władzami (np. Félix Faure jest autorytetem Prezydenta Republiki Francuskiej )

Relacje asocjacyjne lub relacje asocjacyjne wzbogacające sieć relacji hierarchicznych według innych osi pokrewnego typu przedmiotowego . Relacje te mogą mieć bardzo zróżnicowany charakter: przyczynowość, lokalizacja, relacje czasowe, kompozycja itp.

Relacje asocjacyjne są reprezentowane przez akronim TA (termin powiązany - w języku angielskim, RT: termin pokrewny). Te relacje między pojęciami pozwalają badaczowi na stopniowe modyfikowanie kwestionowania lub poszerzanie go o podstawy inne niż relacja hierarchiczna.

Przynależność do „grupy pojęć”
Powszechne jest wybieranie i grupowanie pojęć według określonego kryterium, takiego jak ich znaczenie dla określonej dziedziny. Te grupy pojęć nazywane są zgodnie z kontekstem: tematy, domeny, pola semantyczne, mikrotezaurus (MT).
Przynależność do „grupy aspektów” , co pozwala łączyć „ koncepcje rodzeństwa” .

Należy zauważyć, że w modelu podstawowym ISO 25964 relacje asocjacyjne są wzajemne. Zatem związek, który łączy Ptaka i Ornitologię, jest symetryczny i ważny w obu kierunkach. Niemniej jednak norma oferuje możliwość specjalizacji tych relacji w celu uczynienia ich niesymetrycznymi, jak w przypadku relacji PRZYCZYNA / SKUTEK (sekcja 10.4 normy ISO 25964-1). SKOS nie narzuca wzajemności symetrii relacji asocjacyjnej: relacje asocjacyjne mogą więc być symetryczne, niesymetryczne lub antysymetryczne.

Relacje między terminami reprezentującymi pojęcia, relacje równoważności

W relacja równoważności pomiędzy warunkami reprezentujące tę samą koncepcję można walczyć z wielu znaczeń. Nowa norma ISO 25964-1: 2011 wskazuje spośród wszystkich terminów, które mogą reprezentować to samo pojęcie: termin preferencyjny (deskryptor) i terminy niepreferencyjne (nie deskryptory), które stanowią podstawę jednoznaczności tego pojęcia. Zależność tę reprezentuje akronim EP (skrót od „Employee For”). Odwrotny stosunek warunków niepreferencyjnych do warunków preferencyjnych jest reprezentowany przez akronim EM (skrót od „Pracodawca”)

Są to warianty określonych terminów ( synonimia lub quasi-synonimia) uważanych za „równoważne” w języku potocznym lub terminy reprezentujące pojęcia wystarczająco bliskie, aby można je było uznać za „równoważne” w systemie dostępu do informacji.

Inne atrybuty

Do tej struktury można dodać różne typy relacji, nagłówki lub dodatkowe atrybuty, aby wzbogacić tezaurus lub poprawić jego użycie. W szczególności możemy cytować różne rodzaje notatek: używać notatek (lub not wyjaśniających lub aplikacyjnych), które definiują lub wyjaśniają semantyczny obwód pojęcia, notatek definiujących, notatek przydatnych dla menedżerów itp. Jest również możliwe, aby zapewnić „równoważników językowej” pojęć dla wielu języków tezaurusach, jak również mostki z innymi tezaurusach w tej samej kategorii lub w różnych dziedzinach.

Budowa tezaurusa

Tezaurus jest rozwinięty, albo ręcznie przez jedną osobę lub kilka, dzięki inteligencji człowieka (rozwój tezaurusa 3000 deskryptorów przez jedną osobę może trwać od sześciu do ośmiu miesięcy) lub automatycznie, przez sztuczną inteligencję, dzięki automatycznym tezaurusa oprogramowanie konstrukcyjne, takie jak SATO ( Computer Text Analysis System) lub połączenie podejścia ludzkiego i automatycznego. Systemy automatycznego przetwarzania tekstu (automatyczne indeksowanie) pozwalają na wyodrębnienie najczęściej występujących terminów z korpusu i do pewnego stopnia ułatwiają powstanie ich relacji semantycznych. To oprogramowanie informacyjne wykorzystuje również narzędzia językowe do rozpoznawania morfoleksykalnego i składniowego. Według G.Saltona Luhn i Mooers jako pierwsi rozważali zastąpienie indeksatorów przez maszynę, a ludzkiej inteligencji sztuczną inteligencją, na przykład poprzez analizę częstotliwości słów kluczowych (CRANFIELD II, SMART Information Retrieval System, trafność, trafność), co doprowadziło do bieżącego generowania tezaurusa, na przykład NCI_Metathesaurus dzięki specjalistycznemu oprogramowaniu, jakim jest IBM THESAUT-TP (automatyczne tworzenie tezaurusa z profili lub pytań dokumentalnych), które jest oprogramowaniem do przetwarzania językowego wspomagania zapytań lub TLS ( Thesaurus and Linguistic System), który wraz z programem THES umożliwia tworzenie i konsultowanie tezaurusów w celu wzbogacenia pytania. Następnie musi być połączony z automatycznym indeksowaniem dokumentów . Jest to słownictwo kontrolowane, ponieważ wynika z długiego procesu sortowania słów, nazw i wyrażeń używanych w określonej dziedzinie. Jest to pragmatyczny i ciągły proces racjonalizacji terminów opisowych. Istnieją trzy metody tworzenia tezaurusa:

analityczne (a priori): od słów kluczowych indeksowania;
syntetyczne (a posteriori): z list słów kluczowych ustalonych z użyciem słowników, leksykonów, glosariuszy itp.
mieszany.

Metody te mają czasem inne nazwy, np. „Stalaktytyczna” i „stalagmityczna” (D. Sörgel). Mając na względzie jak najlepsze dopasowanie do rozważanej dziedziny, terminy są inwentaryzowane, porównywane, zestawiane i ostatecznie hierarchizowane w celu uwzględnienia podstawowych cech tej domeny. Hierarchia ta jest oparta na typologii : każdy termin należy do kategorii, która sytuuje go w stosunku do wszystkich innych wybranych terminów i w ten sposób określa jego priorytet użycia. Hierarchia terminów może być bardzo różna w zależności od tezaurusa, a nawet może podlegać niespójności w takim czy innym użyciu tego samego tezaurusa.

Wreszcie, zaczynając od najwyższego poziomu i odpowiadającego domenie tezaurusa, najpierw znajdujemy główne podziały reprezentujące składniki domeny - podziały często nazywane mikrotezaurusem . Przykład tezaurusa składającego się z zestawu mikrotezaurusów, a następnie dla każdego podziału hierarchia charakterystyczna dla deskryptorów. W tezaurusie z diagramami strzałkowymi (np. Management Thesaurus) znajduje się struktura w polach semantycznych , z których każdy stanowi zbiór 30 do 40 deskryptorów zdefiniowanych przez tytułowe słowo kluczowe umieszczone na środku siatki. Tezaurus może również odnosić się do kilku dziedzin, tak jak ma to miejsce w przypadku makrotezaurusa (przykład: tezaurus OECD). Tezaurus sektorowy jest wyspecjalizowany w jednej określonej dziedzinie wiedzy (przykład: tezaurus szkoleniowy).

W hierarchii tezaurusa zawsze pozostaje dowolny wymiar, czy to w doborze terminów, czy też w ich hierarchicznej pozycji.

Istnieją różne standardy tworzenia tezaurusów. (Przeczytaj także specjalny numer przeglądu Documentalist of ADBS .)

ISO 25964-1: Tezaurus i interoperacyjność z innymi słownikami

Ten projekt normy, który jest finalizowany, zastępuje dwie poprzednie normy: ISO 2788-1986: Zasady przewodnie dotyczące tworzenia i rozwoju jednojęzycznych tezaurusów oraz ISO 5964-1985: Zasady przewodnie dotyczące tworzenia i rozwoju wielojęzycznych tezaurusów.

SKOS : Specyfikacja w języku RDF opracowana przez W3C do publikacji i używania tezaurusów w ramach sieci semantycznej .
Normy angielskie: BS 8723: 2005. Słownictwo strukturalne do wyszukiwania informacji, angielska adaptacja ISO 2788.
Amerykańskie standardy: ANSI / NISO Z39-19: 2005, Controlled vocabularies [PDF] .

Przykład podstawowego tezaurusa

Rozważ główne sekcje mikro-tezaurusa we współpracującym systemie komputerowym:

Ludzie
Oprogramowanie
Sieć
Zasoby

Sekcja dotycząca osób fizycznych składałaby się na przykład z:

Czytnik ( TG );
Uczestnik ( TG ); Autor (EP); Współtwórca (PE);
- Niezarejestrowany wydawca ( TS ); Anonimowy (EP); Adres IP (należy unikać metaforycznej formy);
- Zarejestrowany wydawca ( TS );
Upoważniony uczestnik ( TG );
- Administrator ( TS ); Sysop (termin powszechny w społeczności);
- Menedżer ( TS );
- Przedstawiciel ( TS ) (odpowiedzialny za stosunki zewnętrzne);
Użytkownik (nieprecyzyjne określenie: należy unikać); Użytkownik Internetu (nieprecyzyjny: należy go unikać).

Osoba odpowiedzialna za wkład można zatem określić za pomocą co najmniej jednego terminu opisowego wybranego z pięciu terminów szczegółowych (TS) lub spośród trzech terminów ogólnych (TG), w zależności od potrzeb. Terminów (EP) z zasady będzie się unikać w indeksowaniu, ale mogą być one później używane wyłącznie do wykorzystywania określonego rodzaju wkładu bez ścisłego stosowania terminów właściwych dla pierwotnego opisu.

Tryby prezentacji

Niezależnie od medium, tezaurus zwykle używa alfabetycznej prezentacji terminów; pierwszy etap przed prezentacją relacji hierarchicznych. W ten sposób użytkownik może być początkowo zdezorientowany brakiem terminu na liście, podczas gdy inny sposób użycia tezaurusa ujawni mu, że termin ten jest rzeczywiście brany pod uwagę, ale dzięki relacji równoważności z terminem preferencyjnym. Prezentacje w postaci wykresów i map pozwalają na bardziej złożone eksploracje.

Korzystanie lub eksplorację tezaurusa można zwykle przeprowadzić przy użyciu różnych trybów prezentacji:

Alfabetyczna lista (-y) terminów: dla podejścia globalnego lub wyszukiwania określonego terminu;
Hierarchiczna lista (-y) terminów: do pogłębienia pojęcia;
Lista (y) wystąpień (lista permutowana): do sprawdzania istotności elementu wyrażenia używanego jako deskryptor;
Automatycznie przez wyszukiwarkę.

Na tych listach można znaleźć symbol „ MT, wskazujący mikrotezaurus, do którego należy termin. Mikrotezaurus to szczególne pole semantyczne, które umożliwia zapoznanie się ze wszystkimi powiązanymi terminami podczas indeksowania dokumentu.

Istnieje kilka rodzajów prezentacji:

hierarchiczny tezaurus
tezaurus ze strzałkami, specjalność Bureau Van Dijk, Belgia: całe słownictwo jest podzielone na pola semantyczne

ale nadal:

Drzewo tezaurusa,
Wielokąty,
Wały okrągłe ...

Tezaurus graficzny stale się rozwija dzięki interfejsom internetowym i komputerowym. Wszystkie systemy elektronicznego zarządzania dokumentami (EDM) mają moduł zarządzania i zintegrowany tezaurus operacyjny.

Opcjonalne elementy tezaurusa

Z deskryptorami powiązane są definicje (przypadek ujednoznacznienia ), notatki wspomagające użytkownika lub redaktora (powiadomienia), wszelkiego rodzaju linki itp.

Pochodzenie tezaurusa

Gérard Cordonnier : we Francji prace Gérarda Cordonniera, następnie Jean-Pierre'a Pagèsa z CODOC i Jean-Claude Gardina z SYNTOL w zakresie języka kodowanego są bardzo podobne do badań przeprowadzonych w Stanach Zjednoczonych przez Berniera i Crane'a oraz Luhna na tezaurus

Calvin Mooers : w Stanach Zjednoczonych, z Mooers i Zatocoding ) z Massachusetts Institute of Technology (MIT), pierwszy wprowadził terminy deskryptor deskryptora (PL) w wyszukiwaniu informacji , IRT, słowo używane w 1949 roku , ale wcześniej, w lutym 1947 roku w artykuł eliptycznie nawiązywał do nowego instrumentu leksykograficznego zwanego tezaurusem związanym z wyszukiwaniem mechanicznym, który obejmowałby „indeksowanie terminów” z „niuansami znaczenia” , a także słownik i encyklopedię, a następnie porzucił pomysł łączenia tezaurus do słownika (który zawiera definicje terminów). Dlatego też narzędzie zwane tezaurusem do badań dokumentów i informacji zostało wynalezione jeszcze przed jego praktycznym zastosowaniem. Dopiero w 1959 r. Powstał pierwszy tak nazwany tezaurus operacyjny, będący przedmiotem badań naukowców amerykańskich i europejskich, będący po koncepcji tezaurusem przedmiotem badań.

Mortimer Taube : Później w 1951 roku Mortimer Taube wynalazł Uniterms z intuicji Mooers (1955, system indeksów Uniterm : każdej jednostce odpowiada plik, w którym wpisane są numery referencyjne odpowiednich wybranych dokumentów) i przeprowadza się wyszukiwanie , a następnie zrobione za pomocą kart perforowanych. Pierwsze tezaurusy to powiązany system dokumentacji kart perforowanych lub kart perforowanych . Taube opiera się na słowach kluczowych, a Mooers na koncepcjach, ale pojęcie można opisać kilkoma różnymi słowami kluczowymi.

Charles Bernier i EJ Crane : Również w 1947 roku inżynierowie Crane, EJ i Bernier, Charles. L., z Chemical Abstracts w Stanach Zjednoczonych, pracuje nad semantemami i semantyką, a także opracowuje koncepcję tezaurusa nadającą się tym razem do wyszukiwania informacji w profesjonalny sposób: doLipiec 1957, kiedy wprowadził pojęcie „tezaurusa technicznego”. Bernier kontynuuje swoje badania w celu zbudowania sieci trwałych skojarzeń między pojęciami: „Kompletny zbiór trwałych relacji między semantemami, gdyż w zdefiniowanej nauce jest skoncentrowanym zapisem ustalonych i przyjętych faktów ówczesnej nauki, który ma wartość przypomnienie istotnych faktów. Zbiór raportów tego rodzaju wyglądałby jak tezaurus. » (Bernier i Heumann).

Ranganathan : W 1933 roku Ranganathan wymyślił klasyfikację fasetowaną, zwaną również klasyfikacją okrężnicy (która później pociąga za sobą, por. Jean Aitchison, stworzenie tezaurusa fasetowanego, tezaurofacety lub tezaurofacetu).

Hans Peter Luhn : szwajcarski inżynier w IBM , bogaty w pomysły, Luhn jest twórcą „kodów-pojęć” i „rodzin pojęć”, uważa go już w 1952 roku za Mooersa, ale bez użycia terminu tezaurus, który jednak uważano za wynalazca, ale termin ten użył dopiero w 1957 r. w odniesieniu do „słownika pojęć”, czyli terminów autoryzowanych do indeksowania, z klasami (segmentami) podklas, koordynacją terminów, przeszukiwaniem komputerowym. W 1959 roku Luhn wynalazł permutowane indeksy KWIC (słowo kluczowe w kontekście), które następnie uzupełniło tezaurus. W 1957 roku JP Wadington wprowadził system IR, w którym słowa były podzielone na klasy o stosunku rodzajowym / specyficznym.

The Cambridge Language Research Unit (CLRU): W Anglii Cambridge Language Research Unit (Needham, Joyce, Whiley, K. Sparck Jones, M. Masterman) bada tezaurus na podstawie modelu matematycznego ( Algorytmika ). W 1955 r. Przeprowadzono prace eksperymentalne z tezaurusem badawczym w Royal Radar Establishement, Malven.

Pierwszy tezaurus

Pierwszym tezaurusem operacyjnym jest tezaurus terminów chemicznych z 1959 r., Thesaurus of Engineering Terms ( EIDuPont de Nemours and Co. z Engineering Information Center. Thesaurus of ASTIA descriptors enMaj 1960utworzone przez Agencję Informacji Technicznej Służb Zbrojnych (obecnie Centrum Dokumentacji Obronnej) z pojęciami zgodnymi z metodą Calvina Mooersa, to znaczy „deskryptory”, słowa lub grupy słów proponowane do indeksowania, które zostaną połączone z tezaurusem terminów inżynierskich , zbudowany przez Wspólną Radę Inżynierów w 1964 r. w celu utworzenia Thesaurus TEST w 1967 r. W 1961 r . ukazuje się Thesaurus Inżynierii Chemicznej , opracowany przez Amerykański Instytut Inżynierów Chemicznych (AIChE). Dlatego też tezaurus dokumentalny nazywano również „tezaurusem deskryptora” (G. Van Slype). Biuro Van Dijk specjalizowało się w tezaurusach z diagramami strzałek, z przedstawieniem graficznym, z terminogramami, takimi jak tezaurus Euratom, pierwszy tezaurus europejski i tezaurus z drzewami z wielokątami lub z okrągłymi diagramami (lub koncentrycznymi okręgami), takimi jak w języku niderlandzkim armii w 1964 r., Okrągły System Tezaurusa TDCK. Pierwszym francuskim tezaurusem noszącym tę nazwę byłby tezaurus uzbrojenia CEDOCAR . Kwitnienie tezaurusa datuje się na lata 70. XX wieku w nauce i technologii. Już w 1960 roku, sympozjów na temat budowy tezaurusach (Sympozjum Thesaurus Building, Oslo, Norwegia (1965) ukazał się dzisiaj nazywa warsztat (Budynek taksonomie do wyszukiwania informacji: praktyczne warsztaty, 2005, ASIS) Zgodnie z. Brian Vickery to słowo następnie przegrupowuje co najmniej cztery różne znaczenia pod tym samym słowem. Pojawiają się bibliografie krajowe i międzynarodowe oraz katalogi tezaurusów, wymienione albo przez ASLIB, albo przez Biuletyn bibliotek francuskich (BBF) we Francji. Tezaurusy są zinwentaryzowane. w różne katalogi, w tym:

http://dmoz.org/World/Français/Référence/Thesaurus/ Katalog DMOZ, sekcja Thesaurus
izba rozliczeniowa w Warszawie
w Kanadzie w Toronto („Thesaurus clearinghouse”, dla języka angielskiego).

Tezaurus został wymyślony z myślą o indeksowaniu, a następnie wyszukiwaniu dokumentów. W 1971 roku UNESCO ustanowiło wytyczne dotyczące wielojęzycznych tezaurusów. Bardzo szybko, w latach 1972/74, tezaurus został ustandaryzowany (krajowe normy AFNOR Z 47-100 i międzynarodowe normy ISO 2788), po sympozjum w Berlinie Zachodnim w 1973 r. Z UNISIST, ISO i UNESCO, a następnie konferencji w Helsinkach wMaj 1976co prowadzi do powstania Wielojęzycznego przewodnika po tezaurusach . Po opublikowaniu nowych norm anglosaskich w 2005 r. (ANSI / NISO Z39.19 i BS 8723), nowa wersja tej normy ISO, łącząca wersje jedno- i wielojęzyczne, pojawiła się jako szkic wpaździernik 2009.

Uwagi i odniesienia

Tezaurus MOTBIS online autorstwa SCÉRÉN - CNDP , słowo 3330
Praktyczny przewodnik dotyczący opracowania tezaurusa dokumentalnego Michèle Hudon wraz z współpracą. przez Danièle Dégez i Dominique Ménillet
Hudon, Michèle. , Analiza i reprezentacja dokumentów: wprowadzenie do indeksowania, klasyfikacji i kondensacji dokumentów , Québec, Presses de l'Université du Québec ,2013, 297 s. ( ISBN 978-2-7605-3745-3 , OCLC 873807457 , czytaj online ) , str. 130
ISO 25964-1: 2011 : Tezaurus i współdziałanie z innymi słownikami - Część 1: Tezaurus do wyszukiwania dokumentów.
Biała księga: ISO 25964-1 - Thesaurus do badań dokumentalnych ( AFNOR , styczeń 2013)
Narodowy Instytut języka francuskiego, Skarb z języka francuskiego : język słownika xix -go i XX -go wieku (1789-1960) , t. XVI: Teint-zzz , Paryż, Gallimard ,1994, 1452, str. ( ISBN 2-07-077016-8 , czytaj online ) , s. 588b.
„♦ LING. (leksykogr.). „Inwentaryzacja jednostek leksykalnych języka ukierunkowanych na wyczerpywanie” (Mounin 1974); tytuły prac naukowych, w tym słowniki i encyklopedie. Skarb języka greckiego; Skarb języka łacińskiego; Skarb języka francuskiego; Skarb Félibrige'a . "
Por. Charles Bernier .
Dorking Study Day, „International Study Conference on Classification for Information Retrieval”, 1957 http://www.bbf.enssib.fr/consulter/bbf-1958-01-0040-008 ]
Sylvie Dalbin, „ Dokumentalny tezaurus i informatyka. Des Noces d'Or ”, Documentalist Information Sciences 2007, tom 4, nr 1. , vol. 44, n o 1 Dokumentalny "Języki i narzędzia językowe",2007, s. 76-80 ( czytaj online )
SKOS. 8.6.3. Symetria skos: powiązane, Tłumaczenie SKOS na stronie sparna.fr
Jacques Chaumier, Saga IBM o komputerach dokumentalnych. Niektóre kamienie milowe
Metatezaurus NCI
[Ostatnie trzydzieści lat w wyszukiwaniu informacji, Journal of the American Society for Information Science Tom 38, wydanie 5, data: wrzesień 1987, strony: 375-380 Gerard Salton na stronie JASIST / Gerard Salton Exploiting a Large Thesaurus for Information Retrieval
Bibliografia
Thesaurus Budowa i zastosowanie: A Practical Manual, Jean Aitchison, Ed Routledge, 4 th edition ( 1 st kwiecień 2002) Maria Teresa Laureilhe, tezaurus, jego rola, struktura i élaboration.Lyon, lENSB Press, 1981
Przeczytaj w sieci FW. Lancaster, Thesaurus konstrukcja i zastosowanie: kurs skondensowany; 1985 [PDF]
Zobacz także Wytyczne IFLA dotyczące wielojęzycznych tezaurusów
Na podstawie bazy danych FRANTIQ, PACTOLS Narody i kultury, antroponimy, chronologia względna, toponimy, dzieła, miejsca, tematy
Tezaurus OECD
Dominique Chichereau , Odile Contat , Danièle Dégez i Alina Deniau , „ Thesaurus design, management and maintenance standard ”, Documentalist-Information Sciences , vol. 44, n o 1,2007, s. 66 ( ISSN 0012-4508 i 1777-5868 , DOI 10.3917 / docsi.441.0066 , przeczytano online , przeglądnięto 29 stycznia 2020 r. )
Tezaurus i inne diagramy koncepcyjne: dokumenty normatywne
Przeczytaj: Języki dokumentalne i narzędzia językowe. 2 e część. Normy, standardy i interoperacyjność, projektowanie tezaurusa, standardy zarządzania i konserwacji, najnowsze osiągnięcia i perspektywy , Dominique Chichereau, Odile Contat, Danièle Dégez, Alina Deniau, Michèle Lénart, Claudine Masse, Dominique Ménillet, bibliotekarz informacyjny, tom 44 2007/1
Tezaurusy i współdziałanie z innymi słownikami. Część 1: Tezaurusy do wyszukiwania informacji (en) , w witrynie ISO [PDF]
Norma ANSI / NISO Z39-19: 2005 [PDF]
Zobacz Alan Gilchrist Thesaurus in retrieval , Londyn. Aslib. 1971
Van Slype Georges Definicja podstawowych cech tezaurusów Bruksela: Bureau Marcel van Dijk, 1976.
Definicja okrągłego drzewa w tezaurusie działalności rządu w Quebecu]
https://www.cairn.info/revue-documentaliste-sciences-de-l-information-2007-1-page-42.htm Sylvie Dalbin, Documentalist Information Sciences, 2007, tom 44, nr 1. Tezaurus i filmy dokumentalne z branży IT Od dawna partnerzy? (10.3917 / docsi.441.0042)
por. Praca magisterska z informatyki, University of Panthéon Sorbonne, 1997-1998: Gaëlle MILLET: HISTORIA PIERWSZEGO THESAURI WE FRANCJI PRZEZ TRZY KLUCZOWE OSOBY: ROBERTA PAGES, JEAN CLAUDE GARDIN I DANIELE DEGEZ pod kierunkiem Sylvie Fayet Scribe
Por. W kierunku prekursorów: [1] .
por. Calvin Mooers [2]
Bernier i Crane, Indeks korelacyjny, Semantyka i semantemy ...
HP Luhn, „ A statystyczne podejście do zmechanizowanego kodowania i wyszukiwania informacji literaturowych ”, opublikowane w IBM Journal of Research and Development. W artykule przedstawiono podstawy zautomatyzowanego indeksowania tekstu, opartego na statystycznej analizie częstotliwości występowania terminów, i otwiera drogę do wszelkich prac nad analizą zdarzeń i współwystępowań. Luhn używa również terminu tezaurus w tym artykule. (Źródło Urfist za CHAUMIER).
[3]
Margaret Masterman, Język, spójność i forma, Cambridge University Press, grudzień 2005.
http://bbf.enssib.fr/.../bbf-1969-05-0181-001
Maria Theresa Laureilhe, Of some thesauri, Bbf 1970 - Paryż, t. 15, n o 1 [4] Test bibliografii Maria Teresa Laureilhe i wskaźnik przedmiotem opublikowanych od 1960 (the 1 st marca 1969), patrz [5]

Bibliografia

Kluczowe źródła:

Roberts, THE PRE-HISTORY OF THE INFORMATION RETRIEVAL THESAURUS , Journal of Documentation, tom 40, numer 4, 1984, s. 271-285 (15)
Brian Vickery, THESAURUS - NOWE SŁOWO W DOKUMENTACJI Journal of Documentation, tom 16, numer 4, 1960, s. 181-189 .

Różne:

International Classification and indexing bibliography 1 Classification systems ans thesauri, 1950-1982, Frankfurt, indek Verlag, 1982
Według źródła internetowego, załącznik do tezy Karen Spark Jones, Synonymy and. Klasyfikacja semantyczna (University of Cambridge, 1968) zawierałaby długą historię tezaurusa.
Alan GILCHRIST: Thesaurus in retrieval, 1973.
HP Luhn: pionier informatyki: wybrane prace. 1968. Pod redakcją Claire. K. Schultz. Spartan Press, Nowy Jork, NY Międzynarodowa klasyfikacja i indeksowanie
Bibliografia, 1950-1982: Classification Systems and Thesauri v. 1 - pod redakcją Ingetraut Dahlberg
VAN SLYPE Georges Definicja podstawowych cech tezaurusów Bruksela: Bureau Marcel van Dijk, 1976

Wyszukiwanie informacji: od pełnego tekstu do tezaurusa - LEFEVRE Philippe, Hermés, 09-2000

Czytaj także: Badania historyczne w informatyce - Trudi Bellardo Hahn, Michael Keeble Buckland w Google Books

Artykuły

Na stronie internetowej JASIS Gerard Salton Ostatnie trzydzieści lat w wyszukiwaniu informacji Journal of the American Society for Information Science Tom 38, wydanie 5, data: wrzesień 1987, strony: 375-380 Gerard Salton
Jacques Chaumier - Saga IBM o komputerach dokumentalnych . Niektóre kamienie milowe.
Sylvie Dalbin, „ Tezaurus dokumentalny i informatyka. Des Noces d'Or ”, Documentalist-Information Sciences , t. 44, 1 (2007), s. 76-80 oraz „ Documentary Thesaurus and Informatics. Długoletni partnerzy?  », Documentalist-Information Sciences , vol. 44, 1 (2007), s. 42-55.
Paul-Dominique Pomart, „ Perspectives for a new century ”, dokumentalista, Information Sciences, vol. 40, 2, 2003, s. Od 127 do 131.

Hubert Fondin - Informatyka i waga historii

Zobacz też

Powiązane artykuły

Linki zewnętrzne

Praktyczny przewodnik dotyczący opracowania tezaurusa dokumentalnego Michèle Hudon we współpracy z Danièle Dégez i Dominique Ménillet. - Montreal: Les Éditions ASTED (różn. We Francji: ADBS), 2009. - 274 str. - ( ISBN 978-2-923563-17-6 )
Wiadomości z języków dokumentalnych: teoretyczne podstawy badań informacji , Jacques Maniez, wydanie ADBS, 2002.
Controlled vocabularies (site section), Recommended reading, Biblioteka i archiwa Kanady
Bibliografia dotycząca tezaurusów (zasoby internetowe, szara literatura) w portalu tezaurusów Motbis.
Strona poświęcona tezaurusowi .
Katalog tezauro zorganizowany zgodnie ze strukturą klasyfikacyjną tezaurusa Eurovoc.
(en) TemaTres: zarządzanie tezaurusem typu open source .
Unesco Thesaurus
Tezaurus etyki nauk o życiu .
Motbis, tezaurus edukacji narodowej (Francja).
Flemm - French Flexional Analyzer dla oznaczonych korpusów
Pionierzy nauk informacyjnych
Sylvie Fayet Scribe, Chronologia mediów, urządzenia przestrzenne, narzędzia wyszukiwania informacji Czasopismo SOLARIS
Tezaurus, skarb!