|
Środowisko semantyczne terminu „pojazd” zaczerpnięte z tezaurusa Motbis opublikowanego przez Ministerstwo Edukacji Narodowej |
Tezaurus , deskryptor tezaurus lub dokumentalny tezaurus , jest zorganizowana lista kontrolowanych i standaryzowanych warunkach (deskryptorów i askryptorów) reprezentowanie koncepcje domeny wiedzy.
Jest to język kontrolowany służący do indeksowania dokumentów i wyszukiwania zasobów dokumentacyjnych w wyspecjalizowanych aplikacjach komputerowych. Dlatego też tezaurusy są jedną z wielu kategorii języków dokumentalnych . Terminy (w przykładzie obok: pojazd , statek itp.) Są powiązane ze sobą związkami synonimii (termin równoważny), hierarchii (termin ogólny i termin szczegółowy) i skojarzenia (termin powiązany); każdy termin należy do kategorii lub domeny.
Tezaurus jest narzędziem językowym, który pozwala powiązać języka naturalnego użytkowników do zawartej w zasobach. Ta technika pokonuje ograniczenia języka naturalnego, który jest bardzo bogaty, ale także często niejednoznaczny. W ten sposób tezaurus unika ryzyka wywoływanego przez synonimie , homonimie i polisemie występujące w języku naturalnym. W przeciwieństwie do słownika, z którym jest często porównywany, tezaurus podaje jedynie incydentalnie definicje , a relacje między terminami i ich wybór mają pierwszeństwo przed opisem znaczeń.
Na przykład tezaurus łączenie uprawy do uprawy , pszenicy w ziarnie i Francji w Europie , pozwoli na pytanie o zbiorach z pszenicy w Francji znalezienia zasobów indeksowanych z uprawy zbóż Europy .
Tezaurusy dokumentalne są rodzajem tezaurusów, które kierują się zasadami konstrukcyjnymi ustanowionymi od lat 70. XX wieku w międzynarodowej normie ISO, której ostatnie wydanie zostało opublikowane w 2011 r. Wraz z rozwojem standardów i specjalistycznych aplikacji komputerowych, podobnie jak w sąsiedniej dziedzinie ontologii , Konwergencja zagadnień (zasoby, hierarchia, ponowne wykorzystanie itp.) zbliżyła tezaurusy dokumentalne do ontologii .
Tezaurus oznacza po łacinie „zbiór, katalog”. To urodziła słownik tezaurus linguae latinae od Robert Estienne i rodzaju konstrukcji, która jest wywoływana tezaurus , choć odrębne dokumenty i leksykograficzny tezaurus tezaurus.
Tezaurusy dokumentalne zyskują na znaczeniu dzięki komputeryzacji od lat 90. Jest to uprzywilejowany system wyszukiwania, w szczególności ze względu na wykorzystanie operatorów boolowskich, który umożliwia następnie tworzenie równań wyszukiwania logicznego.
Trzy pisowni tezaurus , tezaurus i skarbiec są akceptowane przez słowniki: pierwszy to xenism który bezpośrednio przyjmuje formę łacińską, drugi jest częściowe francization i wydaje się najbardziej częste w literaturze, ostatnia forma jest francuski. Czasami używa się łacińskiego tezaurusa w liczbie mnogiej , ale uchodzi za przestarzałą formę lub anglicyzm ( angielski używa łacińskiej liczby mnogiej). Konsekwencja wymaga, abyśmy napisali tezaurus, tezaurus lub tezaurus, tezaurus lub skarb, skarby .
To nowe narzędzie w dokumentacji i naukach informacyjnych (w języku angielskim Information Retrieval ) przeznaczone do ręcznego lub automatycznego indeksowania , a następnie do lokalizowania dokumentów pojawiło się po drugiej wojnie światowej . Słowo tezaurus użyto w literaturze ze względu na Thesaurus of Peter Mark Rodget ( Roget w Thesaurus angielskich słów i zdań - 1852) był Angielski Słownik synonimów i terminów pokrewnych, organizowane systematycznie, o leksykograficzny tezaurus . Po wojnie, czyli od 1947 r., Rozwój nauki i techniki w dokumentacji wymagał nowych narzędzi badawczych, a między 1947 a 1957 r. Zapoczątkował wielki międzynarodowy nurt badań teoretycznych w zakresie badań informacyjnych i klasyfikacji dokumentów.
Peter Luhn oraz Bernier i Crane w Stanach Zjednoczonych twierdzą, że są autorami tezaurusa dokumentalnego zawierającego słowa kluczowe, terminy lub koncepcje. To słowo, które stało się modne we wszystkim, co dotyczy kontroli słownictwa (język kontrolowany), zostało po raz pierwszy użyte publicznie w dokumentacji przez Hélène - Louise Brownson (sekretarz Vannevara Busha ), po dziesięciu latach badań teoretycznych na konferencji. De Dorking in te terminy: „ zastosowanie zmechanizowanego tezaurusa opartego na sieciach powiązanych znaczeń ” .
Tezaurus jest szczególnym rodzajem języka dokumentalnej. Składa się z uporządkowanego zestawu pojęć reprezentowanych przez terminy, które mogą być używane do indeksowania dokumentów w bibliograficznej bazie danych lub w katalogu centrum dokumentacji do celów badań dokumentacyjnych. Użycie tezaurusa pozwala przezwyciężyć niedoskonałości języka naturalnego na potrzeby indeksowania. Język naturalny - lub nasz codzienny język - zawiera wiele obaw związanych z polisemią i synonimią. Tezaurus jest kombinatorycznym narzędziem indeksującym ze słownictwem kontrolowanym, co oznacza, że terminy, które go tworzą, są wybierane i nie mogą być modyfikowane (z wyjątkiem aktualizacji). Jest postkoordynowany, ponieważ deskryptory definiujące pojęcia mogą być łączone lub kojarzone a posteriori podczas wyszukiwania informacji. Indeksowanie w języku dokumentalnym dzięki tezaurusowi zapewnia jednorodność trybu indeksowania, który nie jest już zależny od kultury indeksatora. Tezaurus jest używany przy wejściu i wyjściu z łańcucha dokumentalnego, to znaczy na etapie indeksowania i na etapie przesłuchiwania przez użytkownika. Możliwość wyszukiwania za pomocą tezaurusa jest ważna, ponieważ ten ostatni używa języka kombinatorycznego, który kojarzy i krzyżuje wyszukiwane słowa, aby zoptymalizować jakość wyników.
Na tezaurus składają się trzy rodzaje terminów:
Dla użytkownika katalogu elektronicznego lub bibliograficznej bazy danych tezaurus może być narzędziem badawczym. Poza tym istnieją różne rodzaje badań. Możemy przejść do wyszukiwania hierarchicznego polegającego na przeglądaniu tezaurusa, postępując zgodnie z jego strukturą drzewa: przechodzimy od najbardziej ogólnego do najbardziej szczegółowego. Istnieje również wyszukiwanie według terminów. Zaczynamy od terminów, aby przejrzeć resztę tezaurusa
Tezaurus ma podwójną organizację : między pojęciami (tj. Relacja semantyczna) i między terminami reprezentującymi te pojęcia (tj. Relacja równoważności).
Relacje między pojęciami są kilku typów:
Należy zauważyć, że w modelu podstawowym ISO 25964 relacje asocjacyjne są wzajemne. Zatem związek, który łączy Ptaka i Ornitologię, jest symetryczny i ważny w obu kierunkach. Niemniej jednak norma oferuje możliwość specjalizacji tych relacji w celu uczynienia ich niesymetrycznymi, jak w przypadku relacji PRZYCZYNA / SKUTEK (sekcja 10.4 normy ISO 25964-1). SKOS nie narzuca wzajemności symetrii relacji asocjacyjnej: relacje asocjacyjne mogą więc być symetryczne, niesymetryczne lub antysymetryczne.
W relacja równoważności pomiędzy warunkami reprezentujące tę samą koncepcję można walczyć z wielu znaczeń. Nowa norma ISO 25964-1: 2011 wskazuje spośród wszystkich terminów, które mogą reprezentować to samo pojęcie: termin preferencyjny (deskryptor) i terminy niepreferencyjne (nie deskryptory), które stanowią podstawę jednoznaczności tego pojęcia. Zależność tę reprezentuje akronim EP (skrót od „Employee For”). Odwrotny stosunek warunków niepreferencyjnych do warunków preferencyjnych jest reprezentowany przez akronim EM (skrót od „Pracodawca”)
Są to warianty określonych terminów ( synonimia lub quasi-synonimia) uważanych za „równoważne” w języku potocznym lub terminy reprezentujące pojęcia wystarczająco bliskie, aby można je było uznać za „równoważne” w systemie dostępu do informacji.
Do tej struktury można dodać różne typy relacji, nagłówki lub dodatkowe atrybuty, aby wzbogacić tezaurus lub poprawić jego użycie. W szczególności możemy cytować różne rodzaje notatek: używać notatek (lub not wyjaśniających lub aplikacyjnych), które definiują lub wyjaśniają semantyczny obwód pojęcia, notatek definiujących, notatek przydatnych dla menedżerów itp. Jest również możliwe, aby zapewnić „równoważników językowej” pojęć dla wielu języków tezaurusach, jak również mostki z innymi tezaurusach w tej samej kategorii lub w różnych dziedzinach.
Tezaurus jest rozwinięty, albo ręcznie przez jedną osobę lub kilka, dzięki inteligencji człowieka (rozwój tezaurusa 3000 deskryptorów przez jedną osobę może trwać od sześciu do ośmiu miesięcy) lub automatycznie, przez sztuczną inteligencję, dzięki automatycznym tezaurusa oprogramowanie konstrukcyjne, takie jak SATO ( Computer Text Analysis System) lub połączenie podejścia ludzkiego i automatycznego. Systemy automatycznego przetwarzania tekstu (automatyczne indeksowanie) pozwalają na wyodrębnienie najczęściej występujących terminów z korpusu i do pewnego stopnia ułatwiają powstanie ich relacji semantycznych. To oprogramowanie informacyjne wykorzystuje również narzędzia językowe do rozpoznawania morfoleksykalnego i składniowego. Według G.Saltona Luhn i Mooers jako pierwsi rozważali zastąpienie indeksatorów przez maszynę, a ludzkiej inteligencji sztuczną inteligencją, na przykład poprzez analizę częstotliwości słów kluczowych (CRANFIELD II, SMART Information Retrieval System, trafność, trafność), co doprowadziło do bieżącego generowania tezaurusa, na przykład NCI_Metathesaurus dzięki specjalistycznemu oprogramowaniu, jakim jest IBM THESAUT-TP (automatyczne tworzenie tezaurusa z profili lub pytań dokumentalnych), które jest oprogramowaniem do przetwarzania językowego wspomagania zapytań lub TLS ( Thesaurus and Linguistic System), który wraz z programem THES umożliwia tworzenie i konsultowanie tezaurusów w celu wzbogacenia pytania. Następnie musi być połączony z automatycznym indeksowaniem dokumentów . Jest to słownictwo kontrolowane, ponieważ wynika z długiego procesu sortowania słów, nazw i wyrażeń używanych w określonej dziedzinie. Jest to pragmatyczny i ciągły proces racjonalizacji terminów opisowych. Istnieją trzy metody tworzenia tezaurusa:
Metody te mają czasem inne nazwy, np. „Stalaktytyczna” i „stalagmityczna” (D. Sörgel). Mając na względzie jak najlepsze dopasowanie do rozważanej dziedziny, terminy są inwentaryzowane, porównywane, zestawiane i ostatecznie hierarchizowane w celu uwzględnienia podstawowych cech tej domeny. Hierarchia ta jest oparta na typologii : każdy termin należy do kategorii, która sytuuje go w stosunku do wszystkich innych wybranych terminów i w ten sposób określa jego priorytet użycia. Hierarchia terminów może być bardzo różna w zależności od tezaurusa, a nawet może podlegać niespójności w takim czy innym użyciu tego samego tezaurusa.
Wreszcie, zaczynając od najwyższego poziomu i odpowiadającego domenie tezaurusa, najpierw znajdujemy główne podziały reprezentujące składniki domeny - podziały często nazywane mikrotezaurusem . Przykład tezaurusa składającego się z zestawu mikrotezaurusów, a następnie dla każdego podziału hierarchia charakterystyczna dla deskryptorów. W tezaurusie z diagramami strzałkowymi (np. Management Thesaurus) znajduje się struktura w polach semantycznych , z których każdy stanowi zbiór 30 do 40 deskryptorów zdefiniowanych przez tytułowe słowo kluczowe umieszczone na środku siatki. Tezaurus może również odnosić się do kilku dziedzin, tak jak ma to miejsce w przypadku makrotezaurusa (przykład: tezaurus OECD). Tezaurus sektorowy jest wyspecjalizowany w jednej określonej dziedzinie wiedzy (przykład: tezaurus szkoleniowy).
W hierarchii tezaurusa zawsze pozostaje dowolny wymiar, czy to w doborze terminów, czy też w ich hierarchicznej pozycji.
Istnieją różne standardy tworzenia tezaurusów. (Przeczytaj także specjalny numer przeglądu Documentalist of ADBS .)
Ten projekt normy, który jest finalizowany, zastępuje dwie poprzednie normy: ISO 2788-1986: Zasady przewodnie dotyczące tworzenia i rozwoju jednojęzycznych tezaurusów oraz ISO 5964-1985: Zasady przewodnie dotyczące tworzenia i rozwoju wielojęzycznych tezaurusów.
Rozważ główne sekcje mikro-tezaurusa we współpracującym systemie komputerowym:
Sekcja dotycząca osób fizycznych składałaby się na przykład z:
Osoba odpowiedzialna za wkład można zatem określić za pomocą co najmniej jednego terminu opisowego wybranego z pięciu terminów szczegółowych (TS) lub spośród trzech terminów ogólnych (TG), w zależności od potrzeb. Terminów (EP) z zasady będzie się unikać w indeksowaniu, ale mogą być one później używane wyłącznie do wykorzystywania określonego rodzaju wkładu bez ścisłego stosowania terminów właściwych dla pierwotnego opisu.
Niezależnie od medium, tezaurus zwykle używa alfabetycznej prezentacji terminów; pierwszy etap przed prezentacją relacji hierarchicznych. W ten sposób użytkownik może być początkowo zdezorientowany brakiem terminu na liście, podczas gdy inny sposób użycia tezaurusa ujawni mu, że termin ten jest rzeczywiście brany pod uwagę, ale dzięki relacji równoważności z terminem preferencyjnym. Prezentacje w postaci wykresów i map pozwalają na bardziej złożone eksploracje.
Korzystanie lub eksplorację tezaurusa można zwykle przeprowadzić przy użyciu różnych trybów prezentacji:
Na tych listach można znaleźć symbol „ MT, wskazujący mikrotezaurus, do którego należy termin. Mikrotezaurus to szczególne pole semantyczne, które umożliwia zapoznanie się ze wszystkimi powiązanymi terminami podczas indeksowania dokumentu.
Istnieje kilka rodzajów prezentacji:
ale nadal:
Tezaurus graficzny stale się rozwija dzięki interfejsom internetowym i komputerowym. Wszystkie systemy elektronicznego zarządzania dokumentami (EDM) mają moduł zarządzania i zintegrowany tezaurus operacyjny.
Z deskryptorami powiązane są definicje (przypadek ujednoznacznienia ), notatki wspomagające użytkownika lub redaktora (powiadomienia), wszelkiego rodzaju linki itp.
Pierwszym tezaurusem operacyjnym jest tezaurus terminów chemicznych z 1959 r., Thesaurus of Engineering Terms ( EIDuPont de Nemours and Co. z Engineering Information Center. Thesaurus of ASTIA descriptors enMaj 1960utworzone przez Agencję Informacji Technicznej Służb Zbrojnych (obecnie Centrum Dokumentacji Obronnej) z pojęciami zgodnymi z metodą Calvina Mooersa, to znaczy „deskryptory”, słowa lub grupy słów proponowane do indeksowania, które zostaną połączone z tezaurusem terminów inżynierskich , zbudowany przez Wspólną Radę Inżynierów w 1964 r. w celu utworzenia Thesaurus TEST w 1967 r. W 1961 r . ukazuje się Thesaurus Inżynierii Chemicznej , opracowany przez Amerykański Instytut Inżynierów Chemicznych (AIChE). Dlatego też tezaurus dokumentalny nazywano również „tezaurusem deskryptora” (G. Van Slype). Biuro Van Dijk specjalizowało się w tezaurusach z diagramami strzałek, z przedstawieniem graficznym, z terminogramami, takimi jak tezaurus Euratom, pierwszy tezaurus europejski i tezaurus z drzewami z wielokątami lub z okrągłymi diagramami (lub koncentrycznymi okręgami), takimi jak w języku niderlandzkim armii w 1964 r., Okrągły System Tezaurusa TDCK. Pierwszym francuskim tezaurusem noszącym tę nazwę byłby tezaurus uzbrojenia CEDOCAR . Kwitnienie tezaurusa datuje się na lata 70. XX wieku w nauce i technologii. Już w 1960 roku, sympozjów na temat budowy tezaurusach (Sympozjum Thesaurus Building, Oslo, Norwegia (1965) ukazał się dzisiaj nazywa warsztat (Budynek taksonomie do wyszukiwania informacji: praktyczne warsztaty, 2005, ASIS) Zgodnie z. Brian Vickery to słowo następnie przegrupowuje co najmniej cztery różne znaczenia pod tym samym słowem. Pojawiają się bibliografie krajowe i międzynarodowe oraz katalogi tezaurusów, wymienione albo przez ASLIB, albo przez Biuletyn bibliotek francuskich (BBF) we Francji. Tezaurusy są zinwentaryzowane. w różne katalogi, w tym:
Tezaurus został wymyślony z myślą o indeksowaniu, a następnie wyszukiwaniu dokumentów. W 1971 roku UNESCO ustanowiło wytyczne dotyczące wielojęzycznych tezaurusów. Bardzo szybko, w latach 1972/74, tezaurus został ustandaryzowany (krajowe normy AFNOR Z 47-100 i międzynarodowe normy ISO 2788), po sympozjum w Berlinie Zachodnim w 1973 r. Z UNISIST, ISO i UNESCO, a następnie konferencji w Helsinkach wMaj 1976co prowadzi do powstania Wielojęzycznego przewodnika po tezaurusach . Po opublikowaniu nowych norm anglosaskich w 2005 r. (ANSI / NISO Z39.19 i BS 8723), nowa wersja tej normy ISO, łącząca wersje jedno- i wielojęzyczne, pojawiła się jako szkic wpaździernik 2009.
„♦ LING. (leksykogr.). „Inwentaryzacja jednostek leksykalnych języka ukierunkowanych na wyczerpywanie” (Mounin 1974); tytuły prac naukowych, w tym słowniki i encyklopedie. Skarb języka greckiego; Skarb języka łacińskiego; Skarb języka francuskiego; Skarb Félibrige'a . "
Kluczowe źródła:
Różne:
Czytaj także: Badania historyczne w informatyce - Trudi Bellardo Hahn, Michael Keeble Buckland w Google Books