Automatyczne indeksowanie dokumentów

Indeksowanie wyszukiwarki internetowej jest dziedziną komputerowego i informacji naukowej i biblioteka , że metody Oprogramowanie wykorzystuje do organizowania zbiór dokumentów i ułatwiają później szukasz treści w tej kolekcji. Mnogość typów dokumentów (tekstowych, audiowizualnych, internetowych) daje początek bardzo różnym podejściom, szczególnie w zakresie przedstawiania danych. Niemniej jednak opierają się one na podstawie wspólnych teorii, takich jak wyodrębnianie cech , podział danych (lub grupowanie ), kwantyfikacja i, bardziej ogólnie, poszukiwanie informacji .

Z drugiej strony indeksowane pliki sekwencyjne stanowią technikę bardzo ogólnego zastosowania w przetwarzaniu danych, do przechowywania danych cyfrowych (patrz Plik (przetwarzanie danych) ).

Indeks to ogólnie lista deskryptorów, z którymi każdy jest powiązany, lista dokumentów i / lub części dokumentów, do których odnosi się ten deskryptor. To skierowanie może być ważone. Szukając informacji o użytkowniku, system zbliży żądanie do indeksu w celu ustalenia listy odpowiedzi. Wcześniej metody stosowane do automatycznego tworzenia indeksu dla zbioru dokumentów różnią się znacznie w zależności od charakteru treści dokumentów, które mają być indeksowane.

Motywacja

Indeksowanie danych próbuje odpowiedzieć na następujące pytanie: Jak najlepiej zorganizować zbiór dokumentów, aby później łatwo znaleźć ten, który mnie interesuje?

Klasyczna odpowiedź polega na ręcznym przypisywaniu każdemu dokumentowi szeregu metadanych (tytuł, kategoria (-e), data publikacji, autor itp.). To podejście ma tę zaletę, że jest łatwe do wdrożenia i dostarcza wysokiej jakości informacji (w zależności od wiedzy osoby odpowiedzialnej za adnotację). Jest to jednak rozwiązanie niejednoznaczne (ten sam dokument można opisać na kilka sposobów; pomyślimy np. O niejednoznaczności między gatunkami muzycznymi), jest drogie (ponieważ konieczne jest opłacenie adnotatora, aby przejął każdy nowy dokument w nasza kolekcja) i pozwala tylko odpowiadać na zapytania tekstowe (w przeciwieństwie do na przykład podobnych zapytań o obraz). Aby przezwyciężyć te niedociągnięcia, jednym z rozwiązań jest użycie kontrolowanego słownika indeksującego zorganizowanego w formie dokumentalnego tezaurusa . Tezaurusy można tworzyć wspólnie, aby zapewnić spójność klasyfikacji dokumentów. Tezaurus definiuje nie tylko terminy indeksowe, ale także powiązania między nimi w ustandaryzowany sposób. Daje to z jednej strony możliwość wyszukiwania źródeł dokumentalnych poprzez wskazanie kilku warunków linków podczas wyszukiwania (a więc semantycznie). Z drugiej strony, aby uniknąć ograniczeń, takich jak synonimia czy wielojęzyczność (w przypadku wielojęzycznego tezaurusa). Zbiory indeksowane za pomocą tezaurusów są również łatwo interoperacyjne, ponieważ wystarczy scalić indeksujące tezaurusy. W związku z tym ręczne indeksowanie jest nadal konieczne w niektórych wyspecjalizowanych sektorach, w szczególności w sektorach wielojęzycznych, i należy je postrzegać jako uzupełnienie indeksowania automatycznego.

W obliczu problemu zalewu danych i rosnącej niejednorodności dokumentów, które muszą przetwarzać wyszukiwarki, automatyczna indeksacja jest koniecznością. Opiera się bezpośrednio na treści w celu uzyskania jednoznacznych i spójnych wyników. Przedstawiając dokumenty w postaci wektorów deskryptorów , można je porównywać, mierzyć odległości od siebie i odpowiadać na różnego rodzaju zapytania.

Deskryptory danych są bardzo zależne od typu mediów, podobnie jak algorytmy wyszukiwania podobieństw. W następnej sekcji przedstawiono różne podejścia do indeksowania w zależności od rodzaju indeksowanych dokumentów.

Indeksowanie według typu dokumentu

Indeksowanie tekstu

W przypadku tekstu bardzo prostym indeksem do automatycznego tworzenia jest uporządkowana lista wszystkich słów występujących w dokumentach wraz z dokładną lokalizacją każdego z ich wystąpień; ale taki indeks jest nieporęczny i przede wszystkim niezbyt użyteczny.

W związku z tym automatyczne indeksowanie dąży raczej do wyszukania słów, które najlepiej odpowiadają informacyjnej zawartości dokumentu. Powszechnie przyjmuje się, że słowo, które często pojawia się w tekście, reprezentuje ważne pojęcie. Zatem pierwsze podejście polega na określeniu reprezentatywnych słów na podstawie ich częstotliwości . Jednak zauważamy, że najczęściej używanymi słowami są słowa funkcjonalne (lub słowa narzędziowe, słowa pomijane). W języku francuskim słowa „de”, „un”, „les” itp. są najbardziej powszechne. W języku angielskim są to „of”, „the” itp.

Jest oczywiste, że nie możemy utrzymywać tych słów z dużą częstotliwością, ale mają one niewielkie znaczenie w terminach. Z tego powodu do wyszukiwarek wprowadzono operacje filtrowania dla tych słów. Te listy słów nazywane są antyleksykonami lub częściej stoplistami .

Podczas indeksowania zwykle wykonywana jest inna operacja. Polega na wymazywaniu końcówek (odmiany liczby, rodzaju, koniugacji, deklinacji) w celu odnalezienia korzeni słów. Ta operacja nazywa się rootowaniem (inne podobne rozwiązanie zwane lematyzacją prowadzi globalnie do tego samego wyniku). Ta metoda umożliwia rejestrację częstotliwości poprzez kumulację liczby wystąpień wariacji tych samych słów.

Każda jednostka dokumentu (każdy dokument lub każdy fragment dokumentu) może być następnie przedmiotem reprezentacji wektorowej : współrzędne reprezentują częstotliwości niepustych słów. Kiedy ta operacja jest wykonywana dla korpusu dokumentów lub stron internetowych, otrzymujemy macierz, której kolumny reprezentują dokument i współrzędne częstotliwości terminów.

Wyszukiwarek pierwszej generacji są oparte na wzorach o wadze ogólnie przypisać wysoką masę pod nierównomiernie rozłożone w korpusie. Istnieje wiele formuł ważenia, których celem jest rozłożenie wagi, aby ułatwić różnicowanie informacyjne dokumentów. Niektóre formuły ważenia harmonizują wagi w zależności od długości dokumentów, w których częstotliwość terminów jest ogólnie wyższa, inne formuły opierają się na maksymalnej częstotliwości terminów w celu pogodzenia wielotematycznego aspektu dokumentu z dokumentami jednotematycznymi . Najbardziej znanymi wzorami ważenia są TF-IDF (termin częstotliwość. Odwrotna częstotliwość dokumentu).

Silniki drugiej generacji polegają nie tylko na częstotliwości indeksowania stron internetowych, ale także na popularności źródeł. Przechodząc od łącza do łącza, roboty indeksują terminy używane na jednej stronie internetowej do opisu innej strony internetowej. Za każdym razem, gdy użytkownik kliknie ten odsyłacz, „głosuje” na trafność użytych deskryptorów. Strona rangi jest następnie obliczany według popularność opisowych i współczynniku podobieństwa w wyniku modelowania wektora.

Indeksowanie obrazów

Istnieją dwa sposoby indeksowania obrazów. Obrazy są indeksowane według ich metadanych ( EXIF , IPTC , XMP ...) i jest to indeksowanie tekstowe. Indeksowanie odbywa się albo na zawartości graficznej obrazu, to znaczy na kształtach, kolorach, teksturach, i jest to indeksowanie obrazu według treści (w języku angielskim: Content Based Image Retrieval lub CBIR ). Te dwa typy indeksowania obrazów można łączyć.

Indeksowanie obrazów według zawartości polega, po analizie wszystkich pikseli lub części zredukowanej (maski), na przekształceniu informacji o pikselach w inny rodzaj informacji, tak aby wyszukiwanie obrazu (identycznie lub w tej samej kategorii) było ułatwione (pod względem komputerowym, kompaktowe rozmiary, szybkość, przy zachowaniu semantyki bliskiej użytkownikowi). Pierwsze systemy indeksowania obrazów wykorzystywały kolor (system IBM QBIC), później analiza koloru histogramu uległa poprawie i zróżnicowaniu. Zastosowano kilka modeli reprezentacji kolorów, wprowadzono udoskonalenia prymitywnego globalnego histogramu. Ulepszenia histogramu kolorów skupiały się głównie na dodaniu informacji przestrzennych, które pierwotnie były całkowicie nieobecne. Najlepsze obecnie algorytmy rozpoznawania wykorzystują pochodną obrazu. Tylko część punktów ważniejszych od innych jest dokładnie analizowana. Nie ma znanego systemu, który pasowałby do ludzkich możliwości. Można jednak powiedzieć, że istnieją rozwiązania przemysłowe (ograniczony wszechświat), które są ekonomicznie opłacalne. Metoda SIFT według Davida G. Lowe'a jest często wieloskalowym opisem niezmiennika wzorca w warunkach rotacji i translacji.

Rozpoznawanie twarzy , wprowadzone pod koniec 2008 roku w Picasie 3.5, ogólnodostępnym narzędziu do zarządzania kolekcjami fotograficznymi, umożliwia półautomatyczne ustalenie indeksu osób pojawiających się na tych zdjęciach.

Indeksowanie dźwięku

Indeksowanie wideo

Uwagi i odniesienia

CJ Van Rijsbergen, Wyszukiwanie informacji , Butterworth-Heinemann, Newton, MA, 1979
Salton, G. i McGill, MJ 1983 Wprowadzenie do współczesnego wyszukiwania informacji . McGraw-Hill, ( ISBN 0070544840 ) .
Romain Heuillard, „ Automatyczne rozpoznawanie twarzy dla programu Picasa ” , na clubic.com ,2 września 2008(dostęp 30 września 2020 ) .