Lemmatyzacja

Lemmatyzacja
Podklasa Canonical (informatyka)
Nazwany w odniesieniu do Lemat ( w ) , lemat

Lemmatisation oznacza przetwarzanie słownikowa umieszczono tekst do analizy. Przetwarzanie to polega na zastosowaniu do wystąpień leksemów podlegających fleksji (w języku francuskim, czasowników, rzeczowników, przymiotników) kodowania odnoszącego się do ich wspólnego hasła leksykalnego (najczęściej zapisywany w słownikach języka „forma kanoniczna”), który 'określamy terminem lemat .

Generał

Leksemy ( lematy ) języka mogą mieć kilka form, w zależności od ich płci (męski lub żeński), ich liczby (jeden lub więcej), ich osoby (ja, ty, oni ...), ich trybu (indykatywny, imperatywny). ..). W ten sposób spotykamy kilka form tego samego lematu . Te kształty nazywane są zgięciami lub kształtami wygiętymi.

Lematyzacja występującej formy to zastosowanie do tej formy kodowania pozwalające na identyfikację jej lematu. Zasadniczo jako lemat stosuje się formę kanoniczną używaną do lokalizowania leksemu w aktualnych słownikach danego języka. Na przykład w języku francuskim dla czasownika jego bezokolicznik, dla rzeczownika jego liczba pojedyncza, dla przymiotnika jego liczba pojedyncza rodzaju męskiego. Ale w języku łacińskim będziemy najczęściej używać, zgodnie z konwencją, formy indykatywnego czasu teraźniejszego w pierwszej osobie liczby pojedynczej.

Wszystkie hasła w słowniku są zatem wymienione (w szczególności w porządku alfabetycznym lub jako cele w perspektywie hipertekstowej Wikipedia, na przykład jako lematy) .Przykłady, cytaty, które zasilają artykuł, zawierają formy fleksyjne.

Przykłady:

  1. Lemat mały odnosi się do 4 form fleksyjnych: małej , małej , małej , małej
  2. Lemat o miłości odnosi się do dużej liczby form odmienionych, tym większej, gdy weźmie się pod uwagę formy złożone, które kochał , był kochany , był kochany itd.

Ta sama forma graficzna (wystąpienie) może odnosić się do dwóch lub więcej różnych lematów.

Przykłady:

  1. Porte odnosi się, w zależności od kontekstu, do czasownika porter , do żeńskiego rzeczownika porte , a nawet do przymiotnika porte w złożonej żyle wrotnej
  2. Występowanie zasłona może odnosić się do czasownika welonem , kobiecy rzeczownik zasłona lub homograph męski rzeczownik welon
  3. Instancja latająca może wysłać dwa czasowniki homograficzne do lotu , do rzeczownika latającego i przymiotnika latającego homografu ...

Projektowanie i technologia

Przez długi czas lematyzacja polegała na tworzeniu artefaktu tekstu, w którym lematy całkowicie zastępowały odmienione występujące formy. Czyste gwiazdy świecące w ciemnej nocy stały się przejrzystymi gwiazdami w ciemnej nocy . Skrypty oprogramowania analizowały te dwie wersje oddzielnie. Dzięki uogólnieniu HTML, a zwłaszcza XML , możliwe jest wyrównanie wersji lematyzowanej i surowej w postaci równoległych kolumn.

Przykład:
/
gwiazdy /
jasne / jasne gwiazdy
świecą / świecą
w / w
/
noc /
ciemna noc / czerń

następnie zintegrować w tym samym kontenerze XML różne informacje o zdarzeniu, w tym o jego występującej formie graficznej i lemacie. Na przykład <w form = "clear" lemma = "clear"> .

Użyj w obliczeniach tekstowych lub wspomaganej analizie tekstu lub tekstometrii

W informatyce tekstowej lub tekstometrii niemożliwe jest grupowanie programu komputerowego bez odwoływania się do zasobów zewnętrznych lub do znakowania-kodowania wewnętrznego w pliku tekstowym odmian tego samego lematu, a tym bardziej do rozróżniania wartości leksykalnych. O identycznych kształtach („kierownica, welon, drzwi…”). Lematyzacja jest zatem operacją wstępną mającą na celu językowe rozpoznanie składników zdania. „Konserwatywna” lematyzacja, na którą pozwala kodowanie XML, pozwala skupić się na lematach, a także na ich odmienionych formach (np. Jeśli chcemy odróżnić wolność od wolności ).

Zobacz też

Powiązane artykuły