Podklasa | Canonical (informatyka) |
---|---|
Nazwany w odniesieniu do | Lemat ( w ) , lemat |
Lemmatisation oznacza przetwarzanie słownikowa umieszczono tekst do analizy. Przetwarzanie to polega na zastosowaniu do wystąpień leksemów podlegających fleksji (w języku francuskim, czasowników, rzeczowników, przymiotników) kodowania odnoszącego się do ich wspólnego hasła leksykalnego (najczęściej zapisywany w słownikach języka „forma kanoniczna”), który 'określamy terminem lemat .
Leksemy ( lematy ) języka mogą mieć kilka form, w zależności od ich płci (męski lub żeński), ich liczby (jeden lub więcej), ich osoby (ja, ty, oni ...), ich trybu (indykatywny, imperatywny). ..). W ten sposób spotykamy kilka form tego samego lematu . Te kształty nazywane są zgięciami lub kształtami wygiętymi.
Lematyzacja występującej formy to zastosowanie do tej formy kodowania pozwalające na identyfikację jej lematu. Zasadniczo jako lemat stosuje się formę kanoniczną używaną do lokalizowania leksemu w aktualnych słownikach danego języka. Na przykład w języku francuskim dla czasownika jego bezokolicznik, dla rzeczownika jego liczba pojedyncza, dla przymiotnika jego liczba pojedyncza rodzaju męskiego. Ale w języku łacińskim będziemy najczęściej używać, zgodnie z konwencją, formy indykatywnego czasu teraźniejszego w pierwszej osobie liczby pojedynczej.
Wszystkie hasła w słowniku są zatem wymienione (w szczególności w porządku alfabetycznym lub jako cele w perspektywie hipertekstowej Wikipedia, na przykład jako lematy) .Przykłady, cytaty, które zasilają artykuł, zawierają formy fleksyjne.
Przykłady:
Ta sama forma graficzna (wystąpienie) może odnosić się do dwóch lub więcej różnych lematów.
Przykłady:
Przez długi czas lematyzacja polegała na tworzeniu artefaktu tekstu, w którym lematy całkowicie zastępowały odmienione występujące formy. Czyste gwiazdy świecące w ciemnej nocy stały się przejrzystymi gwiazdami w ciemnej nocy . Skrypty oprogramowania analizowały te dwie wersje oddzielnie. Dzięki uogólnieniu HTML, a zwłaszcza XML , możliwe jest wyrównanie wersji lematyzowanej i surowej w postaci równoległych kolumn.
Przykład:
/
gwiazdy /
jasne / jasne gwiazdy
świecą / świecą
w / w
/
noc /
ciemna noc / czerń
następnie zintegrować w tym samym kontenerze XML różne informacje o zdarzeniu, w tym o jego występującej formie graficznej i lemacie. Na przykład <w form = "clear" lemma = "clear"> .
W informatyce tekstowej lub tekstometrii niemożliwe jest grupowanie programu komputerowego bez odwoływania się do zasobów zewnętrznych lub do znakowania-kodowania wewnętrznego w pliku tekstowym odmian tego samego lematu, a tym bardziej do rozróżniania wartości leksykalnych. O identycznych kształtach („kierownica, welon, drzwi…”). Lematyzacja jest zatem operacją wstępną mającą na celu językowe rozpoznanie składników zdania. „Konserwatywna” lematyzacja, na którą pozwala kodowanie XML, pozwala skupić się na lematach, a także na ich odmienionych formach (np. Jeśli chcemy odróżnić wolność od wolności ).