Utajona analiza semantyczna



Informacje, które udało nam się zgromadzić na temat Utajona analiza semantyczna, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Utajona analiza semantyczna. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Utajona analiza semantyczna, a jednocześnie nie podają tego, co chcemy wiedzieć o Utajona analiza semantyczna. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Utajona analiza semantyczna poniżej. Jeśli informacje o Utajona analiza semantyczna, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.

.

Utajony analizy semantycznej ( LSA The English  : utajone analiza semantyczna ) lub ukryte indeksowanie semantyczne (lub LSI , angielski: ukryte indeksowanie semantyczne ) jest procesem przetwarzania jzyka naturalnego , w ramach semantyki wektorowym . LSA zosta opatentowany w 1988 roku i opublikowany w 1990 roku .

Umoliwia ustalenie relacji midzy zbiorem dokumentów a zawartymi w nich terminami poprzez konstruowanie poj powizanych z dokumentami i terminami.

Macierz zdarze

LSA uywa macierzy opisujcej wystpowanie okrelonych terminów w dokumentach. Jest to rzadka macierz, której wiersze odpowiadaj terminom, a kolumny odpowiadaj dokumentom.

Terminy to na ogó sowa skrócone lub zredukowane do ich radykalnoci, wzite z caego korpusu. Dlatego mamy liczb wystpie sowa w kadym dokumencie i dla wszystkich sów. Liczb t normalizuje si za pomoc wagi tf-idf (z angielskiego  : termin czstoodwrotna czstotliwo dokumentu ), kombinacji dwóch technik: wspóczynnik macierzy jest tym wikszy, im wicej pojawia si w dokumencie, oraz e jest to rzadkie - aby je wysun.

Macierz ta jest powszechna w standardowych modelach semantycznych, takich jak model wektorowy , chocia jej forma macierzowa nie jest systematyczna, poniewa matematyczne waciwoci macierzy s rzadko uywane.

LSA przeksztaca macierz zdarze w zwizek midzy terminami i pojciami oraz zwizek midzy tymi pojciami a dokumentami. Dziki temu moemy czy dokumenty razem.

Aplikacje

Ta organizacja midzy terminami i pojciami jest zwykle uywana do:

Rozwizanie synonimii i polisemii jest gównym problemem w automatycznym przetwarzaniu jzyka  :

  • dwa synonimy opisuj ten sam pomys, wyszukiwarka mogaby zatem znale odpowiednie dokumenty, ale nie zawieraaby dokadnego terminu wyszukiwania;
  • polisemia zastosowanie rodków wyrazu, e ma kilka znacze w zalenoci od kontekstu - mona równie unikn dokumenty zawierajce wyszukiwane sowa, ale w akceptacji, która nie odpowiada temu, co kto chce lub pola rozpatrywane.

Redukcja rangi

Po skonstruowaniu macierzy zdarze LSA umoliwia znalezienie macierzy o niszym stopniu , co daje przyblienie tej macierzy zdarze. Moemy uzasadni to przyblienie kilkoma aspektami:

  • oryginalna macierz mogaby by zbyt dua na moliwoci obliczeniowe maszyny - to czyni proces wykonalnym i jest zem koniecznym -;
  • oryginalna matryca moe by zaszumiona: terminy pojawiaj si tylko anegdotycznie - matryca jest wic czyszczona, jest to operacja poprawiajca wyniki -;
  • mona zaoy, e oryginalna matryca jest zbyt rzadka: zawiera ona raczej sowa charakterystyczne dla kadego dokumentu ni terminy zwizane z kilkoma dokumentami - jest to równie problem synonimii.

Jednak zmniejszenie rangi macierzy wystpowania skutkuje poczeniem niektórych wymiarów, które mog nie mie znaczenia. Generalnie udaje nam si - o ile to moliwe - czy terminy o podobnych znaczeniach. Zatem redukcja rangi 3 do rangi 2 moe wpyn na transformacj:

{(Samochód), (Ciarówka), (Kwiat)} {(1.3452 × Samochód + 0,2828 × Ciarówka), (Kwiat)}

W ten sposób rozwizuje si synonimi. Ale czasami nie jest to moliwe. W takich przypadkach LSA moe wykona nastpujc transformacj:

{(Samochód), (Butelka), (Kwiat)} - {(1,3452 × Samochód + 0,2828 × Butelka), (Kwiat)}

To zgrupowanie jest znacznie trudniejsze do zinterpretowania - jest uzasadnione z matematycznego punktu widzenia, ale nie jest istotne dla osoby mówicej -.

Opis

Budowa macierzy wystpowania

Niech X bdzie matryc , w której element (i, j) opisuje wystpie pojcia w dokumencie j - na przykad czstotliwoci . Wtedy X bdzie wyglda tak:

Wiersz tej macierzy jest wic wektorem, który odpowiada okreleniu, a którego skadniki okrelaj jego obecno (a raczej jego znaczenie) w kadym dokumencie:

Podobnie kolumna tej macierzy jest wektorem, który odpowiada dokumentowi, a którego skadniki maj znaczenie w treci kadego terminu.

Korelacje

Produkt kropka  :

midzy dwoma wektorami terminów daje korelacj midzy dwoma wyrazami w caym korpusie. Iloczyn macierzy zawiera wszystkie iloczyn skalarny tej postaci: pozycja (i, p) - która jest tym samym co pozycja (p, i), poniewa macierz jest symetryczna  - jest wic iloczynem skalarnym :

( ).

Podobnie iloczyn zawiera wszystkie iloczyny skalarne midzy wektorami dokumentu, które daj ich korelacje w caym leksykonie:

.

Rozkad wedug wartoci osobliwych

Nastpnie przeprowadza si rozkad na wartoci osobliwe na X , co daje dwie macierze ortonormalne U i V oraz macierz diagonaln . Mamy wtedy:

Produkty macierzowe, które daj korelacje midzy terminami z jednej strony i midzy dokumentami z drugiej strony, s nastpnie zapisywane:

Poniewa matryce i s ukone, U jest wykonany z wektorów wasnych o i V jest wykonany z wektory wasne . Te dwa iloczyny maj wtedy takie same niezerowe wartoci wasne - które odpowiadaj niezerowym wspóczynnikom przektnej równoci . Dekompozycja jest nastpnie zapisywana:

Wartoci s osobliwe wartoci X . Z drugiej strony wektory i s odpowiednio po lewej i po prawej stronie liczby pojedynczej.

Zauwa równie, e jedyn czci U, która si skada, jest i- ta linia. Teraz oznaczmy ten wektor . Podobnie jedyn czci, do której si przyczynia, jest j- ta kolumna, któr oznaczamy .

Przestrze koncepcyjna

Kiedy wybierzemy k najwikszych wartoci osobliwych, a take odpowiadajce im wektory osobliwe w U i V , otrzymamy przyblienie rzdu k macierzy zdarze.

Wan kwesti jest to, e dokonujc tego przyblienia, wektory terminy i dokumenty s tumaczone w przestrze poj.

Wektor ma wtedy k skadowych, z których kady nadaje znaczenie czonowi i w kadym z k rónych poj. Podobnie wektor okrela intensywno relacji midzy dokumentem j a kadym pojciem. Piszemy to przyblienie w nastpujcej formie:

Nastpnie mona wykona nastpujce operacje:

  • zobacz, w jakim stopniu dokumenty j i q s powizane w przestrzeni pojciowej, porównujc wektory i . Moemy to zrobi, oceniajc podobiestwo cosinusowe .
  • porównaj wyraenia i i p , porównujc wektory i t sam metod;
  • po zadaniu zapytania moemy potraktowa je jako mini-dokument i porówna w przestrzeni koncepcyjnej z korpusem, aby zbudowa list najwaniejszych dokumentów. Aby to zrobi, musisz ju przetumaczy zapytanie na przestrze pojciow, przeksztacajc je w taki sam sposób, jak dokumenty. Jeli zapytaniem jest q , musimy obliczy:
przed porównaniem tego wektora z korpusem.

Wdroenia

Dekompozycja na wartoci osobliwych s zazwyczaj obliczane metodami optymalizacji duych matryc - na przykad algorytm lanczos  - programy iteracyjnych, a nawet sieci neuronowych , to ostatnie podejcie nie wymaga tylko caa matryca jest przechowywany w pamici.

Ograniczenia

Limity LSA obejmuj:

  • te z modelu worka sów , na którym jest oparty, gdzie tekst jest przedstawiany jako nieuporzdkowany zestaw sów;
  • niemono (w modelu podstawowym) uwzgldnienia polisemii (czyli wieloznacznoci sowa), poniewa sowo odpowiada tylko jednemu punktowi przestrzeni semantycznej.

Probabilistyczna utajona analiza semantyczna (PLSA)

Model statystyczny ukrytej analizy semantycznej nie odpowiada obserwowanym danym: zakada, e sowa i dokumenty razem tworz model Gaussa (jest to hipoteza ergodyczna ), podczas gdy obserwowany jest rozkad Poissona .

Zatem nowszym podejciem jest probabilistyczna utajona analiza semantyczna lub PLSA (z angielskiego: Probabilistic latent semantic analysis ), oparta na modelu wielomianowym .

Uwagi i odniesienia

  1. (w) Zgoszenie patentu Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum i Lynn Streeter.
  2. (w :) Scott Deerwester, Susan Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman,   Indexing by Latent Semantic Analysis   , Journal of the Society for Information Science , vol.  41, n o  6,, s.  391-407 ( czytaj online ).
  3. (w) Alain Lifshitz, Sandra Jhean-Larose, Guy Denhière,   Efekt roku, w którym dostroilimy parametry na pytanie wielokrotnego wyboru w odpowiedzi na model LSA   , Metody bada behawioralnych, metody bada behawioralnych, tom.  41, n o  4,, s.  1201-1209 ( PMID  19897829 , DOI  10.3758 / BRM.41.4.1201 , czytaj online ).
  4. Moemy nawet wykaza, e jest to najlepsze przyblienie w sensie normy Frobeniusa. Dowód podano w artykule o rozkadzie na wartoci osobliwe .
  5. (w) Genevieve Brandyn Gorrell i Webb (2005).   Uogólniony algorytm hebrajski dla ukrytej analizy semantycznej   Interspeech'2005 .  .

Zaczniki

Bibliografia

Powizane artykuy

Link zewntrzny

Mamy nadzieję, że informacje, które zgromadziliśmy na temat Utajona analiza semantyczna, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Utajona analiza semantyczna i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Utajona analiza semantyczna na tej stronie pomogło Ci poszerzyć swoją wiedzę.

Opiniones de nuestros usuarios

Krzysztof Maciejewski

Uważam, że ten wpis o zmiennej Utajona analiza semantyczna jest sformułowany bardzo ciekawie, przypomina mi lata szkolne. Jakie piękne czasy, dzięki za sprowadzenie mnie do nich.

Michael Nowacki

Dla takich jak ja szukających informacji na temat Utajona analiza semantyczna, jest to bardzo dobra opcja.

Lukas Dudek

Świetny post o Utajona analiza semantyczna.