Informacje, które udało nam się zgromadzić na temat Utajona analiza semantyczna, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Utajona analiza semantyczna. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Utajona analiza semantyczna, a jednocześnie nie podają tego, co chcemy wiedzieć o Utajona analiza semantyczna. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Utajona analiza semantyczna poniżej. Jeśli informacje o Utajona analiza semantyczna, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.
.
Utajony analizy semantycznej ( LSA The English : utajone analiza semantyczna ) lub ukryte indeksowanie semantyczne (lub LSI , angielski: ukryte indeksowanie semantyczne ) jest procesem przetwarzania jzyka naturalnego , w ramach semantyki wektorowym . LSA zosta opatentowany w 1988 roku i opublikowany w 1990 roku .
Umoliwia ustalenie relacji midzy zbiorem dokumentów a zawartymi w nich terminami poprzez konstruowanie poj powizanych z dokumentami i terminami.
LSA uywa macierzy opisujcej wystpowanie okrelonych terminów w dokumentach. Jest to rzadka macierz, której wiersze odpowiadaj terminom, a kolumny odpowiadaj dokumentom.
Terminy to na ogó sowa skrócone lub zredukowane do ich radykalnoci, wzite z caego korpusu. Dlatego mamy liczb wystpie sowa w kadym dokumencie i dla wszystkich sów. Liczb t normalizuje si za pomoc wagi tf-idf (z angielskiego : termin czsto - odwrotna czstotliwo dokumentu ), kombinacji dwóch technik: wspóczynnik macierzy jest tym wikszy, im wicej pojawia si w dokumencie, oraz e jest to rzadkie - aby je wysun.
Macierz ta jest powszechna w standardowych modelach semantycznych, takich jak model wektorowy , chocia jej forma macierzowa nie jest systematyczna, poniewa matematyczne waciwoci macierzy s rzadko uywane.
LSA przeksztaca macierz zdarze w zwizek midzy terminami i pojciami oraz zwizek midzy tymi pojciami a dokumentami. Dziki temu moemy czy dokumenty razem.
Ta organizacja midzy terminami i pojciami jest zwykle uywana do:
Rozwizanie synonimii i polisemii jest gównym problemem w automatycznym przetwarzaniu jzyka :
Po skonstruowaniu macierzy zdarze LSA umoliwia znalezienie macierzy o niszym stopniu , co daje przyblienie tej macierzy zdarze. Moemy uzasadni to przyblienie kilkoma aspektami:
Jednak zmniejszenie rangi macierzy wystpowania skutkuje poczeniem niektórych wymiarów, które mog nie mie znaczenia. Generalnie udaje nam si - o ile to moliwe - czy terminy o podobnych znaczeniach. Zatem redukcja rangi 3 do rangi 2 moe wpyn na transformacj:
W ten sposób rozwizuje si synonimi. Ale czasami nie jest to moliwe. W takich przypadkach LSA moe wykona nastpujc transformacj:
To zgrupowanie jest znacznie trudniejsze do zinterpretowania - jest uzasadnione z matematycznego punktu widzenia, ale nie jest istotne dla osoby mówicej -.
Niech X bdzie matryc , w której element (i, j) opisuje wystpie pojcia w dokumencie j - na przykad czstotliwoci . Wtedy X bdzie wyglda tak:
Wiersz tej macierzy jest wic wektorem, który odpowiada okreleniu, a którego skadniki okrelaj jego obecno (a raczej jego znaczenie) w kadym dokumencie:
Podobnie kolumna tej macierzy jest wektorem, który odpowiada dokumentowi, a którego skadniki maj znaczenie w treci kadego terminu.
midzy dwoma wektorami terminów daje korelacj midzy dwoma wyrazami w caym korpusie. Iloczyn macierzy zawiera wszystkie iloczyn skalarny tej postaci: pozycja (i, p) - która jest tym samym co pozycja (p, i), poniewa macierz jest symetryczna - jest wic iloczynem skalarnym :
Podobnie iloczyn zawiera wszystkie iloczyny skalarne midzy wektorami dokumentu, które daj ich korelacje w caym leksykonie:
Nastpnie przeprowadza si rozkad na wartoci osobliwe na X , co daje dwie macierze ortonormalne U i V oraz macierz diagonaln . Mamy wtedy:
Produkty macierzowe, które daj korelacje midzy terminami z jednej strony i midzy dokumentami z drugiej strony, s nastpnie zapisywane:
Poniewa matryce i s ukone, U jest wykonany z wektorów wasnych o i V jest wykonany z wektory wasne . Te dwa iloczyny maj wtedy takie same niezerowe wartoci wasne - które odpowiadaj niezerowym wspóczynnikom przektnej równoci . Dekompozycja jest nastpnie zapisywana:
Wartoci s osobliwe wartoci X . Z drugiej strony wektory i s odpowiednio po lewej i po prawej stronie liczby pojedynczej.
Zauwa równie, e jedyn czci U, która si skada, jest i- ta linia. Teraz oznaczmy ten wektor . Podobnie jedyn czci, do której si przyczynia, jest j- ta kolumna, któr oznaczamy .
Kiedy wybierzemy k najwikszych wartoci osobliwych, a take odpowiadajce im wektory osobliwe w U i V , otrzymamy przyblienie rzdu k macierzy zdarze.
Wan kwesti jest to, e dokonujc tego przyblienia, wektory terminy i dokumenty s tumaczone w przestrze poj.
Wektor ma wtedy k skadowych, z których kady nadaje znaczenie czonowi i w kadym z k rónych poj. Podobnie wektor okrela intensywno relacji midzy dokumentem j a kadym pojciem. Piszemy to przyblienie w nastpujcej formie:
Nastpnie mona wykona nastpujce operacje:
Dekompozycja na wartoci osobliwych s zazwyczaj obliczane metodami optymalizacji duych matryc - na przykad algorytm lanczos - programy iteracyjnych, a nawet sieci neuronowych , to ostatnie podejcie nie wymaga tylko caa matryca jest przechowywany w pamici.
Limity LSA obejmuj:
Model statystyczny ukrytej analizy semantycznej nie odpowiada obserwowanym danym: zakada, e sowa i dokumenty razem tworz model Gaussa (jest to hipoteza ergodyczna ), podczas gdy obserwowany jest rozkad Poissona .
Zatem nowszym podejciem jest probabilistyczna utajona analiza semantyczna lub PLSA (z angielskiego: Probabilistic latent semantic analysis ), oparta na modelu wielomianowym .
Mamy nadzieję, że informacje, które zgromadziliśmy na temat Utajona analiza semantyczna, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Utajona analiza semantyczna i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Utajona analiza semantyczna na tej stronie pomogło Ci poszerzyć swoją wiedzę.