Informacje, które udało nam się zgromadzić na temat Analiza jzyka naturalnego, zostały starannie sprawdzone i uporządkowane, aby były jak najbardziej przydatne. Prawdopodobnie trafiłeś tutaj, aby dowiedzieć się więcej na temat Analiza jzyka naturalnego. W Internecie łatwo zgubić się w gąszczu stron, które mówią o Analiza jzyka naturalnego, a jednocześnie nie podają tego, co chcemy wiedzieć o Analiza jzyka naturalnego. Mamy nadzieję, że dasz nam znać w komentarzach, czy podoba Ci się to, co przeczytałeś o Analiza jzyka naturalnego poniżej. Jeśli informacje o Analiza jzyka naturalnego, które podajemy, nie są tym, czego szukałeś, daj nam znać, abyśmy mogli codziennie ulepszać tę stronę.
.
W jzyku komputerowym lub NLP The parsowanie ( skadniowym parsowania ) odnosi si do zautomatyzowanego procesu analizy acucha sów - reprezentowanie fraz - w celu uzyskania zaleno pomidzy wspóistniejc poprzez te sowa z drzewa skadni . Rozpoczynajc od zwykego tekstu, ten ostatni musia zosta wczeniej podzielony na jednostki leksykalne ( tokenizacja ). Zazwyczaj analiza leksykalna ( lematyzacja , analiza morfosyntaktyczna ...) jest wykonywana przed waciw analiz skadni, w celu zidentyfikowania jednostek leksykalnych i ich waciwoci. Wynik analizy jest zwykle uywany jako podstawa w analizie semantycznej , konstruowaniu reprezentacji znaczenia tekstu lub bezporednio w zastosowaniach, takich jak korekta gramatyczna .
W przypadku systemu odpowiadania na pytania lub wyszukiwania informacji trudno byoby na przykad poprawnie odpowiedzie na pytanie jakie prace pisali francuskojzyczni autorzy przed 1900 rokiem. Bez rozpoznawania tematu utwory , poniewa w szczególnoci naley rozumie, e uytkownik chce mie list dzie, a nie list autorów.
Proces analizy moe opiera si na gramatyce formalnej i / lub wykorzystywa metody statystyczne .
Parsowanie siga pocztków bada NLP, poniewa jeden z pierwszych algorytmów analizy zosta wprowadzony przez Victora Yngve w 1955 roku, jeszcze przed opracowaniem teorii jzyka formalnego przez Noama Chomsky'ego w 1956 roku. Dlatego tworzone parsery bd oparte na gramatykach formalnych, szczególnie tych wywoywanych poza kontekstem lub typu 2 . Midzy innymi, John Cocke wynalaz w 1960 roku algorytm programowania dynamicznego, który nastpnie zosta sformalizowany przez T. Kasami (1965) i DH Younger (1967): synny algorytm CKY , analizujcy sekwencj w czasie szeciennym z wykorzystaniem gramatyki Form normalnych autorstwa Chomsky'ego . Ta ostatnia jest typu mieszanego, to znaczy czcego strategie oddolne i odgórne, indywidualnie mniej efektywne.
Równoczenie w latach 60. pojawio si kilka innych formalizmów powiconych analizie skadniowej, w tym gramatyki zalenoci inspirowane Lucienem Tesnièreem (1959) i sformalizowane przede wszystkim przez Davida Haysa (1960). Wkrótce po N. Chomsky, John Backus (1959) i Peter Naur (1960) niezalenie wymylili gramatyk bezkontekstow w swoim opisie jzyka ALGOL , dajc pocztek synnej formie Backus-Naur . W 1968 roku Jay Earley wynalaz pierwszy algorytm analizy w czasie szeciennym dla wszystkich gramatyk bezkontekstowych (niekoniecznie w normalnej formie). W tym samym czasie R. Kaplan i M. Kay uogólnili algorytm CKY na wszystkie gramatyki bezkontekstowe, aby uczyni go parserem wykresów , uywajc grafu. Wród algorytmów podobnych do dwóch poprzednich moemy równie przytoczy parser lewego rogu , w odniesieniu do pierwszego symbolu prawej czci reguy produkcyjnej.
W latach siedemdziesitych i osiemdziesitych XX wieku opracowano wiele innych formalizmów, w tym sieci rozszerzonych przej (ATN) i gramatyki unifikacyjne (gramatyki oparte na ograniczeniach ). Przedstawienie w zalenociach tego ostatniego pierwotnie zaproponowa H. Maruyama. W latach 90. rozwój skupia si gównie na metodach statystycznych, w tym znaczcych pracach nad probabilistycznymi gramatykami bezkontekstowymi (PCFG) - jednym z najbardziej wpywowych modeli analizy statystycznej, która opiera si na gramatyce formalnej - w tym gównymi problemami s ignorancja informacji semantycznej i hipoteza niezalenoci strukturalnego przywizania fraz. Niektóre nowsze podejcia umoliwiy popraw saboci PCFG, midzy innymi poprzez leksykalizacj gramatyki lub uycie bardziej precyzyjnego zestawu symboli nieterminalnych. Po stronie reprezentacji w zalenociach pierwszy wpywajcy algorytm stochastyczny zosta zaproponowany przez Jasona Eisnera.
W przypadku metod, które nie wymagaj interwencji gramatyki, modele s bezporednio indukowane z danych opatrzonych adnotacjami ( korpus ), co uatwia przenoszenie systemów do nowych jzyków lub dziedzin. Chocia ta ostatnia moliwo jest obecnie wykorzystywana gównie, metody oparte na gramatykach s nadal stosowane, gdy nie ma wystarczajcej iloci danych z adnotacjami, niezbdnych do dziaania metod nadzorowanych. Na marginesie naley zauway, e gramatyk mona bardzo dobrze wyodrbni z danych jzykowych; metody oparte na gramatyce ( analiza oparta na gramatyce ) i metody oparte na danych ( analiza oparta na danych ) nie wykluczaj si wzajemnie. Proponowana kategoryzacja statystycznych metod analizy jest szeroko stosowana w dziedzinie NLP.
Parsowanie jest zadaniem nietrywialnym, gównie ze wzgldu na nieodczn niejednoznaczno jzyka i jego rónorodno. O stwierdzeniu mówi si, e jest niejednoznaczne, jeli mona z nim skojarzy kilka struktur jzykowych.
Oto kilka przykadów niejednoznacznoci strukturalnych :
John zobaczy mczyzn na wzgórzu przez teleskop
W tym zdaniu przywizanie przyimkowego wyraenia jest niejednoznaczne i nie wiadomo, czy John uy teleskopu, aby zobaczy czowieka, czy te John zobaczy samego czowieka za pomoc teleskopu.
- Do kogo obiecae napisa "
Poprzednie pytanie mona sparafrazowa na dwa sposoby: Do kogo obiecae napisa. Lub Do kogo obiecae napisa "; nie wiadomo, czy dana osoba napisze do kogo, czy te obiecaa komu napisa (co).
Nawet jeli cel analizy deterministycznego jzyka formalnego (np. Jzyka programowania ) jest identyczny z celem analizy jzyka naturalnego, w drugim przypadku zadanie to jest znacznie trudniejsze.
Po pierwsze, zdolno generacyjna gramatyki - jej moc - jest znacznie mniejsza w przypadku jzyków komputerowych, poniewa musz one by cile jednoznaczne i szybko analizowalne (std gramatyka jest ograniczona). Dla porównania, gramatyka przeznaczona dla jzyka naturalnego musi na przykad umoliwia wyraanie zalenoci midzy wyrazami, które s daleko od siebie; jest zatem bardziej zoony.
Po drugie, poniewa jzyk naturalny cierpi z powodu niejednoznacznoci strukturalnej, na kadym etapie analizy moe mie zastosowanie kilka regu gramatycznych. Tak wic zdanie takie jak Jan widzia czowieka [na wzgórzu] [z teleskopem] [w towarzystwie jego córki] [] spowoduje, e liczba jego moliwych analiz wzronie wykadniczo wraz z liczb dodanych skadników. . Nawiasem mówic, jest to jeden z powodów, dla których opracowano metody statystyczne.
Ostatnia zauwaalna rónica dotyczy wanoci sekwencji wejciowej: jzyk programowania ma skoczon liczb prawidowych konstrukcji, podczas gdy w przypadku jzyka naturalnego jest on nieograniczony . Dlatego w przypadku NLP istnieje niemono wykonania analizy, bd, który niekoniecznie wynika z nieodpowiedniej gramatyki, ale prawdopodobnie z bdu gramatycznego, literówki, nieznanego sowa itp.
Oprócz tych karykaturalnych podobiestw istnieje wiele innych, takich jak cise rozgraniczenie zda (zda, bloków) i sów w przypadku jzyków formalnych z dobrze zdefiniowanymi znakami.
Wikszo pierwszych systemów analizowania opiera si wycznie na swobodnej gramatyce kontekstu ( gramatyka bezkontekstowa ) w celu wygenerowania prawidowych struktur skadniowych, chocia ten rodzaj gramatyki nie jest wystarczajcy do wygenerowania jzyka naturalnego jako caoci. Razem konieczne jest posiadanie algorytmu, który dyktuje, w jaki sposób te struktury bd wydajnie wytwarzane. W tym kontekcie szeroko stosowany jest algorytm programowania dynamicznego CKY , w którym podproblemy - utrzymywane w tablicy - s reprezentowane przez czciowe drzewa skadniowe zakorzenione w frazach zdania wejciowego. Dziki niezalenoci od kontekstu gramatyki moliwe jest ponowne wykorzystanie podstruktury w kolejnych, wymagajcych tego derywacji, umoliwiajc programowanie dynamiczne. Algorytmy konkurujce z CKY to analiza Earleya i wykresu .
Problem z algorytmami asymilowanymi do CKY polega na ich niezdolnoci do rozwizywania niejednoznacznoci strukturalnych (patrz rozdzia trudnoci ), chocia mona je wykry. Aby przezwyciy ten brak, konieczne jest dodanie do modelu komponentu statystycznego; jeli kadej regule towarzyszy prawdopodobiestwo , w przypadku niejasnoci wystarczy wybra t o najwikszym prawdopodobiestwie. Jako taki, najczciej uywanym formalizmem jest probabilistyczna gramatyka bezkontekstowa (PCFG). Istnieje probabilistyczna wersja algorytmu CKY, opisana przede wszystkim przez H. Neya. Dokadne wnioskowanie wymaga czasu w , gdzie jest liczba regu gramatycznych.
Jednak model PCFG ma stosunkowo ograniczone moliwoci osigania doskonaych wyników, poniewa narzuca silne zaoenia niezalenoci. Gównym problemem jest to, e prawdopodobiestwo konkretnej reguy jest niezalene od kontekstu, w którym zostaa stworzona; na przykad prawdopodobiestwo, e fraza rzeczownikowa zostanie przeduona do zaimka (reguy ) pozostaje stae, e fraza ta znajduje si na pozycji podmiotu lub dopenienia, podczas gdy pierwsza moliwo jest znacznie czstsza w niektórych jzykach. Z drugiej strony, jeli dwie róne struktury uywaj dokadnie tych samych regu, uzyskaj to samo prawdopodobiestwo; jednak dla tego samego zdania (a wic tych samych regu) czsto istnieje struktura, która jest preferowana wzgldem innej (gdy istnieje kilka moliwoci), czego nie przekazuje formalizm PCFG.
Zaproponowano kilka modeli w celu rozwizania wyej wymienionych problemów. Jednym z najbardziej wpywowych jest ten autorstwa Michaela Collinsa , zwany LPCFG lub czasem kierowany gow , polegajcy na leksykalizacji gramatyki poprzez wybór elementu dominujcego ( reguy gównej ) dla kadej reguy gramatyki. W ten sposób kady wze macierzysty drzewa skadni jest sparametryzowany sowem w zdaniu; na przykad regua dla PCFG moe sta si, jeli pies jest czci zdania, które ma by analizowane. Zgodnie z nadrzdn przesank tej reguy rodzic dziedziczy sowo pies.
Adnotacja nieterminalnych wzów PCFG, znana jako adnotacja nadrzdna , równie bya bardzo skuteczna w analizie komponentów, poniewa dokadno systemów wykorzystujcych t technik jest podobna do tych opartych na LPCFG, ale jest mniej zoona. Taka adnotacja moe by na przykad, jeli tworzy przyimek.
Innym rozwizaniem braku strukturalnej wraliwoci PCFG jest analiza zorientowana na dane (DOP) opracowana przez Remko Scha i Rens Bod. Zasad jest analiza zda poprzez czenie fragmentów analiz zda, których struktura jest znana, np. Pochodzcych z korpusu.
Istniej dwie klasy modeli probabilistycznych: te znane jako generatywne , takie jak LPCFG, oraz te znane jako modele dyskryminujce ( wicej szczegóów znajduje si w sekcji modele analizy statystycznej ).
W klasycznym podejciu analiza zdania moe spowodowa powstanie milionów moliwych drzew skadniowych ze wzgldu na duy rozmiar gramatyki i niemono wybrania tego, które najlepiej odzwierciedla struktur danego zdania. Jeli do tej gramatyki zostan dodane ograniczenia w celu ograniczenia liczby moliwych analiz, cz analizowanych zda moe utraci odpowiedni struktur. Podejcie statystyczne ma t zalet, e toleruje miliony analiz, a jednoczenie daje moliwo wybrania najlepszej w rozsdnym czasie; w zwizku z tym czsto konieczne jest zmniejszenie przestrzeni poszukiwa w trakcie caego procesu analizy, eliminujc najwczeniej mao prawdopodobne analizy czciowe.
W dzisiejszych czasach gramatyki (same w sobie) s ju prawie nie uywane, a podejcia w dziedzinie NLP opieraj si gównie na technikach uczenia maszynowego .
Co wicej, formalizacja zjawisk jzykowych jest pracochonna, a techniki statystyczne przyniosy ogromn korzy w postaci wydobywania wiedzy jzykowej bezporednio z (rzeczywistych) próbek danych. A jeli budowa korpusu ( banku drzewa ) jest bardziej mudna ni budowa gramatyki, ta pierwsza ma t zalet, e mona j ponownie wykorzysta w innych systemach (w tym w analizatorach morfosyntaktycznych), co czciowo tumaczy brak zainteresowania gramatykami. Ponadto dane niejawnie zawieraj statystyki, a ocena systemu jest atwa. Zwró uwag, e gramatyk mona bardzo dobrze wyodrbni z danych jzykowych; Metody oparte na gramatyce ( analiza oparta na gramatyce ) i metody oparte na danych ( analiza oparta na danych ) - dzi w wikszoci - nie wykluczaj si zatem wzajemnie.
Chocia do ujednoznacznienia - w razie potrzeby - procesu analizy stosuje si techniki statystyczne, bardzo rzadko mona zbada ca przestrze poszukiwa i konieczne jest jej ograniczenie ze wzgldu na efektywno.
Moemy przedstawi parser za pomoc funkcji , gdzie jest zbiorem moliwych danych wejciowych, wiedzc, e reprezentuje sekwencj wejciow , i jest zbiorem dopuszczalnych reprezentacji skadniowych. Naley zauway, e charakter reprezentacji analizy jest specyficzny dla zastosowanej teorii, podobnie jak jej kryterium dopuszczalnoci.
Koncepcyjnie model analizy mona podzieli na dwie czci:
Oba skadniki maj zwykle parametrów, których wartoci zostan oszacowane statystycznie, poczwszy od analizy danych reprezentatywnych, zwany zestaw szkole , w celu zapewnienia dobrego estymatora z korespondentem. Jest to modelowy etap uczenia si , który moe by nadzorowany lub nienadzorowany (czasami czciowo nadzorowany ); uczenie nadzorowane wymaga, aby dane zawieray prawidow analiz. Caa trudno tego kroku polega zatem na poprawnym wykorzystaniu czciowego dowodu - zawartego w danych - w celu stworzenia rozkadu prawdopodobiestwa, który jak najbliej odzwierciedla rzeczywisto. Z funkcji wywnioskowanej w momencie uczenia si modelu drugi krok polega na sprawnym uporzdkowaniu analiz kandydatów dla danego (niepublikowanego) zdania wejciowego: na tym polega problem wnioskowania . Te ostatnie mog by dokadne lub przyblione, w zalenoci od gwarancji, jakie daje zastosowany algorytm.
Czsto konieczne jest znalezienie sprawiedliwego kompromisu midzy zoonoci modelu a brakiem dokadnoci generowanych rozwiza. Na marginesie zwró uwag na fakt, e zbiór jest prawdopodobnie bardzo duy, a kady z nich jest przedmiotem o bogatej strukturze wewntrznej; to odkrycie kontrastuje z prostym problemem klasyfikacyjnym, który byby znacznie mniejszy. Systemy wykorzystujce algorytm uczenia nadzorowanego s znacznie bardziej powszechne, poniewa s znacznie bardziej wydajne.
Ponadto w uczeniu maszynowym przeciwstawiaj si dwie due klasy modeli, niekoniecznie powizane z wymienionymi wczeniej komponentami generatywnymi i ewaluacyjnymi: pierwsza moliwo, zwana generatywn , polega na postrzeganiu procesu analizy jako systemu przepisywania probabilistycznego, gdzie celem polega na wytworzeniu jednej (lub wicej) konstrukcji zgodnie z danym wejciem; na kadym etapie naley wybiera najlepsz (-e) alternatyw (-y) w celu uzyskania najbardziej prawdopodobnej struktury na koniec analizy. Tutaj celem jest maksymalizacja wspólnego prawdopodobiestwo , cokolwiek i , poprzez modelowanie i , a nastpnie przez ponowne czenie ich z reguy Bayesa (przypadek PCFGs). Druga moliwo, zwana dyskryminacj , polega na postrzeganiu gramatyki jako zbioru ogranicze dotyczcych prawidowych struktur, a sekwencji wejciowej jako ograniczenia pozycji sów; analiza musi nastpnie rozwiza te ograniczenia, a nastpnie wybra najbardziej prawdopodobn struktur skadniow sporód tych, które najlepiej speniaj ograniczenia. W tym przypadku próbujemy modelowa prawdopodobiestwo warunkowe bezporednio na podstawie danych. Ponownie, te dwa podejcia mona czy sekwencyjnie ( ponowne klasyfikowanie ).
Wyprowadzenie struktury syntaktycznej jest modelowane przez proces stochastyczny, w którym kady krok zaley od wydarze, które miay miejsce w przeszoci (historyczne). Ogólna forma takich modeli, o której pocztkowo wspomnia G. Leech, jest nastpujca:
Modele generatywne narzucaj sztywne zaoenia dotyczce niezalenoci, co wpywa na ujednoznacznienie (zwykle PCFG). Jednak adaptacja tych zaoe daje bardziej zoone modele i dokadne wnioskowanie nie jest ju moliwe (patrz take sekcja metody wspomagane przez statystyki ). Zasadniczo ten rodzaj modelu musi przewidywa nastpne sowo w miar postpu analizy, co wymaga globalnej normalizacji w caym sownictwie i czsto wikszego klastra (jeli istnieje), aby mona byo wypróbowa du liczb struktur na cz zdania zawierajca przewidywane sowo. Ponadto uczenie modeli generatywnych dy przez wikszo czasu do maksymalizacji wspólnego prawdopodobiestwa nakadów i wyników zbioru uczcego; jednak celem analizy jest maksymalizacja precyzji modelu dla zda niepublikowanych. Z tych powodów coraz czciej stosuje si modele dyskryminacyjne.
Celem tych modeli jest maksymalizacja prawdopodobiestwa decyzji lokalnych , majc nadziej na osignicie najlepszego globalnego rozwizania dziki sukcesji optymalnych (lokalnych) decyzji, takich jak modele generatywne oparte na historii:
Tutaj funkcja reprezentuje dowolne waciwoci / cechy w zalenoci od historii podjtych decyzji
i danych wejciowych ; innymi sowy, definiujemy klas równowanoci dla dowolnej kombinacji historii i wpisu. Stosujc metody prognozowania danych wejciowych, niektórzy analizatorzy podchodz do analizy deterministycznej (predykcyjnej). W przypadku tego typu modelu komponent generatywny skada si z procesu przyrostowego (np. Automatu), natomiast komponent oceniajcy musi by w stanie przypisa wynik danej decyzji lokalnej i poczy te wyniki w oceny globalne, oceniajc pen sekwencj przej. .Czasami ten typ modelu jest nazywany generatywnym, poniewa obejmuje zaoenia niezalenoci, takie jak modele prawdziwie generatywne - modelujce wspólne prawdopodobiestwo - ale na lokalnych decyzjach , a nie na decyzjach globalnych. Podejcie lokalne ma t zalet, e faworyzuje rozwaanie cech charakterystycznych przydatnych do ujednoznaczniania, gównego problemu prawdziwych modeli generatywnych. Ta kategoria modeli umoliwia uzyskanie analizatorów znacznie szybciej ni te oparte na modelach generatywnych (np. Rzdu 35x).
Ta klasa modeli zazwyczaj definiuje funkcj oceny jako iloczyn wektora cech (cech) i wektora wag :
gdzie kada reprezentuje cech i , a kada okrela ilociowo znaczenie cechy dla optymalnej analizy. Jeli ta waga jest ujemna, charakterystyka suy do analizy, podczas gdy w przeciwnym razie cecha pozytywnie wpywa na optymaln analiz. Charakter cech
nie jest ograniczony; jedynym ograniczeniem jest moliwo ich kodowania w postaci cyfrowej. Mona na przykad wykorzysta punktacj dostarczon przez inny analizator jako cech lub uwzgldni obecno / brak podstruktury.Dlatego prawdziwie rozróniajcy model definiuje unikalny wynik ogólnej struktury analizy. Zalet jest moliwo obserwowania globalnych waciwoci struktur skadniowych oraz uwzgldniania (dodawania) nowych ogranicze bez zmiany wyprowadzenia modelu. W przypadku tej klasy komponent generatywny jest do zmienny w rónych systemach, podczas gdy komponent oceny jest ustalany przez liniow kombinacj waonych charakterystyk, nie ograniczonych przez aden proces, i których wagi s ustalane przez rozróniajcy model uczenia si.
Wad tego typu modelu jest konieczno ponownej analizy zestawu uczcego w kadej iteracji, co w naturalny sposób wymaga duej iloci zasobów. Niektóre podejcia, znane jako reranking , byy zadowolone z uywania tego rodzaju modelu tylko dla podzbioru samego siebie uzyskanego za pomoc modelu generatywnego. Jednak najlepsza analiza niekoniecznie znajduje si w tym drugim podzbiorze, co sprawia, e nie jest to idealna technika. Niemniej jednak problemy z wydajnoci s mniej widoczne w analizie zalenoci ni w przypadku skadników i s czsto uywane w pierwszym przypadku, gdy dokadne wnioskowanie jest moliwe nawet w okrelonych warunkach (patrz sekcja
Metody oparte na wykresach ).Obecnie najpopularniejsz reprezentacj struktur skadniowych jest ta w zalenociach , ze wzgldu na dobry kompromis midzy wyrazistoci / wydajnoci oferowanych algorytmów, a wydajnoci uzyskiwan dla szerokiej gamy jzyków. W przypadku tej reprezentacji bardzo czsto stosowane s lokalnie dyskryminujce lub dyskryminujce modele probabilistyczne, w przeciwiestwie do reprezentacji w skadnikach , dla których modele generatywne s bardziej konkurencyjne. Warto jednak zauway, e niektóre najnowsze systemy (na przykad ) , szczególnie wydajne, opieraj si na skadaniu modeli rónych typów (technika montau lub kombinacja systemów ).
Zdecydowan wikszo modeli analizy zalenoci statystycznych mona podzieli na dwie rodziny:
W pierwszym przypadku strategia polega na znalezieniu najlepszego rozwizania lokalnego ( chciwo ), w drugim przypadku rozumowanie przybiera pozór wyczerpujcego poszukiwania . Ponadto pierwsza metoda jest czasami nazywana analizowaniem z redukcj przesunicia i nosi nazw algorytmu
analizowania uywanego w wielu implementacjach. Jest to bardzo popularna metoda ze wzgldu na doskona wydajno: zoono typowego algorytmu parsowania jest liniowa (w stosunku do liczby sów w zdaniu wejciowym). Jeli chodzi o drug metod, czasami znajduje si j pod nazw maksymalnego parsowania drzewa rozpinajcego ( MST ), co odpowiada nazwie algorytmu uywanego przez system, który wprowadzi t technik. W 2015 roku Jinho Choi i wsp. szczegóowo przeanalizowa wydajno dziesiciu analizatorów zalenoci konkurencyjnych i wykorzysta róne metryki.Modele oparte na przejciach s lokalnie dyskryminujcymi modelami z dyskryminacyjnym uczeniem si, w tym sensie, e tylko oszacowanie kocowej analizy jest wyodrbniane z rozkadu probabilistycznego, na przykad przy uyciu powierzchni decyzyjnej. W przeciwiestwie do modeli warunkowych, w których caa gsto
prawdopodobiestwa warunkowego byaby zoptymalizowana. Przyjmujc funkcj oceny, która przypisuje punktacj moliwym przejciom wedug wzorca, reprezentowanego przez wektor , a take sposób oceny penej sekwencji przej, analiza sprowadza si do znalezienia sekwencji o najwyszym wyniku. W zwizku z tym wikszo systemów implementuje wyszukiwanie wizki.Bardzo popularn metod analizy struktur zalenoci jest wykorzystanie klasyfikatora (trenowanego na korpusie) w celu przewidzenia nastpnej akcji wykonywanej przez deterministyczny algorytm analizy. Podejcie to jest czasami nazywane pseudo-deterministycznym w odniesieniu do deterministycznych algorytmów analizy stosowanych w gramatykach jednoznacznych ( jzyki formalne ). W omawianym przypadku przestrze poszukiwa jest z natury rzeczy ograniczona metod algorytmu, poniewa jedno wybrane dziaanie pociga za sob porzucenie wszystkich innych; z powodu tego zachannego podejcia przycinanie jest zatem bardzo agresywne. Ta sia jest równie wad, poniewa wczesny zy wybór moe negatywnie wpyn na ostateczn analiz.
System analizy oparty na klasyfikatorach skada si z trzech podstawowych skadników:
Podejcie to zostao zapocztkowane przez T. Kudo i Y. Matsumoto, którzy zaproponowali implementacj sprzon z klasyfikatorem typu maszyny wektorów nonych do analizy nieoznakowanych zalenoci jzyka japoskiego. Korzystajc z algorytmu Joakima Nivre'a, pomys zosta nastpnie iteracyjnie rozszerzony na zalenoci oznaczone jako szwedzki, nastpnie angielski, a nastpnie 19 jzyków, zanim zosta zoptymalizowany w celu utworzenia oprogramowania MaltParser . Pierwsze algorytmy ograniczaj si do struktur rzutowych , ale midzy innymi G. Attardi zaproponowa algorytm rozszerzony na podzbiór struktur nie projekcyjnych. W zwizku z tym J. Nivre oferuje wersj online zmiany kolejnoci swojego systemu przej, podczas gdy inne podejcia obejmuj dekompozycj na (pod) drzewa zalenoci planarnych i analiz kadego planu oddzielnie ( parsowanie mltiplanar ). Inne rozwizanie polega na przetwarzaniu danych przed / po (tzw. Pseudo-projektowaniu ).
Gówne problemy tego paradygmatu to wraliwo na bdy wyszukiwania i propagacja bdów w wyniku procesu przyrostowego jeden do jednego. Próbujc poprawi dokadno, zachowujc jednoczenie bardzo wydajn analiz, pojawio si kilka technik. Niektórzy zagodzili cile deterministyczny proces - utrzymywanie najlepszych analiz K ( wyszukiwanie wizki ) - czasami kojarzony ze szkoleniem jako ustrukturyzowan prognoz, podczas gdy inni porzucili czysto sekwencyjn analiz od lewej do prawej (
atwe pierwsze analizowanie ), poniewa wizka wyszukiwanie znacznie spowalnia parsowanie. W tym samym celu J. Nivre eksperymentowa z uyciem dynamicznej wyroczni - zarówno niedeterministycznej, jak i kompletnej (w przeciwiestwie do zwykych statycznych wyroczni) - w swoim systemie przej dnych uku . Jednak te wyrocznie powoduj wielk zoono, gdy s uywane z ogólnymi systemami (nie ograniczajc si do struktur projekcyjnych) i nie zawsze jest moliwe ich wyprowadzenie. Z tego powodu M. Straka i in. wprowadzili now klas wyroczni zwanych wyroczniami opartymi na wyszukiwaniu , która jest przyblieniem dynamicznych wyroczni.W praktyce modele probabilistyczne s definiowane dla kadego dziaania algorytmu analizy, zgodnie z jego aktualnym kontekstem; jednak modele oparte na historii dziaa (lub przej) musz radzi sobie z nieograniczon iloci informacji, co uniemoliwia modelowanie probabilistyczne. Ten problem zazwyczaj rozwizuje si, ograniczajc histori do skoczonego zestawu cech. W tym miejscu najwiksza trudno polega na wyborze reprezentacji tej historii, czyli jej przegldzie, na podstawie którego mona waciwie oszacowa prawdopodobiestwo kolejnego dziaania. Poniewa prawdopodobiestwo to jest niezalene od jakichkolwiek informacji o historii, które nie s zawarte w jego przegldzie, na jako analizy mog mie duy wpyw wybrane cechy.
Badania w zakresie analizy statystycznej rozpoczto w poowie lat 90. i przez wiele lat skupiay si gównie na modelach liniowych. W takich modelach punktacja przypisana analizie jest obliczana na podstawie kombinacji cech strukturalnych lub cech morfologicznych - których reprezentacja jest naturalnie rzadka - zwizanych z dan struktur. Wymaga to jednak rcznego wyboru, prawdopodobnie mudnego, kombinacji cech, które maj by uwzgldnione w ocenie, przed uyciem algorytmu uczcego si. Dlatego dostosowanie tych modeli do nowych jzyków lub nowych dziedzin jest trudne i kosztowne; ponadto zapomnienie o wanej charakterystyce moe mie bardzo negatywny wpyw na precyzj (problem niekompletnoci). Ponadto analizatorzy spdzaj wikszo czasu na wyodrbnianiu cech, a nie samej analizie. Wszystkie te powody zmotywoway rozwój modeli nieliniowych , zdolnych do automatycznego wywoywania odpowiedniej kombinacji cech predykcyjnych; w takich przypadkach sztuczna sie neuronowa zajmuje drugie miejsce lub w wikszoci zastpuje klasyfikator liniowy . W przypadku wikszoci modeli konieczne jest jednak zapewnienie im niewielkiej liczby (ok. 1020) prostych charakterystyk dynamicznych (tj. Nieskadanych). Podejcie to zostao zapocztkowane przez Jamesa Hendersona na pocztku XXI wieku, a nastpnie pogbione w 2007 r. Za pomoc analizatora opartego na czysto generatywnym modelu probabilistycznym i wyposaonego w ISBN ( przyrostowa sigmoidalna sie przekona ) do wyodrbniania charakterystyk, bardzo zblionych do `` dynamicznego modelu
bayesowskiego ''. sie . Zalet tej techniki jest uzyskanie gstej reprezentacji sów (tj. Osadzanie sów ), znaczników morfosyntaktycznych i innych cech jzykowych; ta ostatnia reprezentacja (o mniejszym wymiarze) przenosi na przykad pojcie podobiestwa midzy sowami w cigej przestrzeni wymiarowej lub nawet ca histori analizy, gdy sie jest powtarzalna. Krótko mówic, gste reprezentacje korzystaj z duej zdolnoci do generalizacji.Modele dynamicznych (niezalenych) charakterystyk, o których mowa w poprzednim akapicie, wybieraj elementy jzykowe (sowa, etykiety zalenoci itp.), Których wektory reprezentacji ( osadzenia ) s czsto czone na wejciu sieci neuronowej. Jeli liczba funkcji moe si zmienia, potrzebny jest jaki sposób na utrzymanie wektorów o staym rozmiarze, poniewa dane wejciowe do sieci maj stay rozmiar. Mona na przykad przeprowadzi urednienie wektorów (reprezentacja przez cigy zbiór sów lub CBOW).
Obecnie ekstrakcji funkcja jest wykonywana z sieci o rónej zoonoci, w której skad LSTM jednostek na przykad (uoone sieci LSTM dwukierunkowy LSTM, etc.), ISBN lub za pomoc sieci, bez nawrotów., Podobnie jak w pierwszej warstwy wielo warstwowy perceptron . Niektóre podejcia (zwane opartymi na znakach ) ucz si nawet przedstawia sowa z pojedynczych znaków, na przykad SyntaxNet ( druga wersja) i LSTM-Parser.
Jeli chodzi o sam klasyfikator, to czsto jest to ustrukturyzowany perceptron, taki jak proponowany przez Google system SyntaxNet ( Parsey's Cousins ), którego poprawiony system ( ParseySaurus ) jest obecnie jednym z najbardziej precyzyjnych. Te ostatnie systemy s pocztkowo opiera si na Stanford Parser opracowany przez Danqi Chen i Christophera Manninga w 2014 roku, ale integrowa gboki sieci neuronowej (i róne funkcje aktywacji) szkolenia zorganizowanego, nie wspominajc o model probabilistyczny z globalnej normalizacji. Lub z samo- normalizacja. Jednak najnowoczeniejsze systemy, takie jak LSTM-Parser lub DINN, niekoniecznie musz ucieka si do gbokiej sieci i na przykad wykorzystuj warstw softmax jako klasyfikator (przewidywanie elementarnych dziaa analizy).
Modele analityczne oparte na wykresach s modelami dyskryminujcymi (patrz sekcja modele analizy statystycznej ). Zalet struktur w zalenociach w porównaniu do struktur w skadnikach jest dostosowanie tego typu podejcia do dokadnego wnioskowania. Rzeczywicie, szeroko rozpowszechnione podejcie, pocztkowo zaproponowane przez Ryana McDonalda i wsp. polega na znalezieniu drzewa opinajcego o maksymalnej wadze na penym wykresie . Zauwa, e w tych warunkach komponent nie jest modelowany przez system autonomiczny, ale przez waciwo
teorii grafów . Jednak dokadne wnioskowanie zakada ograniczenie zakresu cech do podgrafów; w zwizku z tym opracowano inne techniki aproksymacyjne. W porównaniu z modelami opartymi na przejciach zalet tego typu modelu jest obserwacja - w teorii - waciwoci caej struktury globalnej i / lub nieograniczonego zdania wejciowego, podczas gdy waciwoci s ograniczone do strukturalnego kontekstu lokalnego z pierwsz kategori .W praktyce tylko modele traktujce punktacj kadego uku z osobna - nazywane 1. rzdu lub podzielone na czynniki uku - s rozwizywane w sposób dokadny w rozsdnym czasie, poniewa najmniejszy wzrost tych modeli generuje problem NP-trudny . To zakada, e kada relacja zalenoci jest niezalena od pozostaych, co jest dalekie od prawdy z jzykowego punktu widzenia. Jednak niektóre systemy 1 st rzdu s bardzo konkurencyjne pod wzgldem dokadnoci, tak po prostu T. i C. Manning Dozat mechanizm oparty opieki gboko biaffine . Zdecydowana wikszo systemów pierwszego rzdu opiera si albo na algorytmie Eisnera, albo na chciwym algorytmie Chu-Liu-Edmondsa (CLE). Pierwszy to algorytm programowania dynamicznego wywodzcy si z CKY, który w zwizku z tym znajduje tylko struktury rzutowe, podczas gdy drugi znajduje drzewo rozpinajce o maksymalnej masie i dlatego jest równie zdolny do zwrócenia nieprzewidywalnego drzewa zalenoci.
Aby przewidzie popraw wydajnoci przy zachowaniu algorytmu wielomianowego czasu, niektóre podejcia rozszerzyy wykres algorytmu Eisnera, dodajc czynnik kwadratowy do zoonoci z kadym wzrostem w kolejnoci modelu. Badania w tym kierunku s mniej wicej zgodne z modelami czwartego rzdu (zoono czasowa ). Nowsze strategie - i odpowiednio 200x i 5x szybciej ni dokadny model trzeciego
rzdu - baday przycinanie przestrzeni poszukiwa za pomoc algorytmu Vine parse ( ) lub utrzymywanie zbioru alternatyw zintegrowanych z algorytmem Eisnera (duch przycinanie kostka ), midzy innymi. Te przyblione pozwalaj znacznie obniy koszty analizy, przy jednoczesnym zachowaniu dokadnoci przy dokadnych modeli 3 rd lub 4 th zamówienia!Jeli chodzi o modele wyszego rzdu zdolne do tworzenia wszelkiego rodzaju drzew zalenoci (w tym drzew nie projekcyjnych), z koniecznoci przechodz one przez przyblienie, albo przez dekodowanie, albo przez przestrze poszukiwa. Pierwsza opcja obejmuje systemy uwzgldniajce przetwarzanie kocowe na kocu algorytmu Eisnera lub CLE, który odpowiednio przestawia uki lub czy najlepsze drzewa rozpinajce. Inne opieraj si na zasadzie podwójnego rozkadu, cigej relaksacji itp. Druga kategoria obejmuje procesy uwzgldniajce tylko niewielk cz zbioru drzew zalenoci nie projekcyjnych, poniewa niektóre struktury s jzykowo nieprawdopodobne i próba ich wytworzenia jest cakowicie bezuyteczna (te ostatnie nazywane s strukturami agodnie nieprojektywnymi ) . Podjto jednak mniej udane eksperymenty z integeryczn optymalizacj liniow (ILP).
Wszystkie te systemy wykorzystuj algorytm uczenia si, taki jak strukturalny perceptron, MIRA (rozszerzenie tego ostatniego), klasyfikator maksymalnej entropii (MaxEnt) itp. Wikszo systemów omówionych w tej sekcji wybiera charakterystyk kadego podgrafu (np. uku) przy uyciu wczeniej ustalonych modeli (rzadka reprezentacja). Jednak niektóre najnowsze techniki wykorzystuj sie neuronow do wyodrbniania cech: propagacja w przód lub rekurencja ; ponadto wynik nie jest ju obliczany liniowo, ale w szczególnoci przez wielowarstwowy perceptron , czasami zwizany z transformacj dwuliniow.
Oto przegld czasowej zoonoci algorytmów analizowania struktur zalenoci. Odróniamy te, które mog wytwarza tylko struktury rzutowe od ogólnych algorytmów, ale bierzemy pod uwag tylko dokadne wersje (z wyczeniem przyblie).
Proj. | Non-proj. | |
---|---|---|
Analiza oparta na przejciach |
w praktyce |
|
Analiza w oparciu o wykresy - 1. rzdu | ||
Analiza oparta na wykresach - n - ty rzd (n> 1) | FP ... | Kompletny FNP |
Kady system analizowania musi zosta oceniony, aby zmierzy jego wydajno. Osiga si to poprzez wykonanie procedury analizy na zbiorze danych testowych, innym ni zbiór uczcy (jeli istnieje) i ogólnie znacznie mniejszym. Struktury utworzone przez parser zostan porównane ze strukturami referencyjnymi ( parsami zotego standardu ), uwaanymi za najlepsze analizy - które s opatrzone adnotacjami przez lingwistów. Zwykle stosowane miary to precyzja i przypominanie , czsto poczone w jeden wynik zwany wynikiem F , odpowiadajcy redniej harmonicznej precyzji ( ) i przypominania ( ):
Najprostsz metod jest policzenie liczby zda, dla których utworzona struktura jest identyczna ze struktur odniesienia ( dopasowanie cise ). Jest to niezwykle trudny test w tym sensie, e pojedynczy bd w etykiecie ma taki sam wpyw, jak cakowicie bdna analiza; dlatego raczej preferowane s metryki oparte na czciowym dopasowaniu, którego szczegóowo jest dokadniejsza.
Powszechnie stosowanymi pomiarami s pomiary zwizane z metrykami PARSEVAL, zliczajce liczb skadników, które odpowiadaj tym obecnym w strukturze odniesienia.
W odniesieniu do struktur zalenoci, powszechnie stosowan miar jest ocena przywizania , która okrela odsetek sów poprawnie powizanych z waciwym rodzicem w porównaniu z odniesieniem. Istnieje kilka odmian:
Poniewa kada jednostka leksykalna ma dokadnie jednego rodzica, do okrelenia dokadnoci wystarczy tylko jedna miara. Na poziomie korpusu wynik globalny mona obliczy w skali sowa ( mikrorednia ), czyli bez uwzgldnienia zdania, do którego sowo naley, lub w skali zdania ( rednia makro ) , biorc redni z wyników kadego z nich.
Mamy nadzieję, że informacje, które zgromadziliśmy na temat Analiza jzyka naturalnego, były dla Ciebie przydatne. Jeśli tak, nie zapomnij polecić nas swoim przyjaciołom i rodzinie oraz pamiętaj, że zawsze możesz się z nami skontaktować, jeśli będziesz nas potrzebować. Jeśli mimo naszych starań uznasz, że informacje podane na temat _title nie są całkowicie poprawne lub że powinniśmy coś dodać lub poprawić, będziemy wdzięczni za poinformowanie nas o tym. Dostarczanie najlepszych i najbardziej wyczerpujących informacji na temat Analiza jzyka naturalnego i każdego innego tematu jest istotą tej strony internetowej; kierujemy się tym samym duchem, który inspirował twórców Encyclopedia Project, i z tego powodu mamy nadzieję, że to, co znalazłeś o Analiza jzyka naturalnego na tej stronie pomogło Ci poszerzyć swoją wiedzę.